说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688679.2 (22)申请日 2022.06.17 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 弓源 李长亮  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 金鹏 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/191(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 简历内容提取方法及装置 (57)摘要 本申请提供简历内容提取方法及装置, 其 中, 所述简历内容提取方法包括: 获取待识别的 简历文档; 对所述简历文档进行语义识别, 将所 述简历文档中语义存在关联的多行文本拼接为 一行, 得到拼接后的文档; 从所述拼接后的文档 中识别关键字段, 根据所述关键字段, 从所述简 历文档中提取目标简历内容。 本方案可以提高简 历内容提取的准确度。 权利要求书2页 说明书15页 附图7页 CN 114997167 A 2022.09.02 CN 114997167 A 1.一种简 历内容提取方法, 其特 征在于, 包括: 获取待识别的简 历文档; 对所述简历文档进行语义识别, 将所述简历文档中语义存在 关联的多行文本拼接为一 行, 得到拼接后的文档; 从所述拼接后的文档中识别关键字段, 根据所述关键字段, 从所述简历文档 中提取目 标简历内容。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述简历文档进行语义识别, 将所 述简历文档中语义存在关联的多行文本拼接为 一行, 得到拼接后的文档, 包括: 利用预先训练得到的文本拼接模型, 将所述简历文档中语义存在 关联的多行文本拼接 为一行, 得到拼接后的文档, 其中, 所述文本拼接模型为利用简历样本文档训练得到, 所述 简历样本文档包括对原始文本进 行随机切割换行的多 行切割文本, 属于同一行原始文本的 多行切割文本具有表征语义存在关联的标签。 3.根据权利要求1所述的方法, 其特征在于, 所述从所述拼接后的文档中识别关键字 段, 根据所述关键 字段, 从所述简 历文档中提取目标简 历内容, 包括: 从所述拼接后的文档中识别关键字段, 根据所述关键字段, 确定所述简历文档的版式 信息; 根据所述版式信息, 将所述简 历文档划分为多个文本 子块; 分别从各文本 子块中提取关键 字段数据, 根据所述关键 字段数据, 获得目标简 历内容。 4.根据权利要求3所述的方法, 其特征在于, 所述分别从各文本子块中提取关键字段数 据, 包括: 利用与所述关键字段的字段类型对应的目标提取方式, 分别从各文本子块中提取关键 字段数据。 5.根据权利要求4所述的方法, 其特征在于, 所述字段类型包括: 第一字段类型, 和/或 者第二字段类型; 所述利用与 所述关键字段的字段类型对应的目标提取方式, 分别从各文本子块中提取 关键字段数据, 包括: 利用命名实体识别NER模型或者与所述第一字段类型对应的表述规则, 分别从各文本 子块中提取关键 字段数据; 利用命名实体识别NER模型, 分别从各文本子块中提取候选关键字段数据, 利用与所述 第二字段类型对应的表述规则, 从各文本子块中提取补正数据, 并利用所述补正数据对相 应的候选关键 字段数据进行补正, 获得关键 字段数据。 6.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述目标简历内容为描述经 历的内容; 在所述对所述简历文档进行语义识别, 将所述简历文档中语义存在 关联的多行目标文 本拼接为 一行, 得到拼接后的文档之前, 所述方法还 包括: 利用预设的文档字符提取工具, 从所述简历文档 中提取简历文本, 并对所述简历文本 进行分块, 获得包括描述经历的目标文本块; 所述对所述简历文档进行语义识别, 将所述简历文档中语义存在 关联的多行目标文本 拼接为一行, 得到拼接后的文档, 包括:权 利 要 求 书 1/2 页 2 CN 114997167 A 2对所述简历文档中的所述目标文本块进行语义识别, 将所述目标文本块中语义存在关 联的多行目标文本拼接为 一行, 得到拼接后的文档。 7.根据权利要求6所述的方法, 其特征在于, 在所述对所述简历文本进行分块之后, 所 述方法还 包括: 若未获得所述目标文本块, 则从所述简历文本的各分块中识别所述关键字段, 并执行 所述根据所述关键 字段, 从所述简 历文档中提取目标简 历内容。 8.根据权利要求1至5 中任一项所述的方法, 其特征在于, 所述根据 所述关键字段, 从所 述简历文档中提取目标简 历内容, 包括: 确定各关键 字段之间的相似度; 从所述各关键 字段中, 确定相似度达 到相似条件的目标关键 字段; 对所述目标关键字段进行去重, 以及对所述各关键字段中除所述目标关键字段以外的 关键字段进行融合, 获得 所述目标简 历内容。 9.一种简 历内容提取装置, 其特 征在于, 包括: 文档获取模块, 被 配置为获取待识别的简 历文档; 文本拼接模块, 被配置为对所述简历文档进行语义识别, 将所述简历文档 中语义存在 关联的多行文本拼接为 一行, 得到拼接后的文档; 内容提取模块, 被配置为从所述拼接后的文档中识别关键字段, 根据 所述关键字段, 从 所述简历文档中提取目标简 历内容。 10.一种计算设备, 其特 征在于, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指令 实现权利要求1至8任意 一项所述简 历内容提取方法的步骤。 11.一种计算机可读存储介质, 其存储有计算机指令, 其特征在于, 该指令被处理器执 行时实现权利要求1至8任意 一项所述简 历内容提取方法的步骤。权 利 要 求 书 2/2 页 3 CN 114997167 A 3

.PDF文档 专利 简历内容提取方法及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 简历内容提取方法及装置 第 1 页 专利 简历内容提取方法及装置 第 2 页 专利 简历内容提取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。