说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210719414.4 (22)申请日 2022.06.23 (71)申请人 南京燧坤智能科技有限公司 地址 210046 江苏省南京市栖霞区仙林街 道仙林大学城纬地路9号F7楼3层317- 321室 (72)发明人 于翠楠 王飞  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 董文倩 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) (54)发明名称 实体词语的识别方法、 装置、 存储介质及电 子设备 (57)摘要 本发明公开了一种实体词语的识别方法、 装 置、 存储介质及电子设备。 其中, 该方法包括: 获 取待识别语句; 对待识别语句进行语义分割处 理, 得到所述待识别语句中多个候选实体词语分 别对应的基础释义; 基于待识别语句所在目标文 档的文档信息, 确定得到多个候选实体词语分别 对应的第一补充释义集合; 基于预先确定的词典 库和网络知识库, 确定得到多个候选实体词语分 别对应的第二补充释义集合; 根据多个候选实体 词语分别对应的基础释义、 第一补充释义集合和 第二补充释义集合, 从多个候选实体词语中选取 出目标实体词语。 本发明解决了相关技术中仅依 靠语句的语义信息进行实体词语识别的方法存 在的实体词语获取不 准确的技 术问题。 权利要求书2页 说明书11页 附图4页 CN 115130476 A 2022.09.30 CN 115130476 A 1.一种实体词语的识别方法, 其特 征在于, 包括: 获取待识别语句; 对所述待识别语句进行语义分割处理, 得到所述待识别语句中多个候选实体词语分别 对应的基础释义; 基于所述待识别语句所在目标文档的文档信 息, 确定得到所述多个候选实体词语分别 对应的第一补充释义 集合; 基于预先确定的词典库和网络知识库, 确定得到所述多个候选实体词语分别对应的第 二补充释义 集合; 根据所述多个候选实体词语分别对应的所述基础释义、 所述第 一补充释义集合和所述 第二补充释义 集合, 从所述多个候选实体词语中选取 出目标实体词语。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述待识别语句所在目标文档的 文档信息, 确定得到所述多个候选实体词语分别对应的第一补充释义 集合, 包括: 获取所述目标文档中的文档内容简介信 息, 其中, 所述文档内容简介信息至少包括: 文 档标题信息、 文档关键词信息以及文档 摘要信息; 采用文本语义编码模型对所述文档内容简介信 息进行语义分割处理, 得到所述目标文 档对应的主旨概 括信息; 将所述主旨概 括信息作为所述第一补充释义 集合。 3.根据权利要求2所述的方法, 其特征在于, 获取所述文档内容简介信 息中的所述文档 关键词信息, 包括: 获取所述目标文档中的文档正文内容信息; 采用词频 ‑逆文档频次算法对所述文档正文内容信息中的所有词语进行评分; 根据评分结果确定得到所述目标文档对应的所述文档关键词信息 。 4.根据权利要求2所述的方法, 其特征在于, 在确定所述多个候选实体词语中存在指示 代词的情况 下, 所述方法还 包括: 获取所述目标文档中第 一目标位置对应的第 一连续语句, 以及目标文档中第 二目标位 置对应的第二连续语句; 采用所述文本语义编码模型对所述第一连续语句和所述第二连续语句进行语义分割 处理, 得到第一综合语义信息; 将所述第一综合语义信息纳入至所述第一补充释义 集合。 5.根据权利要求2所述的方法, 其特征在于, 在确定所述多个候选实体词语中存在缩略 词的情况 下, 所述方法还 包括: 获取所述目标文档中包括所述缩略词的目标语句; 采用所述文本语义编码模型对所述目标语句进行语义分割处理, 得到第 二综合语义信 息; 将所述第二综合语义信息纳入至所述第一补充释义 集合。 6.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 获取所述待识别语句的属性信息; 根据所述待识别语句的属性信息确定得到所述待识别语句对应的目标格式的子标题; 将所述目标格式的子标题纳入至所述第一补充释义 集合。权 利 要 求 书 1/2 页 2 CN 115130476 A 27.根据权利要求1所述的方法, 其特征在于, 所述基于预先确定的词典库和网络知识 库, 确定得到所述多个候选实体词语分别对应的第二补充释义 集合, 包括: 判断所述 候选实体词语是否存 储于所述词典库中; 若所述候选实体词语存储于所述词典库中, 则获取所述词典库中与 所述候选实体词语 对应的第一释义; 判断所述 候选实体词语是否存 储于所述网络知识库中; 若所述候选实体词语存储于所述网络知识库中, 则获取所述网络知识库中与 所述候选 实体词语对应的第二释义; 将所述第一释义和所述第二释义作为所述第二补充释义 集合。 8.根据权利要求1至7中任一项所述的方法, 其特征在于, 所述根据所述多个候选实体 词语分别对应的所述基础释义、 所述第一补充释义集合和所述第二补充释义集合, 从所述 多个候选实体词语中选取 出目标实体词语, 包括: 采用文本分类模型对所述多个候选实体词语分别对应的所述基础释义、 所述第 一补充 释义集合和所述第二补充释义集合进 行分类整合处理, 得到所述多个候选实体词语分别对 应的最终释义; 根据所述多个候选实体词语分别对应的最终释义, 从所述多个候选实体词语中选取出 所述目标实体词语。 9.一种实体词语的识别装置, 其特 征在于, 包括: 第一获取模块, 用于获取待识别语句; 第二获取模块, 用于对所述待识别语句进行语义分割处理, 得到所述待识别语句中多 个候选实体词语分别对应的基础释义; 第一确定模块, 用于基于所述待识别语句所在目标文档的文档信息, 确定得到所述多 个候选实体词语分别对应的第一补充释义 集合; 第二确定模块, 用于基于预先确定的词典库和网络知识库, 确定得到所述多个候选实 体词语分别对应的第二补充释义 集合; 选取模块, 用于根据所述多个候选实体词语分别对应的所述基础释义、 所述第一补充 释义集合和所述第二补充释义 集合, 从所述多个候选实体词语中选取 出目标实体词语。 10.一种非易失性存储介质, 其特征在于, 所述非易失性存储介质存储有多条指令, 所 述指令适于由处 理器加载并执 行权利要求1至8中任意 一项所述的实体词语的识别方法。 11.一种电子设备, 其特征在于, 包括一个或多个处理器和存储器, 所述存储器用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所 述一个或多个处 理器实现权利要求1至8中任意 一项所述的实体词语的识别方法。权 利 要 求 书 2/2 页 3 CN 115130476 A 3

.PDF文档 专利 实体词语的识别方法、装置、存储介质及电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体词语的识别方法、装置、存储介质及电子设备 第 1 页 专利 实体词语的识别方法、装置、存储介质及电子设备 第 2 页 专利 实体词语的识别方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。