说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210831336.7 (22)申请日 2022.07.14 (71)申请人 浙江大华 技术股份有限公司 地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人 操涛涛 刘伟棠 陈立力  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 张恺宁 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种识别实体的方法、 装置及电子设备 (57)摘要 本申请公开了一种识别实体的方法、 装置及 电子设备, 用以提升在文本中识别实体及实体含 义的准确率。 该方法包括: 通过实体识别模型确 定指示待识别文本的待识别向量; 其中, 所述实 体识别模型包括所述待识别词组与所述待识别 元素之间的对应 关系, 所述待识别词组中目标词 组与实体 之间的对应关系, 以及实体与实体含义 之间的对应关系; 在所述待识别向量中, 基于任 一待识别元素与其它待识别元素之间的关系, 在 所述待识别元素中确定目标元素和所述目标元 素所对应的目标含义; 其中, 所述目标元素为对 应于所述目标词组的待识别元素; 确定所述目标 元素指示的所述目标词组为实体, 及所述目标含 义为实体含义。 权利要求书3页 说明书13页 附图4页 CN 115270793 A 2022.11.01 CN 115270793 A 1.一种识别实体的方法, 其特 征在于, 包括: 通过实体识别模型确定指示待识别文本的待识别向量; 其中, 所述待识别向量包括待 识别元素, 所述待识别元素对应于所述待识别文本中的待识别词组; 所述实体识别模型包 括所述待识别词组与所述待识别元素之 间的对应关系, 所述待识别词组中目标词组与实体 之间的对应关系, 以及所述实体与实体含义之间的对应关系; 在所述待识别向量中, 基于任一待识别元素与其它待识别元素之间的关系, 在所述待 识别元素中确定目标元素和所述 目标元素所对应的目标含义; 其中, 所述 目标元素为对应 于所述目标词组的待识别元素, 所述目标含义指示所述目标词组在所述待识别文本中的含 义; 确定所述目标 元素指示的所述目标词组为实体, 及所述目标含义 为实体含义。 2.如权利要求1所述的方法, 其特 征在于, 所述实体识别模型包括BERT模型, 则所述通过实体识别模型确定指示待识别文本的待识别向量, 包括: 通过所述BERT模型, 针对所述待识别文本进行划分, 确定所述待识别文本中的词组, 以 及对应于所述词组的词组向量和词性向量; 其中, 所述词组向量包括, 指示所述词组的词组 元素; 所述词组元素 的顺序与所述词组在所述待识别文本中的顺序一致; 所述词性向量包 括, 指示所述词组词性的词性元 素; 所述词性元 素的顺序与所述词组元 素的顺序一 致; 将所述词组向量和所述词性向量拼接, 得到待识别向量; 其中, 所述待识别向量中的待 识别元素指示, 所述词组元 素和对应于所述词组元 素的所述词性元 素。 3.如权利要求2所述的方法, 其特征在于, 所述在所述待识别向量中, 基于任一待识别 元素与其它所述待识别元素之 间的关系, 在所述待识别元素中确定目标元素和所述目标元 素所对应的目标含义, 包括: 基于所述其它 待识别元素所指示的词组元素和词性元素, 以及所述其它 待识别元素与 所述任一待识别元素之间的位置关系, 在所述待识别元素中确定所述 目标元素, 以及所述 目标元素的候选含义; 将所述候选含义的数量以及所述待识别元素的数量导入分类器函数, 确定每一所述候 选含义的候选概 率; 确定所述 候选概率的值最大的所述 候选含义 为所述目标含义。 4.如权利要求3所述的方法, 其特 征在于, 所述实体识别模型包括Bi LSTM模型, 则所述基于所述其它 待识别元素所指示的词组元素和词性元素, 以及所述其它待识别 元素与所述任一待识别元素之间的位置关系, 在所述待识别元素中确定所述 目标元素, 以 及所述目标 元素的候选含义, 包括: 将所述待识别向量 正向输入所述Bi LSTM模型中的前向LSTM模型, 得到第一中间向量; 将所述待识别向量反向输入所述Bi LSTM模型中的后向LSTM模型, 得到第二中间向量; 将所述第一中间向量和第二中间向量融合, 得到第三中间向量; 在第三中间向量中, 基于任一中间元素的前向参考元素和后向参考元素, 确定对应于 所述目标元素的中间目标元素, 以及所述中间目标元素的候选含义; 其中, 所述前向参考元 素为, 在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元 素; 所述后向参考元素为, 在所述第三中间向量中位于所述任一中间元素之后影响所述任 一中间元 素含义的元 素。权 利 要 求 书 1/3 页 2 CN 115270793 A 25.如权利要求1 ‑4任一项所述的方法, 其特征在于, 所述实体识别 模型通过如下方式训 练得到: 基于分词模型处理测试文本, 得到与所述测试文本对应的训练文本; 其中, 所述测试文 本包括至少一个对应于所述实体的实体词组, 所述分词模型包括词义语料库, 所述训练文 本包括所述测试文本中的预设词组、 所述预设词组的预设词性、 以及所述预设词组中对应 于所述实体词组的预设实体含义; 将所述训练文本输入所述待训练模型, 得到训练词组向量、 训练词性向量, 训练向量、 训练实体元素 的含义; 其中, 所述训练词组向量包括对应于所述训练文本中训练词组的训 练词组元素, 所述训练词性向量包括, 指示所述训练词组词性的训练词性元素; 所述训练向 量包括, 指示所述训练词组元素和所述训练词性元素 的训练元素; 所述训练实体元素 的含 义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义, 所述训练实体元素 指示所述实体词组; 确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第 一误差, 所述 训练词性向量与对应于所述预设词性的预设词性向量之 间的第二误差, 所述训练向量与预 设向量之间的第三 误差, 所述训练实体元 素的含义与所述预设实体含义之间的第四误差; 基于所述第一误差, 所述第二误差, 所述第三误差, 和所述第 四误差, 调整所述待训练 模型的参数, 直到所述第一误差、 第二误差、 第三误差、 和 第四误差均低于误差阈值, 得到所 述实体识别模型。 6.一种识别实体的装置, 其特 征在于, 包括: 向量单元: 用于通过实体识别模型确定指示待识别文本的待识别向量; 其中, 所述待识 别向量包括待识别元素, 所述待识别元素对应于所述待识别文本中的待识别词组; 所述实 体识别模型包括所述待识别词组与所述待识别元素之 间的对应关系, 所述待识别词组中目 标词组与实体之间的对应关系, 以及所述实体与实体含义之间的对应关系; 目标单元: 用于在所述待识别向量中, 基于任一待识别元素与其它待识别元素之间的 关系, 在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义; 其中, 所述目 标元素为对应于所述目标词组的待识别元素, 所述目标含义指示所述目标词组在所述待识 别文本中的含义; 实体单元: 用于确定所述目标元素所指示的所述目标词组为实体, 及所述目标含义为 实体含义。 7.如权利要求6所述的装置, 其特征在于, 所述实体识别模型包括BERT模型, 则所述向 量单元具体用于通过所述BERT模型, 针对所述待识别文本进行划分, 确定所述待识别文本 中的词组, 以及对应于所述词组的词组向量和词性向量; 其中, 所述词组向量包括, 指示所 述词组的词组元素; 所述词组元素 的顺序与所述词组在所述待识别文本中的顺序一致; 所 述词性向量包括, 指示所述词组词性的词性元素; 所述词性元素 的顺序与所述词组元素 的 顺序一致; 将所述词组向量和所述词性向量拼接, 得到待识别向量; 其中, 所述待识别向量 中的待识别元 素指示, 所述词组元 素和对应于所述词组元 素的所述词性元 素。 8.如权利要求7所述的装置, 其特征在于, 所述目标单元具体用于基于所述其它待识别 元素所指示的词组元素和词性元素, 以及所述其它待识别元素与所述任一待识别元素之间 的位置关系, 在所述待识别元素中确定所述目标元素, 以及所述目标元素的候选含义; 将所权 利 要 求 书 2/3 页 3 CN 115270793 A 3

.PDF文档 专利 一种识别实体的方法、装置及电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种识别实体的方法、装置及电子设备 第 1 页 专利 一种识别实体的方法、装置及电子设备 第 2 页 专利 一种识别实体的方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。