说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654665.0 (22)申请日 2021.12.3 0 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 陈小帅  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 彭程 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/232(2020.01) G06N 20/00(2019.01) (54)发明名称 一种实体识别方法、 装置和计算机设备 (57)摘要 本发明实施例提供了一种实体识别方法、 装 置和计算机设备, 其中方法包括: 确定第一媒体 数据, 并获取第一媒体数据对应的待识别文本, 调用训练后的实体识别模型对所述待识别文本 进行目标识别处理, 确定所述待识别文本的实 体; 其中, 所述训练后的实体识别模型用于对所 述待识别文本进行纠错处理, 得到纠正文本, 并 对所述纠正文本进行实体识别, 得到所述纠正文 本的参考实体; 将所述纠正文本的参考实体确定 为所述待识别文本的实体, 可以提高实体识别的 准确性。 权利要求书3页 说明书19页 附图6页 CN 114358010 A 2022.04.15 CN 114358010 A 1.一种实体识别方法, 其特 征在于, 包括: 确定第一 媒体数据, 并获取 所述第一 媒体数据对应的待识别文本; 调用训练后的实体识别模型对所述待识别文本进行目标识别处理, 确定所述待识别文 本的实体; 其中, 所述训练后的实体识别模型用于对所述待识别文本进 行纠错处理, 得到所 述待识别文本对应的纠正文本, 并对所述纠正文本进行实体识别, 得到所述纠正文本的参 考实体; 将所述纠正文本的参考实体确定为所述待识别文本的实体; 所述待识别文本的实 体用于进行与第一 媒体数据关联的推荐。 2.如权利要求1所述的方法, 其特征在于, 所述第一媒体数据的数量为多个, 每个第一 媒体数据对应一个待识别文本; 所述方法还 包括: 获取参考媒体数据, 并基于所述参考媒体数据从多个第 一媒体数据中确定目标媒体数 据; 所述目标媒体数据对应的待识别文本的实体与所述参考媒体数据对应的文本的实体匹 配; 输出目标媒体数据。 3.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于所述待识别文本的实体进行实体匹配, 确定第二媒体数据, 所述第二媒体数据对 应的文本的实体与所述待识别文本的实体匹配; 输出第二 媒体数据。 4.如权利要求1所述的方法, 其特征在于, 所述训练后的实体识别模型包括训练后的纠 错模型和训练后的实体预测模型; 所述调用训练后的实体识别模型对所述待识别文本进 行 目标识别处 理, 确定所述待识别文本的实体, 包括: 调用所述训练后的纠错模型对所述待识别文本进行纠错处理, 得到所述待识别文本对 应的纠正文本; 调用所述训练后的实体预测模型对所述纠正文本进行实体识别, 得到所述纠正文本的 参考实体; 将所述纠正文本的参 考实体确定为所述待识别文本的实体。 5.如权利要求1 ‑4任一项所述的方法, 其特征在于, 所述训练后的实体识别模型包括训 练后的实体预测端到端模型, 所述方法还 包括: 调用所述训练后的实体预测端到端模型对所述待识别文本进行特征提取, 得到所述待 识别文本对应的文本向量; 对所述纠正文本进行 特征提取, 得到所述纠正文本对应的文本向量; 对所述纠正文本的参考实体进行特征提取, 得到所述纠正文本的参考实体对应的实体 向量; 基于所述待识别文本对应的文本向量、 所述纠正文本对应的文本向量和所述参考实体 对应的实体向量对所述待识别文本进行实体识别, 得到所述待识别文本的候选实体; 将所述待识别文本的候选实体确定为所述待识别文本的实体。 6.如权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 将所述待识别文本的候选实体和所述纠正文本的参考实体进行实体融合, 得到所述待 识别文本的实体。 7.如权利要求5所述的方法, 其特征在于, 所述基于所述待识别文本对应的文本向量、权 利 要 求 书 1/3 页 2 CN 114358010 A 2所述纠正文本对应的文本 向量和所述参考实体对应的实体向量对所述待识别文本进行实 体识别, 得到所述待识别文本的候选实体, 包括: 调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的 文本向量和所述待识别文本对应的文本向量进行注意分析, 得到所述待识别文本的预测实 体的实体向量; 调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预 测实体的实体向量和所述参考实体对应的实体向量进 行注意分析, 得到所述待识别文本的 候选实体。 8.如权利要求7所述的方法, 其特征在于, 所述调用所述训练后的实体预测端到端模型 中的第一注意力模块对所述纠正文本对应的文本 向量和所述待识别文本对应的文本 向量 进行注意分析, 得到所述待识别文本的预测实体的实体向量, 包括: 对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行差异分析, 得 到所述纠正文本对应的纠错位置, 所述纠错位置用于指示所述纠正文本中与所述待识别文 本所包含的对应字符不同的目标字符在所述纠正文本中所处的位置; 调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠错位置和所述 纠正文本进行注意力分析, 得到所述待识别文本的预测实体的实体向量。 9.如权利要求7所述的方法, 其特征在于, 所述调用所述训练后的实体预测端到端模型 中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实 体向量进行注意分析, 得到所述待识别文本的候选实体, 包括: 基于所述参考实体对应的实体向量, 确定所述参考实体在所述纠正文本中的目标位 置; 在所述待识别文本中确定所述目标位置对应的预测实体的实体向量; 调用所述训练后的实体预测端到端模型中的第二注意力模块对所述目标位置对应的 预测实体的实体向量进行注意分析, 得到所述待识别文本的候选实体。 10.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取第一训练文本以及所述第一训练文本对应的实体标签; 调用实体识别模型对所述第 一训练文本进行纠错处理, 得到所述第 一训练文本对应的 纠正文本, 并对所述第一训练文本对应的纠正文本进行实体识别, 得到所述第一训练文本 的预测实体; 基于所述第 一训练文本的预测实体和对应的实体标签对所述实体识别模型进行训练, 得到训练后的实体识别模型。 11.如权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 获取第二训练文本以及所述第二训练文本对应的纠正文本标签; 调用纠错模型对所述第 二训练文本进行纠错处理, 得到所述第 二训练文本对应的预测 纠正文本; 基于所述第二训练文本的预测纠正文本和对应的纠正文本标签对所述纠错模型进行 训练, 得到训练后的纠错模型。 12.如权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 获取第三训练文本以及所述第三训练文本对应的实体标签;权 利 要 求 书 2/3 页 3 CN 114358010 A 3

.PDF文档 专利 一种实体识别方法、装置和计算机设备

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体识别方法、装置和计算机设备 第 1 页 专利 一种实体识别方法、装置和计算机设备 第 2 页 专利 一种实体识别方法、装置和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。