专利一种实体识别方法、装置和计算机设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111654665.0 (22)申请日 2021.12.3 0 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人陈小帅　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人彭程 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/232(2020.01) G06N 20/00(2019.01) (54)发明名称一种实体识别方法、装置和计算机设备 (57)摘要本发明实施例提供了一种实体识别方法、装置和计算机设备，其中方法包括：确定第一媒体数据，并获取第一媒体数据对应的待识别文本，调用训练后的实体识别模型对所述待识别文本进行目标识别处理，确定所述待识别文本的实体；其中，所述训练后的实体识别模型用于对所述待识别文本进行纠错处理，得到纠正文本，并对所述纠正文本进行实体识别，得到所述纠正文本的参考实体；将所述纠正文本的参考实体确定为所述待识别文本的实体，可以提高实体识别的准确性。权利要求书3页说明书19页附图6页 CN 114358010 A 2022.04.15 CN 114358010 A 1.一种实体识别方法，其特征在于，包括：确定第一媒体数据，并获取所述第一媒体数据对应的待识别文本；调用训练后的实体识别模型对所述待识别文本进行目标识别处理，确定所述待识别文本的实体；其中，所述训练后的实体识别模型用于对所述待识别文本进行纠错处理，得到所述待识别文本对应的纠正文本，并对所述纠正文本进行实体识别，得到所述纠正文本的参考实体；将所述纠正文本的参考实体确定为所述待识别文本的实体；所述待识别文本的实体用于进行与第一媒体数据关联的推荐。 2.如权利要求1所述的方法，其特征在于，所述第一媒体数据的数量为多个，每个第一媒体数据对应一个待识别文本；所述方法还包括：获取参考媒体数据，并基于所述参考媒体数据从多个第一媒体数据中确定目标媒体数据；所述目标媒体数据对应的待识别文本的实体与所述参考媒体数据对应的文本的实体匹配；输出目标媒体数据。 3.如权利要求1所述的方法，其特征在于，所述方法还包括：基于所述待识别文本的实体进行实体匹配，确定第二媒体数据，所述第二媒体数据对应的文本的实体与所述待识别文本的实体匹配；输出第二媒体数据。 4.如权利要求1所述的方法，其特征在于，所述训练后的实体识别模型包括训练后的纠错模型和训练后的实体预测模型；所述调用训练后的实体识别模型对所述待识别文本进行目标识别处理，确定所述待识别文本的实体，包括：调用所述训练后的纠错模型对所述待识别文本进行纠错处理，得到所述待识别文本对应的纠正文本；调用所述训练后的实体预测模型对所述纠正文本进行实体识别，得到所述纠正文本的参考实体；将所述纠正文本的参考实体确定为所述待识别文本的实体。 5.如权利要求1 ‑4任一项所述的方法，其特征在于，所述训练后的实体识别模型包括训练后的实体预测端到端模型，所述方法还包括：调用所述训练后的实体预测端到端模型对所述待识别文本进行特征提取，得到所述待识别文本对应的文本向量；对所述纠正文本进行特征提取，得到所述纠正文本对应的文本向量；对所述纠正文本的参考实体进行特征提取，得到所述纠正文本的参考实体对应的实体向量；基于所述待识别文本对应的文本向量、所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别，得到所述待识别文本的候选实体；将所述待识别文本的候选实体确定为所述待识别文本的实体。 6.如权利要求5所述的方法，其特征在于，所述方法还包括：将所述待识别文本的候选实体和所述纠正文本的参考实体进行实体融合，得到所述待识别文本的实体。 7.如权利要求5所述的方法，其特征在于，所述基于所述待识别文本对应的文本向量、权　利　要　求　书 1/3 页 2 CN 114358010 A 2所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别，得到所述待识别文本的候选实体，包括：调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析，得到所述待识别文本的预测实体的实体向量；调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析，得到所述待识别文本的候选实体。 8.如权利要求7所述的方法，其特征在于，所述调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析，得到所述待识别文本的预测实体的实体向量，包括：对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行差异分析，得到所述纠正文本对应的纠错位置，所述纠错位置用于指示所述纠正文本中与所述待识别文本所包含的对应字符不同的目标字符在所述纠正文本中所处的位置；调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠错位置和所述纠正文本进行注意力分析，得到所述待识别文本的预测实体的实体向量。 9.如权利要求7所述的方法，其特征在于，所述调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析，得到所述待识别文本的候选实体，包括：基于所述参考实体对应的实体向量，确定所述参考实体在所述纠正文本中的目标位置；在所述待识别文本中确定所述目标位置对应的预测实体的实体向量；调用所述训练后的实体预测端到端模型中的第二注意力模块对所述目标位置对应的预测实体的实体向量进行注意分析，得到所述待识别文本的候选实体。 10.如权利要求1所述的方法，其特征在于，所述方法还包括：获取第一训练文本以及所述第一训练文本对应的实体标签；调用实体识别模型对所述第一训练文本进行纠错处理，得到所述第一训练文本对应的纠正文本，并对所述第一训练文本对应的纠正文本进行实体识别，得到所述第一训练文本的预测实体；基于所述第一训练文本的预测实体和对应的实体标签对所述实体识别模型进行训练，得到训练后的实体识别模型。 11.如权利要求 4所述的方法，其特征在于，所述方法还包括：获取第二训练文本以及所述第二训练文本对应的纠正文本标签；调用纠错模型对所述第二训练文本进行纠错处理，得到所述第二训练文本对应的预测纠正文本；基于所述第二训练文本的预测纠正文本和对应的纠正文本标签对所述纠错模型进行训练，得到训练后的纠错模型。 12.如权利要求 4所述的方法，其特征在于，所述方法还包括：获取第三训练文本以及所述第三训练文本对应的实体标签；权　利　要　求　书 2/3 页 3 CN 114358010 A 3

专利 一种实体识别方法、装置和计算机设备

专利一种实体识别方法、装置和计算机设备