专利 命名实体识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221087024 4.X (22)申请日 2022.07.18 (71)申请人北京龙智数科科技服务有限公司地址 100020 北京市朝阳区北苑小街8号6 号楼五层5 305 (72)发明人曾山松　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师杨超 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称命名实体识别方法及装置 (57)摘要本公开涉及自然语言处理技术领域，提供了一种命名实体识别方法及装置。该方法包括：将原始语料实体名称与对应的实体标签均作为关键字，在原始文档集合中进行检索，检索出同时命中原始语料实体名称与对应的实体标签的文档，形成检索后的文档集合；将原始语料实体序列集合、检索后的文档集合共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量；将获得融入实体标签语义信息后的序列特征向量输入到条件随机场，经过训练学习，获得命名实体识别标签预测序列。本公开能够充分利用标签的语义信息，提高对命名实体的识别效率，增强输入序列标签的特征，更好的完成命名实体识别任务。权利要求书1页说明书12页附图7页 CN 115146033 A 2022.10.04 CN 115146033 A 1.一种命名实体识别方法，其特征在于，包括：将原始语料实体名称与对应的实体标签均作为关键字，在原始文档集合中进行检索，检索出同时命中原始语料实体名称与对应的实体标签的文档，形成检索后的文档集合；将原始语料实体序列集合、检索后的文档集合共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量；将所述获得融入实体标签语义信息后的序列特征向量输入到条件随机场，经过训练学习，获得命名实体识别标签预测序列。 2.根据权利要求1所述的命名实体识别方法，其特征在于，形成检索后的文档集合后，将所述检索后的文档集合中的实体名称替换为与实体对应的实体标签，形成替换后的文档集合，将原始语料实体序列集合、替换后的文档集合共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量。 3.根据权利要求2所述的命名实体识别方法，其特征在于，形成替换后的文档集合后，将替换后的文档集合输入到word2v ec算法模型中，在word2v ec算法模型中训练学习各个实体标签的嵌入表示向量，输出得到原始语料对应的各个实体标签的嵌入表示向量集合；将原始语料实体序列集合、各个实体标签的嵌入表示向量集合共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量。 4.根据权利要求2所述的命名实体识别方法，其特征在于，所述word2vec算法模型为 Skip‑gram算法模型。 5.根据权利要求1所述的命名实体识别方法，其特征在于，将原始语料实体序列集合输入到BERT训练语言模型中，获得双向语言表征的输出向量序列；将原始语料实体序列集合、双向语言表征的输出向量序列共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量。 6.根据权利要求1 ‑5任一所述的命名实体识别方法，其特征在于，在基于注意力机制的训练模型中，针对输入的所有实体标签，在任意两个标签之间进行注意力得分判断，获得注意力权重矩阵。 7.根据权利要求6所述的命名实体识别方法，其特征在于，将基于注意力机制训练模型中的输入向量集合中对应的检索后的文档集合、或者替换后的文档集合、或者各个实体标签的嵌入表示向量集合进行向量集合的转置，获得DET、或者DRT、或者MT，结合所述注意力权重矩阵，获得融入实体标签语义信息后的序列特征向量，其中序列特征向量为A*DET、或者A*DRT、或者A* MT对应的结果。 8.根据权利要求7所述的命名实体识别方法，其特征在于，获得融入实体标签语义信息后的序列特征向量后，将所述融入实体标签语义信息后的序列特征向量输入到基于自注意力机制的深度神经网络，获得输出嵌入表示矩阵；将输出的嵌入表示矩阵输入到条件随机场，经过训练学习，获得命名实体识别标签预测序列。 9.根据权利要求8所述的命名实体识别方法，其特征在于，获得输出嵌入表示矩阵后，将所述输出嵌入表示矩阵输入到线性变换层，获得变换后的嵌入表示矩阵；将所述变换后的嵌入表示矩阵输入到条件随机场，经过训练学习，获得命名实体识别标签预测序列。 10.一种装置，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至9中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 115146033 A 2命名实体识别方法及装置技术领域 [0001]本公开涉及自然语言处理技术领域，尤其涉及一种命名实体识别方法及装置。背景技术 [0002]目前主流的命名实体识别方法将命名实体识别任务建模成一个序列标注任务，例如，通过BERT预训练模型建模了标签t oken之间的语义关系，通过条件随机场的转移矩阵建模了标签与标签之间的转移关系，但是没有充分的利用标签的语义信息，而标签的语义信息天然的包含了某种先验知识，因此需要一种融入标签语义信息的命名实体识别方法，帮助模型更好的对输入序列中的命名实体进行识别。 [0003]目前主要利用B ERT等预训练语言模型对输入的文本序列进行序列特征编码，由于 BERT只考虑了输入序列中token的信息，而没有考虑到当前token与上一token标签之间的转移关系，因此再在BERT网络的基础上增加CRF层建模标签之间的转移关系。现有方法在进行序列token特征编码时仅利用了t oken的语义信息，本发明通过引入远程监督方法学习标签的语义信息，然后利用注意力机制将标签的语义信息融合到t oken特征中，通过该方法模型能够利用to ken与标签之间的语义关联帮助模型更好的识别序列中的命名实体。发明内容 [0004]有鉴于此，本公开实施例提供了一种命名实体识别方法及装置，以解决现有技术中的标签语义信息没有得到充分利用、命名实体识别效果不够好、识别效率低等问题。 [0005]本公开实施例的第一方面，提供了一种命名实体识别方法，包括以下步骤： [0006]将原始语料实体名称与对应的实体标签均作为关键字，在原始文档集合中进行检索，检索出同时命中原始语料实体名称与对应的实体标签的文档，形成检索后的文档集合；将原始语料实体序列集合、检索后的文档集合共同输入到基于注意力机制的训练模型中，获得融入实体标签语义信息后的序列特征向量；将获得融入实体标签语义信息后的序列特征向量输入到条件随机场，经过训练学习，获得命名实体识别标签预测序列。 [0007]本公开实施例的第二方面，提供了一种命名实体识别方法，包括以下步骤： [0008]将原始语料实体名称与对应的实体标签均作为关键字，在原始文档集合中进行检索，检索出同时命中原始语料实体名称与对应的实体标签的文档，形成检索后的文档集合； [0009]替换所述检索后的文档集合中的实体名称为与实体对应的实体标签，形成替换后的文档集合； [0010]将替换后的文档集合输入到Skip ‑gram算法模型中，在Skip ‑gram算法模型中训练学习各个实体标签的嵌入表示向量，输出得到各个实体标签的嵌入表示向量集合； [0011]将原始语料实体序列集合输入到BE RT训练语言模型中，获得双向语言表征的输出向量序列； [0012]将所述双向语言表征的输出向量序列、与原始语料对应的各个实体标签的嵌入表示向量集合，共同输入到基于注意力机制的训练模型中，针对所述注意力机制训练模型的说　明　书 1/12 页 3 CN 115146033 A 3

专利 命名实体识别方法及装置

专利命名实体识别方法及装置