说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221087024 4.X (22)申请日 2022.07.18 (71)申请人 北京龙智数 科科技服务有限公司 地址 100020 北京市朝阳区北 苑小街8号6 号楼五层5 305 (72)发明人 曾山松  (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 杨超 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 命名实体识别方法及装置 (57)摘要 本公开涉及自然语 言处理技术领域, 提供了 一种命名实体识别方法及装置。 该方法包括: 将 原始语料实体名 称与对应的实体标签均作为关 键字, 在原始文档集合中进行检索, 检索出同时 命中原始语料实体名 称与对应的实体标签的文 档, 形成检索后的文档集合; 将原始语料实体序 列集合、 检索后的文档集合共同输入到基于注意 力机制的训练模 型中, 获得融入实体标签语义信 息后的序列特征向量; 将获得融入实体标签语义 信息后的序列特征向量输入到条件随机场, 经过 训练学习, 获得命名实体识别标签预测序列。 本 公开能够 充分利用标签的语义信息, 提高对命名 实体的识别效率, 增强输入序列标签的特征, 更 好的完成命名实体识别任务。 权利要求书1页 说明书12页 附图7页 CN 115146033 A 2022.10.04 CN 115146033 A 1.一种命名实体识别方法, 其特 征在于, 包括: 将原始语料实体名称与对应的实体标签均作为关键字, 在原始文档集合中进行检索, 检索出同时命中原 始语料实体名称与对应的实体标签的文档, 形成检索后的文档集 合; 将原始语料实体序列集合、 检索后的文档集合共同输入到基于注意力 机制的训练模型 中, 获得融入实体标签 语义信息后的序列特 征向量; 将所述获得融入实体标签语义信 息后的序列特征向量输入到条件随机场, 经过训练学 习, 获得命名实体识别标签预测序列。 2.根据权利要求1所述的命名实体识别方法, 其特征在于, 形成检索后的文档集合后, 将所述检索后的文档集合中的实体名称替换为与实体对应的实体标签, 形成替换后的文档 集合, 将原始语料实体序列集合、 替换后的文档集合共同输入到基于注意力机制的训练模 型中, 获得融入实体标签 语义信息后的序列特 征向量。 3.根据权利要求2所述的命名实体识别方法, 其特征在于, 形成替换后的文档集合后, 将替换后的文档集合输入到word2v ec算法模 型中, 在word2v ec算法模 型中训练学习各个实 体标签的嵌入表示向量, 输出得到原始语料对应的各个实体标签的嵌入表示向量集合; 将 原始语料实体序列集合、 各个实体标签的嵌入表 示向量集合共同输入到基于注意力机制的 训练模型中, 获得融入实体标签 语义信息后的序列特 征向量。 4.根据权利要求2所述的命名实体识别方法, 其特征在于, 所述word2vec算法模型为 Skip‑gram算法模型。 5.根据权利要求1所述的命名实体识别方法, 其特征在于, 将原始语料实体序列集合输 入到BERT训练语言模 型中, 获得双向语 言表征的输出向量序列; 将原始语料实体序列集合、 双向语言表征的输出向量序列共同输入到基于注 意力机制的训练模型中, 获得融入实体标 签语义信息后的序列特 征向量。 6.根据权利要求1 ‑5任一所述的命名实体识别方法, 其特征在于, 在基于注意力 机制的 训练模型中, 针对输入的所有实体标签, 在 任意两个标签之间进 行注意力得分判断, 获得注 意力权重矩阵。 7.根据权利要求6所述的命名实体识别方法, 其特征在于, 将基于注意力 机制训练模型 中的输入向量集合中对应的检索后的文档集合、 或者替换后的文档集合、 或者各个实体标 签的嵌入表示向量集合进行向量集合的转置, 获得DET、 或者DRT、 或者MT, 结合所述注意力 权重矩阵, 获得融入实体标签语义信息后的序列特征向量, 其中序列特征向量为A*DET、 或 者A*DRT、 或者A* MT对应的结果。 8.根据权利要求7所述的命名实体识别方法, 其特征在于, 获得融入实体标签语义信 息 后的序列特征向量后, 将所述融入实体标签语义信息后的序列特征向量输入到基于自注意 力机制的深度神经网络, 获得输出嵌入表示矩阵; 将输出 的嵌入表示矩阵输入到条件随机 场, 经过训练学习, 获得命名实体识别标签预测序列。 9.根据权利要求8所述的命名实体识别方法, 其特征在于, 获得输出嵌入表示矩阵后, 将所述输出嵌入表示矩阵输入到线性变换层, 获得变换后的嵌入表示矩阵; 将所述变换后 的嵌入表示矩阵输入到条件随机场, 经 过训练学习, 获得命名实体识别标签预测序列。 10.一种装置, 包括存储器, 处理器及存储在存储器上并可在处理器上运行的计算机程 序, 所述处 理器执行所述程序时实现权利要求1至9中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115146033 A 2命名实体识别方 法及装置 技术领域 [0001]本公开涉及自然语言处 理技术领域, 尤其涉及一种命名实体识别方法及装置 。 背景技术 [0002]目前主流的命名实体识别方法将命名实体识别任务建模 成一个序列标注任务, 例 如, 通过BERT预训练模 型建模了标签t oken之间的语义关系, 通过条件随机场的转移矩阵建 模了标签与标签之间的转移关系, 但是没有充分的利用标签的语义信息, 而标签的语义信 息天然的包含了某种 先验知识, 因此需要一种融入标签语义信息的命名实体识别方法, 帮 助模型更好的对输入序列中的命名实体进行识别。 [0003]目前主要利用B ERT等预训练语言模型对输入的文本序列 进行序列特征编码, 由于 BERT只考虑了输入序列中token的信息, 而没有考虑到当前token与上一token标签之间的 转移关系, 因此再在BERT网络的基础上增加CRF层建模标签之间的转移关系。 现有 方法在进 行序列token特征编码时仅利用了t oken的语义信息, 本发 明通过引入远程监督方法学习标 签的语义信息, 然后利用注意力机制将标签的语义信息融合到t oken特征中, 通过该方法模 型能够利用to ken与标签之间的语义关联帮助模型 更好的识别序列中的命名实体。 发明内容 [0004]有鉴于此, 本公开实施例提供了一种命名实体识别方法及装置, 以解决现有技术 中的标签 语义信息没有得到充分利用、 命名实体识别效果 不够好、 识别效率低等问题。 [0005]本公开实施例的第一方面, 提供了一种命名实体识别方法, 包括以下步骤: [0006]将原始语料实体名称与 对应的实体标签均作为关键字, 在原始文档集合中进行检 索, 检索出同时命中原始语料实体名称与对应的实体标签的文档, 形成检索后的文档集合; 将原始语料实体序列集合、 检索后的文档集合共同输入到基于注意力机制的训练模型中, 获得融入实体标签语义信息后的序列特征向量; 将获得融入实体标签语义信息后的序列特 征向量输入到条件随机场, 经 过训练学习, 获得命名实体识别标签预测序列。 [0007]本公开实施例的第二方面, 提供了一种命名实体识别方法, 包括以下步骤: [0008]将原始语料实体名称与 对应的实体标签均作为关键字, 在原始文档集合中进行检 索, 检索出同时命中原 始语料实体名称与对应的实体标签的文档, 形成检索后的文档集 合; [0009]替换所述检索后的文档集合中的实体名称为与实体对应的实体标签, 形成替换后 的文档集 合; [0010]将替换后的文档集合输入到Skip ‑gram算法模型中, 在Skip ‑gram算法模型中训练 学习各个实体标签的嵌入表示向量, 输出 得到各个实体标签的嵌入表示向量 集合; [0011]将原始语料实体序列集合输入到BE RT训练语言模型中, 获得双向语言表征的输出 向量序列; [0012]将所述双向语言表征的输出向量序列、 与原始语料对应的各个实体标签的嵌入表 示向量集合, 共同输入到基于注意力机制的训练模型中, 针对所述注意力机制训练模型 的说 明 书 1/12 页 3 CN 115146033 A 3

.PDF文档 专利 命名实体识别方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 命名实体识别方法及装置 第 1 页 专利 命名实体识别方法及装置 第 2 页 专利 命名实体识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。