说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111667457.4 (22)申请日 2021.12.31 (71)申请人 广州华多网络科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B1栋24层 (72)发明人 郭东波  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 代理人 王增鑫 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 3/08(2006.01) G06F 16/9535(2019.01)G06Q 30/06(2012.01) (54)发明名称 命名实体识别方法及其装置、 设备、 介质、 产 品 (57)摘要 本申请公开一种命名实体识别方法及其装 置、 设备、 介质、 产品, 所述方法包括: 根据待识别 文本分词获得的多个词元编码生成相应的嵌入 向量; 根据所述多个词元中两两词元之间的多个 相对距离尺度编码生成相对位置特征信息; 以各 词元的嵌入向量为输入, 经至少一个包含自注意 力层的编码网络进行特征交互, 生成文本特征向 量, 其中, 所述相对位置特征信息作为生成所述 文本特征向量的关联权重; 根据所述文本特征向 量从待识别文本中识别出其中的命名实体。 本申 请通过改进编码方式, 使待识别文本的文本特征 向量参考了词元之时的相对位置信息, 从而提升 命名实体识别的准确度, 具有基础和宽广的应用 前景。 权利要求书2页 说明书18页 附图7页 CN 114298049 A 2022.04.08 CN 114298049 A 1.一种命名实体识别方法, 其特 征在于, 包括如下步骤: 根据待识别文本分词获得的多个词元编码生成相应的嵌入向量; 根据所述多个词元中两 两词元之间的多个相对距离尺度编码生成相对位置特 征信息; 以各词元的嵌入向量为输入, 经至少一个包含自注意力层的编码网络进行特征交互, 生成文本特 征向量, 其中, 所述相对位置特 征信息作为 生成所述文本特 征向量的关联权 重; 根据所述文本特 征向量从待识别文本中识别出其中的命名实体。 2.根据权利要求1所述的命名实体识别方法, 其特征在于, 根据待识别文本分词获得的 多个词元编码生成相应的嵌入向量, 包括如下步骤: 获取待识别文本, 所述待识别文本为用于描述商品信息的标题文本; 采用预训练的分词模型对所述待识别文本进行分词, 获得相对应的多个词元, 所述词 元为由英文单词或中文 汉字为单字构成的词汇; 分别编码各个词元的嵌入向量, 每个词元的嵌入向量包括该词元的令牌嵌入、 位置嵌 入以及段嵌入。 3.根据权利要求1所述的命名实体识别方法, 其特征在于, 根据 所述多个词元中两两词 元之间的多个相对距离尺度编码生成相对位置特 征信息, 包括如下步骤: 根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信 息进行编码, 获得每个相对距离尺度相对应的编码矩阵; 将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵; 对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出, 获得相对位置特 征信息。 4.根据权利要求3所述的命名实体识别方法, 其特征在于, 根据不同的相对距离尺度对 所述各个词元中两两词元之 间的相对距离信息进 行编码, 获得每个相对距离尺度相对应的 编码矩阵, 包括如下步骤: 针对每个词元, 计算其与任意一个词元之间前者首字与后者首字之间的相对距离, 获 得每个词元相对应的第一向量, 将所有词元的第一向量 拼接为第一编码矩阵; 针对每个词元, 计算其与任意一个词元之间前者首字与后者末字之间的相对距离, 获 得每个词元相对应的第二向量, 将所有词元的第二向量 拼接为第二编码矩阵; 针对每个词元, 计算其与任意一个词元之间前者末字与后者首字之间的相对距离, 获 得每个词元相对应的第三向量, 将所有词元的第三向量 拼接为第三编码矩阵; 针对每个词元, 计算其与任意一个词元之间前者末字与后者末字之间的相对距离, 获 得每个词元相对应的第四向量, 将所有词元的第四向量 拼接为第四编码矩阵。 5.根据权利要求1至4中任意一项所述的命名实体识别方法, 其特征在于, 以各词元的 嵌入向量为输入, 经至少一个包含自注意力层的编码网络进行特征交互, 生成文本特征向 量, 其中, 所述相对位置特征信息作为生成所述文本特征向量的关联权重, 包括如下由首个 编码网络执 行的步骤: 采用当前编码网络 中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、 键向量及值向量; 由该自注意力层将所有词元相对应的值向量进行加权求和, 各值向量相应的权重为其 相对应的键向量与其 他嵌入向量相对应的查询向量的点积的归一 化分值;权 利 要 求 书 1/2 页 2 CN 114298049 A 2由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和 结果, 获得中间信息矩阵, 使所述相对位置特 征信息构成所述中间信息矩阵的关联权 重; 经前馈神经层对所述中间信息矩阵进行特征提取, 获得文本特征向量, 作为下一个编 码网络的自注意力层所需的输入。 6.根据权利要求1至4中任意一项所述的命名实体识别方法, 其特征在于, 根据所述文 本特征向量从待识别文本中识别出其中的命名实体, 包括如下步骤: 采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性; 根据词性将各个命名实体输出至与词性相应的存储位置, 以构 成商品信息中词性相应 的属性数据。 7.根据权利要求1至4中任意一项所述的命名实体识别方法, 其特征在于, 根据所述文 本特征向量从待识别文本中识别出其中的命名实体, 包括如下步骤: 采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性; 根据词性提取出其中的目标词性相对应的命名实体, 将该命名实体与 预设的实体词典 精准匹配, 将实现精准匹配的命名实体输出为所述待识别文本的关键词。 8.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 9.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1至7任意 一项中所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114298049 A 3

.PDF文档 专利 命名实体识别方法及其装置、设备、介质、产品

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 命名实体识别方法及其装置、设备、介质、产品 第 1 页 专利 命名实体识别方法及其装置、设备、介质、产品 第 2 页 专利 命名实体识别方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:19:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。