说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210715424.0 (22)申请日 2022.06.22 (71)申请人 昆明理工大 学 地址 650093 云南省昆明市五华区学府路 253号 (72)发明人 线岩团 朱叶芬 文永华 王红斌  (74)专利代理 机构 云南盛恒知识产权代理有限 公司 53224 专利代理师 马斌 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种分词、 词性标注和命名实体识别的联合 词法分析方法 (57)摘要 本发明公开一种分词、 词性标注和命名实体 识别的联合词法分析方法, 将分词和词性标注任 务分解为候选词语检测和词性类别预测两个子 任务, 将实体识别任务分解为候选实体检测和实 体类别预测两个子任务, 并采用统一的神经网络 模型对四个任务进行联合学习; 同时, 对不同任 务之间的参数进行共享。 本发明用高准确率的分 词改善了词性标注任务和实体识别任务中的词 边界检测问题, 并且可以通过使用词性标注信息 来提高分词精度。 利用分词、 词性标注和命名实 体识别之间的高关联性进行联合学习, 提高了模 型性能。 权利要求书2页 说明书7页 附图1页 CN 114970536 A 2022.08.30 CN 114970536 A 1.一种分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在于: 所述将分词 和词性标注任务分解为候选词语检测和词性类别预测两个子任务, 将实体识别任务分解为 候选实体检测和实体类别预测两个子任务, 并采用统一的神经网络模型对四个任务进 行联 合学习; 同时, 对不同任务之间的参数进行共享。 2.如权利要求1所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: S1: 对从PFR1998中获取的文本进行数据预处理, 给每个字符片段匹配它对应的标签类 别; S2: 对S1预处理过的数据中依次得到每个句子信息作为输入, 利用BERT预训练语言模 型对输入进行特征编码, 获取句 子中每个字的带上下文语义向量表示, 对句 子中所有连续 子序列进行候选词语检测和 候选实体检测, 再通过计算候选词语和候选实体的得分概率, 进而去预测当前序列中的词序列标签、 词性序列标签和实体序列标签。 3.如权利要求2所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: 所述S1对数据预处 理包括: 针对训练集对词语构建词性标签字典和实体标签字典; 结合字符在句子中的位置信息, 给字符片段 标注标签 类别; 随后, 每个句子都以字符作为输入单位, 通过BERT预训练语言模型的分词器对每个字 符赋予固定的id编号, 获得句子的切分序列[w1,w2,...,wn], 其中, wi表示切分项在BERT词 汇表中的编号。 4.如权利要求3所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: 对预处理后的数据, 获取句子中每 个字的带 上下文语义向量表示: 将切分后的序列[w1,w2,...,wn]输入BERT预训练语言模型编码后, 得到向量表示[h1, h2,...,hn], 其中hi是wi对应的向量表示, 向量维度d=768。 5.如权利要求4所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: 对句子中所有连续子序列进行候选词语 检测和候选实体 检测, 包括: 编码后得到的向量序列[h1,h2,...,hn]通过变换qi=Wqhi+bq和ki=Wkhi+bk, 其中, Wq和Wk 是模型的参数; 得到向量序列[q1,q2,…,qn]和[k1,k2,...,kn]是分词所用的特征向量, 通过qi和kj的内 积计算连续子序列x[i: j]的词语得分 s1(i, j); 使用贪心算法得到最优解: max(s1(i, j), s1(i, j+1)) 同理, 编码后得到的向量序列[h1,h2,...,hn]通过变换ri=Wrhi+br和ui=Wuhi+bu, 其中, Wr和Wu是模型的参数; 得到向量序列[r1,r2,...,rn]和[u1,u2,...,un]是判断是否为实体所 用的特征向量, 通过ri和uj的内积计算连续子序列x[i: j]的词语得分 s2(i, j), 权 利 要 求 书 1/2 页 2 CN 114970536 A 26.如权利要求5所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: 对句子中所有连续子序列进行候选词语检测和候选实体检测后, 进行词性类别预测和 实体类别预测: 将编码后得到的向量序列[h1,h2,...,hn]通过 预测依存标签(label), 其中, U(1)是维度为Rm×d×d的高阶张量(m是标签个数, d是Biaffine输入维度), 是同时已知作为i作为dep、 j作为head情况下的后验概率, 是已知i或j是依存 关系(arc)两端的后验概 率。 7.如权利要求6所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在 于, 包括以下步骤: 在词性类别预测和实体类别预测后, 预测当前序列中的词序列标签、 词性序列标签和 实体序列标签为: 通过得到的得分 s1(i, j)计算分词的损失函数l oss_ws: 其中P是该样本的单词首尾集 合, Q是该样本的所有非单词的首尾集 合; 采用多分类交叉熵分别计算词性标注、 命名实体识别的损失函数l oss_pos、 loss_ner: 其中, C1是词性类别集合, 为单词x[i : j]在类别C1上的标签, 为模型在类别c上的预测值; 其中, C2是实体类别集合, 为实体x[i : j]在类别X2上的标签, 为模型在类别c上的预测值。权 利 要 求 书 2/2 页 3 CN 114970536 A 3

.PDF文档 专利 一种分词、词性标注和命名实体识别的联合词法分析方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种分词、词性标注和命名实体识别的联合词法分析方法 第 1 页 专利 一种分词、词性标注和命名实体识别的联合词法分析方法 第 2 页 专利 一种分词、词性标注和命名实体识别的联合词法分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。