专利一种分词、词性标注和命名实体识别的联合词法分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210715424.0 (22)申请日 2022.06.22 (71)申请人昆明理工大学地址 650093 云南省昆明市五华区学府路 253号 (72)发明人线岩团　朱叶芬　文永华　王红斌　 (74)专利代理机构云南盛恒知识产权代理有限公司 53224 专利代理师马斌 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种分词、词性标注和命名实体识别的联合词法分析方法 (57)摘要本发明公开一种分词、词性标注和命名实体识别的联合词法分析方法，将分词和词性标注任务分解为候选词语检测和词性类别预测两个子任务，将实体识别任务分解为候选实体检测和实体类别预测两个子任务，并采用统一的神经网络模型对四个任务进行联合学习；同时，对不同任务之间的参数进行共享。本发明用高准确率的分词改善了词性标注任务和实体识别任务中的词边界检测问题，并且可以通过使用词性标注信息来提高分词精度。利用分词、词性标注和命名实体识别之间的高关联性进行联合学习，提高了模型性能。权利要求书2页说明书7页附图1页 CN 114970536 A 2022.08.30 CN 114970536 A 1.一种分词、词性标注和命名实体识别的联合词法分析方法，其特征在于：所述将分词和词性标注任务分解为候选词语检测和词性类别预测两个子任务，将实体识别任务分解为候选实体检测和实体类别预测两个子任务，并采用统一的神经网络模型对四个任务进行联合学习；同时，对不同任务之间的参数进行共享。 2.如权利要求1所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤： S1：对从PFR1998中获取的文本进行数据预处理，给每个字符片段匹配它对应的标签类别； S2：对S1预处理过的数据中依次得到每个句子信息作为输入，利用BERT预训练语言模型对输入进行特征编码，获取句子中每个字的带上下文语义向量表示，对句子中所有连续子序列进行候选词语检测和候选实体检测，再通过计算候选词语和候选实体的得分概率，进而去预测当前序列中的词序列标签、词性序列标签和实体序列标签。 3.如权利要求2所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤：所述S1对数据预处理包括：针对训练集对词语构建词性标签字典和实体标签字典；结合字符在句子中的位置信息，给字符片段标注标签类别；随后，每个句子都以字符作为输入单位，通过BERT预训练语言模型的分词器对每个字符赋予固定的id编号，获得句子的切分序列[w1,w2,...,wn]，其中， wi表示切分项在BERT词汇表中的编号。 4.如权利要求3所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤：对预处理后的数据，获取句子中每个字的带上下文语义向量表示：将切分后的序列[w1,w2,...,wn]输入BERT预训练语言模型编码后，得到向量表示[h1, h2,...,hn]，其中hi是wi对应的向量表示，向量维度d＝768。 5.如权利要求4所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤：对句子中所有连续子序列进行候选词语检测和候选实体检测，包括：编码后得到的向量序列[h1,h2,...,hn]通过变换qi＝Wqhi+bq和ki＝Wkhi+bk，其中， Wq和Wk 是模型的参数；得到向量序列[q1,q2,…,qn]和[k1,k2,...,kn]是分词所用的特征向量，通过qi和kj的内积计算连续子序列x[i： j]的词语得分 s1(i， j)；使用贪心算法得到最优解： max(s1(i， j)， s1(i， j+1)) 同理，编码后得到的向量序列[h1,h2,...,hn]通过变换ri＝Wrhi+br和ui＝Wuhi+bu，其中， Wr和Wu是模型的参数；得到向量序列[r1,r2,...,rn]和[u1,u2,...,un]是判断是否为实体所用的特征向量，通过ri和uj的内积计算连续子序列x[i： j]的词语得分 s2(i， j)，权　利　要　求　书 1/2 页 2 CN 114970536 A 26.如权利要求5所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤：对句子中所有连续子序列进行候选词语检测和候选实体检测后，进行词性类别预测和实体类别预测：将编码后得到的向量序列[h1,h2,...,hn]通过预测依存标签(label)，其中， U(1)是维度为Rm×d×d的高阶张量(m是标签个数， d是Biaffine输入维度)，是同时已知作为i作为dep、 j作为head情况下的后验概率，是已知i或j是依存关系(arc)两端的后验概率。 7.如权利要求6所述的分词、词性标注和命名实体识别的联合词法分析方法，其特征在于，包括以下步骤：在词性类别预测和实体类别预测后，预测当前序列中的词序列标签、词性序列标签和实体序列标签为：通过得到的得分 s1(i， j)计算分词的损失函数l oss_ws：其中P是该样本的单词首尾集合， Q是该样本的所有非单词的首尾集合；采用多分类交叉熵分别计算词性标注、命名实体识别的损失函数l oss_pos、 loss_ner：其中， C1是词性类别集合，为单词x[i ： j]在类别C1上的标签，为模型在类别c上的预测值；其中， C2是实体类别集合，为实体x[i ： j]在类别X2上的标签，为模型在类别c上的预测值。权　利　要　求　书 2/2 页 3 CN 114970536 A 3

专利 一种分词、词性标注和命名实体识别的联合词法分析方法

专利一种分词、词性标注和命名实体识别的联合词法分析方法