(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210715424.0
(22)申请日 2022.06.22
(71)申请人 昆明理工大 学
地址 650093 云南省昆明市五华区学府路
253号
(72)发明人 线岩团 朱叶芬 文永华 王红斌
(74)专利代理 机构 云南盛恒知识产权代理有限
公司 53224
专利代理师 马斌
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种分词、 词性标注和命名实体识别的联合
词法分析方法
(57)摘要
本发明公开一种分词、 词性标注和命名实体
识别的联合词法分析方法, 将分词和词性标注任
务分解为候选词语检测和词性类别预测两个子
任务, 将实体识别任务分解为候选实体检测和实
体类别预测两个子任务, 并采用统一的神经网络
模型对四个任务进行联合学习; 同时, 对不同任
务之间的参数进行共享。 本发明用高准确率的分
词改善了词性标注任务和实体识别任务中的词
边界检测问题, 并且可以通过使用词性标注信息
来提高分词精度。 利用分词、 词性标注和命名实
体识别之间的高关联性进行联合学习, 提高了模
型性能。
权利要求书2页 说明书7页 附图1页
CN 114970536 A
2022.08.30
CN 114970536 A
1.一种分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在于: 所述将分词
和词性标注任务分解为候选词语检测和词性类别预测两个子任务, 将实体识别任务分解为
候选实体检测和实体类别预测两个子任务, 并采用统一的神经网络模型对四个任务进 行联
合学习; 同时, 对不同任务之间的参数进行共享。
2.如权利要求1所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤:
S1: 对从PFR1998中获取的文本进行数据预处理, 给每个字符片段匹配它对应的标签类
别;
S2: 对S1预处理过的数据中依次得到每个句子信息作为输入, 利用BERT预训练语言模
型对输入进行特征编码, 获取句 子中每个字的带上下文语义向量表示, 对句 子中所有连续
子序列进行候选词语检测和 候选实体检测, 再通过计算候选词语和候选实体的得分概率,
进而去预测当前序列中的词序列标签、 词性序列标签和实体序列标签。
3.如权利要求2所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤: 所述S1对数据预处 理包括:
针对训练集对词语构建词性标签字典和实体标签字典;
结合字符在句子中的位置信息, 给字符片段 标注标签 类别;
随后, 每个句子都以字符作为输入单位, 通过BERT预训练语言模型的分词器对每个字
符赋予固定的id编号, 获得句子的切分序列[w1,w2,...,wn], 其中, wi表示切分项在BERT词
汇表中的编号。
4.如权利要求3所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤:
对预处理后的数据, 获取句子中每 个字的带 上下文语义向量表示:
将切分后的序列[w1,w2,...,wn]输入BERT预训练语言模型编码后, 得到向量表示[h1,
h2,...,hn], 其中hi是wi对应的向量表示, 向量维度d=768。
5.如权利要求4所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤:
对句子中所有连续子序列进行候选词语 检测和候选实体 检测, 包括:
编码后得到的向量序列[h1,h2,...,hn]通过变换qi=Wqhi+bq和ki=Wkhi+bk, 其中, Wq和Wk
是模型的参数;
得到向量序列[q1,q2,…,qn]和[k1,k2,...,kn]是分词所用的特征向量, 通过qi和kj的内
积计算连续子序列x[i: j]的词语得分 s1(i, j);
使用贪心算法得到最优解:
max(s1(i, j), s1(i, j+1))
同理, 编码后得到的向量序列[h1,h2,...,hn]通过变换ri=Wrhi+br和ui=Wuhi+bu, 其中,
Wr和Wu是模型的参数; 得到向量序列[r1,r2,...,rn]和[u1,u2,...,un]是判断是否为实体所
用的特征向量, 通过ri和uj的内积计算连续子序列x[i: j]的词语得分 s2(i, j),
权 利 要 求 书 1/2 页
2
CN 114970536 A
26.如权利要求5所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤:
对句子中所有连续子序列进行候选词语检测和候选实体检测后, 进行词性类别预测和
实体类别预测:
将编码后得到的向量序列[h1,h2,...,hn]通过
预测依存标签(label),
其中, U(1)是维度为Rm×d×d的高阶张量(m是标签个数, d是Biaffine输入维度),
是同时已知作为i作为dep、 j作为head情况下的后验概率,
是已知i或j是依存
关系(arc)两端的后验概 率。
7.如权利要求6所述的分词、 词性标注和命名实体识别的联合词法分析方法, 其特征在
于, 包括以下步骤:
在词性类别预测和实体类别预测后, 预测当前序列中的词序列标签、 词性序列标签和
实体序列标签为:
通过得到的得分 s1(i, j)计算分词的损失函数l oss_ws:
其中P是该样本的单词首尾集 合, Q是该样本的所有非单词的首尾集 合;
采用多分类交叉熵分别计算词性标注、 命名实体识别的损失函数l oss_pos、 loss_ner:
其中, C1是词性类别集合,
为单词x[i : j]在类别C1上的标签,
为模型在类别c上的预测值;
其中, C2是实体类别集合,
为实体x[i : j]在类别X2上的标签,
为模型在类别c上的预测值。权 利 要 求 书 2/2 页
3
CN 114970536 A
3
专利 一种分词、词性标注和命名实体识别的联合词法分析方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:52:23上传分享