(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210668506.4
(22)申请日 2022.06.14
(71)申请人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号
(72)发明人 张春祥 张育隆 高雪瑶
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/247(2020.01)
G06F 40/289(2020.01)
G06F 40/211(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
多头自注意力 门控空洞卷积神经网络的汉
语词义消歧
(57)摘要
本发明涉及一种多头自注意力 门控空洞卷
积神经网络的词义消歧方法。 本发明对SemEval ‑
2007:Task#5 的训练语料和测试语料进行分词、
词性标注、 语义类标注、 依存句法分析和语义依
存分析, 选取歧义词汇左右四个邻接词汇单元的
词形、 词性和语义类以及歧义词的句法依存关系
和语义依存关系作为消歧特征。 利用Word2Vec对
从训练语料和测试语料中抽取的消歧特征进行
向量化处理, 得到训练数据和测试数据。 使用训
练数据来优化词义消歧模型。 利用优化后的词义
消歧模型计算测试数据中的歧义词汇在每个语
义类别下的权重, 具有最大权重的语义类别即为
歧义词汇的语义类别。 本发明能更准确地判断歧
义词汇的真实含义。
权利要求书3页 说明书7页 附图4页
CN 114912462 A
2022.08.16
CN 114912462 A
1.多头自注意力门控空洞卷积神经网络的汉语词义消歧方法, 歧义词汇m具有C个语义
类别s1,s2,…,sC, 其特征在于, 该 方法包括以下步骤:
步骤1: 对SemEval ‑2007:Task#5的训练语料和测试语料进行分词、 词性标注、 语义类标
注、 依存句法分析和语义依存分析, 选取歧义词汇m左右四个邻接词汇单元的词形、 词性和
语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特 征。
步骤2: 利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料 中抽取的消歧特征进
行向量化处理, 得到训练数据, 利用Word2Vec工 具对从SemEval ‑2007:Task#5的测试语料中
抽取的消歧特 征进行向量 化处理, 得到测试 数据。
步骤3: 使用训练数据优化AGDCN N模型, 得到优化后的AGDCN N模型。
步骤4: 测试过程即语义分类过程, 在优化后的AGDCNN模型上, 输入测试数据, 计算歧义
词汇m在每个语义类别下的权重, 其中, 具有最大权重的语义类别即为歧义词汇m的语义类
别。
2.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧, 其特
征在于, 所述步骤1中, 对SemEval ‑2007:Task#5的训练语料和测试语料进行分词、 词性标
注、 语义类标注、 依存句法分析和语义依存分析, 选取歧义词汇m左右四个邻接词汇单元 的
词形、 词性和语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特征, 具体步骤
为:
步骤1‑1利用汉语分词工具对汉语句子进行词汇切分;
步骤1‑2利用汉语词性标注工具对词汇进行词性标注;
步骤1‑3根据 《同义词 词林》 , 利用汉语 语义标注工具对词汇进行语义类标注;
步骤1‑4使用哈尔滨工业大学语言技术平台LTP对汉语句子进行依存句法分析和语义
依存分析;
步骤1‑5抽取歧义词 汇m左右四个邻接词 汇单元的词形、 词性和语义类, 提取歧义词 汇m
的句法依存关系和语义依存关系, 合并为消歧特 征。
3.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧, 其特
征在于, 所述步骤2中, 利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料中抽取的
消歧特征进行向量化处理, 得到训练数据, 利用Word2Vec工具对从SemEval ‑2007:Task#5的
测试语料中抽取的消歧特 征进行向量 化处理, 得到测试 数据, 具体步骤为:
步骤2‑1利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料中抽取的消歧特征
进行向量 化处理, 得到训练数据;
步骤2‑2利用Word2Vec工具对从SemEval ‑2007:Task#5的测试语料中抽取的消歧特征
进行向量 化处理, 得到测试 数据。
4.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧, 其特
征在于, 所述步骤3中, 使用训练数据优化AGDCNN模 型, 得到优化后的AGDCNN模 型, 具体步骤
为:
步骤3‑1把训练数据的词向量加载到初始化的AGDCN N模型的embed ding层作为权 重;
步骤3‑2经过空洞卷积层, 输出 特征矩阵a和b;
步骤3‑3经过门控线性单 元层输出GLU(a,b), 所述的门控线性单 元层计算过程如下:权 利 要 求 书 1/3 页
2
CN 114912462 A
2其中
是对应元 素相乘, σ 是sigmo id函数;
步骤3‑4经过归一化层, 对GLU(a,b)进行归一 化得到X;
步骤3‑5经过多头自注意力层, 形成多个子空间, 所述的多头自注意力计算过程如下:
MultiHead(Q,K,V)=Co ncat(head1,...,headh)Wo
Q=X·WQ, K=X·WK,V=X·WV
其中WQ、 WK、 WV是参数矩阵;
步骤3‑6经过自适应全局平均池化层, 输出歧义词汇m在语义类别si下的分配权重w(si|
m), i=1,2,…,C;
步骤3‑7使用交叉熵损失函数计算实际输出与期望 输出的误差l oss, 如下:
loss表示训练数据的平均误差, n是训练数据的个数, yk是第k个训练数据的标签。 根据
误差loss反向传播, 逐层更新 参数, 参数 更新过程如下:
其中, θ表示 参数集, θ'表示更新后的参数集, a为学习率;
步骤3‑8不断迭代步骤3 ‑1至步骤3 ‑7, 直到达到设定的迭代次数为止, 得到优化后的
AGDCNN模型。
5.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧, 其特
征在于, 在所述步骤4中, 测试过程即语义分类过程, 在 优化后的AGDCNN模 型上, 输入测试数
据, 计算歧义词汇m在每个语义类别下 的权重, 其中, 具有最大权重的语义类别即为歧义词
汇的语义类别, 具体过程 为:
步骤4‑1把测试数据的词向量加载到优化后的AGDCN N模型的embed ding层作为权 重;
步骤4‑2经过空洞卷积层, 输出 特征矩阵a和b;
步骤4‑3经过门控线性单 元层输出GLU(a,b), 所述的门控线性单 元层计算过程如下:
其中
是对应元 素相乘, σ 是sigmo id函数;
步骤4‑4经过归一化层, 对GLU(a,b)进行归一 化得到X;
步骤4‑5经过多头自注意力层, 形成多个子空间, 所述的多头自注意力计算过程如下:
MultiHead(Q,K,V)=Co ncat(head1,...,headh)Wo
权 利 要 求 书 2/3 页
3
CN 114912462 A
3
专利 多头自注意力门控空洞卷积神经网络的汉语词义消歧
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:12:32上传分享