专利多头自注意力门控空洞卷积神经网络的汉语词义消歧

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210668506.4 (22)申请日 2022.06.14 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人张春祥　张育隆　高雪瑶　 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称多头自注意力门控空洞卷积神经网络的汉语词义消歧 (57)摘要本发明涉及一种多头自注意力门控空洞卷积神经网络的词义消歧方法。本发明对SemEval ‑ 2007:Task#5 的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析，选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类以及歧义词的句法依存关系和语义依存关系作为消歧特征。利用Word2Vec对从训练语料和测试语料中抽取的消歧特征进行向量化处理，得到训练数据和测试数据。使用训练数据来优化词义消歧模型。利用优化后的词义消歧模型计算测试数据中的歧义词汇在每个语义类别下的权重，具有最大权重的语义类别即为歧义词汇的语义类别。本发明能更准确地判断歧义词汇的真实含义。权利要求书3页说明书7页附图4页 CN 114912462 A 2022.08.16 CN 114912462 A 1.多头自注意力门控空洞卷积神经网络的汉语词义消歧方法，歧义词汇m具有C个语义类别s1,s2,…,sC，其特征在于，该方法包括以下步骤：步骤1：对SemEval ‑2007:Task#5的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析，选取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特征。步骤2：利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料中抽取的消歧特征进行向量化处理，得到训练数据，利用Word2Vec工具对从SemEval ‑2007:Task#5的测试语料中抽取的消歧特征进行向量化处理，得到测试数据。步骤3：使用训练数据优化AGDCN N模型，得到优化后的AGDCN N模型。步骤4：测试过程即语义分类过程，在优化后的AGDCNN模型上，输入测试数据，计算歧义词汇m在每个语义类别下的权重，其中，具有最大权重的语义类别即为歧义词汇m的语义类别。 2.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧，其特征在于，所述步骤1中，对SemEval ‑2007:Task#5的训练语料和测试语料进行分词、词性标注、语义类标注、依存句法分析和语义依存分析，选取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类以及歧义词m的句法依存关系和语义依存关系作为消歧特征，具体步骤为：步骤1‑1利用汉语分词工具对汉语句子进行词汇切分；步骤1‑2利用汉语词性标注工具对词汇进行词性标注；步骤1‑3根据《同义词词林》，利用汉语语义标注工具对词汇进行语义类标注；步骤1‑4使用哈尔滨工业大学语言技术平台LTP对汉语句子进行依存句法分析和语义依存分析；步骤1‑5抽取歧义词汇m左右四个邻接词汇单元的词形、词性和语义类，提取歧义词汇m 的句法依存关系和语义依存关系，合并为消歧特征。 3.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧，其特征在于，所述步骤2中，利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料中抽取的消歧特征进行向量化处理，得到训练数据，利用Word2Vec工具对从SemEval ‑2007:Task#5的测试语料中抽取的消歧特征进行向量化处理，得到测试数据，具体步骤为：步骤2‑1利用Word2Vec工具对从SemEval ‑2007:Task#5的训练语料中抽取的消歧特征进行向量化处理，得到训练数据；步骤2‑2利用Word2Vec工具对从SemEval ‑2007:Task#5的测试语料中抽取的消歧特征进行向量化处理，得到测试数据。 4.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧，其特征在于，所述步骤3中，使用训练数据优化AGDCNN模型，得到优化后的AGDCNN模型，具体步骤为：步骤3‑1把训练数据的词向量加载到初始化的AGDCN N模型的embed ding层作为权重；步骤3‑2经过空洞卷积层，输出特征矩阵a和b；步骤3‑3经过门控线性单元层输出GLU(a,b)，所述的门控线性单元层计算过程如下：权　利　要　求　书 1/3 页 2 CN 114912462 A 2其中是对应元素相乘， σ 是sigmo id函数；步骤3‑4经过归一化层，对GLU(a,b)进行归一化得到X；步骤3‑5经过多头自注意力层，形成多个子空间，所述的多头自注意力计算过程如下： MultiHead(Q,K,V)＝Co ncat(head1,...,headh)Wo Q＝X·WQ， K＝X·WK,V＝X·WV 其中WQ、 WK、 WV是参数矩阵；步骤3‑6经过自适应全局平均池化层，输出歧义词汇m在语义类别si下的分配权重w(si| m)， i＝1,2,…,C；步骤3‑7使用交叉熵损失函数计算实际输出与期望输出的误差l oss，如下： loss表示训练数据的平均误差， n是训练数据的个数， yk是第k个训练数据的标签。根据误差loss反向传播，逐层更新参数，参数更新过程如下：其中， θ表示参数集， θ'表示更新后的参数集， a为学习率；步骤3‑8不断迭代步骤3 ‑1至步骤3 ‑7，直到达到设定的迭代次数为止，得到优化后的 AGDCNN模型。 5.根据权利要求1所述的多头自注意力门控空洞卷积神经网络的汉语词义消歧，其特征在于，在所述步骤4中，测试过程即语义分类过程，在优化后的AGDCNN模型上，输入测试数据，计算歧义词汇m在每个语义类别下的权重，其中，具有最大权重的语义类别即为歧义词汇的语义类别，具体过程为：步骤4‑1把测试数据的词向量加载到优化后的AGDCN N模型的embed ding层作为权重；步骤4‑2经过空洞卷积层，输出特征矩阵a和b；步骤4‑3经过门控线性单元层输出GLU(a,b)，所述的门控线性单元层计算过程如下：其中是对应元素相乘， σ 是sigmo id函数；步骤4‑4经过归一化层，对GLU(a,b)进行归一化得到X；步骤4‑5经过多头自注意力层，形成多个子空间，所述的多头自注意力计算过程如下： MultiHead(Q,K,V)＝Co ncat(head1,...,headh)Wo 权　利　要　求　书 2/3 页 3 CN 114912462 A 3

专利 多头自注意力门控空洞卷积神经网络的汉语词义消歧

专利多头自注意力门控空洞卷积神经网络的汉语词义消歧