专利一种跨领域细粒度情感分析方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210660427.9 (22)申请日 2022.06.13 (71)申请人华南理工大学地址 510641 广东省广州市天河区五山路 381号 (72)发明人蔡毅　曾雨诗　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师陈嘉乐 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06F 40/284(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种跨领域细粒度情感分析方法、装置及存储介质 (57)摘要本发明公开了一种跨领域细粒度情感分析方法、装置及存储介质，其中方法包括：构建目标领域的细粒度情感分析模型；将无标注样本输入 BERT编码器预训练语言模型获得每个单词的语法知识向量表示；基于图卷积网络，通过卷积相邻节点的特征来捕获常识关系结构特征并映射到与BERT编码器相同的单词层级维度向量空间中从而获得常识知识向量表示；拼接语法知识向量表示和常识知识向量表示作为单词的最终特征表示；优化模型的参数。本发明通过结合语法知识和常识关系知识来缩小同一分布空间内的不同领域的领域差异，对资源较少的目标领域具有较强的适应性，提高目标领域的方面抽取以及情感分析的预测效果。本发明可广泛应用于自然语言处理技术领域。权利要求书3页说明书8页附图1页 CN 115221272 A 2022.10.21 CN 115221272 A 1.一种跨领域细粒度情感分析方法，其特征在于，包括以下步骤：构建目标领域的细粒度情感分析模型，所述细粒度情感分析模型包括预训练语法知识特征向量表示模块、预训练常识知识关系向量表示模块以及分类器；所述预训练语法知识特征向量表示模块包括BERT编码器，所述预训练常识知识关系向量表示模块包括图卷积网络GCN；将源领域和目标领域的无标注文本输入到所述BERT编码器，获得文本中的每一个单词的语法知识特征向量表示；将源领域或者目标领域的文本输入到所述预训练常识知识关系向量表示模块；其中各领域的每个句子的指定词性的单词输入到Concept Net常识知识库，并获取每个指定词性的单词到领域概念的路径和关系，从而构建出领域常识图谱；将领域常识图谱输入到图卷积网络GCN中通过预测结点与结点之间的关系，从而获得单词的预训练常识知识特征向量表示；以句子为单位，通过领域常识图谱获得句子中指定词性与领域概念间的路径和关系，构建的子图谱，将子图谱输入到图卷积网络GCN，获得子图谱的向量表示，并通过特征空间转换层映射到和BERT编码器相同的同一分布空间，获得单词的常识知识特征向量表示；将语法知识特征向量表示和单词与单词的常识知识特征向量表示拼接作为单词特征表示；以句子中的各个单词为单位，将单词特征表示输入训练分类器，对分类器进行训练，获得最佳的模型参数；将目标领域无标记数据输入训练后的所述细粒度情感分析模型，对最后拼接而成的单词特征表示向量做分类任务输出预测标签，完成目标领域中的方面词以及方面词的情感极性的识别。 2.根据权利要求1所述的一种跨领域细粒度情感分析方法，其特征在于，还包括预训练 BERT编码器的步骤：利用Spacy库中的Pos ‑tag和dependency relation改变BERT编码器的两个子监督任务，从而提升BERT编码器对语法常识的敏感度。 3.根据权利要求2所述的一种跨领域细粒度情感分析方法，其特征在于，提取的语法知识特征向量表示为： hi＝transformer(ei) 其中， ei是对应索引单词的连续性词嵌入向量， hi代表将ei通过多层transfermer映射到对应的预训练的词嵌入向量，分别对应的是BERT编码器的两个自监督任务； Wp和bp是权重矩阵；和分别是对应索引单词在依赖树中头标记和子标记的表示，预测索引单词间的依赖关系； [； ]、 [ ‑]和⊙分别代表拼接、减法和乘法操作； Wd是关系分类的权重矩阵。 4.根据权利要求3所述的一种跨领域细粒度情感分析方法，其特征在于，所述BERT编码器实现的语法知识特征向量表示的损失函数如下：权　利　要　求　书 1/3 页 2 CN 115221272 A 2其中， DU代表的是无标注样本； I1(i)代表索引单词i在自监督任务中有没有被[MASK]，如果有则为1，反之为0，代表的是索引单词真正的POS‑tag标签；同理I2(ij)也是只对在依赖树中具有之间连线的索引单词预测依赖关系； λ是一个权衡损失函数权重的超参数； T代表的是无标注样本的单词集合；代表的是索引单词i和j之间的语法关系标签。 5.根据权利要求1所述的一种跨领域细粒度情感分析方法，其特征在于，所述图卷积网络GCN通过以下方式训练：利用源域和目标域中的每个未标记样本的子图谱来训练图卷积网络GCN的图自动编码器，通过卷积相邻节点的特征来捕获常识关系结构特征，提取的特征向量表示为：其中N(t)表示单词t的邻域节点；表示节点g在l层的隐藏特征； Wl和bl是权重矩阵；利用子图谱中节点的表示，进行自监督关系分类任务并优化图自动编码器；为了挖掘每个节点在图中的表示，采用随机抽取的方式，给定两个节点以判断节点关系的分类任务进行预训练。 6.根据权利要求5所述的一种跨领域细粒度情感分析方法，其特征在于，训练过程中，采用交叉熵损失函数具体如下：其中， [oi； oj]表示的是第i个节点与第j个节点的表示进行拼接得到的表示； p(yr|[oi； oj]表示的是给定两个节点的表示预测关系yr的概率； N和M为随机抽取次数。 7.根据权利要求1所述的一种跨领域细粒度情感分析方法，其特征在于，所述单词特征表示为： vi＝[tc； ts] pi＝softmax(Wvi+b) 其中， ts代表通过BERT编码器获得的语法知识特征向量表示， tc代表通过图卷积网络 GCN后再通过空间映射映射到与BERT编码器同一空间维度的具有领域常识关系的特征向量表示， [； ]代表向量拼接；单词特征表示向量同时具有节点级别的常识知识特征表示tc和单词级语法知识特征表示ts，从而提升目标领域细粒度情感分析任务；最后，通过全连接和 softmax层预测每个索引单词属于最后所有标签的概率， W和b都是权重矩阵。 8.根据权利要求1所述的一种跨领域细粒度情感分析方法，其特征在于，所述将单词特征表示输入训练分类器，对分类器进行训练，获得最佳的模型参数，包括：以句子中的各个单词为单位，将单词特征表示输入训练分类器，并采用Adam优化器训练模型参数，得到最佳的模型参数，实现单词级别的领域适应；其中，采用交叉熵损失函数优化模型参数，具体的损失函数为：权　利　要　求　书 2/3 页 3 CN 115221272 A 3

专利 一种跨领域细粒度情感分析方法、装置及存储介质

专利一种跨领域细粒度情感分析方法、装置及存储介质