专利结合聚类与图注意力机制的多粒度语义融合文本匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210534825.6 (22)申请日 2022.05.17 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人罗森林　孔令迪　李新帅　杨俊楠　 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) (54)发明名称结合聚类与图注意力机制的多粒度语义融合文本匹配方法 (57)摘要本发明涉及结合聚类与图注意力机制的多粒度语义融合文本匹配方法，属于自然语言处理与机器学习领域。本发明首先对实体、句子和主题三种不同粒度的语义信息分别建模得到相应的嵌入向量，实体和主题建模过程中引入外部语义知识；然后分别聚类实体、主题嵌入向量，使用聚类中心作为所在聚类中所有向量的统一表示；接着，利用图注意力机制学习句子级语义与实体、主题级语义之间的关联权重；最后，将训练后的句子向量作为句子的最终表示，进一步进行文本匹配任务。本发明能够有效提高特定领域短文本句子对的匹配效果，在一定程度上解决了待匹配文本过短且包含特定领域词汇导致语义稀疏，匹配准确率低的问题。权利要求书1页说明书4页附图1页 CN 115062103 A 2022.09.16 CN 115062103 A 1.结合聚类与图注意力机制的多粒度语义融合文本匹配方法，其特征在于所述方法包括如下步骤：步骤1，对句子进行实体级、句子级和主题级的语义向量嵌入，首先，通过TagMe工具进行实体抽取，利用word2v ec方法得到实体的向量表达，然后，通过Bert模型得到句子级的向量表达，最后，通过LDA/GSDMM方法得到句子的主题级表示，利用word2vec方法得到主题的向量表达；步骤2，聚类实体级和主题级的向量表达，使用聚类中心作为所在聚类中所有向量的统一表示；步骤3，以实体聚类中心向量、句子向量和主题聚类中心向量为节点，以句子包含的实体、句子包含的主题为边构建图，利用图注意力机制学习句子节点与实体节点、主题节点之间的权重关系；步骤4，将训练后的句子向量作为最终融合多粒度语义信息后的句子表示，利用余弦相似度计算句子向量之间的相似度，根据相似度大小与设定的阈值进行文本匹配。 2.根据权利要求1所述的结合聚类与图注意力机制的多粒度语义融合文本匹配方法，其特征在于：步骤1中分别使用T agMe、 Bert和LDA/GSDMM对句子进行了实体级、句子级和主题级三种语义粒度的建模，并且在实体和主题建模过程中引入了特定领域语料库。 3.根据权利要求1所述的结合聚类与图注意力机制的多粒度语义融合文本匹配方法，其特征在于：步骤2 中对实体向量和主题向量进行了聚类，使用K ‑means聚类方法将相似的实体或主题聚为一类，并使用聚类中心代替所属类中的所有向量表示。 4.根据权利要求1所述的结合聚类与图注意力机制的多粒度语义融合文本匹配方法，其特征在于：步骤3以图的方式对三种粒度的语义信息进行关联：以实体聚类中心向量、句子向量和主题聚类中心向量为节点，以句子包含的实体、句子从属的主题为边进行图建模，在此基础上使用GAT图注意力机制对边的关联强弱，即不同粒度语义信息之间的关联权重进行训练学习。权　利　要　求　书 1/1 页 2 CN 115062103 A 2结合聚类与图注意力机制的多粒度语义融合文本匹配方法技术领域 [0001]本发明涉及基于图注意力机制的多粒度语义分析文本匹配方法，属于自然语言处理与机器学习领域。背景技术 [0002]在文本匹配任务中，文本简短且包含特定领域词汇会导致语义稀疏，匹配准确率低的问题。解决方案通常是通过引入外部知识来补充语义信息，具体包括外部知识引入和多粒度语义信息建模两个步骤。 [0003]1.引入外部语义知识的方法 [0004]引入外部语义知识的方法引入通用领域的语法、语义知识作为模型输入的补充，完善语义信息，改善文本匹配性能。 BERT预训练模型引入大量通用领域的知识，补充短文本的语境信息，极大地提升了文本表示质量，对通用领域文本有更好的表征能力。但是针对特定领域的文本匹配问题，由于包含特定领域词汇， BERT的建模能力有待提高。 [0005]2.多粒度语义信息建模方法 [0006]多粒度语义信息建模方法指的是从不同的粒度对句子建模，如实体级粒度、句子级粒度和主题级粒度。建模后需要合并多粒度语义表示，形成最终语义表示，具体方法包括拼接、结构树和图神经网络三种。拼接的方法将提取到的不同粒度语义特征与原句子向量进行拼接，这种方法会破坏句子原有意义，建模能力差；语法结构树的方法结构相对固化，难以表示灵活的多粒度语义信息；图神经网络的模型能够建模不同粒度语义向量间的依存信息，但是在实际应用中存在节点数目过大，计算复杂，且低频词汇关联边过少，语义稀疏等问题。 [0007]综上所述，近年来针对语义稀疏问题的解决方案通常是通过大型预训练模型引入外部知识，进一步通过语法树等结构补充语义信息。然而这些方法对特定领域的语义建模能力较弱，且不能充分挖掘多粒度语义信息之间的关联。关于在特定领域短文本匹配任务中如何充分利用多粒度语义信息的相关研究相对较少。现有的特定领域短文本匹配方法存在以下问题： (1)通用的预训练模型对特定领域的文本建模能力有限； (2)拼接和语法结构树的多粒度语义建模方法不能充分挖掘多粒度语义之间的文本依存关系，充分表示语义信息；图神经网络的多粒度建模方法存在图节点数目过大，计算复杂，且低频词汇语义稀疏等问题。发明内容 [0008]本发明的目的是针对待匹配文本简短且包含特定领域词汇导致语义稀疏，文本匹配准确率低的问题，提出了结合聚类与图神经网络的多粒度语义融合文本匹配方法。 [0009]本发明的设计原理为：首先，通过特定领域语料库学习句子在实体级和主题级粒度的向量表示，通过Bert预训练模型得到句子级粒度的向量表示；其次，将实体级和主题级两种粒度的向量表示分别聚类，使用聚类中心作为所在聚类中所有向量的统一表示；然后说　明　书 1/4 页 3 CN 115062103 A 3

专利 结合聚类与图注意力机制的多粒度语义融合文本匹配方法

专利结合聚类与图注意力机制的多粒度语义融合文本匹配方法