专利基于深度学习和主题模型的短文本相似度计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210544327.X (22)申请日 2022.05.19 (71)申请人辽宁大学地址 110000 辽宁省沈阳市沈北新区道义南大街58号 (72)发明人王青松　张超越　王海硕　聂振业　孙文成　杨念殷　 (74)专利代理机构沈阳杰克知识产权代理有限公司 21207 专利代理师王洋 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度学习和主题模型的短文本相似度计算方法 (57)摘要基于深度学习和主题模型的短文本相似度计算方法，属于文本相似度匹配技术领域，要解决的问题是如何通过深度学习网络和LDA主题模型准确实现短文本相似度计算。首先使用BERT对输入模型的多段文本分别进行分词及向量转换，然后将分词后的词向量分别输入到深度学习模型和LDA主题模型。在深度学习模型内部，先利用双向LSTM网络提取单词的上下文信息；再利用1D 卷积神经网络将上下文信息与词嵌入信息进行信息融合；最后使用全局最大池化提取关键信息。在LDA主题模型内部，采用吉布斯抽样进行主题提取，提取每段文本的感情色彩。根据两个模型提取到的特征，通过混合型文本语义相似度计算方法计算获得两段文本之间的相似度。权利要求书2页说明书7页附图4页 CN 114897078 A 2022.08.12 CN 114897078 A 1.基于深度学习和主题模型的短文本相似度计算方法，其特征在于，包含步骤如下： 1)对输入到系统的两个短文本，使用BERT分别进行分词及向量转换，并对分词结果和向量转化结果分别保存； 2)对向量转换转换后的词向量提取融合特征信息：首先采用双向的LSTM网络进行上下文信息提取，然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合，再使用全局最大池化提取关键信息，得到多维度、多特征的融合特征信息； 3)对分词后的两段段文本提取情感特征：将其输入到LDA情感分析主题模型，采用吉布斯抽样提取文本的情感色彩，提取两段文本的情感特征； 4)对于步骤2)中得到的融合特征进行相似度计算，对步骤3)中得到的情感特征进行情感分类判定，将上述两者的结果进行混合型文本语义相似度计算，得到两段文本之间的文本语义相似度。 2.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤1)中，分词及向量转换的具体方法为：将两段短文本分别通过BERT模型进行分词，并保存分词后的结果，再对BERT分词后的结果进行向量转化，转换成能被深度学习网络处理的词向量表示，将词向量x作为输入。 3.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤2)中，提取词向量的融合特征信息的具体方法为：将词向量x输入到深度学习模型，使用哈希编码的方式得到l1层； l1＝W1*x 其中l1为词向量转化后的输出， W1为哈希映射矩阵， x为词向量输入；然后依次通过LSTM、 CNN 融合的三层网络得到128维的低维向量y，再通过全局最大池化优化特征值输出，计算过程如下： li＝f(Wi*li‑1+bi),i＝2,…,N‑1 其中表示第j次池化操作，最终输出的向量维度为M， li代表隐藏层节点， Wi是第li 层的权重矩阵， bi为第li的偏置量， f为隐藏层和输出层的激活函数，使用的激活函数是 tanh： 4.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤3)中，提取两段文本的情感特征的具体方法为：将BERT分词后的结果输入到模型中，计算每段文本的情感属性概率分布： P(w,z|α, β )＝p(w|z,w)*p(z|α ) 采用吉布斯抽样计算数据与主题之间的关系， w表示文本中的某一个单词， α和β 是是预设的超参数， z表示主题的编号；根据贝叶斯公式和Diric hlet先验分布，计算Diric hlet分布期望：权　利　要　求　书 1/2 页 2 CN 114897078 A 2k表示主题数， θm,k表示数据m中主题k的分布， φk,t表示主题k中特征词t的词分布， nm,(k) 表示数据m中主题k的特征词汇， nk,(t)表示特征词t在主题k的出现次数；通过吉布斯抽样得到概率分布：表示数据主题k中不属于数据m的特征词个数，表示特征词没有分配给主题词k的次数。 5.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤4)中，对融合特征进行相似度计算，使用的公式为：其中yQ表示第一个短文本经过深度学习网络后的输出结果， yD表示第二个句子经过经过深度学习网络后的输出结果。 6.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤4)中，对情感特征进行情感分类判定，使用的公式为： Li＝max(softmax(P) ),i＝1,2 其中P表示由LDA模型输出的情感特征， i表示输入到LDA模型的不同文本，当B得0时，表明两段文本的情感分类不同，当B得1时，表示两段文本的情感分类相同。 7.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤4)中，两段文本之间的文本语义相似度计算公式为： S＝ ε R+(1 ‑ε )B 其中R表示深度学习网络提取到的相似度， B表示两段文本所属情感类别的相似度， ε表示深度学习网络提取到的相似度占最终结果输出的权重。权　利　要　求　书 2/2 页 3 CN 114897078 A 3

专利 基于深度学习和主题模型的短文本相似度计算方法

专利基于深度学习和主题模型的短文本相似度计算方法