(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210544327.X
(22)申请日 2022.05.19
(71)申请人 辽宁大学
地址 110000 辽宁省沈阳市沈北新区道义
南大街58号
(72)发明人 王青松 张超越 王海硕 聂振业
孙文成 杨念殷
(74)专利代理 机构 沈阳杰克知识产权代理有限
公司 21207
专利代理师 王洋
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度学习和主题模型的短文本相似度
计算方法
(57)摘要
基于深度学习和主题模型的短文本相似度
计算方法, 属于文本相似度匹配技术领域, 要解
决的问题是如何通过深度学习网络和LDA主题模
型准确实现短文本相似度计算。 首先使用BERT对
输入模型的多段文本分别进行分词及向量转换,
然后将分词后的词向量分别输入到深度学习模
型和LDA主题模型。 在深度学习模型内部, 先利用
双向LSTM网络提取单词的上下文信息; 再利用1D
卷积神经网络将上下文信息与词嵌入信息进行
信息融合; 最后使用全局最大池化提取关键信
息。 在LDA主题模型内部, 采用吉布斯抽样进行主
题提取, 提取每段文本的感情色彩。 根据两个模
型提取到的特征, 通过混合型文本语义相似度计
算方法计算获得两段文本之间的相似度。
权利要求书2页 说明书7页 附图4页
CN 114897078 A
2022.08.12
CN 114897078 A
1.基于深度学习和主题模型的短文本相似度计算方法, 其特 征在于, 包 含步骤如下:
1)对输入到系 统的两个短文本, 使用BERT分别进行分词及向量转换, 并对分词结果和
向量转化结果分别保存;
2)对向量转换转换后的词向量提取融合特征信息: 首先采用双向的LSTM网络进行上下
文信息提取, 然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融
合, 再使用全局最大池化 提取关键信息, 得到多维度、 多特 征的融合特 征信息;
3)对分词后的两段段文本提取情 感特征: 将其输入到LDA情 感分析主题模型, 采用吉布
斯抽样提取文本的情感色彩, 提取两段文本的情感特 征;
4)对于步骤2)中得到的融合特征进行相似度计算, 对步骤3)中得到的情感特征进行情
感分类判定, 将上述两者的结果进行混合型文本语义相似度计算, 得到两段文本之间的文
本语义相似度。
2.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤1)中, 分词及向量转换的具体方法为: 将 两段短文本 分别通过BERT模 型进
行分词, 并保存分词后的结果, 再对BERT分词后的结果进 行向量转化, 转换成能被深度学习
网络处理的词向量表示, 将词向量x作为输入。
3.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤2)中, 提取词向量的融合特 征信息的具体方法为:
将词向量x输入到深度学习模型, 使用哈希编码的方式得到l1层;
l1=W1*x
其中l1为词向量 转化后的输出, W1为哈希映射矩阵, x为词向量输入;
然后依次通过LSTM、 CNN 融合的三层网络得到128维的低维 向量y, 再通过全局最大池化
优化特征值输出, 计算过程如下:
li=f(Wi*li‑1+bi),i=2,…,N‑1
其中
表示第j次池化操作, 最终输出的向量维度为M, li代表隐藏层节点, Wi是第li
层的权重矩阵, bi为第li的偏置量, f为隐藏层和输出层的激活函数, 使用的激活函数是
tanh:
4.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤3)中, 提取两段文本的情感特 征的具体方法为:
将BERT分词后的结果输入到模型中, 计算每段文本的情感属性 概率分布:
P(w,z|α, β )=p(w|z,w)*p(z|α )
采用吉布斯抽样计算数据与主题之间的关系, w表示文本中的某一个单词, α和β 是是预
设的超参数, z表示主题的编号;
根据贝叶斯公式和Diric hlet先验分布, 计算Diric hlet分布期望:权 利 要 求 书 1/2 页
2
CN 114897078 A
2k表示主题数, θm,k表示数据m中主题k的分布, φk,t表示主题k中特征词t的词分布, nm,(k)
表示数据m中主题k的特 征词汇, nk,(t)表示特征词t在主题k的出现次数;
通过吉布斯抽样得到概 率分布:
表示数据主题k中不属于 数据m的特征词个 数,
表示特征词没有分配给主题词k的
次数。
5.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤4)中, 对融合特 征进行相似度计算, 使用的公式为:
其中yQ表示第一个短文本经过深度学习网络后的输出结果, yD表示第二个句子经过经
过深度学习网络后的输出 结果。
6.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤4)中, 对情感特 征进行情感分类判定, 使用的公式为:
Li=max(softmax(P) ),i=1,2
其中P表示由LDA模型输出的情感特征, i表示输入到LDA模型的不同文本, 当B得0时, 表
明两段文本的情感分类不同, 当B得1时, 表示两段文本的情感分类相同。
7.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征
在于: 所述的步骤4)中, 两段文本之间的文本语义相似度计算公式为:
S= ε R+(1 ‑ε )B
其中R表示深度学习网络提取到的相似度, B表示两段文本所属情感类别的相似度, ε表
示深度学习网络提取到的相似度占最终结果输出的权 重。权 利 要 求 书 2/2 页
3
CN 114897078 A
3
专利 基于深度学习和主题模型的短文本相似度计算方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:11:55上传分享