说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210544327.X (22)申请日 2022.05.19 (71)申请人 辽宁大学 地址 110000 辽宁省沈阳市沈北新区道义 南大街58号 (72)发明人 王青松 张超越 王海硕 聂振业  孙文成 杨念殷  (74)专利代理 机构 沈阳杰克知识产权代理有限 公司 21207 专利代理师 王洋 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度学习和主题模型的短文本相似度 计算方法 (57)摘要 基于深度学习和主题模型的短文本相似度 计算方法, 属于文本相似度匹配技术领域, 要解 决的问题是如何通过深度学习网络和LDA主题模 型准确实现短文本相似度计算。 首先使用BERT对 输入模型的多段文本分别进行分词及向量转换, 然后将分词后的词向量分别输入到深度学习模 型和LDA主题模型。 在深度学习模型内部, 先利用 双向LSTM网络提取单词的上下文信息; 再利用1D 卷积神经网络将上下文信息与词嵌入信息进行 信息融合; 最后使用全局最大池化提取关键信 息。 在LDA主题模型内部, 采用吉布斯抽样进行主 题提取, 提取每段文本的感情色彩。 根据两个模 型提取到的特征, 通过混合型文本语义相似度计 算方法计算获得两段文本之间的相似度。 权利要求书2页 说明书7页 附图4页 CN 114897078 A 2022.08.12 CN 114897078 A 1.基于深度学习和主题模型的短文本相似度计算方法, 其特 征在于, 包 含步骤如下: 1)对输入到系 统的两个短文本, 使用BERT分别进行分词及向量转换, 并对分词结果和 向量转化结果分别保存; 2)对向量转换转换后的词向量提取融合特征信息: 首先采用双向的LSTM网络进行上下 文信息提取, 然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融 合, 再使用全局最大池化 提取关键信息, 得到多维度、 多特 征的融合特 征信息; 3)对分词后的两段段文本提取情 感特征: 将其输入到LDA情 感分析主题模型, 采用吉布 斯抽样提取文本的情感色彩, 提取两段文本的情感特 征; 4)对于步骤2)中得到的融合特征进行相似度计算, 对步骤3)中得到的情感特征进行情 感分类判定, 将上述两者的结果进行混合型文本语义相似度计算, 得到两段文本之间的文 本语义相似度。 2.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤1)中, 分词及向量转换的具体方法为: 将 两段短文本 分别通过BERT模 型进 行分词, 并保存分词后的结果, 再对BERT分词后的结果进 行向量转化, 转换成能被深度学习 网络处理的词向量表示, 将词向量x作为输入。 3.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤2)中, 提取词向量的融合特 征信息的具体方法为: 将词向量x输入到深度学习模型, 使用哈希编码的方式得到l1层; l1=W1*x 其中l1为词向量 转化后的输出, W1为哈希映射矩阵, x为词向量输入; 然后依次通过LSTM、 CNN 融合的三层网络得到128维的低维 向量y, 再通过全局最大池化 优化特征值输出, 计算过程如下: li=f(Wi*li‑1+bi),i=2,…,N‑1 其中 表示第j次池化操作, 最终输出的向量维度为M, li代表隐藏层节点, Wi是第li 层的权重矩阵, bi为第li的偏置量, f为隐藏层和输出层的激活函数, 使用的激活函数是 tanh: 4.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤3)中, 提取两段文本的情感特 征的具体方法为: 将BERT分词后的结果输入到模型中, 计算每段文本的情感属性 概率分布: P(w,z|α, β )=p(w|z,w)*p(z|α ) 采用吉布斯抽样计算数据与主题之间的关系, w表示文本中的某一个单词, α和β 是是预 设的超参数, z表示主题的编号; 根据贝叶斯公式和Diric hlet先验分布, 计算Diric hlet分布期望:权 利 要 求 书 1/2 页 2 CN 114897078 A 2k表示主题数, θm,k表示数据m中主题k的分布, φk,t表示主题k中特征词t的词分布, nm,(k) 表示数据m中主题k的特 征词汇, nk,(t)表示特征词t在主题k的出现次数; 通过吉布斯抽样得到概 率分布: 表示数据主题k中不属于 数据m的特征词个 数, 表示特征词没有分配给主题词k的 次数。 5.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤4)中, 对融合特 征进行相似度计算, 使用的公式为: 其中yQ表示第一个短文本经过深度学习网络后的输出结果, yD表示第二个句子经过经 过深度学习网络后的输出 结果。 6.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤4)中, 对情感特 征进行情感分类判定, 使用的公式为: Li=max(softmax(P) ),i=1,2 其中P表示由LDA模型输出的情感特征, i表示输入到LDA模型的不同文本, 当B得0时, 表 明两段文本的情感分类不同, 当B得1时, 表示两段文本的情感分类相同。 7.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法, 其特征 在于: 所述的步骤4)中, 两段文本之间的文本语义相似度计算公式为: S= ε R+(1 ‑ε )B 其中R表示深度学习网络提取到的相似度, B表示两段文本所属情感类别的相似度, ε表 示深度学习网络提取到的相似度占最终结果输出的权 重。权 利 要 求 书 2/2 页 3 CN 114897078 A 3

.PDF文档 专利 基于深度学习和主题模型的短文本相似度计算方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习和主题模型的短文本相似度计算方法 第 1 页 专利 基于深度学习和主题模型的短文本相似度计算方法 第 2 页 专利 基于深度学习和主题模型的短文本相似度计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。