说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210827990.0 (22)申请日 2022.07.13 (71)申请人 珠海格力电器股份有限公司 地址 519000 广东省珠海市前山金鸡西路 申请人 珠海联云科技有限公司 (72)发明人 唐光远 罗琴 李润静 张俊杰  熊琼  (74)专利代理 机构 北京聿宏知识产权代理有限 公司 11372 专利代理师 李爱军 陈超德 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本相似度计算方法、 装置、 电子设备及存 储介质 (57)摘要 本申请提供的一种文本相似度计算方法、 装 置、 电子设备及存储介质, 所述方法包括: 获取待 比对文本, 其中, 所述待比对文本包括第一文本 和第二文本; 将所述第一文本和所述第二文本分 别输入预设的Bert模型, 得到第一文本词向量和 第二文本词向量; 将所述第一文本词向量和所述 第二文本词向量 分别输入到SENet ‑CNN层进行特 征学习, 得到第一目标文本词向量和第二目标文 本词向量; 基于所述第一目标文本词向量和所述 第二目标文本词向量确定所述待对比文本之间 的相似度值。 本申请利用Bert模型把文本转化成 向量的形式, 输入到SENet ‑CNN层进行特征学习, 最后在相似度计算层中计算它们的相似度, 提高 了文本相似度的计算效率。 权利要求书2页 说明书8页 附图2页 CN 115169342 A 2022.10.11 CN 115169342 A 1.一种文本相似度计算方法, 其特 征在于, 所述方法包括: 获取待比对文本, 其中, 所述待比对文本包括第一文本和第二文本; 将所述第一文本和所述第二文本分别输入预设的Bert模型, 得到第一文本词向量和第 二文本词向量; 将所述第一文本词向量和所述第二文本词向量分别输入到SENet ‑CNN层进行特征学 习, 得到第一目标文本词向量和第二目标文本词向量; 基于所述第一目标文本词向量和所述第二目标文本词向量确定所述待对比文本之间 的相似度值。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取第一文本对应的原 始文本; 对所述第一文本对应的原 始文本进行清洗处 理, 获得第一清洗文本; 基于所述第一清洗文本确定所述第一文本 。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 获取第二文本对应的原 始文本; 对所述第二文本对应的原 始文本进行清洗处 理, 获得第二清洗文本; 基于所述第二清洗文本确定所述第二文本 。 4.根据权利要求3所述的方法, 其特征在于, 所述对第 一文本对应的原始文本进行清洗 处理, 包括: 删除第一文本对应的原始文本 中无用的符号和/或删除第 一文本对应的原始文本 中错 误的文字信息和/或删除第一文本对应的原始文本中重复的文字信息和/或删除第一文本 对应的原 始文本中的空格; 所述对第二文本对应的原始文本进行清洗处理, 包括: 删除第二文本对应的原始文本 中无用的符号和/或删除第二文本对应的原始文本中错误的文字信息和/或删除第二文本 对应的原 始文本中重复的文字信息和/或删除第二文本对应的原 始文本中的空格。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取样本集; 基于所述样本集训练初始Ber t模型, 得到预设的Ber t模型。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一目标文本词向量和所述 第二目标文本词向量确定所述待对比文本之间的相似度值, 包括: 采用余弦相似度计算公式计算所述第一目标文本词向量和所述第二目标文本词向量 之间夹角的余弦值; 基于所述 余弦值确定待对比文本之间相似度值。 7.根据权利要求6所述的方法, 其特 征在于, 所述 余弦相似度计算公式为: 其中, cos( θ )表示 余弦值; S1表示第一目标文本词向量; S2表示第二目标文本词向量。 8.一种文本相似度计算装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取待比对文本, 其中, 所述待比对文本包括第一文本和第二文 本;权 利 要 求 书 1/2 页 2 CN 115169342 A 2第一确定模块, 用于将所述第一文本和所述第二文本分别输入预设的Bert模型, 得到 第一文本词向量和第二文本词向量; 第二确定模块, 用于将所述第一文本词向量和所述第二文本词向量分别输入到SENet ‑ CNN层进行特征学习, 得到第一目标文本词向量和第二目标文本词向量; 相似度计算模块, 用于基于所述第 一目标文本词向量和所述第 二目标文本词向量确定 所述待对比文本之间的相似度值。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有计算机程 序, 该计算机程序被所述处理器执行时, 执行如权利要求1至7中任意一项所述的文本相似 度计算方法。 10.一种存储介质, 其特征在于, 该存储介质存储的计算机程序, 可被一个或多个处理 器执行, 可用来实现如权利要求1至7中任意 一项所述的文本相似度计算方法。权 利 要 求 书 2/2 页 3 CN 115169342 A 3

.PDF文档 专利 文本相似度计算方法、装置、电子设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本相似度计算方法、装置、电子设备及存储介质 第 1 页 专利 文本相似度计算方法、装置、电子设备及存储介质 第 2 页 专利 文本相似度计算方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。