说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111625936.X (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号 申请公布号 CN 113988085 A (43)申请公布日 2022.01.28 (73)专利权人 深圳市北 科瑞声科技股份有限公 司 地址 518036 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园3栋1201-6 (72)发明人 张剑 蒋志燕 杨雨航 杨大明  (74)专利代理 机构 深圳智汇远见知识产权代理 有限公司 4 4481 代理人 聂磊 牛悦涵(51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 113806486 A,2021.12.17 审查员 王永波 (54)发明名称 文本语义相似度匹配方法、 装置、 电子设备 及存储介质 (57)摘要 本发明涉及人工智能技术, 揭露了一种文本 语义相似度匹配方法, 包括: 获取待匹配文本对, 对待匹配文本对进行数据清洗及语 言类型检测, 得到具有语言类型标签的原始文本对, 根据语言 类型标签, 计算原始文本对的文本长度, 并根据 文本长度对原始文本对进行长短类型文本对映 射, 得到短文本对及长文本对, 计算短文本对的 第一相似度, 以及计算长文本对的第二相似度, 对第一相似度及第二相似度进行加权计算, 并将 计算得到的加权相似度作为所述待匹配文本对 的相似度匹配结果。 本发明还提出一种文本语义 相似度匹配装置、 电子设备以及计算机可读存储 介质。 本发 明可以解决文本语义匹配计算不准确 的问题。 权利要求书2页 说明书9页 附图1页 CN 113988085 B 2022.04.01 CN 113988085 B 1.一种文本语义相似度匹配方法, 其特 征在于, 所述方法包括: 获取待匹配文本对, 对所述待匹配文本对进行数据清洗及语言类型检测, 得到具有语 言类型标签的原 始文本对; 根据所述语言类型标签, 计算所述原始文本对的文本长度, 并根据所述文本长度对所 述原始文本对进行长短类型文本对映射, 得到短文本对及长文本对; 计算所述短文本对的第一相似度, 以及计算所述长文本对的第二相似度, 对所述第一 相似度及所述第二相似度进行加权计算, 并将计算得到的加权相似度作为所述待匹配文本 对的相似度匹配结果; 所述根据 所述文本长度对所述原始文本对进行长短类型文本对映射之前, 所述方法还 包括: 获取预设数量的原始训练文本对, 对所述原始训练文本对进行数据清洗处理, 得到标 准训练文本对; 利用所述标准训练文本对分别对预构建的第一神经网络及预构建的第二神经网络进 行端到端的模型训练, 得到第一文本映射模型及第二文本映射模型; 所述根据 所述文本长度对所述原始文本对进行长短类型文本对映射, 得到短文本对及 长文本对, 包括: 根据所述文本 长度判断所述原 始文本对中两个文本的文本类型; 利用所述第一文本映射模型将判断为长文本的文本映射 为短文本; 或 利用所述第二文本映射模型将判断为短文本的文本映射 为长文本; 汇总映射前及映射后的文本, 得到所述短文本对及长文本对。 2.如权利要求1所述的文本语义相似度匹配方法, 其特征在于, 所述对所述待 匹配文本 对进行数据清洗及语言类型检测, 得到具有语言类型 标签的原 始文本对, 包括: 对所述待 匹配文本对中的文本数据进行数据异常检测, 并剔除检测到的异常的文本数 据, 得到去异常文本对; 利用预设的语言检测工具对所述去异常文本对进行语言类型检测, 对检测完成的去异 常文本对进行语言类型 标注, 得到所述具有语言类型 标签的原 始文本对。 3.如权利要求1所述的文本语义相似度匹配方法, 其特征在于, 所述根据 所述文本长度 判断所述原 始文本对中两个文本的文本类型, 包括: 判断所述原 始文本对中文本的文本 长度是否大于等于预设的文本阈值; 若文本的文本 长度大于等于所述文本阈值, 则文本类型判断为长文本; 若文本的文本 长度小于所述文本阈值, 则文本类型判断为短文本 。 4.如权利要求1所述的文本语义相似度匹配方法, 其特征在于, 所述计算所述短文本对 的第一相似度, 包括: 利用LSTM ‑DSSM模型的输入层对所述短文本对中的文本进行向量转化, 得到第一向量 及第二向量; 利用所述LSTM ‑DSSM模型的表示层分别对所述第一向量及第二向量进行向量解析, 得 到第一潜层语义向量及第二潜层语义向量; 利用所述LSTM ‑DSSM模型的匹配层计算所述第一潜层语义向量及所述第二潜层语义向 量的相似度, 并将所述相似度作为所述第一相似度。权 利 要 求 书 1/2 页 2 CN 113988085 B 25.如权利要求1所述的文本语义相似度匹配方法, 其特征在于, 所述计算所述长文本对 的第二相似度, 包括: 分别对所述长文本对中的文本进行特征选取, 并根据选取的特征构建第 一候选事件集 合及第二 候选事件集合; 将所述第一候选事件集合及所述第 二候选事件集合进行向量化处理, 得到第 一候选向 量事件集合及第二 候选向量事 件集合; 分别对所述第 一候选向量事件集合及所述第 二候选向量事件集合中的向量进行筛选, 得到第一事 件实例集 合及第二事 件实例集 合; 分别对所述第 一事件实例集合及第 二事件实例集合中的事件实例进行聚类, 并计算两 个事件实例集合中最靠近聚类中心的事件实例的事件相似度, 并将所述事件相似度作为所 述第二相似度。 6.一种文本语义相似度匹配装置, 其特 征在于, 所述装置包括: 原始文本对构建模块, 用于获取待匹配文本对, 对所述待匹配文本对进行数据清洗及 语言类型检测, 得到具有语言类型 标签的原 始文本对; 标准文本对构建模块, 用于根据所述语言类型标签, 计算所述原始文本对的文本长度, 获取预设数量的原始训练文本对, 对所述原始训练文本对进行数据清洗处理, 得到标准训 练文本对, 利用所述标准训练文本对分别对预构建的第一神经网络及预构建的第二神经网 络进行端到端的模型训练, 得到第一文本映射模型及第二文本映射模型, 并根据所述文本 长度判断所述原始文本对中两个文本的文本类型, 利用所述第一文本映射模型将判断为长 文本的文本映射为短文本, 或利用所述第二文本映射模型将判断为短文本的文本映射为长 文本, 汇总映射前及映射后的文本, 得到短文本对及长文本对; 文本语义匹配模块, 用于计算所述短文本对的第一相似度, 以及计算所述长文本对的 第二相似度, 对所述第一相似度及所述第二相似度进行加权计算, 并将计算得到的加权相 似度作为所述待匹配文本对的相似度匹配结果。 7.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器、 通信接口、 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现权利要求1 ‑5任一项所述的文本语义 相似度匹配方法的步骤。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现如权利要求1 ‑5任一项所述的文本语义相似度匹配方法的步骤。权 利 要 求 书 2/2 页 3 CN 113988085 B 3

.PDF文档 专利 文本语义相似度匹配方法、装置、电子设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本语义相似度匹配方法、装置、电子设备及存储介质 第 1 页 专利 文本语义相似度匹配方法、装置、电子设备及存储介质 第 2 页 专利 文本语义相似度匹配方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。