专利文本语义相似度匹配方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111625936.X (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号申请公布号 CN 113988085 A (43)申请公布日 2022.01.28 (73)专利权人深圳市北科瑞声科技股份有限公司地址 518036 广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6 (72)发明人张剑　蒋志燕　杨雨航　杨大明　 (74)专利代理机构深圳智汇远见知识产权代理有限公司 4 4481 代理人聂磊　牛悦涵(51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 113806486 A,2021.12.17 审查员王永波 (54)发明名称文本语义相似度匹配方法、装置、电子设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露了一种文本语义相似度匹配方法，包括：获取待匹配文本对，对待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的原始文本对，根据语言类型标签，计算原始文本对的文本长度，并根据文本长度对原始文本对进行长短类型文本对映射，得到短文本对及长文本对，计算短文本对的第一相似度，以及计算长文本对的第二相似度，对第一相似度及第二相似度进行加权计算，并将计算得到的加权相似度作为所述待匹配文本对的相似度匹配结果。本发明还提出一种文本语义相似度匹配装置、电子设备以及计算机可读存储介质。本发明可以解决文本语义匹配计算不准确的问题。权利要求书2页说明书9页附图1页 CN 113988085 B 2022.04.01 CN 113988085 B 1.一种文本语义相似度匹配方法，其特征在于，所述方法包括：获取待匹配文本对，对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的原始文本对；根据所述语言类型标签，计算所述原始文本对的文本长度，并根据所述文本长度对所述原始文本对进行长短类型文本对映射，得到短文本对及长文本对；计算所述短文本对的第一相似度，以及计算所述长文本对的第二相似度，对所述第一相似度及所述第二相似度进行加权计算，并将计算得到的加权相似度作为所述待匹配文本对的相似度匹配结果；所述根据所述文本长度对所述原始文本对进行长短类型文本对映射之前，所述方法还包括：获取预设数量的原始训练文本对，对所述原始训练文本对进行数据清洗处理，得到标准训练文本对；利用所述标准训练文本对分别对预构建的第一神经网络及预构建的第二神经网络进行端到端的模型训练，得到第一文本映射模型及第二文本映射模型；所述根据所述文本长度对所述原始文本对进行长短类型文本对映射，得到短文本对及长文本对，包括：根据所述文本长度判断所述原始文本对中两个文本的文本类型；利用所述第一文本映射模型将判断为长文本的文本映射为短文本；或利用所述第二文本映射模型将判断为短文本的文本映射为长文本；汇总映射前及映射后的文本，得到所述短文本对及长文本对。 2.如权利要求1所述的文本语义相似度匹配方法，其特征在于，所述对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的原始文本对，包括：对所述待匹配文本对中的文本数据进行数据异常检测，并剔除检测到的异常的文本数据，得到去异常文本对；利用预设的语言检测工具对所述去异常文本对进行语言类型检测，对检测完成的去异常文本对进行语言类型标注，得到所述具有语言类型标签的原始文本对。 3.如权利要求1所述的文本语义相似度匹配方法，其特征在于，所述根据所述文本长度判断所述原始文本对中两个文本的文本类型，包括：判断所述原始文本对中文本的文本长度是否大于等于预设的文本阈值；若文本的文本长度大于等于所述文本阈值，则文本类型判断为长文本；若文本的文本长度小于所述文本阈值，则文本类型判断为短文本。 4.如权利要求1所述的文本语义相似度匹配方法，其特征在于，所述计算所述短文本对的第一相似度，包括：利用LSTM ‑DSSM模型的输入层对所述短文本对中的文本进行向量转化，得到第一向量及第二向量；利用所述LSTM ‑DSSM模型的表示层分别对所述第一向量及第二向量进行向量解析，得到第一潜层语义向量及第二潜层语义向量；利用所述LSTM ‑DSSM模型的匹配层计算所述第一潜层语义向量及所述第二潜层语义向量的相似度，并将所述相似度作为所述第一相似度。权　利　要　求　书 1/2 页 2 CN 113988085 B 25.如权利要求1所述的文本语义相似度匹配方法，其特征在于，所述计算所述长文本对的第二相似度，包括：分别对所述长文本对中的文本进行特征选取，并根据选取的特征构建第一候选事件集合及第二候选事件集合；将所述第一候选事件集合及所述第二候选事件集合进行向量化处理，得到第一候选向量事件集合及第二候选向量事件集合；分别对所述第一候选向量事件集合及所述第二候选向量事件集合中的向量进行筛选，得到第一事件实例集合及第二事件实例集合；分别对所述第一事件实例集合及第二事件实例集合中的事件实例进行聚类，并计算两个事件实例集合中最靠近聚类中心的事件实例的事件相似度，并将所述事件相似度作为所述第二相似度。 6.一种文本语义相似度匹配装置，其特征在于，所述装置包括：原始文本对构建模块，用于获取待匹配文本对，对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的原始文本对；标准文本对构建模块，用于根据所述语言类型标签，计算所述原始文本对的文本长度，获取预设数量的原始训练文本对，对所述原始训练文本对进行数据清洗处理，得到标准训练文本对，利用所述标准训练文本对分别对预构建的第一神经网络及预构建的第二神经网络进行端到端的模型训练，得到第一文本映射模型及第二文本映射模型，并根据所述文本长度判断所述原始文本对中两个文本的文本类型，利用所述第一文本映射模型将判断为长文本的文本映射为短文本，或利用所述第二文本映射模型将判断为短文本的文本映射为长文本，汇总映射前及映射后的文本，得到短文本对及长文本对；文本语义匹配模块，用于计算所述短文本对的第一相似度，以及计算所述长文本对的第二相似度，对所述第一相似度及所述第二相似度进行加权计算，并将计算得到的加权相似度作为所述待匹配文本对的相似度匹配结果。 7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑5任一项所述的文本语义相似度匹配方法的步骤。 8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑5任一项所述的文本语义相似度匹配方法的步骤。权　利　要　求　书 2/2 页 3 CN 113988085 B 3

专利 文本语义相似度匹配方法、装置、电子设备及存储介质

专利文本语义相似度匹配方法、装置、电子设备及存储介质