专利文本相似度识别方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210661870.8 (22)申请日 2022.06.13 (71)申请人深圳市北科瑞声科技股份有限公司地址 518036 广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6 (72)发明人程刚　杨大明　熊霞　冯湘　蒋志燕　 (74)专利代理机构深圳智汇远见知识产权代理有限公司 4 4481 专利代理师蒋学超 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本相似度识别方法、装置、电子设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露了一种文本相似度识别方法，包括：获取待匹配文本对，对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的标准文本对，根据所述语言类型标签，计算所述标准文本对的文本长度，并根据所述文本长度对所述标准文本对进行长短类型判断，根据所述长短类型判断选择所述标准文本对的计算策略，并利用选择的所述相似度计算策略计算所述标准文本对的相似度识别结果。本发明还提出一种文本相似度识别装置、电子设备以及计算机可读存储介质。本发明可以解决文本语义相似度计算不准确的问题。权利要求书2页说明书10页附图1页 CN 114925702 A 2022.08.19 CN 114925702 A 1.一种文本相似度识别方法，其特征在于，所述方法包括：获取待匹配文本对，对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的标准文本对；根据所述语言类型标签，计算所述标准文本对的文本长度，并根据所述文本长度对所述标准文本对进行长短类型判断；根据所述长短类型判断选择所述标准文本对的相似度计算策略，并利用选择的所述相似度计算策略计算所述标准文本对的相似度识别结果。 2.如权利要求1所述的文本相似度识别方法，其特征在于，所述根据所述文本长度对所述标准文本对进行长短类型判断，包括：获取所述标准文本对中包含的第一文本及第二文本的文本长度；若所述标准文本对中的第一文本及第二文本的文本长度均小于等于预设的第一文本阈值，则确定所述标准文本对为第一类型文本对；若所述标准文本对中的第一文本及第二文本的文本长度均大于等于预设的第二文本阈值，则确定所述标准文本对为第二类型文本对；若所述标准文本对中的第一文本的文本长度小于等于所述第一文本阈值，第二文本的文本长度大于等于所述第二文本阈值，或第二文本的文本长度小于等于所述第一文本阈值，第一文本大于的文本长度等于所述第二文本阈值，则确定所述标准文本对为第三类型文本对。 3.如权利要求1所述的文本相似度识别方法，其特征在于，所述根据所述长短类型判断选择所述标准文本对的相似度计算策略，并利用选择的所述相似度计算策略计算所述标准文本对的相似度识别结果，包括：若所述标准文本对的长短类型为第一类型文本对，则选择预设的第一计算策略，并利用所述第一计算策略计算得到所述标准文本对的相似度识别结果；若所述标准文本对的长短类型为第二类型文本对，则选择预设的第二计算策略，并利用所述第二计算策略计算得到所述标准文本对的相似度识别结果；若所述标准文本对的长短类型为第三类型文本对，则选择预设的第三计算策略，并利用所述第三计算策略计算得到所述标准文本对的相似度识别结果。 4.如权利要求3所述的文本相似度识别方法，其特征在于，所述利用所述第一计算策略计算得到所述标准文本对的相似度识别结果，包括：利用LSTM ‑DSSM模型的输入层对所述标准文本对中的文本进行向量转化，得到第一向量及第二向量；利用所述LSTM ‑DSSM模型的表示层分别对所述第一向量及第二向量进行向量解析，得到第一潜层语义向量及第二潜层语义向量；利用所述LSTM ‑DSSM模型的匹配层计算所述第一潜层语义向量及所述第二潜层语义向量的相似度，并将所述相似度作为所述标准文本对的相似度识别结果。 5.如权利要求3所述的文本相似度识别方法，其特征在于，所述利用所述第二计算策略计算得到所述标准文本对的相似度识别结果，包括：对所述标准文本对中包含的第一文本及第二文本进行分词处理，得到第一分词集合及第二分词集合；权　利　要　求　书 1/2 页 2 CN 114925702 A 2对所述第一分词集合及所述第二分词集合中的分词进行向量化处理，得到第一词袋向量及第二词袋向量；对所述第一词袋向量及所述第二词袋向量进行向量转化，得到第一变换向量及第二变换向量，拼接所述第一变换向量及所述第二变换向量，得到向量矩阵；对所述向量矩阵进行奇异值分解，得到主题分布矩阵及词义分布矩阵；计算所述主题分布矩阵及词义分布矩阵的相似距离，并将所述相似距离作为所述标准文本对的相似度识别结果。 6.如权利要求5所述的文本相似度识别方法，其特征在于，所述计算所述主题分布矩阵及词义分布矩阵的相似距离，包括：利用下述海林格公式计算所述主题分布矩阵及词义分布矩阵的相似距离：其中， h(P， Q)为所述主题分布矩阵及词义分布矩阵的相似距离， P为主题分布矩阵对应的概率分布， Q 为词义分布矩阵对应的概率分布。 7.如权利要求3所述的文本相似度识别方法，其特征在于，所述利用所述第三计算策略计算得到所述标准文本对的相似度识别结果，包括：选取所述标准文本对中文本长度最长的文本作为目标文本，未被选取的文本作为非目标文本；对所述目标文本进行句子分割及编码向量化，得到编码向量；对所述编码向量进行聚类，得到多个聚类簇，选取所述多个聚类簇中每个聚类簇最接近聚类中心的文本作为摘要文本，根据所述第一匹配策略计算所述摘要文本及所述非目标文本的摘要相似度，并将所述摘要相似度作为所述标准文本对的相似度识别结果。 8.一种文本相似度识别装置，其特征在于，所述装置包括：标准文本对构建模块，用于获取待匹配文本对，对所述待匹配文本对进行数据清洗及语言类型检测，得到具有语言类型标签的标准文本对；文本对类型判断模块，用于根据所述语言类型标签，计算所述标准文本对的文本长度，并根据所述文本长度对所述标准文本对进行长短类型判断；策略匹配及相似度计算模块，用于根据所述长短类型判断选择所述标准文本对的相似度计算策略，并利用选择的所述相似度计算策略计算所述标准文本对的相似度识别结果。 9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑7任一项所述的文本相似度识别方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7任一项所述的文本相似度识别方法的步骤。权　利　要　求　书 2/2 页 3 CN 114925702 A 3

专利 文本相似度识别方法、装置、电子设备及存储介质

专利文本相似度识别方法、装置、电子设备及存储介质