专利文本排序匹配方法、系统、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210541447.4 (22)申请日 2022.05.17 (71)申请人深圳集智数字科技有限公司地址 518000 广东省深圳市南山区南山街道南山社区南新路1003号103 (72)发明人宁时贤　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师张艳 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/194(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称文本排序匹配方法、系统、装置及存储介质 (57)摘要本公开涉及智能语义技术领域，提供了一种文本排序匹配方法、系统、装置及存储介质。该方法包括：将多个文本与其分别对应的分类标识组成的作为训练样本作为语义编码模型的输入单元；将该输入单元输入到语义编码模型，选择间隔的交叉熵损失函数对该语义编码模型进行优化与调整；将查询文本和训练样本同时输入该语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与训练样本各语义向量的所有余弦距离，该余弦距离的大小用于表征查询文本的语义编码相似度，完成文本的排序匹配。本公开能够实现类内差距小于类间差距，无需负采样的同时保证较高的时效性，提高了语义排序匹配的精准度。权利要求书2页说明书9页附图4页 CN 115204178 A 2022.10.18 CN 115204178 A 1.一种文本排序匹配方法，其特征在于，包括：将多个文本与其分别对应的分类标识组成的向量构成训练样本；将训练样本组成的训练集输入到语义编码模型，选择间隔的交叉熵损失函数对所述语义编码模型进行优化与调整，以便所述语义编码模型输出单元输出语义向量；将查询文本和训练样本同时输入所述语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与每个训练样本语义向量之间的余弦距离，所述余弦距离的大小用于表征查询文本的语义编码相似度，基于所述语义编码相似度对文本进行排序匹配。 2.根据权利要求1所述的文本排序匹配方法，其特征在于，语义编码模型的训练和预测过程中，选择间隔的交叉熵损失函数为：带有加性间隔的交叉熵损失函数： AM ‑Softmax或者大角度间隔的交叉熵损失函数A ‑Softmax或者A AM‑Softmax。 3.根据权利要求2所述的文本排序匹配方法，其特征在于，语义编码模型的训练和预测过程中，选择间隔的交叉熵损失函数为：带有加性间隔的交叉熵损失函数： AM ‑Softmax，公式为：其中， θi代表输出的第i个特征向量Ri和分类的类权重特征向量Rt的夹角， θt代表类权重特征向量Rt的向量角， m代表加性间隔， s代表伸缩因子。 4.根据权利要求1所述的文本排序匹配方法，其特征在于，语义编码模型的训练过程中或者训练结束后，采用监督聚类算法对错误的分类标识进行兼容，完成语义编码模型的鲁棒性设计。 5.根据权利要求4所述的文本排序匹配方法，其特征在于，所述监督聚类算法为学习向量量化： Learn ing vector Quantizati on的原型聚类， LVQ的训练过程为：通过所述语义编码模型获得原型向量，进行原型向量的随机初始化；计算原型向量的全局质心，计算目标特征向量与全局质心之间的最短空间向量距离，所述目标特征向量为训练样本中的一个文本语义向量；如果目标特征向量与原型向量的全局质心属于同一分类标识，采取拉拢式的迭代计算，直到迭代收敛；如果目标特征向量与原型向量的全局质心属于不同的分类标识，采取排斥式的迭代计算，直到迭代收敛。 6.根据权利要求5所述的文本排序匹配方法，其特征在于，所述目标特征向量与全局质心之间的最短空间向量距离为欧氏距离或者曼哈顿距离或者余弦距离，其中，所述目标特征向量为训练样本中的一个文本语义向量。 7.根据权利要求5所述的文本排序匹配方法，其特征在于，所述采取拉拢式的迭代计算和排斥式的迭代计算公式分别为：为目标特征向量，为原型全局质心向量， μ为迭代系数。权　利　要　求　书 1/2 页 2 CN 115204178 A 28.一种文本排序匹配装置，其特征在于，包括：训练样本准备模块，被配置为将多个文本与其分别对应的分类标识组成的向量构成训练样本；训练语义编码模块，被配置为将训练样本组成的训练集输入到语义编码模型，选择间隔的交叉熵损失函数对所述语义编码模型进行优化与调整，以便所述语义编码模型输出单元输出语义向量；查询文本的相似度计算模块，被配置为将查询文本和训练样本同时输入所述语义编码模型，输出查询文本语义向量和训练样本语义向量，计算查询文本语义向量与每个训练样本语义向量之间的余弦距离，所述余弦距离的大小用于表征查询文本的语义编码相似度，基于所述语义编码相似度对文本进行排序匹配。 9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115204178 A 3

专利 文本排序匹配方法、系统、装置及存储介质

专利文本排序匹配方法、系统、装置及存储介质