说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210541447.4 (22)申请日 2022.05.17 (71)申请人 深圳集智数字科技有限公司 地址 518000 广东省深圳市南 山区南山街 道南山社区南 新路1003号103 (72)发明人 宁时贤  (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 张艳 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/194(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 文本排序匹配方法、 系统、 装置及存 储介质 (57)摘要 本公开涉及智能语义技术领域, 提供了一种 文本排序匹配方法、 系统、 装置及存储介质。 该方 法包括: 将多个文本与其分别对应的分类标识组 成的作为训练样本作为语义编码模型的输入单 元; 将该输入单元输入到语义编码模型, 选择间 隔的交叉熵损失函数对该语义编码模型进行优 化与调整; 将查询文本和训练样 本同时输入该语 义编码模型, 输出查询文本语义向量和训练样本 语义向量, 计算查询文本语义向量与训练样本各 语义向量的所有余弦距离, 该余弦距离的大小用 于表征查询文本的语义编码相似度, 完成文本的 排序匹配。 本公开能够实现类内差距小于类间差 距, 无需负采样的同时保证较高的时效性, 提高 了语义排序匹配的精准度。 权利要求书2页 说明书9页 附图4页 CN 115204178 A 2022.10.18 CN 115204178 A 1.一种文本排序匹配方法, 其特 征在于, 包括: 将多个文本与其分别对应的分类标识组成的向量构成训练样本; 将训练样本组成的训练集输入到语义编码模型, 选择间隔的交叉熵损失函数对所述语 义编码模型进行优化与调整, 以便所述语义编码模型输出 单元输出语义向量; 将查询文本和训练样本同时输入所述语义编码模型, 输出查询文本语义向量和训练样 本语义向量, 计算查询文本语义向量与每个训练样本语义向量之间的余弦距离, 所述余弦 距离的大小用于表征查询文本的语义编 码相似度, 基于所述语义编 码相似度对文本进 行排 序匹配。 2.根据权利要求1所述的文本排序匹配方法, 其特征在于, 语义编码模型的训练和预测 过程中, 选择间隔的交叉熵损失函数为: 带有加性间隔的交叉熵损失函数: AM ‑Softmax或者 大角度间隔的交叉熵损失函数A ‑Softmax或者A AM‑Softmax。 3.根据权利要求2所述的文本排序匹配方法, 其特征在于, 语义编码模型的训练和预测 过程中, 选择间隔的交叉熵损失函数为: 带有加性间隔的交叉熵损失函数: AM ‑Softmax, 公 式为: 其中, θi代表输出 的第i个特征向量Ri和分类的类权重特征向量Rt的夹角, θt代表类权 重特征向量Rt的向量角, m代 表加性间隔, s代 表伸缩因子 。 4.根据权利要求1所述的文本排序匹配方法, 其特征在于, 语义编码模型的训练过程中 或者训练结束后, 采用监督聚类算法对错误的分类标识进行兼容, 完成语义编码模型 的鲁 棒性设计。 5.根据权利要求4所述的文本排序匹配方法, 其特征在于, 所述监督聚类算法为学习向 量量化: Learn ing vector Quantizati on的原型聚类, LVQ的训练过程 为: 通过所述语义编码模型获得原型向量, 进行原型向量的随机初始化; 计算原型向量的 全局质心, 计算目标特征向量与全局质心之间的最短空间向量距离, 所述 目标特征向量为 训练样本中的一个文本语义向量; 如果目标特征向量与 原型向量的全局质心属于同一分类 标识, 采取拉拢式的迭代计算, 直到迭代收敛; 如果目标特征向量与 原型向量的全局质心属 于不同的分类标识, 采取排斥式的迭代计算, 直到迭代收敛。 6.根据权利要求5所述的文本排序匹配方法, 其特征在于, 所述目标特征向量与全局质 心之间的最短空间向量距离为欧氏距离或者曼哈顿距离或者余弦距离, 其中, 所述 目标特 征向量为训练样本中的一个文本语义向量。 7.根据权利要求5所述的文本排序匹配方法, 其特征在于, 所述采取拉拢 式的迭代计算 和排斥式的迭代计算公式分别为: 为目标特征向量, 为原型全局质心向量, μ为迭代系数。权 利 要 求 书 1/2 页 2 CN 115204178 A 28.一种文本排序匹配装置, 其特 征在于, 包括: 训练样本准备模块, 被配置为将多个文本与其分别对应的分类标识 组成的向量构 成训 练样本; 训练语义编码模块, 被配置为将训练样本组成的训练集输入到语义编码模型, 选择间 隔的交叉熵损失函数对所述语义编 码模型进 行优化与调整, 以便所述语义编码模型输出单 元输出语义向量; 查询文本的相似度计算模块, 被配置为将查询文本和训练样本同时输入所述语义编码 模型, 输出查询文本语义向量和训练样本语义向量, 计算查询文本语义向量与每个训练样 本语义向量之间的余弦距离, 所述余弦距离的大小用于表征查询文本的语义编码相似度, 基于所述语义编码相似度对文本进行排序匹配。 9.一种电子设备, 包括存储器, 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 所述处 理器执行所述程序时实现权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115204178 A 3

.PDF文档 专利 文本排序匹配方法、系统、装置及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本排序匹配方法、系统、装置及存储介质 第 1 页 专利 文本排序匹配方法、系统、装置及存储介质 第 2 页 专利 文本排序匹配方法、系统、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。