说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210774652.5 (22)申请日 2022.07.01 (71)申请人 网易 (杭州) 网络有限公司 地址 310000 浙江省杭州市滨江区长河街 道网商路59 9号4幢7层 (72)发明人 陈武亚 林悦  (74)专利代理 机构 北京市京大律师事务所 11321 专利代理师 胡安 (51)Int.Cl. G06F 7/08(2006.01) G06F 16/903(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 搜索结果的排序方法、 装置及电子设备 (57)摘要 本发明提供了一种搜索结果的排序方法、 装 置及电子设备, 获取目标搜索问题对应的多个搜 索结果后, 将目标搜索问题及对应的多个搜索结 果输入至 预先训练的排序模型, 通过排序模型提 取目标搜索问题及多个搜索结果的语义特征向 量; 基于目标搜索问题及多个搜索结果的语义特 征向量, 确定多个搜索结果的排序结果。 上述方 式采用通过包括问题的答案的正样本及多个负 样本训练得到的基于自编码语言模型建立的排 序模型对搜索结果进行排序, 该排序模型能够输 出准确地表征搜索结果的语义特征的排序特征 向量, 从而提高对搜索结果的排序的合理性。 权利要求书3页 说明书14页 附图3页 CN 115328434 A 2022.11.11 CN 115328434 A 1.一种搜索结果的排序方法, 其特 征在于, 所述方法包括: 获取目标搜索问题对应的多个搜索结果; 将所述目标搜索问题及对应的多个搜索结果输入至预先训练的排序模型, 通过所述排 序模型提取所述目标搜索问题及所述多个搜索结果的语义特征向量; 其中, 所述排序模型 基于自编码语言模型建立; 所述排序模型通过多个包括样本 问题、 所述样本 问题对应的正 样本及多个负 样本的训练数据训练得到; 所述 正样本包括所述目标搜索问题的答案; 基于所述目标搜索问题及所述多个搜索结果的语义特征向量, 确定多个搜索结果的排 序结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述 排序模型通过以下 方式训练; 从预先构造的样本数据中确定训练数据; 所述训练数据包括样本问题、 所述样本问题 对应的正样本及多个负 样本; 所述 正样本包括所述样本问题的答案; 将所述训练数据输入至初始模型, 通过所述初始模型确定所述训练数据中的所述样本 问题、 所述 正样本及所述负 样本的语义特 征; 所述初始模型基于自编码语言模型建立; 基于所述样本问题、 所述正样本及所述负样本的语义特征, 计算所述初始模型的损 失 值; 基于所述损失值更新所述初始模型的模型参数; 继续执行从所述样本数据中确定训练 数据的步骤, 直至所述损失值收敛, 将损失值收敛后的初始模型确定为 排序模型。 3.根据权利要求2所述的方法, 其特 征在于, 所述样本数据通过以下 方式构造, 包括: 从预先获取的公开数据集中查找包含问题及所述问题的答案的文档数据, 将查找到的 文档数据确定为所述问题对应的正样本, 将所述问题确定为样本 问题; 所述公开数据集包 括多个文档数据; 确定所述 正样本与所述公开数据集中除所述 正样本的文档数据的相似度; 将所述公开数据集中除所述正样本的文档数据中满足预设条件的多个文档数据确定 为所述样本 问题对应的多个负样本; 所述预设条件包括: 所述文档数据中不包括所述问题 的答案, 且所述 正样本与所述文档数据的相似度满足设定的相似度排序条件。 4.根据权利要求3所述的方法, 其特征在于, 确定所述正样本与 所述公开数据集中除所 述正样本的文档数据的相似度的步骤, 包括: 基于预设的粗粒度语义理解模型对所述问题及所述公开数据集中的多个文档数据进 行编码处 理, 确定所述问题及所述文档数据的粗粒度语义特 征向量; 基于所述公开数据集中除所述正样本的文档数据的粗粒度语义特征向量与所述问题 的粗粒度语义特征向量, 计算所述问题与所述公开数据集中除所述正样本的文档数据的相 似度。 5.根据权利要求3所述的方法, 其特征在于, 所述相似度排序条件包括: 所述公开数据 集中除所述正样本的文档数据在基于所述文档数据的相似度生成的排序结果中的排序位 置小于或等于预设的目标位置; 将所述公开数据集中除所述正样本的文档数据中满足预设条件的多个文档数据确定 为所述问题对应的多个负 样本的步骤, 包括: 针对所述公开数据集中除所述正样本的每个文档数据, 判断所述文档数据中是否包括 所述问题的答案;权 利 要 求 书 1/3 页 2 CN 115328434 A 2如果不包括, 确定所述文档数据为待选负 样本; 按照所述相似度从高到低的排序方式对所述待选负样本进行排序处理, 得到排序结 果; 将在所述排序结果中的排序位置小于或等于预设的目标位置的待选负样本确定为所 述问题对应的负 样本。 6.根据权利要求2所述的方法, 其特征在于, 多个所述负样本包括困难负样本及简单负 样本; 所述困难负样本为多个所述负样本中与所述正样本的相似度最高的负样本; 所述简 单负样本包括多个所述负样本中除所述困难负样本的负样本; 所述负样本中与所述正样本 的相似度基于所述负样本的粗粒度语义特征向量与所述正样本的粗粒度语义特征向量计 算得到; 基于所述样本问题、 所述正样本及所述负样本的语义特征向量, 计算所述初始模型的 损失值的步骤, 包括: 基于所述样本问题、 所述 正样本及所述困难负 样本的语义特 征向量, 计算第一损失值; 基于所述样本问题、 所述 正样本及所述简单负 样本的语义特 征向量, 计算第二损失值; 基于所述第一损失值及对应的第一预设权重、 所述第二损失值及对应的第二预设权 重, 计算所述初始模型的损失值。 7.根据权利要求6所述的方法, 其特征在于, 基于所述样本问题、 所述正样本及所述困 难负样本的语义特 征向量, 计算第一损失值的步骤, 包括: 基于配对算法的损失函数对所述样本问题、 所述正样本及所述困难负样本的语义特征 向量进行计算, 得到第一损失值。 8.根据权利要求6所述的方法, 其特征在于, 基于所述样本问题、 所述正样本及所述简 单负样本的语义特 征向量, 计算第二损失值的步骤, 包括: 基于对比学习算法的损失函数对所述样本问题、 所述正样本及所述简单负样本的语义 特征向量进行计算, 得到第二损失值。 9.根据权利要求1所述的方法, 其特征在于, 基于所述目标搜索问题及所述多个搜索结 果的语义特 征向量, 确定多个搜索结果的排序结果的步骤, 包括: 针对每个搜索结果, 基于所述目标搜索 问题及所述搜索结果的语义特征向量, 计算所 述目标搜索问题与所述搜索结果的语义相关度; 按照所述语义相关度从高到低的排序方式对所述多个搜索结果进行排序, 得到多个搜 索结果的排序结果。 10.一种搜索结果的排序装置, 其特 征在于, 所述装置包括: 搜索结果获取模块, 用于获取目标搜索问题对应的多个搜索结果; 特征提取模块, 用于将所述目标搜索问题及对应的多个搜索结果输入至预先训练的排 序模型, 通过所述排序模型提取所述 目标搜索问题及所述多个搜索结果的语义特征向量; 其中, 所述排序模型基于自编码语 言模型建立; 所述排序模型通过多个包括样本问题、 所述 样本问题对应的正样本及多个负样本的训练数据训练得到; 所述正样本包括所述目标搜索 问题的答案; 排序结果确定模块, 用于基于所述目标搜索问题及所述多个搜索结果的语义特征向 量, 确定多个搜索结果的排序结果。权 利 要 求 书 2/3 页 3 CN 115328434 A 3

.PDF文档 专利 搜索结果的排序方法、装置及电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 搜索结果的排序方法、装置及电子设备 第 1 页 专利 搜索结果的排序方法、装置及电子设备 第 2 页 专利 搜索结果的排序方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。