专利搜索结果的排序方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210774652.5 (22)申请日 2022.07.01 (71)申请人网易（杭州）网络有限公司地址 310000 浙江省杭州市滨江区长河街道网商路59 9号4幢7层 (72)发明人陈武亚　林悦　 (74)专利代理机构北京市京大律师事务所 11321 专利代理师胡安 (51)Int.Cl. G06F 7/08(2006.01) G06F 16/903(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称搜索结果的排序方法、装置及电子设备 (57)摘要本发明提供了一种搜索结果的排序方法、装置及电子设备，获取目标搜索问题对应的多个搜索结果后，将目标搜索问题及对应的多个搜索结果输入至预先训练的排序模型，通过排序模型提取目标搜索问题及多个搜索结果的语义特征向量；基于目标搜索问题及多个搜索结果的语义特征向量，确定多个搜索结果的排序结果。上述方式采用通过包括问题的答案的正样本及多个负样本训练得到的基于自编码语言模型建立的排序模型对搜索结果进行排序，该排序模型能够输出准确地表征搜索结果的语义特征的排序特征向量，从而提高对搜索结果的排序的合理性。权利要求书3页说明书14页附图3页 CN 115328434 A 2022.11.11 CN 115328434 A 1.一种搜索结果的排序方法，其特征在于，所述方法包括：获取目标搜索问题对应的多个搜索结果；将所述目标搜索问题及对应的多个搜索结果输入至预先训练的排序模型，通过所述排序模型提取所述目标搜索问题及所述多个搜索结果的语义特征向量；其中，所述排序模型基于自编码语言模型建立；所述排序模型通过多个包括样本问题、所述样本问题对应的正样本及多个负样本的训练数据训练得到；所述正样本包括所述目标搜索问题的答案；基于所述目标搜索问题及所述多个搜索结果的语义特征向量，确定多个搜索结果的排序结果。 2.根据权利要求1所述的方法，其特征在于，所述排序模型通过以下方式训练；从预先构造的样本数据中确定训练数据；所述训练数据包括样本问题、所述样本问题对应的正样本及多个负样本；所述正样本包括所述样本问题的答案；将所述训练数据输入至初始模型，通过所述初始模型确定所述训练数据中的所述样本问题、所述正样本及所述负样本的语义特征；所述初始模型基于自编码语言模型建立；基于所述样本问题、所述正样本及所述负样本的语义特征，计算所述初始模型的损失值；基于所述损失值更新所述初始模型的模型参数；继续执行从所述样本数据中确定训练数据的步骤，直至所述损失值收敛，将损失值收敛后的初始模型确定为排序模型。 3.根据权利要求2所述的方法，其特征在于，所述样本数据通过以下方式构造，包括：从预先获取的公开数据集中查找包含问题及所述问题的答案的文档数据，将查找到的文档数据确定为所述问题对应的正样本，将所述问题确定为样本问题；所述公开数据集包括多个文档数据；确定所述正样本与所述公开数据集中除所述正样本的文档数据的相似度；将所述公开数据集中除所述正样本的文档数据中满足预设条件的多个文档数据确定为所述样本问题对应的多个负样本；所述预设条件包括：所述文档数据中不包括所述问题的答案，且所述正样本与所述文档数据的相似度满足设定的相似度排序条件。 4.根据权利要求3所述的方法，其特征在于，确定所述正样本与所述公开数据集中除所述正样本的文档数据的相似度的步骤，包括：基于预设的粗粒度语义理解模型对所述问题及所述公开数据集中的多个文档数据进行编码处理，确定所述问题及所述文档数据的粗粒度语义特征向量；基于所述公开数据集中除所述正样本的文档数据的粗粒度语义特征向量与所述问题的粗粒度语义特征向量，计算所述问题与所述公开数据集中除所述正样本的文档数据的相似度。 5.根据权利要求3所述的方法，其特征在于，所述相似度排序条件包括：所述公开数据集中除所述正样本的文档数据在基于所述文档数据的相似度生成的排序结果中的排序位置小于或等于预设的目标位置；将所述公开数据集中除所述正样本的文档数据中满足预设条件的多个文档数据确定为所述问题对应的多个负样本的步骤，包括：针对所述公开数据集中除所述正样本的每个文档数据，判断所述文档数据中是否包括所述问题的答案；权　利　要　求　书 1/3 页 2 CN 115328434 A 2如果不包括，确定所述文档数据为待选负样本；按照所述相似度从高到低的排序方式对所述待选负样本进行排序处理，得到排序结果；将在所述排序结果中的排序位置小于或等于预设的目标位置的待选负样本确定为所述问题对应的负样本。 6.根据权利要求2所述的方法，其特征在于，多个所述负样本包括困难负样本及简单负样本；所述困难负样本为多个所述负样本中与所述正样本的相似度最高的负样本；所述简单负样本包括多个所述负样本中除所述困难负样本的负样本；所述负样本中与所述正样本的相似度基于所述负样本的粗粒度语义特征向量与所述正样本的粗粒度语义特征向量计算得到；基于所述样本问题、所述正样本及所述负样本的语义特征向量，计算所述初始模型的损失值的步骤，包括：基于所述样本问题、所述正样本及所述困难负样本的语义特征向量，计算第一损失值；基于所述样本问题、所述正样本及所述简单负样本的语义特征向量，计算第二损失值；基于所述第一损失值及对应的第一预设权重、所述第二损失值及对应的第二预设权重，计算所述初始模型的损失值。 7.根据权利要求6所述的方法，其特征在于，基于所述样本问题、所述正样本及所述困难负样本的语义特征向量，计算第一损失值的步骤，包括：基于配对算法的损失函数对所述样本问题、所述正样本及所述困难负样本的语义特征向量进行计算，得到第一损失值。 8.根据权利要求6所述的方法，其特征在于，基于所述样本问题、所述正样本及所述简单负样本的语义特征向量，计算第二损失值的步骤，包括：基于对比学习算法的损失函数对所述样本问题、所述正样本及所述简单负样本的语义特征向量进行计算，得到第二损失值。 9.根据权利要求1所述的方法，其特征在于，基于所述目标搜索问题及所述多个搜索结果的语义特征向量，确定多个搜索结果的排序结果的步骤，包括：针对每个搜索结果，基于所述目标搜索问题及所述搜索结果的语义特征向量，计算所述目标搜索问题与所述搜索结果的语义相关度；按照所述语义相关度从高到低的排序方式对所述多个搜索结果进行排序，得到多个搜索结果的排序结果。 10.一种搜索结果的排序装置，其特征在于，所述装置包括：搜索结果获取模块，用于获取目标搜索问题对应的多个搜索结果；特征提取模块，用于将所述目标搜索问题及对应的多个搜索结果输入至预先训练的排序模型，通过所述排序模型提取所述目标搜索问题及所述多个搜索结果的语义特征向量；其中，所述排序模型基于自编码语言模型建立；所述排序模型通过多个包括样本问题、所述样本问题对应的正样本及多个负样本的训练数据训练得到；所述正样本包括所述目标搜索问题的答案；排序结果确定模块，用于基于所述目标搜索问题及所述多个搜索结果的语义特征向量，确定多个搜索结果的排序结果。权　利　要　求　书 2/3 页 3 CN 115328434 A 3

专利 搜索结果的排序方法、装置及电子设备

专利搜索结果的排序方法、装置及电子设备