专利无监督的语义检索方法、装置及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210731418.4 (22)申请日 2022.06.24 (71)申请人北京京东方技术开发有限公司地址 100176 北京市大兴区北京经济技术开发区地泽路9号1幢407室申请人京东方科技集团股份有限公司 (72)发明人欧歌　姜博然　冀潮　沈鸿翔　 (74)专利代理机构北京安信方达知识产权代理有限公司 1 1262 专利代理师解婷婷　曲鹏 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称无监督的语义检索方法、装置及计算机可读存储介质 (57)摘要本公开实施例提供了一种无监督的语义检索方法，装置及存储介质，所述方法包括：采用预训练语言模型获取待查询语句的第一嵌入向量以及检索集中每个检索项的第二嵌入向量；采用白化操作分别对所述第一嵌入向量和多个第二嵌入向量进行优化，得到优化后的第一嵌入向量和多个第二嵌入向量；分别计算优化后的第一嵌入向量与每个优化后的第二嵌入向量的相似度值，输出相似度值最大的多个第二嵌入向量对应的多个检索项作为检索结果。本公开实施例方法无需人工标注数据过程，不对模型进行训练，即可实现语义检索功能，并且通过优化预训练语言模型的嵌入向量，可以得到较好的检索性能。权利要求书1页说明书8页附图2页 CN 115017267 A 2022.09.06 CN 115017267 A 1.一种无监督的语义检索方法，其特征在于，包括：采用预训练语言模型获取待查询语句的第一嵌入向量以及检索集中每个检索项的第二嵌入向量；采用白化操作分别对所述第一嵌入向量和多个第二嵌入向量进行优化，得到优化后的第一嵌入向量和多个第二嵌入向量；分别计算优化后的第一嵌入向量与每个优化后的第二嵌入向量的相似度值，输出相似度值最大的多个第二嵌入向量对应的多个检索项作为检索结果。 2.根据权利要求1所述的方法，其特征在于，所述预训练语言模型为BERT模型、 ALBERT 模型或RoBERTa模型。 3.根据权利要求1所述的方法，其特征在于，采用以下方式获得所述检索集：利用关键词提取算法提取待查询语句的关键词，利用所述关键词通过模糊查询方法从所有检索项中搜索出检索集。 4.根据权利要求3所述的方法，其特征在于，所述关键词提取算法为TF ‑IDF模型。 5.根据权利要求1所述的方法，其特征在于，在得到优化后的第一嵌入向量和多个第二嵌入向量后，所述方法还包括：利用自编码器对优化后的第一嵌入向量以及多个第二嵌入向量进行降维处理。 6.根据权利要求5所述的方法，其特征在于，所述自编码器包括输入层，三层隐藏层和输出层，其中第二隐藏层的输出为所述自编码器的输出。 7.根据权利要求6所述的方法，其特征在于，所述输入层的维度为768，第一隐藏层的维度为512，第二隐藏层的维度为25 6，第三隐藏层的维度为512，输出层的维度为768。 8.根据权利要求6所述的方法，其特征在于，所述输入层、三层隐藏层和输出层均为全连接层。 9.一种无监督的语义检索装置，包括处理器以及存储有可在处理器上运行的计算机程序的存储器，其中，所述处理器执行所述程序时实现如权利要求1至8中任一项所述无监督的语义检索方法的步骤。 10.一种计算机可读存储介质，其特征在于，其上存储有可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求 1至8中任一项所述无监督的语义检索方法的步骤。权　利　要　求　书 1/1 页 2 CN 115017267 A 2无监督的语义检索方法、装置及计算机可读存储介质技术领域 [0001]本公开实施例涉及数据处理技术领域，具体涉及一种无监督的语义检索方法、装置及计算机可读存储介质。背景技术 [0002]语义检索是指通过正确分析语法格式，在理解词语的准确意思和词语之间关系的条件下，检索系统根据要求从语义层面上自动从信息源中查询和提取有关信息的过程。用户可以输入语句来描述想要搜索的内容，而不再局限于多个关键词，语义检索模型会分析输入语句的语义信息来返回与用户输入内容最相近的文档集合。通常采用计算查询语句与文档集合的相似度来对查询结果进行排序。一种方法是利用标注好的数据对检索模型进行训练，得到训练好的检索模型用于实际的搜索系统中。但这种方法需要大量的人工标注过程，即通过获取海量的用户检索数据，人工标注相似的数据并打上标签，才能使检索模型有个比较高的精度。发明内容 [0003]本公开实施例提供一种无监督的语义检索方法、装置及计算机可读存储介质，解决现有技术需要人工标注训练检索模型，效率低、成本高的问题。 [0004]一方面，本公开实施例提供了一种无监督的语义检索方法，包括： [0005]采用预训练语言模型获取待查询语句的第一嵌入向量以及检索集中每个检索项的第二嵌入向量； [0006]采用白化操作分别对所述第一嵌入向量和多个第二嵌入向量进行优化，得到优化后的第一嵌入向量和多个第二嵌入向量； [0007]分别计算优化后的第一嵌入向量与每个优化后的第二嵌入向量的相似度值，输出相似度值最大的多个第二嵌入向量对应的多个检索项作为检索结果。 [0008]另一方面，本公开实施例还提供了一种无监督的语义检索装置，包括处理器以及存储有可在处理器上运行的计算机程序的存储器，其中，所述处理器执行所述程序时实现上述无监督的语义检索方法的步骤。 [0009]再一方面，本公开实施例还提供了一种计算机可读存储介质，存储有可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时用于实现上述无监督的语义检索方法。 [0010]本公开实施例提供的方法，利用预训练语言模型获取查询语句与检索文档的嵌入向量，通过白化操作来对该嵌入向量进行优化，将嵌入向量分布转化为光滑的、各向同性的高斯分布，利用优化后的嵌入向量来计算查询语句与检索文档的语义相似度，实现检索结果的排序，本公开实施例采用无监督的方法避免了大量的人工标注数据工作，即无需人工标注数据过程，不对模型进行训练，即可实现语义检索功能，并且通过优化预训练语言模型的嵌入向量，从而得到较好的检索性能。说　明　书 1/8 页 3 CN 115017267 A 3

专利 无监督的语义检索方法、装置及计算机可读存储介质

专利无监督的语义检索方法、装置及计算机可读存储介质