说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210731418.4 (22)申请日 2022.06.24 (71)申请人 北京京东方技 术开发有限公司 地址 100176 北京市大兴区北京经济技 术 开发区地 泽路9号1幢407室 申请人 京东方科技 集团股份有限公司 (72)发明人 欧歌 姜博然 冀潮 沈鸿翔  (74)专利代理 机构 北京安信方达知识产权代理 有限公司 1 1262 专利代理师 解婷婷 曲鹏 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 无监督的语义检索方法、 装置及计算机可读 存储介质 (57)摘要 本公开实施例提供了一种无监督的语义检 索方法, 装置及存储介质, 所述方法包括: 采用预 训练语言模型获取待查询语句的第一嵌入向量 以及检索集中每个检索项的第二嵌入向量; 采用 白化操作分别对所述第一嵌入向量和多个第二 嵌入向量进行优化, 得到优化后的第一嵌入向量 和多个第二嵌入向量; 分别计算优化后的第一嵌 入向量与每个优化后的第二嵌入向量的相似度 值, 输出相似度值最大的多个第二嵌入向量对应 的多个检索项作为检索结果。 本公开实施例方法 无需人工标注数据过程, 不对模型进行训练, 即 可实现语义检索功能, 并且通过优化预训练语言 模型的嵌入向量, 可以得到 较好的检索性能。 权利要求书1页 说明书8页 附图2页 CN 115017267 A 2022.09.06 CN 115017267 A 1.一种无监 督的语义检索方法, 其特 征在于, 包括: 采用预训练语言模型获取待查询语句的第一嵌入向量以及检索集中每个检索项的第 二嵌入向量; 采用白化操作分别对所述第 一嵌入向量和多个第 二嵌入向量进行优化, 得到优化后的 第一嵌入向量和多个第二嵌入向量; 分别计算优化后的第 一嵌入向量与每个优化后的第 二嵌入向量的相似度值, 输出相似 度值最大的多个第二嵌入向量对应的多个 检索项作为检索结果。 2.根据权利要求1所述的方法, 其特征在于, 所述预训练语言模型为BERT模型、 ALBERT 模型或RoBERTa模型。 3.根据权利要求1所述的方法, 其特 征在于, 采用以下 方式获得 所述检索集: 利用关键词提取算法提取待查询语句的关键词, 利用所述关键词通过模糊查询方法从 所有检索项中搜索出检索集。 4.根据权利要求3所述的方法, 其特 征在于, 所述关键词提取算法为TF ‑IDF模型。 5.根据权利要求1所述的方法, 其特征在于, 在得到优化后的第 一嵌入向量和多个第 二 嵌入向量后, 所述方法还 包括: 利用自编码器对 优化后的第一嵌入向量以及多个第二嵌入向量进行降维处 理。 6.根据权利要求5所述的方法, 其特征在于, 所述自编码器包括输入层, 三层隐藏层和 输出层, 其中第二隐藏层的输出为所述自编码器的输出。 7.根据权利要求6所述的方法, 其特征在于, 所述输入层的维度为768, 第一隐藏层的维 度为512, 第二隐藏层的维度为25 6, 第三隐藏层的维度为512, 输出层的维度为768。 8.根据权利要求6所述的方法, 其特 征在于, 所述输入层、 三层隐藏层和输出层均为全连接层。 9.一种无监督的语义检索装置, 包括处理器以及存储有可在处理器上运行的计算机程 序的存储器, 其中, 所述处理器执行所述程序时实现如权利要求1至8中任一项所述无监督 的语义检索方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 其上存储有可在处理器上运行的计算机程 序, 所述计算机程序被所述处理器执行时实现如权利要求 1至8中任一项 所述无监督的语义 检索方法的步骤。权 利 要 求 书 1/1 页 2 CN 115017267 A 2无监督的语 义检索方 法、 装置及计算机可 读存储介质 技术领域 [0001]本公开实施例 涉及数据处理技术领域, 具体涉及一种无监督的语义检索方法、 装 置及计算机可读存 储介质。 背景技术 [0002]语义检索是指通过正确分析语法格式, 在理解词语的准确意思和词语之间关系的 条件下, 检索系统根据要求从语义层面上自动 从信息源中查询和 提取有关信息的过程。 用 户可以输入语句来描述想要搜索的内容, 而不再局限于多个关键词, 语义检索模型会分析 输入语句的语义信息来返回与用户输入内容最相近的文档集合。 通常采用计算查询语句与 文档集合的相似度来对查询结果进行排序。 一种方法是利用标注好的数据对检索 模型进行 训练, 得到训练好的检索模型用于实际的搜索系统中。 但这种 方法需要大量的人工标注过 程, 即通过获取海量的用户检索数据, 人工标注相似的数据并打上标签, 才能使检索 模型有 个比较高的精度。 发明内容 [0003]本公开实施例提供一种无监督的语义检索方法、 装置及计算机可读存储介质, 解 决现有技 术需要人工标注训练检索模型, 效率低、 成本高的问题。 [0004]一方面, 本公开实施例提供了一种无监 督的语义检索方法, 包括: [0005]采用预训练语言模型获取待查询语句的第一嵌入向量以及检索集中每个检索项 的第二嵌入向量; [0006]采用白化操作分别对所述第一嵌入向量和多个第二嵌入向量进行优化, 得到优化 后的第一嵌入向量和多个第二嵌入向量; [0007]分别计算优化后的第一嵌入向量与每个优化后的第二嵌入向量的相似度值, 输出 相似度值 最大的多个第二嵌入向量对应的多个 检索项作为检索结果。 [0008]另一方面, 本公开实施例还提供了一种无监督的语义检索装置, 包括处理器以及 存储有可在处理器上运行 的计算机程序的存储器, 其中, 所述处理器执行所述程序时实现 上述无监 督的语义检索方法的步骤。 [0009]再一方面, 本公开实施例还提供了一种计算机可读存储介质, 存储有可在处理器 上运行的计算机程序, 所述计算机程序被所述处理器执行时用于实现上述无监督的语义检 索方法。 [0010]本公开实施例提供的方法, 利用预训练语言模型获取查询语句与检索文档的嵌入 向量, 通过白化操作来对该嵌入向量进 行优化, 将嵌入向量分布转化为光滑的、 各向 同性的 高斯分布, 利用优化后的嵌入向量来计算查询 语句与检索文档的语义相似度, 实现检索结 果的排序, 本公开实施例采用无监督的方法避免了大量的人工标注数据工作, 即无需人工 标注数据过程, 不对模型进 行训练, 即可实现语义检索功能, 并且通过优化预训练语言模型 的嵌入向量, 从而得到较好的检索性能。说 明 书 1/8 页 3 CN 115017267 A 3

.PDF文档 专利 无监督的语义检索方法、装置及计算机可读存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 无监督的语义检索方法、装置及计算机可读存储介质 第 1 页 专利 无监督的语义检索方法、装置及计算机可读存储介质 第 2 页 专利 无监督的语义检索方法、装置及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。