说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111668984.7 (22)申请日 2021.12.3 0 (71)申请人 特斯联科技 集团有限公司 地址 101100 北京市通州区滨惠北一 街3号 院1号楼1- 6室 (72)发明人 冯琰一 邹游 张睿 刘跃  (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 李小朋 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种相似问题的确定方法、 装置、 存储介质 及终端 (57)摘要 本发明公开了一种相似问题的确定方法、 装 置、 存储介质及终端, 方法包括: 接收待处理的目 标问题文本; 将目标问题文本输入 预先训练的语 义模型中, 输出目标问题文本对应的目标向量; 根据预先生成的协方差矩 阵参数和目标向量计 算目标问题文本对应的协方差矩阵变换向量; 基 于协方差矩 阵变换向量确定目标问题文本对应 的相似问题。 由于本申请将问题文本转化为句向 量, 并采用预先生成的协方差矩阵参数对句向量 进行协方差矩阵变换, 从而保障了句向量的各向 同性, 即句向量不会因其它影响因子而发生变 化, 进而提升了相似问题推荐的精确度。 权利要求书2页 说明书12页 附图3页 CN 114490926 A 2022.05.13 CN 114490926 A 1.一种相似问题的确定方法, 其特 征在于, 所述方法包括: 接收待处 理的目标问题文本; 将所述目标问题文本输入预先训练 的语义模型中, 输出所述目标问题文本对应的目标 向量; 根据预先生成的协方差矩阵参数和所述目标向量计算所述目标问题文本对应的协方 差矩阵变换向量; 基于所述协方差矩阵变换向量确定所述目标问题文本对应的相似问题。 2.根据权利要求1所述的方法, 其特征在于, 按照以下步骤生成预先训练的语义模型, 包括: 获取bert网络, 并初始化ber t网络的权 重后得到语义模型; 获取无标签数据集和问题文本库, 根据所述无标签数据集和问题文本库对所述语义模 型进行预训练, 得到预训练后的语义模型; 对所述问题文本库中的每 个问题文本构造正样本和负 样本, 生成多个训练样本; 将每个训练样本 输入预训练后的语义模型中, 输出多个样本参数向量; 根据所述多个样本参数向量计算损失值; 当所述损失值到 达预设阈值时, 生成预 先训练的语义模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述无标签数据集和问题文本库 对所述语义模型进行 预训练, 得到预训练后的语义模型, 包括: 将所述无标签数据集中每个无标签数据进行分词处理, 得到每个无标签数据的子词序 列; 将所述无标签数据集输入预设word2vec 网络中进行负采样方式训练, 输出每个词的词 向量; 计算所述子词序列中每个子词与 所述每个词的词向量之间的余弦相似度, 并根据余弦 相似度确定出每 个子词的相似度集 合; 根据所述每个子词的相似度集合将与其对应的子词序列中的词进行替换, 得到最终的 无标签数据; 将最终的无标签数据和所述问题文本库中所有问题句输入所述语义模型中进行训练, 训练结束后得到初始语义模型; 将所述无标签数据集中每个无标签数据与所述问题文本库的所有问题文本随机组合 后输入所述初始语义模型中进行训练, 训练结束后得到预训练后的语义模型。 4.根据权利要求2所述的方法, 其特征在于, 所述预训练后的语义模型包括bert网络、 GRU网络以及池化层; 所述将每 个训练样本 输入预训练后的语义模型中, 输出多个样本参数向量, 包括: 计算所述每 个训练样本中各参数的最终向量; 将所述各参数的最终向量依次输入bert网络、 GRU网络以及池化层, 输出每个样本参数 向量; 生成多个样本参数向量。 5.根据权利要求2所述的方法, 其特征在于, 按照以下步骤得到预先生成的协方差矩阵 参数, 包括:权 利 要 求 书 1/2 页 2 CN 114490926 A 2将所述问题文本库中的所有问题句分别输入所述预先训练 的语义模型中, 输出句向量 集合; 根据预设协方差矩阵变换公式将所述句向量集合中每个句向量进行变换, 得到变换后 的数据协方差矩阵; 求解变换后的数据协方差矩阵, 得到第一 求解参数 μ和第二 求解参数W; 将所述第一 求解参数 μ和第二 求解参数W确定为预 先生成的协方差矩阵参数。 6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 根据所述预先生成的协方差矩阵参数计算所述句向量集合中每个句向量对应的协方 差矩阵变换 结果; 将每个句向量对应的协方差矩阵变换结果保存至数据库, 得到问题库的协方差矩阵变 换结果集。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述协方差矩阵变换向量确定所 述目标问题文本对应的相似问题, 包括: 将所述问题库的协方差矩阵变换 结果集平均分配至预 先设定的多个服 务节点; 计算所述协方差矩阵变换向量与每个服务节点上多个协方差矩阵变换结果之间的余 弦相似度, 生成每 个服务节点对应的多个余弦相似度; 将每个服务节点对应的多个余弦相似度进行排序, 并提取预设数量的余弦相似度, 得 到初始相似度集 合; 将所述初始相似度集合中相似度进行排序, 并提取预设数量的余弦相似度, 得到多个 目标相似度; 将所述多个目标相似度对应的问题文本确定为所述目标问题文本对应的相似问题。 8.一种相似问题的确定装置, 其特 征在于, 所述装置包括: 问题文本 接收模块, 用于 接收待处 理的目标问题文本; 问题文本输入模块, 用于将所述目标问题文本输入预先训练的语义模型中, 输出所述 目标问题文本对应的目标向量; 协方差矩阵变换向量计算模块, 用于根据 预先生成的协方差矩阵参数和所述目标向量 计算所述目标问题文本对应的协方差矩阵变换向量; 相似问题确定模块, 用于基于所述协方差矩阵变换向量确定所述目标问题文本对应的 相似问题。 9.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有多条指令, 所述指令 适于由处 理器加载并执 行如权利要求1 ‑7任意一项的方法步骤。 10.一种终端, 其特征在于, 包括: 处理器和存储器; 其中, 所述存储器存储有计算机程 序, 所述计算机程序适于由所述处 理器加载并执 行如权利要求1 ‑7任意一项的方法步骤。权 利 要 求 书 2/2 页 3 CN 114490926 A 3

.PDF文档 专利 一种相似问题的确定方法、装置、存储介质及终端

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种相似问题的确定方法、装置、存储介质及终端 第 1 页 专利 一种相似问题的确定方法、装置、存储介质及终端 第 2 页 专利 一种相似问题的确定方法、装置、存储介质及终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:42:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。