说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210620506.7 (22)申请日 2022.06.01 (71)申请人 长威信息科技发展股份有限公司 地址 350000 福建省福州市 鼓楼区软件大 道89号软件园F区5号楼13层 (72)发明人 陈征宇 戴文艳 黄炳裕 林文国  倪坤 黄河 洪章阳 王伟宗  (74)专利代理 机构 福州市博深专利事务所(普 通合伙) 35214 专利代理师 唐燕玲 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 一种FAQ问答系统的新问题挖掘方法及终端 (57)摘要 本发明公开一种FA Q问答系统的新问题挖掘 方法及终端, 获取FAQ问答系统对应的新问题的 数量、 相似问题以及预训练的语言模型; 当新问 题的数量达到第二预设值, 则根据相似问题使用 改进DEC聚类算法对新问题进行聚类并对预训练 的语言模型进行优化, 得到第三聚类中心向量以 及优化后的语 言模型; 根据第三聚类中心向量从 新问题中确定一最相似问题, 得到新标准问题, 并将新标准问题保存至FAQ问答系统的知识库 中, 不断提高语义向量模型的质量, 且通过改进 DEC聚类算法对新问题进行聚类时加入与标准问 题对应的相似问题, 原始的标准问题向量依然适 用, 不需要每次微调模型后就对 标准问题的聚类 中心向量进行全量更新, 从而持续性地挖掘新问 题以及优化语义向量模型。 权利要求书3页 说明书9页 附图2页 CN 115033669 A 2022.09.09 CN 115033669 A 1.一种FAQ问答系统的新问题挖掘方法, 其特 征在于, 包括 步骤: 获取FAQ问答系统对应的新问题的数量、 相似问题以及预训练的语言模型; 判断所述新问题的数量是否达到第二预设值, 若是, 则根据所述相似问题使用改进DEC 聚类算法对所述新问题进 行聚类并对所述预训练的语言模型进行优化, 得到第三聚类中心 向量以及优化后的语言模型; 根据所述第三聚类中心向量从所述新问题中确定一最相似问题, 得到新标准问题, 并 将所述新标准问题保存至所述FAQ问答系统的知识库中。 2.根据权利要求1所述的一种FAQ问答系统的新问题挖掘方法, 其特征在于, 所述获取 FAQ问答系统对应的新问题的数量、 相似问题以及预训练的语言模型之前包括 步骤: 获取FAQ问答系统的知识库中的标准问题和与所述标准问题对应的答案; 将所述标准问题使用预训练 的语言模型转换为第 一聚类中心向量, 并将所述第 一聚类 中心向量存 储至向量检索库中; 接收用户问题, 并将所述用户问题使用所述预训练 的语言模型转换为第 二聚类中心向 量; 将所述第一聚类中心向量与 所述第二聚类中心向量两两进行计算, 得到多个余弦相似 度; 判断所述多个余弦相似度中是否存在大于且不等于第一预设值的余弦相似度, 若是, 则根据所述大于且不等于第一预设值的余弦相似度对应的第一聚类中心向量从所述知识 库中确定一目标标准问题以及与所述目标标准问题对应的答案, 并将所述用户问题标记为 相似问题存 储至数据库中, 若否, 则将所述用户问题标记为 新问题存 储至数据库中。 3.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法, 其特征在于, 所述根据 所述相似问题使用改进D EC聚类算法对所述新问题进 行聚类并对所述预训练的语 言模型进 行优化, 得到第三聚类中心向量以及优化后的语言模型包括: 从所述相似问题中随机抽取第一预设数量的相似问题, 得到相似问题集, 并根据所述 相似问题集和所述 新问题得到问题集; 根据所述相似问题集和所述 新问题确定聚类 个数; 使用所述预训练的语言模型初始化改进DEC聚类算法的编码层, 并初始化所述聚类个 数对应的第四聚类中心向量; 通过所述编码层计算所述第四聚类中心向量和所述问题集对应的问题集向量; 使用t分布计算所述问题集向量和所述第 四聚类中心向量的第一相似性, 并将所述第 一相似性作为问题集向量分配至所述第四聚类中心向量的概 率分布, 得到第一 概率分布; 将所述第一 概率分布提高至二次幂后进行归一 化, 得到目标分布; 从所述问题集中随机抽取第二预设数量的问题, 得到目标问题集, 并计算所述目标问 题集向量; 使用所述t分布计算所述目标问题集向量和所述第 四聚类中心向量的第二相似性, 并 将所述第二相似性作为目标问题集向量分配至所述第四聚类中心向量的概率分布, 得到第 二概率分布; 计算所述第 二概率分布和所述目标分布的KL散度, 并使用反向传播梯度 更新所述编码 层和所述第四聚类中心向量中的第三聚类中心向量, 得到更新后的编 码层和更新后的第三权 利 要 求 书 1/3 页 2 CN 115033669 A 2聚类中心向量; 根据所述更新后的编码层得到优化后的语言模型。 4.根据权利要求3所述的一种FAQ问答系统的新问题挖掘方法, 其特征在于, 所述初始 化所述聚类 个数对应的第四聚类中心向量包括: 获取所述相似问题对应的标准问题的所述第一聚类中心向量; 使用K‑Means算法计算所述 新问题的第三聚类中心向量。 5.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法, 其特征在于, 所述根据 所述相似问题使用改进D EC聚类算法对所述新问题进 行聚类并对所述预训练的语 言模型进 行优化, 得到第三聚类中心向量以及优化后的语言模型之后包括 步骤: 获取模型优化次数, 并将所述模型优化次数加一, 得到更新后的模型优化次数; 判断所述更新后的模型优化 次数是否达到第三预设值, 若是, 则随机获取一标准问题, 并使用所述预训练的语言模型将所述标准问题转换为第五聚类中心向量, 使用所述优化后 的语言模型将所述标准问题转换为第六聚类中心向量; 计算所述第五聚类中心向量和所述第六聚类中心向量的向量相似度, 并判断所述向量 相似度是否小于第四预设值, 若小于, 则使用所述优化后的语言模型返回执行所述将所述 标准问题使用预训练的语言模型转换为第一聚类中心向量 步骤。 6.一种FAQ问答系统 的新问题挖掘终端, 包括存储器、 处理器及存储在存储器上并可在 所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现以 下步骤: 获取FAQ问答系统对应的新问题的数量、 相似问题以及预训练的语言模型; 判断所述新问题的数量是否达到第二预设值, 若是, 则根据所述相似问题使用改进DEC 聚类算法对所述新问题进 行聚类并对所述预训练的语言模型进行优化, 得到第三聚类中心 向量以及优化后的语言模型; 根据所述第三聚类中心向量从所述新问题中确定一最相似问题, 得到新标准问题, 并 将所述新标准问题保存至所述FAQ问答系统的知识库中。 7.根据权利要求6所述的一种FAQ问答系统的新问题挖掘终端, 其特征在于, 所述获取 FAQ问答系统对应的新问题的数量、 相似问题以及预训练的语言模型之前包括 步骤: 获取FAQ问答系统的知识库中的标准问题和与所述标准问题对应的答案; 将所述标准问题使用预训练 的语言模型转换为第 一聚类中心向量, 并将所述第 一聚类 中心向量存 储至向量检索库中; 接收用户问题, 并将所述用户问题使用所述预训练 的语言模型转换为第 二聚类中心向 量; 将所述第一聚类中心向量与 所述第二聚类中心向量两两进行计算, 得到多个余弦相似 度; 判断所述多个余弦相似度中是否存在大于且不等于第一预设值的余弦相似度, 若是, 则根据所述大于且不等于第一预设值的余弦相似度对应的第一聚类中心向量从所述知识 库中确定一目标标准问题以及与所述目标标准问题对应的答案, 并将所述用户问题标记为 相似问题存 储至数据库中, 若否, 则将所述用户问题标记为 新问题存 储至数据库中。 8.根据权利要求7所述的一种FAQ问答系统的新问题挖掘终端, 其特征在于, 所述根据权 利 要 求 书 2/3 页 3 CN 115033669 A 3

.PDF文档 专利 一种FAQ问答系统的新问题挖掘方法及终端

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种FAQ问答系统的新问题挖掘方法及终端 第 1 页 专利 一种FAQ问答系统的新问题挖掘方法及终端 第 2 页 专利 一种FAQ问答系统的新问题挖掘方法及终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。