专利一种FAQ问答系统的新问题挖掘方法及终端

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210620506.7 (22)申请日 2022.06.01 (71)申请人长威信息科技发展股份有限公司地址 350000 福建省福州市鼓楼区软件大道89号软件园F区5号楼13层 (72)发明人陈征宇　戴文艳　黄炳裕　林文国　倪坤　黄河　洪章阳　王伟宗　 (74)专利代理机构福州市博深专利事务所(普通合伙) 35214 专利代理师唐燕玲 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称一种FAQ问答系统的新问题挖掘方法及终端 (57)摘要本发明公开一种FA Q问答系统的新问题挖掘方法及终端，获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；当新问题的数量达到第二预设值，则根据相似问题使用改进DEC聚类算法对新问题进行聚类并对预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；根据第三聚类中心向量从新问题中确定一最相似问题，得到新标准问题，并将新标准问题保存至FAQ问答系统的知识库中，不断提高语义向量模型的质量，且通过改进 DEC聚类算法对新问题进行聚类时加入与标准问题对应的相似问题，原始的标准问题向量依然适用，不需要每次微调模型后就对标准问题的聚类中心向量进行全量更新，从而持续性地挖掘新问题以及优化语义向量模型。权利要求书3页说明书9页附图2页 CN 115033669 A 2022.09.09 CN 115033669 A 1.一种FAQ问答系统的新问题挖掘方法，其特征在于，包括步骤：获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC 聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。 2.根据权利要求1所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述获取 FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型之前包括步骤：获取FAQ问答系统的知识库中的标准问题和与所述标准问题对应的答案；将所述标准问题使用预训练的语言模型转换为第一聚类中心向量，并将所述第一聚类中心向量存储至向量检索库中；接收用户问题，并将所述用户问题使用所述预训练的语言模型转换为第二聚类中心向量；将所述第一聚类中心向量与所述第二聚类中心向量两两进行计算，得到多个余弦相似度；判断所述多个余弦相似度中是否存在大于且不等于第一预设值的余弦相似度，若是，则根据所述大于且不等于第一预设值的余弦相似度对应的第一聚类中心向量从所述知识库中确定一目标标准问题以及与所述目标标准问题对应的答案，并将所述用户问题标记为相似问题存储至数据库中，若否，则将所述用户问题标记为新问题存储至数据库中。 3.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述根据所述相似问题使用改进D EC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型包括：从所述相似问题中随机抽取第一预设数量的相似问题，得到相似问题集，并根据所述相似问题集和所述新问题得到问题集；根据所述相似问题集和所述新问题确定聚类个数；使用所述预训练的语言模型初始化改进DEC聚类算法的编码层，并初始化所述聚类个数对应的第四聚类中心向量；通过所述编码层计算所述第四聚类中心向量和所述问题集对应的问题集向量；使用t分布计算所述问题集向量和所述第四聚类中心向量的第一相似性，并将所述第一相似性作为问题集向量分配至所述第四聚类中心向量的概率分布，得到第一概率分布；将所述第一概率分布提高至二次幂后进行归一化，得到目标分布；从所述问题集中随机抽取第二预设数量的问题，得到目标问题集，并计算所述目标问题集向量；使用所述t分布计算所述目标问题集向量和所述第四聚类中心向量的第二相似性，并将所述第二相似性作为目标问题集向量分配至所述第四聚类中心向量的概率分布，得到第二概率分布；计算所述第二概率分布和所述目标分布的KL散度，并使用反向传播梯度更新所述编码层和所述第四聚类中心向量中的第三聚类中心向量，得到更新后的编码层和更新后的第三权　利　要　求　书 1/3 页 2 CN 115033669 A 2聚类中心向量；根据所述更新后的编码层得到优化后的语言模型。 4.根据权利要求3所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述初始化所述聚类个数对应的第四聚类中心向量包括：获取所述相似问题对应的标准问题的所述第一聚类中心向量；使用K‑Means算法计算所述新问题的第三聚类中心向量。 5.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述根据所述相似问题使用改进D EC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型之后包括步骤：获取模型优化次数，并将所述模型优化次数加一，得到更新后的模型优化次数；判断所述更新后的模型优化次数是否达到第三预设值，若是，则随机获取一标准问题，并使用所述预训练的语言模型将所述标准问题转换为第五聚类中心向量，使用所述优化后的语言模型将所述标准问题转换为第六聚类中心向量；计算所述第五聚类中心向量和所述第六聚类中心向量的向量相似度，并判断所述向量相似度是否小于第四预设值，若小于，则使用所述优化后的语言模型返回执行所述将所述标准问题使用预训练的语言模型转换为第一聚类中心向量步骤。 6.一种FAQ问答系统的新问题挖掘终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC 聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。 7.根据权利要求6所述的一种FAQ问答系统的新问题挖掘终端，其特征在于，所述获取 FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型之前包括步骤：获取FAQ问答系统的知识库中的标准问题和与所述标准问题对应的答案；将所述标准问题使用预训练的语言模型转换为第一聚类中心向量，并将所述第一聚类中心向量存储至向量检索库中；接收用户问题，并将所述用户问题使用所述预训练的语言模型转换为第二聚类中心向量；将所述第一聚类中心向量与所述第二聚类中心向量两两进行计算，得到多个余弦相似度；判断所述多个余弦相似度中是否存在大于且不等于第一预设值的余弦相似度，若是，则根据所述大于且不等于第一预设值的余弦相似度对应的第一聚类中心向量从所述知识库中确定一目标标准问题以及与所述目标标准问题对应的答案，并将所述用户问题标记为相似问题存储至数据库中，若否，则将所述用户问题标记为新问题存储至数据库中。 8.根据权利要求7所述的一种FAQ问答系统的新问题挖掘终端，其特征在于，所述根据权　利　要　求　书 2/3 页 3 CN 115033669 A 3

专利 一种FAQ问答系统的新问题挖掘方法及终端

专利一种FAQ问答系统的新问题挖掘方法及终端