专利一种基于深度学习的自动化问答方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633958.0 (22)申请日 2021.12.2 9 (71)申请人南京视察者智能科技有限公司地址 210014 江苏省南京市秦淮区永智路6 号南京白下高新技术产业园区四号楼 A栋102室 (72)发明人熊林海　 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/268(2020.01) G06F 40/30(2020.01) G06F 16/951(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的自动化问答方法 (57)摘要本发明公开了一种基于深度学习的自动化问答方法，该方法包括：步骤1，构建问答源数据库，步骤2，利用所有问答数据对构建社会治理领域语料库，采用深度神经网络LS TM训练出语言模型LSTMlm，步骤3，利用步骤2的同义词库自动增加问答对，扩张源数据库，步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签，步骤 5，设计问答系统，接受用户的输入问题，对用户的问题进行理解，步骤6，在步骤5得到的分类下匹配最相似问题，返回对应的答案展示给用户。通过构建社会治理领域同义词库，扩张源数据库，来提高匹配准确率，通过利用BERT分类模型将问题自动分类，实现对问题的精准理解，进而实现完全自动化问答。权利要求书2页说明书5页附图1页 CN 114416942 A 2022.04.29 CN 114416942 A 1.一种基于深度学习的自动化问答方法，其特征在于，该方法主要包括如下步骤：步骤1，构建问答源数据库，从省、市、区级便民问答社区官网爬取社会治理相关的问答数据对，利用多线程分布式爬取后，做文本预处理并将其存入源数据库，构造问题训练集；步骤2，利用所有问答数据对构建社会治理领域语料库，基于社会治理领域语料库，采用深度神经网络LSTM训练出语言模型LSTMlm；基于社会治理领域语料库，构建社会治理领域同义词库：利用百度LAC分词算法将步骤 1采集到的问答数据对自动分词，加入领域词库形成社会治理领域词汇，再对所有单词创建同义词集合，并用层次图表示各个单词的关系，定义单词之间的联系；步骤3，利用步骤2的同义词库自动增加问答对，扩张源数据库；利用百度LAC分词算法将问题问句自动分词，并用词性标注工具进行词性自动标注，然后通过同义词库将问句进行扩展，构造该问题的相似问句并存入源数据库中；步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签；对问答系统需要支撑的业务数据进行分析并设计文本标注系统，首先将问题训练集根据实际业务场景需求进行分类，利用BERT分类模型首先将问题自动分类，标注人员进入标注系统可以按分类来进行标注，问答系统中的纠错模型自动提示错误点，标注人员审核修改并确认，对于不合理的问题和答案，标注人员修改或补充，同时相似度模型自动匹配法律依据，标注人员可审核或修改；标注系统自动将标注后的数据存入标签数据库；步骤5，设计问答系统，接受用户的输入问题，对用户的问题进行理解，对用户的问题先进行分类：对用户输入的问题先用百度LAC 分词进行分词，并利用关键词抽取模型抽取关键词，利用BERT分类模型定位到对应的分类，具体为：先用BERT分类模型进行初始分类，设置概率阈值D，若大于D的分类只有一个，即能直接确定某一类则直接结束，否则选取概率较大的前n类；统计用户问题中词的出现占比，记A1， A2,...,Aa为输入词， a为输入词的个数，构成输入词集合x， x＝(A1， A2,...,Aa)， B1， B2,...,Bb 为概率较大的前b类，构成分类集合y， y＝(B1， B2,...,Bb)；计算先验概率：计算类条件概率：计算输入词所属分类概率：概率最大的分类就是输入问题最后的分类；步骤6，在步骤5得到的分类下匹配最相似问题，返回对应的答案展示给用户；对于该分类下的所有问题，先计算与用户的输入词集合x的语法相似度，采用关键词、句长、语义多重信息的融合算法；再结合同义词库，计算句子语义的相似度；设置阈值Q，当相似度大于等于阈值 Q时，我们将相似度最大的问题作为最相似的问题，并返回对应答案；步骤7，若未能匹配出的最相似的问题，即所有问题与输入词集合相似度都小于阈值Q，则将该问题转为训练用问题样本，根据步骤3和步骤4，人工标注成标准问题答案，进行迭代训练。 2.根据权利要求1所述的一种基于深度学习的自动化问答方法，其特征在于，步骤1还权　利　要　求　书 1/2 页 2 CN 114416942 A 2包括设置更新策略，定期爬取最新问答数据对同步到源数据库。 3.根据权利要求2所述的一种基于深度学习的自动化问答方法，其特征在于，所述步骤 3通过同义词库将问句进行扩展，具体为：对于每个关键词，用其同义词替换，记替换后的问句的关键词集合为L， L＝(l1,l2,…, lm)，用语言模型LSTMlm计算其自然程度，用联合概率p(l1,l2,…,lm)来评价该句子是否自然；其中， p(lt|lt‑2,lt‑1)表示语言模型LSTMlm在lt‑2,lt‑1的条件下lt的存在概率； t∈{3、 4、……m}；设置阈值T，当问句的自然程度大于等于阈值T时自动加入源数据库。 4.根据权利要求3所述的一种基于深度学习的自动化问答方法，其特征在于，步骤5接受用户的输入问题时，先通过选择题引导用户选择自己关注的领域和即将咨询的问题类别，提前匹配用户可能要咨询的问题分类；若用户选择的分类为Bk,k＝1,2,…,b，则输入词所属分类概率为：其中， 5.根据权利要求1 ‑4任一项所述的一种基于深度学习的自动化问答方法，其特征在于，在步骤6相似度计算时，加大名词和动词的重要程度，提高名词和动词的权重，将句子的重心落在名词和动词上。 6.根据权利要求5所述的一种基于深度学习的自动化问答方法，其特征在于，将相似度计算中权重值分别是名词类权重为0.3；动词类权重为0.3；形容词、代词、副词类权重为 0.2。权　利　要　求　书 2/2 页 3 CN 114416942 A 3

专利 一种基于深度学习的自动化问答方法

专利一种基于深度学习的自动化问答方法