(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111633958.0
(22)申请日 2021.12.2 9
(71)申请人 南京视察 者智能科技有限公司
地址 210014 江苏省南京市秦淮区永智路6
号南京白下高新技术产业园区四号楼
A栋102室
(72)发明人 熊林海
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 40/268(2020.01)
G06F 40/30(2020.01)
G06F 16/951(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的自动化问答方法
(57)摘要
本发明公开了一种基于深度学习的自动化
问答方法, 该方法包括: 步骤1, 构建问答源数据
库, 步骤2, 利用所有问答数据对构建社会治理领
域语料库, 采用深度神经网络LS TM训练出语言模
型LSTMlm, 步骤3, 利用步骤2的同义词库自动增
加问答对, 扩张源数据库, 步骤4, 源数据库扩张
后, 进一步进行标注训练, 包括问题纠错、 关键词
提取、 答案纠错、 法律依据补充、 分类标签, 步骤
5, 设计问答系统, 接受用户的输入问题, 对用户
的问题进行理解, 步骤6, 在步骤5得到的分类下
匹配最相似问题, 返回对应的答案展示给用户。
通过构建社会治理领域同义词库, 扩张源数据
库, 来提高匹配准确率, 通过利用BERT分类模型
将问题自动分类, 实现对问题的精准理解, 进而
实现完全自动化问答。
权利要求书2页 说明书5页 附图1页
CN 114416942 A
2022.04.29
CN 114416942 A
1.一种基于深度学习的自动化问答方法, 其特 征在于, 该 方法主要包括如下步骤:
步骤1, 构建问答源数据库, 从省、 市、 区级便民问答社区官网爬取社会治理相关的问答
数据对, 利用多 线程分布式爬取后, 做文本预处 理并将其存 入源数据库, 构造问题训练集;
步骤2, 利用所有问答数据对构建社会治理领域语料库, 基于社会治理领域语料库, 采
用深度神经网络LSTM训练出语言模型LSTMlm;
基于社会治理领域语料库, 构建社会治理领域同义词库: 利用百度LAC分词算法将步骤
1采集到的问答数据对自动分词, 加入 领域词库形成社会治理领域词汇, 再对所有 单词创建
同义词集 合, 并用层次图表示各个单词的关系, 定义单词之间的联系;
步骤3, 利用步骤2的同义词库自动增 加问答对, 扩张源数据库;
利用百度LAC分词算法将问题问句自动分词, 并用词性标注工具进行词性自动标注, 然
后通过同义词库将问句进行扩展, 构造该问题的相似问句并存 入源数据库中;
步骤4, 源数据库扩张后, 进一步进行标注训练, 包括问题纠错、 关键词提取、 答案纠错、
法律依据补充、 分类标签;
对问答系统需要支撑的业务数据进行分析并设计文本标注系统, 首先将问题训练集根
据实际业务场景需求进行分类, 利用BERT分类模型首先将问题自动分类, 标注人员进入标
注系统可以按分类来进行标注, 问答系统中的纠错模型自动提示错误点, 标注人员审核修
改并确认, 对于不合理的问题和答案, 标注人员修改或补充, 同时相似度模型自动匹配法律
依据, 标注人员可审核或修改; 标注系统自动将标注后的数据存 入标签数据库;
步骤5, 设计问答系统, 接受用户的输入问题, 对用户的问题进行理解, 对用户的问题先
进行分类: 对用户输入的问题先用百度LAC 分词进行分词, 并利用关键词抽取模 型抽取关键
词, 利用BERT分类模型定位到对应的分类, 具体为:
先用BERT分类模型进行初始分类, 设置概率阈值D, 若大于D的分类只有一个, 即能直接
确定某一类则直接结束, 否则选取概率较大的前n类; 统计用户问题中词的出现占比, 记A1,
A2,...,Aa为输入词, a为输入词的个数, 构成输入词集合x, x=(A1, A2,...,Aa), B1, B2,...,Bb
为概率较大的前b类, 构成分类集 合y, y=(B1, B2,...,Bb);
计算先验概 率:
计算类条件概 率:
计算输入词所属分类概 率:
概率最大的分类就是输入问题最后的分类;
步骤6, 在步骤5得到的分类下匹配最相似问题, 返回对应的答案展示给用户;
对于该分类下的所有问题, 先计算与用户的输入词集合x的语法相似度, 采用关键词、
句长、 语义多重信息的融合算法; 再结合同义词库, 计算句子语义的相似度; 设置阈值Q, 当
相似度大于等于阈值 Q时, 我们将相似度最大的问题作为 最相似的问题, 并返回对应答案;
步骤7, 若未能匹配出的最相似的问题, 即所有问题与输入词集合相似度都小于阈值Q,
则将该问题 转为训练用问题样 本, 根据步骤3和步骤4, 人工标注成标准问题 答案, 进行迭代
训练。
2.根据权利要求1所述的一种基于深度学习的自动化问答方法, 其特征在于, 步骤1还权 利 要 求 书 1/2 页
2
CN 114416942 A
2包括设置更新策略, 定期爬取最 新问答数据对同步到源数据库。
3.根据权利要求2所述的一种基于深度 学习的自动化问答方法, 其特征在于, 所述步骤
3通过同义词库将问句进行扩展, 具体为:
对于每个关键词, 用其同义词替换, 记替换后的问句的关键词集合为L, L=(l1,l2,…,
lm), 用语言模型LSTMlm计算其 自然程度, 用联合概率p(l1,l2,…,lm)来评价该句子是否自
然;
其中, p(lt|lt‑2,lt‑1)表示语言模型LSTMlm在lt‑2,lt‑1的条件下lt的存在概率; t∈{3、
4、……m}; 设置阈值T, 当问句的自然程度大于等于阈值T时自动加入 源数据库。
4.根据权利要求3所述的一种基于深度学习的自动化问答方法, 其特征在于, 步骤5接
受用户的输入问题时, 先通过选择题引导用户选择自己关注的领域和即将咨询的问题类
别, 提前匹配用户可能要咨询的问题分类;
若用户选择的分类为Bk,k=1,2,…,b, 则输入词所属分类概 率为:
其中,
5.根据权利要求1 ‑4任一项所述的一种基于深度 学习的自动 化问答方法, 其特征在于,
在步骤6相似度计算时, 加大名词和动词的重要程度, 提高名词和动词的权重, 将句子的重
心落在名词和动词上。
6.根据权利要求5所述的一种基于深度 学习的自动化问答方法, 其特征在于, 将相似度
计算中权重值分别是名词类权重为0.3; 动词类权重为0.3; 形容词、 代词、 副词类权重为
0.2。权 利 要 求 书 2/2 页
3
CN 114416942 A
3
专利 一种基于深度学习的自动化问答方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:55:02上传分享