说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210706851.2 (22)申请日 2022.06.21 (71)申请人 广州伟宏智能科技有限公司 地址 510000 广东省广州市天河区车陂启 明大街93号B401房 (72)发明人 黄志春 黄浩 张定国 李韧  卢小锋 丁杰  (74)专利代理 机构 广州蓝晟专利代理事务所 (普通合伙) 44452 专利代理师 栾洋洋 陈梓赫 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于BERT模型的智能问答实现方法 (57)摘要 本发明公开的属于智能问答技术领域, 具体 为一种基于BERT模型的智能问答实现方法, 包括 具体步骤如下: 步骤一: 构建BERT模型; 步骤二: 将文本数据中的问答用一个特殊标记[SEP]分 开, 第一个句子代表文本数据的问题部分, 第二 个句子代表文本数据的答案部分, 且在第一个句 子开头添加另一个特殊的标记[CLS], 本发明通 过采用基于BERT模型的核心算法实现智能问答, 具有实现 统一接口智能问答, 减 轻人工压力的作 用, 以及因模型层数较深, 则会实现表达能力强, 能更好理解用户输入, 与此同时, 还可 以解决智 能交互准确性和多功能性问题, 并考虑问答上下 文关系, 加强多轮问答识别。 权利要求书2页 说明书5页 附图2页 CN 114936270 A 2022.08.23 CN 114936270 A 1.一种基于BERT模型的智能问答实现方法, 其特 征在于, 包括具体步骤如下: 步骤一: 构建BERT模型; 步骤二: 将文本数据中的问答用一个特殊标记[SEP ]分开, 第一个句子代表文本数据的 问题部分, 第二个句 子代表文本数据的答案部分, 且在第一个句 子开头添加另一个特殊的 标记[CLS], 在第二个句子的结尾添加之前的分隔标记[SEP], 每个句子的文本信息都转化 为字在字典 中所对应的编号, 其中, 字典是利用文本数据来构建的一个字粒度字典, 对于字 典中不存在的字, 将它视为字典 中的[UNK], 找到[UNK]在字典 中所对应的编号, 这样就得到 了Token Embeddings; 步骤三: 根据 Token Embeddings得到Segment  Embeddings和P osition Embeddings, 其 中, Segment  Embeddings中的数字0表示文本数据的问题, 数字1表示文本数据的答案, Position  Embeddings中的数字表示字在句子中的位置, 由于Position  Embeddings中最多 记录句子长度为512的位置信息, 而因为在生 成Token Embeddings的过程中, 特殊标记占用 了3个位置, 所以Positi on Embeddings最多记录句子 长度为509的位置信息; 步骤四: 通过步骤二和步骤三, 文本数据可以通过BERT模型的输入层得到Token   Embeddin gs、 Segment  Embeddin gs和Position  Embeddings, 再将三者相加, 最终得到输入 层的输出向量; 步骤五: 通过输入层后, 进入到BERT模型的隐藏层, 每个隐藏层由Transformer构成, 每 个Transformer又由注意力层、 中层和输出层构成; 步骤六: 注意力层是Transformer的核心部分, 首先输入层的输出向量进入到 Transformer的注意力层, 在注意力层中, 使用的注意力机制为12heads的Multi ‑Head  Attention, 对于每一个head, 先通过定义的query、 key和value的权重矩阵来求对应的 query、 key和value向量, 再将query与key的向量相乘, 之后放缩, 得到初步的注意力机制权 重矩阵, 在数据预 处理过程中, 因为输入模型的序列长度不同, 对序列进 行了截断和补齐操 作, 还有在模型随机MASK的部分, 在注意力计算的时候应该要消除其影响, 引入了一个 input_mask变量, 最终注意力机制的权重矩阵由初步的注意力机制权重矩阵与input _mask 相加, 经过softmax得到, 最后将权重矩阵与value向量相乘得到注意力分数, 其中, 将上一 层隐藏层的输出与该层注意力分数相加才是注意力 层的输出, 第一层隐藏层的输出是与输 入层的输出有关; 步骤七: 中间层 是连接Transformer中的注意力层和输出层, 将注意力层的输出接入一 个全连接层, 再通过激活函数GELU得到中间层的输出; 步骤八: 输出层是对中间层的输出做了全连接、 Dropout和Norm操作, 中间层得到 的结 果传入到输出层, 首先经过全连接层, 然后经过Dr opout层, 因为当隐藏层的数量增加时, 模 型出现过拟合的概率也相应增加, 添加Dropout层, 在一定程度上降低了过拟合的风险, 最 后通过Norm层得到整个Transformer的输出, 添加Norm层使得神经网络模型的收敛速度更 快; 步骤九: 通过步骤五至步骤八得到每个隐藏层的输出, 并循环12次骤五至步骤八操作, 最终得到BERT模型的输出; 步骤十: 将BERT模型输出结果输入到智能问答任务中, 具体是将文本数据中特殊的 [CLS]标签最后一层隐藏层的词向量表征作为单个问答对的表征, 输入到简单线性分类器权 利 要 求 书 1/2 页 2 CN 114936270 A 2中, 微调BERT模型中的参数, 完成问答对匹配的任务。 2.根据权利要求1所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述 BERT模型的构建流 程如下: 流程一: 模型输入表征, BERT模型输入层包含三部分, 句子序列中词的表征都是通过该 词的Token Embeddings、 Segment  Embeddings和Positi on Embeddings相加得到; 流程二: 预训练, BERT采用Masked  LM和Next Sentence Predicti on的方法; 流程三: 微调是在海量预料上训练BERT后, 将其应用到其它的自然语言处理任务中, 根 据当前任务进行微调, 采用了 迁移学习的策略。 3.根据权利要求2所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述 Masked LM是一种获取上下文信息的方法, 是在 模型学习期间, 任意 从模型的读入 数据中因 此一些词语, 再根据该词语的前后信息去推测。 4.根据权利要求2所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述 Next Sentence  Prediction是句子级别的任务, 目的是知道句间关系, 即两个句子之间是 否存在上 下文关系。 5.根据权利要求1所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述激 活函数GELU的公式为: GELU(X)=x ·P(X≤x)。 6.根据权利要求5所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述激 活函数GELU公式中的x是变量, P(X≤x)决定x中有多少信息保留下来, 而且X是服从高斯分 布, 符合现实生活中大部分数据的分布情况, 也满足了非线性特点。 7.根据权利要求1所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述步 骤十中, 问答对匹配任务使用了交叉熵损失函数, 且交叉熵损失函数的公式为: 8.根据权利要求7所述的一种基于BERT模型的智能问答实现方法, 其特征在于, 所述交 叉熵损失函数公式中的n代表样本数, y代表真实标签, 代表标签预测为1的概率, 代表 标签预测为0的概 率。权 利 要 求 书 2/2 页 3 CN 114936270 A 3

.PDF文档 专利 一种基于BERT模型的智能问答实现方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于BERT模型的智能问答实现方法 第 1 页 专利 一种基于BERT模型的智能问答实现方法 第 2 页 专利 一种基于BERT模型的智能问答实现方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。