专利一种基于BERT模型的智能问答实现方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210706851.2 (22)申请日 2022.06.21 (71)申请人广州伟宏智能科技有限公司地址 510000 广东省广州市天河区车陂启明大街93号B401房 (72)发明人黄志春　黄浩　张定国　李韧　卢小锋　丁杰　 (74)专利代理机构广州蓝晟专利代理事务所 (普通合伙) 44452 专利代理师栾洋洋　陈梓赫 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于BERT模型的智能问答实现方法 (57)摘要本发明公开的属于智能问答技术领域，具体为一种基于BERT模型的智能问答实现方法，包括具体步骤如下：步骤一：构建BERT模型；步骤二：将文本数据中的问答用一个特殊标记[SEP]分开，第一个句子代表文本数据的问题部分，第二个句子代表文本数据的答案部分，且在第一个句子开头添加另一个特殊的标记[CLS]，本发明通过采用基于BERT模型的核心算法实现智能问答，具有实现统一接口智能问答，减轻人工压力的作用，以及因模型层数较深，则会实现表达能力强，能更好理解用户输入，与此同时，还可以解决智能交互准确性和多功能性问题，并考虑问答上下文关系，加强多轮问答识别。权利要求书2页说明书5页附图2页 CN 114936270 A 2022.08.23 CN 114936270 A 1.一种基于BERT模型的智能问答实现方法，其特征在于，包括具体步骤如下：步骤一：构建BERT模型；步骤二：将文本数据中的问答用一个特殊标记[SEP ]分开，第一个句子代表文本数据的问题部分，第二个句子代表文本数据的答案部分，且在第一个句子开头添加另一个特殊的标记[CLS]，在第二个句子的结尾添加之前的分隔标记[SEP]，每个句子的文本信息都转化为字在字典中所对应的编号，其中，字典是利用文本数据来构建的一个字粒度字典，对于字典中不存在的字，将它视为字典中的[UNK]，找到[UNK]在字典中所对应的编号，这样就得到了Token Embeddings；步骤三：根据 Token Embeddings得到Segment Embeddings和P osition Embeddings，其中， Segment Embeddings中的数字0表示文本数据的问题，数字1表示文本数据的答案， Position Embeddings中的数字表示字在句子中的位置，由于Position Embeddings中最多记录句子长度为512的位置信息，而因为在生成Token Embeddings的过程中，特殊标记占用了3个位置，所以Positi on Embeddings最多记录句子长度为509的位置信息；步骤四：通过步骤二和步骤三，文本数据可以通过BERT模型的输入层得到Token Embeddin gs、 Segment Embeddin gs和Position Embeddings，再将三者相加，最终得到输入层的输出向量；步骤五：通过输入层后，进入到BERT模型的隐藏层，每个隐藏层由Transformer构成，每个Transformer又由注意力层、中层和输出层构成；步骤六：注意力层是Transformer的核心部分，首先输入层的输出向量进入到 Transformer的注意力层，在注意力层中，使用的注意力机制为12heads的Multi ‑Head Attention，对于每一个head，先通过定义的query、 key和value的权重矩阵来求对应的 query、 key和value向量，再将query与key的向量相乘，之后放缩，得到初步的注意力机制权重矩阵，在数据预处理过程中，因为输入模型的序列长度不同，对序列进行了截断和补齐操作，还有在模型随机MASK的部分，在注意力计算的时候应该要消除其影响，引入了一个 input_mask变量，最终注意力机制的权重矩阵由初步的注意力机制权重矩阵与input _mask 相加，经过softmax得到，最后将权重矩阵与value向量相乘得到注意力分数，其中，将上一层隐藏层的输出与该层注意力分数相加才是注意力层的输出，第一层隐藏层的输出是与输入层的输出有关；步骤七：中间层是连接Transformer中的注意力层和输出层，将注意力层的输出接入一个全连接层，再通过激活函数GELU得到中间层的输出；步骤八：输出层是对中间层的输出做了全连接、 Dropout和Norm操作，中间层得到的结果传入到输出层，首先经过全连接层，然后经过Dr opout层，因为当隐藏层的数量增加时，模型出现过拟合的概率也相应增加，添加Dropout层，在一定程度上降低了过拟合的风险，最后通过Norm层得到整个Transformer的输出，添加Norm层使得神经网络模型的收敛速度更快；步骤九：通过步骤五至步骤八得到每个隐藏层的输出，并循环12次骤五至步骤八操作，最终得到BERT模型的输出；步骤十：将BERT模型输出结果输入到智能问答任务中，具体是将文本数据中特殊的 [CLS]标签最后一层隐藏层的词向量表征作为单个问答对的表征，输入到简单线性分类器权　利　要　求　书 1/2 页 2 CN 114936270 A 2中，微调BERT模型中的参数，完成问答对匹配的任务。 2.根据权利要求1所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述 BERT模型的构建流程如下：流程一：模型输入表征， BERT模型输入层包含三部分，句子序列中词的表征都是通过该词的Token Embeddings、 Segment Embeddings和Positi on Embeddings相加得到；流程二：预训练， BERT采用Masked LM和Next Sentence Predicti on的方法；流程三：微调是在海量预料上训练BERT后，将其应用到其它的自然语言处理任务中，根据当前任务进行微调，采用了迁移学习的策略。 3.根据权利要求2所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述 Masked LM是一种获取上下文信息的方法，是在模型学习期间，任意从模型的读入数据中因此一些词语，再根据该词语的前后信息去推测。 4.根据权利要求2所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述 Next Sentence Prediction是句子级别的任务，目的是知道句间关系，即两个句子之间是否存在上下文关系。 5.根据权利要求1所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述激活函数GELU的公式为： GELU(X)＝x ·P(X≤x)。 6.根据权利要求5所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述激活函数GELU公式中的x是变量， P(X≤x)决定x中有多少信息保留下来，而且X是服从高斯分布，符合现实生活中大部分数据的分布情况，也满足了非线性特点。 7.根据权利要求1所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述步骤十中，问答对匹配任务使用了交叉熵损失函数，且交叉熵损失函数的公式为： 8.根据权利要求7所述的一种基于BERT模型的智能问答实现方法，其特征在于，所述交叉熵损失函数公式中的n代表样本数， y代表真实标签，代表标签预测为1的概率，代表标签预测为0的概率。权　利　要　求　书 2/2 页 3 CN 114936270 A 3

专利 一种基于BERT模型的智能问答实现方法

专利一种基于BERT模型的智能问答实现方法