专利一种对话数据中问答对的抽取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111652551.2 (22)申请日 2021.12.3 0 (71)申请人北京尘锋信息技术有限公司地址 100020 北京市朝阳区安立路78、 80号 05层501内506室 (72)发明人赵继帆　梁龙　 (74)专利代理机构北京东灵通专利代理事务所 (普通合伙) 61242 代理人李金豹 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种对话数据中问答对的抽取方法 (57)摘要本发明属于客服问答技术领域，尤其是一种对话数据中问答对的抽取方法，包括DusBERT模型，所述DusBERT模型是对原始BERT模型进行裁剪后，并在对话数据上进行再训练的预训练模型，且DusBERT模型包括有数据分析单元，数据预处理单元、数据训练单元、数据分析单元、数据预测单元和数据评估单元，所述数据分析单元具体包括以下步骤： S11：首先将对话数据通过滑动窗口的方式对数据进行切分，进行数据分析。本发明的网络架构计算过程可完全并行,在大量会话数据的情况下，性能可以保障；网络充分考虑上下文，对于简略的问题，例如 “为什么”可以从文中获取信息，从而对定位答案有比较大的帮助。权利要求书2页说明书4页附图1页 CN 114281975 A 2022.04.05 CN 114281975 A 1.一种对话数据中问答对的抽取方法，包括DusBERT模型，其特征在于，所述DusBERT模型是对原始BERT模型进行裁剪后，并在对话数据上进行再训练的预训练模型，且DusBERT模型包括有数据分析单元，数据预处理单元、数据训练单元、数据分析单元、数据预测单元和数据评估单元，所述数据分析单元具体包括以下步骤： S11：首先将对话数据通过滑动窗口的方式对数据进行切分，进行数据分析； S12：将对话数据进行分析后， 99％的问答对出现在不同utterance的距离不超过5，为了充足融合上下文，将滑动窗口的吧距离设为9，数据标注也按照此方式进行切分； S13：将该滑动窗口内的问题按照出现顺序标注为Qi，该问题的所有回答标注为Ai，为了质检对问题是否回答，对没有答案的问题也进行同样的标注，非问题问答案的utterance标记为O。 2.根据权利要求1所述的一种对话数据中问答对的抽取方法，其特征在于，所述数据预处理单元具体包括以下操作步骤： S21：对每个utterance去掉emoji表情个特殊符号的话预处理手段后，对每个 utterance进行格式化输入形式： S22：当utterances长度不足9采用[ PAD]字符填充，推断时可不进行填充。 3.根据权利要求2所述的一种对话数据中问答对的抽取方法，其特征在于，在所述S21 的步骤中， [CLS][SEP]是DusBERT的标准输出格式， [SPEAKi]分别用来表示对话角色， i＝0 表示是客服， i＝1表示客户， [SPEAKi]在表示角色的同时能够捕获相应utterance 的语义，表示第j个ut terance的第k个to ken。 4.根据权利要求3所述的一种对话数据中问答对的抽取方法，其特征在于，所述数据训练单元具体包括以下步骤： S31：训练时，取出所有[SPEAK]的编码接FFN做二分类，用作判断对应的utterance是否是问句； S32：考虑到出现类别不均衡，损失函数采用Focal Loss； S33：推断时则直接判断FFN的输出，如当输出的sigmoid值大于0.5时则是问句，反之则不是。 5.根据权利要求4所述的一种对话数据中问答对的抽取方法，其特征在于，所述数据分析单元具体包括两个方面，且第一方面是是问句utterance的语义表征，和对应答案 utterance的语义表征要有相关性，另一方面就是某些问题和答案在字面上要有相关性。 6.根据权利要求5所述的一种对话数据中问答对的抽取方法，其特征在于，所述第一方面的具体方法为：将问句utterance对应[SPEAK]的编码和所有其它句子进行多头注意力操作。 7.根据权利要求6所述的一种对话数据中问答对的抽取方法，其特征在于，所述另一方面具体包括以下步骤： S41：将不同utterance 的token编码进行平均池化，用问句utterance池化的结果与其它utterance池化的结果进行哈达姆积以及差，然后将两者concatenate，再与池化结果进权　利　要　求　书 1/2 页 2 CN 114281975 A 2行相加，再接FNN用作分类，用来判断该utterance是不是问题的答案，同样的，存在类别不均衡，损失函数采用Focal Loss； S42：训练时，由于每个输入存在多个问题，在第二步的答案预测时，从每条数据中采样一个作为第二步的训练； S43：预测时，则分别将多个问题进行所述S31和S32的计算，当FFN输出的sigmoid值大于0.5则是问题的答案，反之则不是。 8.根据权利要求1所述的一种对话数据中问答对的抽取方法，其特征在于，所述数据预测单元在预测时，将新的会话按照数据分析单元的方式切分，然后分别经过数据预处理单元、数据训练单元和数据分析单元拿到每段的问题以及对应的答案，相同的问题保留一次，想问问题的答案如果在5句之内可进行集成。 9.根据权利要求1所述的一种对话数据中问答对的抽取方法，其特征在于，所述数据评估单元的评估方式采用类似序列标注的sequence评估方式。权　利　要　求　书 2/2 页 3 CN 114281975 A 3

专利 一种对话数据中问答对的抽取方法

专利一种对话数据中问答对的抽取方法