专利语义切分模型的训练方法、意图理解方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210623388.5 (22)申请日 2022.06.01 (71)申请人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人刘澈　李永彬　 (74)专利代理机构北京同钧律师事务所 16 037 专利代理师杜叶蕊　许怀远 (51)Int.Cl. G06Q 30/00(2012.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称语义切分模型的训练方法、意图理解方法及装置 (57)摘要本申请实施例提供了一种语义切分模型的训练方法、意图理解方法及装置，其中，通过对多个客服语音的目标客服文本进行拼接处理以及对拼接处理所得到的目标长文本进行基于语义切分点的文本切分处理，以将处理后得到的语义文本段替代现有技术中的各客服文本后进行语义识别和应答处理，得到客服答复。通过这样的方式获得的客服答复与用户的意图更加匹配，其客服答复的答复效果较好，用户体验较佳。权利要求书3页说明书13页附图6页 CN 115018516 A 2022.09.06 CN 115018516 A 1.一种意图理解方法，其特征在于，包括：获取用户发起的至少一个客服语音，并确定各客服语音对应的目标客服文本；将各目标客服文本进行拼接处理得到所述目标长文本，并利用训练后的语义切分模型对所述目标长文本进行识别，得到所述目标长文本的语义切分点；其中，所述训练后的语义切分模型是利用长文本样本数据集对待训练的语义切分模型进行深度学习训练得到的，所述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的标签序列；根据所述语义切分点对所述目标长文本进行文本切分处理，得到语义文本段；对所述语义文本段进行语义识别，得到用户的语义识别结果。 2.根据权利要求1所述的意图理解方法，其特征在于，所述利用训练后的语义切分模型对所述目标长文本进行识别，得到所述目标长文本的语义切分点，包括：将所述目标长文本输入至所述训练后的语义切分模型，得到所述训练后的语义切分模型输出的所述目标长文本的预测序列，所述预测序列中包括有所述目标长文本中每个文本字段对应的预测值；根据各文本字段对应的预测值确定所述目标长文本中的语义切分点。 3.根据权利要求2所述的意图理解方法，其特征在于，所述根据各文本字段对应的预测值确定所述目标长文本中的语义切分点，包括：针对所述预测序列中任一预测值，若该预测值大于预设的预测值阈值，则该预测值对应的文本字段与该文本字段相邻的下一文本字段之间存在语义切分点。 4.根据权利要求1 ‑3任一项所述的意图理解方法，其特征在于，还包括：持续采集用户发起的客服语音，并在确定出所述持续采集的客服语音对应的目标客服文本的文本长度之和大于预设的文本长度阈值时，执行对各目标客服文本的拼接处理。 5.一种语义切分模型的训练方法，其特征在于，包括：根据获取的历史客服对话日志，生成长文本样本数据集；其中，所述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的标签序列；利用所述长文本样本数据集对待训练的语义切分模型进行深度学习训练，得到训练后的语义切分模型；其中，所述训练后的语义切分模型用于识别目标长文本中的语义切分点。 6.根据权利要求5所述的训练方法，其特征在于，所述历史客服对话日志中包括至少一次客服答复过程产生的客服对话文本段，每一所述客服对话文本段中包括至少一轮对话的客服文本；所述根据获取的历史客服对话日志，生成长文本样本数据集，包括：确定每个客服对话文本段的文本长度和对话轮数，计算每个客服对话文本段的文本长度和对话轮数之间的比值；根据各客服对话文本段的比值从各客服对话文本段中选出多个客服对话文本段样本；根据所述各客服对话文本段样本，生成所述长文本样本数据集中的长文本样本。 7.根据权利要求6所述的训练方法，其特征在于，所述根据所述各客服对话文本段样本，生成所述长文本样本数据集中的长文本样本，包括：将各客服对话文本段样本中的各客服文本进行拼接处理，得到所述长文本样本数据集中的多个长文本样本；权　利　要　求　书 1/3 页 2 CN 115018516 A 2确定每个长文本样本中的每个文本字段的语义切分点的标签值，得到所述长文本样本数据集中的每个长文本样本对应的语义切分点的标签序列。 8.根据权利要求5 ‑7任一项所述的训练方法，其特征在于，所述利用所述长文本样本数据集对待训练的语义切分模型进行深度学习训练，得到训练后的语义切分模型，包括：将所述长文本样本数据集中的各长文本样本依次输入至当前的待训练的语义切分模型中，得到所述待训练的语义切分模型输入的各长文本样本对应的语义切分点的预测序列；根据各长文本样本的预测序列和各长文本样本的标签序列，确定所述当前的待训练的语义切分模型的模型损失；根据所述模型损失更新当前的待训练的语义切分模型，并利用所述长文本样本数据集对更新后的待训练的语义切分模型进行训练，直至得到的模型损失收敛；将模型损失收敛时的当前的待训练的语义切分模型作为所述训练后的语义切分模型。 9.根据权利要求8所述的训练方法，其特征在于，所述长文本样本的预测序列中包括长文本样本中每个文本字段对应的语义切分点的预测值；所述长文本样本的标签序列中包括长文本样本中每个文本字段对应的语义切分点的标签值；所述根据各长文本样本的预测序列和各长文本样本的标签序列，确定所述当前的待训练的语义切分模型的模型损失，包括：确定各长文本样本中的每个文本字段的预测值和相应的标签值之间的交叉熵，并根据各长文本样本对应的各交叉熵确定所述当前的待训练的语义切分模型的模型损失。 10.一种意图理解装置，其特征在于，包括：获取模块，用于获取用户发起的至少一个客服语音；处理模块，用于确定各客服语音对应的目标客服文本；将各目标客服文本进行拼接处理得到所述目标长文本，并利用训练后的语义切分模型对所述目标长文本进行识别，得到所述目标长文本的语义切分点；其中，所述训练后的语义切分模型是利用长文本样本数据集对待训练的语义切分模型进行深度学习训练得到的，所述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的标签序列；根据所述语义切分点对所述目标长文本进行文本切分处理，得到语义文本段；识别模块，用于对所述语义文本段进行语义识别，得到用户的语义识别结果。 11.一种语义切分模型的训练装置，其特征在于，包括：数据集生成模块，用于根据获取的历史客服对话日志，生成长文本样本数据集；其中，所述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的标签序列；训练模块，用于利用所述长文本样本数据集对待训练的语义切分模型进行深度学习训练，得到训练后的语义切分模型；其中，所述训练后的语义切分模型用于识别目标长文本中的语义切分点。 12.一种电子设备，其中，包括：至少一个处理器；以及存储器；所述存储器存储计算机执行指令；权　利　要　求　书 2/3 页 3 CN 115018516 A 3

专利 语义切分模型的训练方法、意图理解方法及装置

专利语义切分模型的训练方法、意图理解方法及装置