说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210623388.5 (22)申请日 2022.06.01 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 刘澈 李永彬  (74)专利代理 机构 北京同钧律师事务所 16 037 专利代理师 杜叶蕊 许怀远 (51)Int.Cl. G06Q 30/00(2012.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 语义切分模 型的训练方法、 意图理解方法及 装置 (57)摘要 本申请实施例提供了一种语义切分模型的 训练方法、 意图理解方法及装置, 其中, 通过对多 个客服语音的目标客服文本进行拼接处理以及 对拼接处理所得到的目标长文本进行基于语义 切分点的文本切分处理, 以将处理后得到的语义 文本段替代现有技术中的各客服文本后进行语 义识别和应答处理, 得到客服答复。 通过这样的 方式获得的客服答复与用户的意图更加匹配, 其 客服答复的答复 效果较好, 用户体验较佳。 权利要求书3页 说明书13页 附图6页 CN 115018516 A 2022.09.06 CN 115018516 A 1.一种意图理解方法, 其特 征在于, 包括: 获取用户发起的至少一个客 服语音, 并确定各客 服语音对应的目标客 服文本; 将各目标客服文本进行拼接处理得到所述目标长文本, 并利用训练后的语义切分模型 对所述目标长文本进 行识别, 得到所述目标长文本的语义切分点; 其中, 所述训练后的语义 切分模型是利用长文本样本数据集对待训练的语义切分模型进行深度学习训练得到的, 所 述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的标 签序列; 根据所述语义切分点对所述目标长文本进行文本切分处 理, 得到语义文本段; 对所述语义文本段进行语义识别, 得到用户的语义识别结果。 2.根据权利要求1所述的意图理解方法, 其特征在于, 所述利用训练后的语义切分模型 对所述目标长文本进行识别, 得到所述目标长文本的语义切分点, 包括: 将所述目标长文本输入至所述训练后的语义切分模型, 得到所述训练后的语义切分模 型输出的所述目标长文本的预测序列, 所述预测序列中包括有所述目标长文本中每个文本 字段对应的预测值; 根据各文本 字段对应的预测值确定所述目标长文本中的语义切分点。 3.根据权利要求2所述的意图理解方法, 其特征在于, 所述根据 各文本字段对应的预测 值确定所述目标长文本中的语义切分点, 包括: 针对所述预测序列中任一预测值, 若该预测值大于预设的预测值阈值, 则该预测值对 应的文本 字段与该文本 字段相邻的下一文本 字段之间存在语义切分点。 4.根据权利要求1 ‑3任一项所述的意图理解方法, 其特 征在于, 还 包括: 持续采集用户发起的客服语音, 并在确定出所述持续采集的客服语音对应的目标客服 文本的文本 长度之和大于预设的文本 长度阈值时, 执 行对各目标客 服文本的拼接处 理。 5.一种语义切分模型的训练方法, 其特 征在于, 包括: 根据获取的历史客服对话日志, 生成长文本样本数据集; 其中, 所述长文本样本数据集 中包括多个长文本样本以及每 个长文本样本对应的语义切分点的标签序列; 利用所述长文本样本数据集对待训练 的语义切分模型进行深度 学习训练, 得到训练后 的语义切分模型; 其中, 所述训练后的语义切分模型用于识别目标长文本中的语义切分点。 6.根据权利要求5所述的训练方法, 其特征在于, 所述历史客服对话日志中包括至少一 次客服答复过程产生的客服对话文本段, 每一所述客服对话文本段中包括至少一轮对话的 客服文本; 所述根据获取的历史客 服对话日志, 生成长文本样本数据集, 包括: 确定每个客服对话文本段的文本长度和对话轮数, 计算每个客服对话文本段的文本长 度和对话轮数之间的比值; 根据各客 服对话文本段的比值从各客 服对话文本段中选出多个客 服对话文本段样本; 根据所述各客 服对话文本段样本, 生成所述长文本样本数据集中的长文本样本 。 7.根据权利要求6所述的训练方法, 其特征在于, 所述根据所述各客服对话文本段样 本, 生成所述长文本样本数据集中的长文本样本, 包括: 将各客服对话文本段样本 中的各客服文本进行拼接处理, 得到所述长文本样本数据集 中的多个长文本样本;权 利 要 求 书 1/3 页 2 CN 115018516 A 2确定每个长文本样本中的每个文本字段的语义切分点的标签值, 得到所述长文本样本 数据集中的每 个长文本样本对应的语义切分点的标签序列。 8.根据权利要求5 ‑7任一项所述的训练方法, 其特征在于, 所述利用所述长文本样本数 据集对待训练的语义切分模型进行深度学习训练, 得到训练后的语义切分模型, 包括: 将所述长文本样本数据集中的各长文本样本依次输入至当前的待训练的语义切分模 型中, 得到所述待训练的语义切分模型输入的各长文本样本对应的语义切分点的预测序 列; 根据各长文本样本的预测序列和各长文本样本的标签序列, 确定所述当前的待训练 的 语义切分模型的模型损失; 根据所述模型损失更新当前的待训练 的语义切分模型, 并利用所述长文本样本数据集 对更新后的待训练的语义切分模型进行训练, 直至得到的模型损失收敛; 将模型损失收敛时的当前的待训练的语义切分模型作为所述训练后的语义切分模型。 9.根据权利要求8所述的训练方法, 其特征在于, 所述长文本样本的预测序列中包括长 文本样本中每个文本字段对应的语义切分点的预测值; 所述长文本样本的标签序列中包括 长文本样本中每 个文本字段对应的语义切分点的标签值; 所述根据 各长文本样本的预测序列和各长文本样本的标签序列, 确定所述当前的待训 练的语义切分模型的模型损失, 包括: 确定各长文本样本 中的每个文本字段的预测值和相应的标签值之间的交叉熵, 并根据 各长文本样本对应的各交叉熵确定所述当前的待训练的语义切分模型的模型损失。 10.一种意图理解装置, 其特 征在于, 包括: 获取模块, 用于获取用户发起的至少一个客 服语音; 处理模块, 用于确定各客服语音对应的目标客服文本; 将各目标客服文本进行拼接处 理得到所述 目标长文本, 并利用训练后的语义切分模型对所述 目标长文本进行识别, 得到 所述目标长文本的语义切分点; 其中, 所述训练后的语义切分模型是利用长文本样本数据 集对待训练的语义切分模型进 行深度学习训练得到的, 所述长文本样本数据集中包括多个 长文本样本以及每个长文本样本对应的语义切分点的标签序列; 根据所述语义切分点对所 述目标长文本进行文本切分处 理, 得到语义文本段; 识别模块, 用于对所述语义文本段进行语义识别, 得到用户的语义识别结果。 11.一种语义切分模型的训练装置, 其特 征在于, 包括: 数据集生成模块, 用于根据获取的历史客服对话日志, 生成长文本样本数据集; 其中, 所述长文本样本数据集中包括多个长文本样本以及每个长文本样本对应的语义切分点的 标签序列; 训练模块, 用于利用所述长文本样本数据集对待训练的语义切分模型进行深度 学习训 练, 得到训练后的语义切分模型; 其中, 所述训练后的语义切分模型用于识别目标长文本中 的语义切分点。 12.一种电子设备, 其中, 包括: 至少一个处 理器; 以及 存储器; 所述存储器存储计算机执 行指令;权 利 要 求 书 2/3 页 3 CN 115018516 A 3

.PDF文档 专利 语义切分模型的训练方法、意图理解方法及装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语义切分模型的训练方法、意图理解方法及装置 第 1 页 专利 语义切分模型的训练方法、意图理解方法及装置 第 2 页 专利 语义切分模型的训练方法、意图理解方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。