说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210689137.7 (22)申请日 2022.06.17 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 田晓姣  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 廖慧贤 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 16/33(2019.01) G06F 40/205(2020.01)G06F 40/30(2020.01) (54)发明名称 意图分类模型的评估方法和装置、 设备、 介 质 (57)摘要 本申请实施例提供了一种意图分类模型的 评估方法和装置、 设备、 存储介质, 属于意图识别 技术领域。 该方法包括: 获取原始 语料, 原始 语料 包括至少两个原始语句; 对至少两个原始语句进 行过滤处理, 得到有效语句; 根据预设的语法规 则对有效语句进行扩充处理, 得到语句组; 其中, 每一有效语句被扩充为包括至少两个初步语句 的语句组, 同一语句组的初步语句具有相同的参 考意图类别; 根据初步语句构建测试语料集; 将 测试语料集输入至预设的意图分类模型进行意 图预测处理, 得到预测意图类别; 根据参考意图 类别和预测意图类别计算评估值; 其中, 评估值 用于表征意图分类模型的性能。 本申请实施例能 够提高对意图分类模型的评估准确率。 权利要求书2页 说明书13页 附图5页 CN 115048519 A 2022.09.13 CN 115048519 A 1.一种意图分类模型的评估方法, 其特 征在于, 所述方法包括: 获取原始语料, 所述原 始语料包括至少两个原 始语句; 对至少两个所述原 始语句进行 过滤处理, 得到有效语句; 根据预设的语法规则对所述有效语句进行扩充处理, 得到语句组; 其中, 每一所述有效 语句被扩充为包括至少两个初步语句的语句组, 同一所述语句组的初步语句具有相同的参 考意图类别; 根据所述初步语句构建测试语料集; 将所述测试语料集输入至预设的意图分类模型进行意图预测处理, 得到预测意图类 别; 根据所述参考意图类别和所述预测意图类别计算评估值; 其中, 所述评估值用于表征 所述意图分类模型的性能。 2.根据权利要求1所述的方法, 其特征在于, 所述对至少两个所述原始语句进行过滤处 理, 得到有效语句, 包括以下步骤之一: 根据预设的关键特征对每个所述原始语句进行筛选处理, 得到所述有效语句; 所述关 键特征包括以下 特征的至少一种: 对话场景 特征、 对话主题特 征、 客户情绪特 征; 或, 根据预设的关键 字对每个所述原 始语句进行筛 选处理, 得到所述有效语句。 3.根据权利要求1所述的方法, 其特征在于, 所述对至少两个所述原始语句进行过滤处 理, 得到有效语句, 包括: 获取所述原始语句的语句内容和 属性信息; 根据所述语句内容和所述属性信息检测所述原 始语句的无效信息; 将所述无效信息过 滤, 得到所述有效语句。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据预设的语法规则对所 述有效语句进行扩充处 理, 得到语句组, 包括: 对所述有效语句进行主体成分识别, 得到至少两个主体成分; 其中, 每一所述主体成分 包括谓语成分, 每一所述主体成分还 包括以下成分至少之一: 主语成分、 宾语成分; 对每一所述主体成分进行扩充处理, 得到初步语句; 其中, 所述扩充处理至少包括以下 之一: 成分顺序调整处 理、 成分删减处 理、 成分复制处 理; 根据所述初步语句得到所述语句组。 5.根据权利要求4所述的方法, 其特征在于, 对每一所述主体成分进行扩充处理, 得到 初步语句, 包括: 对所述宾语成分进行语义解析处理, 得到所述宾语成分的词类别; 所述词类别包括非 否定词; 对包括所述非否 定词的所述宾语成分进行删减处 理, 得到所述初步语句。 6.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据预设的语法规则对所 述有效语句进行扩充处 理, 得到语句组, 包括: 对所述有效语句进行主体成分识别, 得到至少两个主体成分; 其中, 每一所述主体成分 包括谓语成分, 每一所述主体成分还 包括以下成分至少之一: 主语成分、 宾语成分; 对所述有效语句的每一所述主体成分进行成分顺序调整处 理, 得到第一扩充语句;权 利 要 求 书 1/2 页 2 CN 115048519 A 2对所述第一扩充语句进行主体成分识别, 得到 至少两个所述主体成分; 对所述第一扩充语句的每一所述主体成分进行成分删减处 理, 得到第二扩充语句; 对所述第二扩充语句进行主体成分识别, 得到 至少两个所述主体成分; 对所述第一扩充语句的每一所述主体成分进行成分复制处理, 和/或对所述第二扩充 语句的每一所述主体成分进行成分复制处 理, 得到第三扩充语句; 将所述第一扩充语句、 所述第二扩充语句和所述第三扩充语句进行合并处理, 得到所 述语句组。 7.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据所述初步语句构建测 试语料集, 包括: 获取历史样本总数, 并根据 所述参考意图类别获取历史正样本数量; 其中, 所述历史样 本总数是所有初步语句的数量, 所述历史正样本数量是包括所述参考意图类别的初步语句 的数量; 计算所述历史正样本数量与所述历史样本总数之间的比值, 得到分布占比值; 根据所述分布占比值、 预设的分类权重和预设的总测试语句数量计算语句数量阈值; 其中, 所述分类权 重为归一 化因子, 用于表征 所述参考意图类别对应的重要程度; 将目标语句数量的初步语句添加至所述测试语料集; 其中, 所述目标语句数量小于所 述语句数量阈值。 8.一种意图分类模型的评估 装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取原 始语料, 所述原 始语料包括至少两个原 始语句; 过滤模块, 用于对至少两个所述原 始语句进行 过滤处理, 得到有效语句; 扩充模块, 用于根据预设的语法规则对所述有效语句进行扩充处理, 得到语句组; 其 中, 每一所述有效语句 被扩充为包括至少 两个初步语句的语句组, 同一所述语句组的初步 语句具有相同的参 考意图类别; 测试语料集 生成模块, 用于根据所述初步语句构建测试语料集; 预测模块, 用于将所述测试语料集输入至预设的意图分类模型进行意图预测 处理, 得 到预测意图类别; 评估模块, 用于根据 所述参考意图类别和所述预测意图类别计算评估值; 其中, 所述评 估值用于表征 所述意图分类模型的性能。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器、 存储在所述存 储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连 接通信的数据总线, 所述程序被所述处理器执行时实现如权利要求 1至7任一项 所述的方法 的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多 个处理器执行, 以实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115048519 A 3

.PDF文档 专利 意图分类模型的评估方法和装置、设备、介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 意图分类模型的评估方法和装置、设备、介质 第 1 页 专利 意图分类模型的评估方法和装置、设备、介质 第 2 页 专利 意图分类模型的评估方法和装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。