说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210858095.5 (22)申请日 2022.07.20 (71)申请人 思必驰科技股份有限公司 地址 215123 江苏省苏州市苏州工业园区 新平街38 8号腾飞创新园14栋 (72)发明人 王建忠  (74)专利代理 机构 北京商专永信知识产权代理 事务所(普通 合伙) 11400 专利代理师 邓婷婷 黄谦 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/253(2020.01) (54)发明名称 用于扩充语料的句子生成方法及电子设备 和存储介质 (57)摘要 本发明公开一种用于扩充语料的句子生成 方法、 电子设备和存储介质, 其中方法包括: 获取 语料句子文本中的关键词组, 对 所述关键词组进 行扩展生成句子主体词组列表; 对 所述语料句子 文本进行句式分类, 对分类后的句式进行扩展并 获取扩展后得到的语序列表; 基于所述语序列表 结合所述句子主体词组列表生成所述语料句子 文本对应的规则。 本发明实施例通过将扩展生成 的句子主体词组列表结合扩展后得到的语序列 表来生成语料句子文本对应的规则, 降低了使用 正则语法编写程度上的门槛, 也不需要编写较多 的不同规则来覆盖更多的句式说法, 减少人工对 语料的分析, 同时也降低人工成本 。 权利要求书1页 说明书8页 附图4页 CN 115169359 A 2022.10.11 CN 115169359 A 1.一种用于扩充语料的句子生成方法, 包括: 获取语料句子文本中的关键词组, 对所述关键词组进行扩展生成句子主体词组列表; 对所述语料句子文本进行句式分类, 对分类后的句式进行扩展并获取扩展后得到的语 序列表; 基于所述语序列表结合所述句子主体词组列表生成所述语料句子文本对应的规则。 2.根据权利要求1所述的方法, 其中, 所述获取语料句子文本中的关键词组包括: 对所述语料句子文本进行分词以及词性过滤, 得到词组列表, 其中, 所述词性过滤包括 停用词过 滤; 对所述词组列表进行摘要得到关键词组。 3.根据权利要求1所述的方法, 其中, 所述对所述语料句子文本进行句式分类包括: 根据汉语句法的语义构 成对所述语料句子文本做句式分析, 并根据不同的句式进行句 式分类, 其中, 所述句式分类包括陈述句、 疑问句、 否 定句和祈使句。 4.根据权利要求1所述的方法, 其中, 所述对分类后的句式进行扩展包括: 对所述分类后的每一类句式进行特定句式的扩展, 其中, 所述特定句式的扩展包括疑 问词扩展和否 定词扩展。 5.根据权利要求1所述的方法, 其中, 所述对所述关键词组进行扩展生成句子主体词组 列表包括: 使用定制词典对所述关键词组中的用户定制实体进行扩展; 使用通用词典对所述关键词组中的通用实体进行扩展; 基于所述用户定制实体扩展和所述 通用实体扩展生成所述句子主体词组列表。 6.根据权利要求1所述的方法, 其中, 所述基于所述语序列表结合所述句子主体词组列 表生成所述语料句子文本对应的规则包括: 获取所述语料句子文本的主体词组列表和每一类句式对应的语序列表; 将所述主体词组列表和所述每一类句式对应语序列表进行汇总, 生成所述语料句子文 本对应的文本规则列表。 7.根据权利要求6所述的方法, 其中, 在所述生成所述语料句子文本对应的文本规则列 表之后包括: 通过控制所述文本规则列表内的组合搭配出现次数以及控制词库的词条搭配出现次 数, 对所述语料句子文本的数量进行控制; 将所述句子主体词组列表中不同的词组以及所述扩展的内容互相搭配提取, 提高所述 句子的语料丰富度。 8.根据权利要求6所述的方法, 其中, 所述方法还 包括: 通过人工定义所述语料句子文本, 生成对应领域 意图的规则。 9.一种电子设备, 其包括: 至少一个处理器, 以及与所述至少一个处理器通信连接的存 储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所述至少 一个处理器执行, 以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步 骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实 现权利要求1至8任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 115169359 A 2用于扩充语 料的句子生成方 法及电子 设备和存储介质 技术领域 [0001]本发明属于扩充训练语料技术领域, 尤其涉及一种用于扩充语料的句子生成方法 及电子设备和存 储介质。 背景技术 [0002]现有技术中在扩充训练语料方面, 一方面是收集更多数据, 另一方面也可以基于 已有的数据做数据扩充。 目前基于已有语料 的数据扩充比较有效的方法是, 专业的数据或 开发人员根据语料编写相应的意图规则。 使用意图规则来 生成语料。 [0003]编写规则需要 从实际的语料 中总结该领域包含的实体, 根据语料中不同的句子结 构分析出常用句式语法。 根据不同的任务需求, 定义出不同的intent。 再结合语料分析的实 体和说法句式, 编写对应的语义规则。 不仅需要专 业的开发人员来编写和维护语义规则, 而 且工作量大, 需要分析 大量的语料, 总结句式和说法, 来定义 规则。 [0004]发明人发现: 规则一般使用正则语法编写, 有一定的门槛, 想要获得较比好的效 果, 往往需要编写较多的不同规则来覆盖更多的句式说法, 同时需要人工要分析大量的语 料; 使用简化的正则语法, 一定程度上可以降低门槛, 但是削弱了规则的功能性, 会造成规 则数量的进一 步扩大, 造成维护困难。 发明内容 [0005]本发明实施例旨在至少解决上述 技术问题之一。 [0006]第一方面, 本 发明实施例提供一种用于扩充语料的句子生成方法, 包括: 获取语料 句子文本中的关键词组, 对所述关键词组进行扩展生成句 子主体词组列表; 对所述语料句 子文本进行句式分类, 对分类后的句式进行扩展并获取扩展后得到的语序列表; 基于所述 语序列表结合所述句子主体词组列表生成所述语料句子文本对应的规则。 [0007]第二方面, 本发明实施例提供一种电子设备, 其包括: 至少一个处理器, 以及与所 述至少一个处理器通信连接的存储器, 其中, 所述存储器存储有可被所述至少一个处理器 执行的指令, 所述指令被所述至少一个处理器执行, 以使所述至少一个处理器能够执行本 发明上述任一项用于扩充语料的句子生成方法。 [0008]第三方面, 本发明实施例提供一种存储介质, 所述存储介质中存储有一个或多个 包括执行指令的程序, 所述执行指令能够被电子设备(包括但不限于计算机, 服务器, 或者 网络设备等)读取并执 行, 以用于执 行本发明上述任一项用于扩充语料的句子生成方法。 [0009]第四方面, 本发明实施例还提供一种计算机程序产品, 所述计算机程序产品包括 存储在存储介质上 的计算机程序, 所述计算机程序包括程序指令, 当所述程序指令被计算 机执行时, 使所述计算机执 行上述任一项用于扩充语料的句子生成方法。 [0010]本发明实施例通过将扩展生成的句子主体词组列表结合扩展后得到的语序列表 来生成语料句 子文本对应的规则, 降低了使用正则语法编写程度上 的门槛, 也不需要编写 较多的不同规则来覆盖更多的句式说法, 减少人工对语料的分析, 同时也降低人工成本 。说 明 书 1/8 页 3 CN 115169359 A 3

.PDF文档 专利 用于扩充语料的句子生成方法及电子设备和存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于扩充语料的句子生成方法及电子设备和存储介质 第 1 页 专利 用于扩充语料的句子生成方法及电子设备和存储介质 第 2 页 专利 用于扩充语料的句子生成方法及电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。