说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647750.4 (22)申请日 2021.12.2 9 (71)申请人 科大讯飞股份有限公司 地址 230000 安徽省合肥市合肥市高新 开 发区望江西路6 66号 申请人 河北省讯飞人工智能研究院   中科讯飞互联 (北京) 信息科技有限 公司 (72)发明人 呼啸 巩捷甫 宋巍 盛志超  王士进 陈志刚 胡国平 秦兵  刘挺  (74)专利代理 机构 深圳市力道知识产权代理事 务所(普通 合伙) 44507 代理人 何姣(51)Int.Cl. G06F 40/253(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本数据生成方法、 计算机设备及存 储介质 (57)摘要 本申请实施例提供了一种文本数据生成方 法、 计算机设备及存储介质, 文本数据生成方法 包括: 获取无语法缺陷的第三文本; 将所述第三 文本输入生成模 型, 生成所述第三文本对应的第 一生成文本, 和用于指示所述第一生成文本存在 语法缺陷的目标概率, 所述生 成模型是基于无语 法缺陷的第一文本和有语法缺陷的第二文本训 练得到的; 根据所述第一生 成文本对应的目标概 率, 确定所述第一生成文本为目标文本。 生成模 型学习到第二文本对应的语 法错误规律, 训练后 的生成模型能够发挥生成结果多样的优异特性, 可以自动构建出 大量包含语法缺陷的文本 。 权利要求书2页 说明书11页 附图3页 CN 114357985 A 2022.04.15 CN 114357985 A 1.一种文本数据生成方法, 其特 征在于, 包括: 获取无语法缺陷的第三文本; 将所述第三文本输入生成模型, 生成所述第三文本对应的第一生成文本, 和用于指示 所述第一生成文本存在语法缺陷的目标概率, 所述生成模型是基于无语法缺陷的第一文本 和有语法缺陷的第二文本训练得到的; 根据所述第一 生成文本对应的目标概 率, 确定所述第一 生成文本为目标文本 。 2.如权利要求1所述的文本数据生成方法, 其特征在于, 所述第 二文本是基于预设的缺 陷文本构造规则, 根据所述第一文本生成的。 3.如权利要求2所述的文本数据生成方法, 其特征在于, 基于预设的缺陷文本构造规 则, 根据所述第一文本生成第二文本, 包括: 基于预设的缺陷文本构造规则, 确定所述第 一文本对应的目标缺陷和所述目标缺陷的 发生概率; 基于所述目标缺陷的发生概率, 根据所述目标缺陷构造所述第一文本对应的第二文 本。 4.如权利要求3所述的文本数据生成方法, 其特征在于, 所述基于预设的缺陷文本构造 规则, 确定所述第一文本对应的目标缺陷和所述目标缺陷的发生 概率, 包括: 基于预设的字/词缺陷构造表, 在所述第一文本中确定与所述字/词缺陷构造表中相同 的字/词, 得到目标缺陷的构造位置; 根据所述字/词缺陷构造表中与所述相同的字/词对应的发生概率, 确定所述目标缺陷 的发生概率; 所述基于所述目标缺陷的发生概率, 根据 所述目标缺陷构造所述第 一文本对应的第 二 文本, 包括: 基于所述目标缺陷的发生概率, 将所述构造位置的字/词删掉, 或者将所述构造位置的 字/词替换为所述 缺陷字/词, 或者在所述构造位置增 加所述缺陷字/词; 其中, 所述缺陷字/词是在所述字/词缺陷构造表中确定的与所述相同的字/词对应的 字/词。 5.如权利要求3所述的文本数据生成方法, 其特征在于, 所述基于预设的缺陷文本构造 规则, 确定所述第一文本对应的目标缺陷和所述目标缺陷的发生 概率, 包括: 对所述第一文本进行成分 分析, 确定所述第一文本中的成分和成分排序; 基于预设的成分缺陷构造规则, 根据所述第一文本中的成分和成分排序, 确定所述第 一文本对应的成分缺陷类型和对应的构造位置, 以及所述成分缺陷类型的发生 概率; 所述基于所述目标缺陷的发生概率, 根据 所述目标缺陷构造所述第 一文本对应的第 二 文本, 包括: 基于所述成分缺陷类型和对应的发生概率, 在所述第一文本的所述构造位置删除成 分、 增加成分, 或者调整成分的排序。 6.如权利要求1 ‑5中任一项所述的文本数据生成方法, 其特征在于, 所述生成模型的训 练过程, 包括: 将所述第一文本输入所述生成模型的编码器, 得到语义向量; 以及所述生成模型的解 码器根据所述语义向量 生成第二 生成文本;权 利 要 求 书 1/2 页 2 CN 114357985 A 2根据所述第 一文本对应的第 二文本和所述第 一文本对应的第 二生成文本之间的差异, 调整所述编码器和/或所述 解码器的参数。 7.如权利要求6所述的文本数据生成方法, 其特征在于, 所述生成模型的训练过程, 还 包括: 获取有语法缺陷的第四文本, 和所述第四文本消除缺陷得到的第五文本; 将所述第五文本输入所述生成模型的编码器, 得到语义向量; 以及所述生成模型的解 码器根据所述语义向量 生成第三 生成文本; 根据所述第四文本对应的第五文本和所述第四文本对应的第 三生成文本之间的差异, 对所述生成模型进行微调。 8.如权利要求1 ‑5中任一项所述的文本数据生成方法, 其特征在于, 所述将所述第三文 本输入训练后的生成模型, 生成所述第三文本对应的第一生成文本, 和用于指示所述第一 生成文本存在语法缺陷的目标概 率, 包括: 将所述第三文本输入所述生成模型的编码器, 得到语义向量; 以及所述生成模型的解 码器根据所述语义向量 生成第一 生成文本和所述第一 生成文本的终止符的语义表示; 对所述第一生成文本的终止符的语义表示进行全连接变换, 得到用于指示所述第 一生 成文本存在语法缺陷的目标概 率。 9.如权利要求1 ‑5中任一项所述的文本数据生成方法, 其特征在于, 所述生成模型为基 于seq2seq网络的模型。 10.一种计算机设备, 其特 征在于, 所述计算机设备包括存 储器和处 理器; 所述存储器用于存 储计算机程序; 所述处理器, 用于执 行所述计算机程序并在执 行所述计算机程序时实现: 如权利要求1 ‑9中任一项所述的文本数据生成方法的步骤。 11.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 若所述计算机程序被处 理器执行, 实现: 如权利要求1 ‑9中任一项所述的文本数据生成方法的步骤。权 利 要 求 书 2/2 页 3 CN 114357985 A 3

.PDF文档 专利 文本数据生成方法、计算机设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本数据生成方法、计算机设备及存储介质 第 1 页 专利 文本数据生成方法、计算机设备及存储介质 第 2 页 专利 文本数据生成方法、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。