说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111650851.7 (22)申请日 2021.12.3 0 (71)申请人 永中软件股份有限公司 地址 214135 江苏省无锡市震泽路18号无 锡 (国家) 软件园飞鱼座D幢 申请人 江南大学 (72)发明人 王钒宇 谈辉 谢振平 夏振涛  李艳 朱立烨  (74)专利代理 机构 苏州简理知识产权代理有限 公司 32371 专利代理师 杨瑞玲 (51)Int.Cl. G06F 40/35(2020.01) G06F 16/335(2019.01) G06F 16/338(2019.01)G06F 16/35(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于对抗多任务学习的统一语义性中 文文本润色方法 (57)摘要 本发明提供一种基于对抗多任务学习的统 一语义性中文文本润色方法, 其包括如下步骤: S1, 通过润色范围划分模型确定润色范围; S2, 对 于润色范围插入的字符数进行遍历搜索, 并使用 掩码语言模 型对其进行生 成, 将生成得到的一系 列新句子使用位置打分模型进行打分; S3, 根据 打分结果筛选出最佳的句子。 本发 明具有推动统 一性文本校对 方法的研究过程进展、 适合实际落 地使用、 在一定程度上确实改善人们的文本编辑 体验等优点。 权利要求书2页 说明书7页 附图1页 CN 114492463 A 2022.05.13 CN 114492463 A 1.一种基于对抗多任务学习的统一语义性中文文本润色方法, 其特征在于, 包括如下 步骤: S1, 通过润色范围划分模型确定润色范围; S2, 对于润色范围插入的字符数进行遍历搜索, 并使用掩码语言模型对其进行生成, 将 生成得到的一系列新句子使用位置打 分模型进行打 分; S3, 根据打 分结果筛 选出最佳的句子 。 2.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 对抗多任务学习用以训练润色框架的掩码语言模型(MLM,Mask  Language  Model) 和位置打分模型(PSM,Position  Scorer Model), 分别用来对于特定位置的字符进行预测 和对于特定位置的结果进 行打分; 在训练得到两个模 型之后, 使用润色范围划分模型(SD M, Scale Decision  Model)对于润色位置进行划分, 调用掩码语言模型和位置打分模型对于 句子进行润色。 3.根据权利要求2所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 其包括生成模块, 在生成对抗学习阶段, 生成模块加载实时调整的掩码语言模型, 根据不同的语义相关度得到较为近似的对抗数据并替换得到新的句子, 位置打分模型对于 替换后的句子进行判别打 分。 4.根据权利要求3所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 其包括交错权重模块, 所述交错权重模块结合生成器和判别器的结果生成交错的 两组权重, 交叉的作用于判别器和生成器上, 降低不良对抗数据对于结果调整的强度, 能够 在一定程度上规避混淆文本对于训练过程造成的不良影响。 5.根据权利要求3所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 所述生成模块采用对抗生成的方式对于训练数据进行生成, 使用掩码语言模型 的 排序结果对于训练数据进行动态生成, 具体的动态生成策略公式如下: ranki= 其中对于句子S的第i个字符, ranki是指掩码语言模型对于该位置的排序 结果, ki∈(0,1)是指该位置的随机种子, 其中c为常量, 通过控制c能够调整生成的字符在 字表中排序的范围, 之后根据ranki在RANKADV之前的生成字符设置为对抗样本, 在之后的字 符设置为普通 错误样本。 6.根据权利要求5所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 根据数据的难度将 c设置为1000, 表 示为生成的字符在每次分类结果的前1000位字 符中进行选择; 将RANKADV设置为20, 表示每次分类结果前20位为语义相似度较高的对抗样 本。 7.根据权利要求4所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 所述交错权 重模块包括两个不同的权 重WG和WD, 其中WG来自生成器, 根据生成模块得到普通错误时, 设置 该位置权重为1; 对于对抗替换 位置, 在掩码语言模型中, 输出向量表示字表中不同字 符对应的分类数值, 依据正确的分类 结果和不同使用生成字符的分类结果和当前位置分类结果进行计算得到WG, 具体计算公式 为:权 利 要 求 书 1/2 页 2 CN 114492463 A 2对于i位置, di是指该位置的ML模型的输出向量, ranki为对抗样本在分类结果排序中的 序号, SEEDg是通过预设得到的比例; WD来自于判别器, 判别器对于不同位置进行打分, 当打分越高说明该位置语义越不恰 当, 通过将原句和生成的错误句子输入判别器中, 根据二者打分结果得到这一部 分的权重, 具体计算公式为: scoreorigin和scorereplaced分别表示将原句输入后该位置的得分和对抗替换后该位置的 得分。 8.根据权利要求3所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 其还包括质量感知掩码策略, 所述质量控制掩码策略通过加载上一个Epoch训练得 到的掩码 语言模型作为掩码策略中的生成模型, 以这种方式进行动态掩码对于输入数据进 行质量控制, 具体的掩码方式如下: (1)对于随机选择的位置进行近似生成替换: 当计算得到的结果在为高度近似的字符 生成时, 使用该字符对于这个位置进行替换; (2)对于随机选择的位置进行遮盖生成替换: 当计算得到的结果在为近似度较低的字 符生成时, 对于这个位置进行[MASK]字符替换。 9.根据权利要求1所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 在润色的过程中, 根据句子的整体语义重构正确的语义框架, 并采用蒙特卡洛搜索 过程对于润色结果进 行搜索, 语义润色框架需要确定两部 分: 第一部 分是范围的字符长度, 表示为润色过程的广度搜索的结果; 另一部分是范围内替换或插入的字符数。 这部分表示 为润色过程的深度搜索结果。 10.根据权利要求9所述的基于对抗多任务学习的统一语义性中文文本润色方法, 其特 征在于, 其包括范围感知权重Wr, 所述范围感知权重Wr与润色范围的大小负相关, 当润色范 围极大时, 会导 致次要语义的缺失和整体 语义的偏差, 所述范围感知权 重Wr的计算公式为: 其中pc表示由位置打分模型得到的句中最不恰当的位置, p为宽度搜索过程的搜索位 置, l是句子的长度。权 利 要 求 书 2/2 页 3 CN 114492463 A 3

.PDF文档 专利 一种基于对抗多任务学习的统一语义性中文文本润色方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于对抗多任务学习的统一语义性中文文本润色方法 第 1 页 专利 一种基于对抗多任务学习的统一语义性中文文本润色方法 第 2 页 专利 一种基于对抗多任务学习的统一语义性中文文本润色方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。