说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210855918.9 (22)申请日 2022.07.20 (65)同一申请的已公布的文献号 申请公布号 CN 115081437 A (43)申请公布日 2022.09.20 (73)专利权人 中国电子科技 集团公司第三十 研 究所 地址 610000 四川省成 都市高新区创业路6 号 专利权人 国家计算机网络与信息安全管理 中心 (72)发明人 丁建伟 陈周国 王鑫 李鹏  张震 沈亮 杨宇 徐进 李欣泽  刘志洁  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 黎飞 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/253(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)(56)对比文件 CN 114091478 A,202 2.02.25 CN 110134720 A,2019.08.16 CN 112215004 A,2021.01.12 CN 113392986 A,2021.09.14 CN 112686040 A,2021.04.20 CN 114443827 A,202 2.05.06 CN 114298158 A,202 2.04.08 WO 2021139270 A1,2021.07.15 WO 2022115938 A1,202 2.06.09 谢燕武 等.基 于有向图的动态最优航迹规 划算法. 《测控技 术》 .2006,(第10期), 卢苗苗.中医文本实体关系的联合抽取. 《中 国优秀硕士学位 论文全文数据库医药卫 生科技 辑》 .2022,(第03期), Chen YuXuan 等.Jo int BERT Model based Cybersecurity Named Entity Recogn ition. 《2021 The 4th I nternati onal Conference o n Software Engi neering and I nformati on Management》 .2021, (续) 审查员 熊钟铭 (54)发明名称 基于语言学特征对比学习的机器生成文本 检测方法及系统 (57)摘要 本发明涉及文本检测技术领域, 公开了基于 语言学特征对比学习的机器生成文本检测方法 及系统, 该机器生成文本检测方法, 包括以下步 骤: S1, 预训练模型调整; S2, 话语图构建; S3, 向 量表示计算; S4, 文本检测参数更新。 本发明解决 了现有技术存在的在标注数据有 限的情况下自 动准确识别网络中的机 器生成文本等问题。 [转续页] 权利要求书4页 说明书12页 附图4页 CN 115081437 B 2022.12.09 CN 115081437 B (56)对比文件 Xinjie Zhang 等.A Co nstruction Method for the Kn owledge Graph of Po wer Grid Supervisi on Business. 《2021 IE EE 4th Internati onal Conference o n Renewable Energy and Po wer Engi neering (REPE)》 .2021, Lin Yuxiao 等.Bertgcn: Transductive text clas sificati on by combi ning gcn and bert. 《网页在线公开: ht tps://arxiv.org/ abs/2105.05727》 .202 2,2/2 页 2[接上页] CN 115081437 B1.基于语言学 特征对比学习的机器生成文本检测方法, 其特 征在于, 包括以下步骤: S1, 预训练模型调整: 将预训练模型划分为训练集、 机器文本检测数据集、 验证集, 将训 练集输入预训练模型对预训练模型的参数进行调整; S2, 话语图构建: 对机器文本检测数据集进行分句、 实体抽取、 句法分析处理, 得到句子 以及句子中包含的实体; 然后, 将句子作为话语图中的边, 利用句子中实体的连续出现频率 以及实体的语法角色变化作为构建边的条件, 将文本构建为描述文本内部语义连贯性的话 语图; 步骤S2包括以下步骤: S21, 对机器文本检测数据集进行分句、 实体抽取、 句法分析处 理; S22, 用集合Vs={s1, s2, ..., sf, ..., sB}表示一篇文本中的句子集合, 集合Ve={e1, e2, ..., ej, ..., eC}表示一篇文本中的实体集合; 其中, B表示一篇文本中的句子的总数, 1≤ f≤B, 表示集合Vs中第f个句子, C表示一篇文本中的实体的总数, 1≤j≤C, ej∈Ve表示集合 Ve中第j个实体; 构建句子 ‑实体网格, 实体在句子中作主语则标记S, 实体在句子中作主语 之外的其他成分则标记X, 实体在句子中不出现则标记 ‑, 得到网格化的实体与句子映射关 系表, 句子 ‑实体网格表示反映句子与实体关系对应关系的网格; S23, 采用单模投影方法, 获得表示句子间逻辑联系的有向话语图GD=(Vs, Ed): 若两个 句子至少共享同一个实体, 则在两个句子间根据文本顺序建立一条有向边; 其中, Ed表示有 向边的集 合; S24, 将编码后的Vs输入步骤S1中调整后的预训练模型, 得到节点向量表示 其中, 表示集合Vs中元素的节点向量; S3, 向量表示计算: 利用键向量编码器计算话语图的键向量表示, 利用查询向量编码器 计算查询向量表示, 并实现键向量表示与查询向量表示之间的对比计算得到对比损失函 数, 再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数, 将对比损失函数和分类损失函数进行加 和得到总的损失函数; S4, 文本检测参数更新: 通过梯度下降方法对查询向量编码器的参数及分类器的参数 进行更新, 通过动量更新方法对键 向量编码器的参数进行更新; 返回步骤S3进行下一次训 练和检测结果的输出。 2.根据权利要求1所述的基于语言学特征对比学习的机器生成文本检测方法, 其特征 在于, 步骤S1包括以下步骤: S11, 对机器文本检测数据集进行清洗, 通过分词器建立词典D={(t0, 0), (t1, 1), ..., (tg, 1), ..., (tA, A)}; 其中, g表示词典中单词的序号, 1≤g≤A, tg是词典中第g个单词, A表 示词典长度, 并以词典D编码文本数据; S12, 根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模 型, 采用损失函数和优化器, 输出检测结果; 检测结果指文本检测模 型检测到的文本是否由 机器生成的机构; S13, 选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续 应用的预训练模型。权 利 要 求 书 1/4 页 2 CN 115081437 B 3

.PDF文档 专利 基于语言学特征对比学习的机器生成文本检测方法及系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语言学特征对比学习的机器生成文本检测方法及系统 第 1 页 专利 基于语言学特征对比学习的机器生成文本检测方法及系统 第 2 页 专利 基于语言学特征对比学习的机器生成文本检测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。