专利基于语言学特征对比学习的机器生成文本检测方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210855918.9 (22)申请日 2022.07.20 (65)同一申请的已公布的文献号申请公布号 CN 115081437 A (43)申请公布日 2022.09.20 (73)专利权人中国电子科技集团公司第三十研究所地址 610000 四川省成都市高新区创业路6 号专利权人国家计算机网络与信息安全管理中心 (72)发明人丁建伟　陈周国　王鑫　李鹏　张震　沈亮　杨宇　徐进　李欣泽　刘志洁　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师黎飞 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/253(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)(56)对比文件 CN 114091478 A,202 2.02.25 CN 110134720 A,2019.08.16 CN 112215004 A,2021.01.12 CN 113392986 A,2021.09.14 CN 112686040 A,2021.04.20 CN 114443827 A,202 2.05.06 CN 114298158 A,202 2.04.08 WO 2021139270 A1,2021.07.15 WO 2022115938 A1,202 2.06.09 谢燕武等.基于有向图的动态最优航迹规划算法. 《测控技术》 .2006,(第10期), 卢苗苗.中医文本实体关系的联合抽取. 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 .2022,(第03期), Chen YuXuan 等.Jo int BERT Model based Cybersecurity Named Entity Recogn ition. 《2021 The 4th I nternati onal Conference o n Software Engi neering and I nformati on Management》 .2021, (续) 审查员熊钟铭 (54)发明名称基于语言学特征对比学习的机器生成文本检测方法及系统 (57)摘要本发明涉及文本检测技术领域，公开了基于语言学特征对比学习的机器生成文本检测方法及系统，该机器生成文本检测方法，包括以下步骤： S1，预训练模型调整； S2，话语图构建； S3，向量表示计算； S4，文本检测参数更新。本发明解决了现有技术存在的在标注数据有限的情况下自动准确识别网络中的机器生成文本等问题。 [转续页] 权利要求书4页说明书12页附图4页 CN 115081437 B 2022.12.09 CN 115081437 B (56)对比文件 Xinjie Zhang 等.A Co nstruction Method for the Kn owledge Graph of Po wer Grid Supervisi on Business. 《2021 IE EE 4th Internati onal Conference o n Renewable Energy and Po wer Engi neering (REPE)》 .2021, Lin Yuxiao 等.Bertgcn: Transductive text clas sificati on by combi ning gcn and bert. 《网页在线公开: ht tps://arxiv.org/ abs/2105.05727》 .202 2,2/2 页 2[接上页] CN 115081437 B1.基于语言学特征对比学习的机器生成文本检测方法，其特征在于，包括以下步骤： S1，预训练模型调整：将预训练模型划分为训练集、机器文本检测数据集、验证集，将训练集输入预训练模型对预训练模型的参数进行调整； S2，话语图构建：对机器文本检测数据集进行分句、实体抽取、句法分析处理，得到句子以及句子中包含的实体；然后，将句子作为话语图中的边，利用句子中实体的连续出现频率以及实体的语法角色变化作为构建边的条件，将文本构建为描述文本内部语义连贯性的话语图；步骤S2包括以下步骤： S21，对机器文本检测数据集进行分句、实体抽取、句法分析处理； S22，用集合Vs＝{s1， s2， ...， sf， ...， sB}表示一篇文本中的句子集合，集合Ve＝{e1， e2， ...， ej， ...， eC}表示一篇文本中的实体集合；其中， B表示一篇文本中的句子的总数， 1≤ f≤B，表示集合Vs中第f个句子， C表示一篇文本中的实体的总数， 1≤j≤C， ej∈Ve表示集合 Ve中第j个实体；构建句子 ‑实体网格，实体在句子中作主语则标记S，实体在句子中作主语之外的其他成分则标记X，实体在句子中不出现则标记 ‑，得到网格化的实体与句子映射关系表，句子 ‑实体网格表示反映句子与实体关系对应关系的网格； S23，采用单模投影方法，获得表示句子间逻辑联系的有向话语图GD＝(Vs， Ed)：若两个句子至少共享同一个实体，则在两个句子间根据文本顺序建立一条有向边；其中， Ed表示有向边的集合； S24，将编码后的Vs输入步骤S1中调整后的预训练模型，得到节点向量表示其中，表示集合Vs中元素的节点向量； S3，向量表示计算：利用键向量编码器计算话语图的键向量表示，利用查询向量编码器计算查询向量表示，并实现键向量表示与查询向量表示之间的对比计算得到对比损失函数，再将查询向量表示输入分类器得到文本是否由机器生成的检测结果和分类损失函数，将对比损失函数和分类损失函数进行加和得到总的损失函数； S4，文本检测参数更新：通过梯度下降方法对查询向量编码器的参数及分类器的参数进行更新，通过动量更新方法对键向量编码器的参数进行更新；返回步骤S3进行下一次训练和检测结果的输出。 2.根据权利要求1所述的基于语言学特征对比学习的机器生成文本检测方法，其特征在于，步骤S1包括以下步骤： S11，对机器文本检测数据集进行清洗，通过分词器建立词典D＝{(t0， 0)， (t1， 1)， ...， (tg， 1)， ...， (tA， A)}；其中， g表示词典中单词的序号， 1≤g≤A， tg是词典中第g个单词， A表示词典长度，并以词典D编码文本数据； S12，根据词语在文本中出现的先后顺序将嵌入向量以时间序列的形式输入预训练模型，采用损失函数和优化器，输出检测结果；检测结果指文本检测模型检测到的文本是否由机器生成的机构； S13，选择训练过程中经验证集上验证的检测结果准确率最高的预训练模型作为后续应用的预训练模型。权　利　要　求　书 1/4 页 2 CN 115081437 B 3

专利 基于语言学特征对比学习的机器生成文本检测方法及系统

专利基于语言学特征对比学习的机器生成文本检测方法及系统