专利一种基于信息检索与数据挖掘加权技术的虚假消息检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111397797.X (22)申请日 2021.11.23 (71)申请人西安热工研究院有限公司地址 710032 陕西省西安市碑林区兴庆路 136号 (72)发明人刘骁　杨东　崔逸群　王文庆　闫永强　朱博迪　毕玉冰　刘超飞　邓楠轶　董夏昕　介银娟　刘迪　肖力炀　崔鑫　王艺杰　朱召鹏　 (74)专利代理机构西安智大知识产权代理事务所 61215 代理人王晶 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01)G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 (57)摘要本发明公开了一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，对待测数据集包含真实消息和虚假消息，用以培训和评估；词形还原方法用于预处理数据，得到单词的主干部分；建立单词表用于将标题和文本连接成一个字符串，得到结果向量；删除标点符号消除无关变量；应用停用词用于提升文本特征的质量，降低文本特征的维度；语言模型，用以评估各单词对虚假消息评判的重要程度；逻辑回归分类器，用于训练数据并进行归类，检测消息的真实性。该方法通过利用信息检索与数据挖掘加权技术自动化检测消息，提升了虚假消息检测的准确率。权利要求书2页说明书4页附图1页 CN 114048292 A 2022.02.15 CN 114048292 A 1.一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，包括以下步骤； S100:准备一个待测数据集，集合包含真实消息和虚假消息，用以培训和评估； S200:对数据集中的数据进行预处理，使用词形还原方法，把一个任何形式的语言词汇还原为一般形式，得到单词的主干部分； S300:建立单词表，删除标点符号，去除停用词，停用词是在信息检索领域中不能提供有价值的信息作用、可以忽略的词语； S400:采用TF ‑IDF算法过滤掉在S300中单词表里对虚假消息的评判没有影响的词语，得到筛选后的单词表； S500:拆分数据，将待测数据集分成3 0％的测试数据和70％的训练数据； S600:使用逻辑回归分类器对训练数据进行归类，根据训练数据对分类边界建立回归公式，将数据映射到真实消息或虚假消息的类别中； S700:消息真实性分类，基于S600训练构建的分类器，可对任意消息进行分类分析，检测消息的真实性。 2.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S100中，虚假消息5000篇文章，真实消息5000篇文章，真实消息和虚假消息的比例各占一半，以期得到相对平衡的数据集，用以培训和评估。 3.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S200中，对S100中的数据集中的数据进行预处理，使用词形还原方法，去掉单词的词缀，提取单词的主干部分，提取后的单词为字典中的单词。 4.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S300中，使用S200预处理后的数据集构建单词表，将标题和文本连接成一个字符串，得到结果向量。 5.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S400中，通过TF ‑IDF算法过滤掉在S300构建的单词表中对虚假消息的评判没有影响的词语；首先计算词频T F，定义为词条在文本中出现的频率，在此处计算为单词表中某单词在虚假消息中出现的比例，然后计算逆向文件频率IDF，可以由虚假消息和真实消息的总和数目除以某单词在虚假消息或真实消息中出现的次数，再将得到的商取对数得到，如果某个词在一篇虚假消息中出现的频率T F低，然而在其他文章中常常出现,即 IDF低，则认为此单词不适合作为分类虚假消息的参数，通过TF乘以IDF，过滤掉乘积约等于 0的数，得到适用于虚假消息分类的单词表。 6.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S500中，为了完成一个有监督模型的测试，使用均匀随机抽样的方式，将数据集拆分为30％的训练集、 70％测试集数据，这两个集合不能有交集，以期获得真实的检测准确率。 7.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S600中，使用逻辑回归分类器对训练数据进行归类，回归是用一条直线对一些现有的数据点进行拟合的过程，根据S 500中的训练集数据对分类边界建立回归公式，并以此分类，将数据映射到真实消息或虚假消息的类别中，训练后，根据S500中的权　利　要　求　书 1/2 页 2 CN 114048292 A 2测试集对训练的结果进行测试，得到虚假消息检测的准确率。 8.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方法，其特征在于，所述步骤S700中，得到回归系数函数，将消息作为函数的输入值进行检测，输出值为其消息的真实性。权　利　要　求　书 2/2 页 3 CN 114048292 A 3

专利 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法

专利一种基于信息检索与数据挖掘加权技术的虚假消息检测方法