说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111397797.X (22)申请日 2021.11.23 (71)申请人 西安热工 研究院有限公司 地址 710032 陕西省西安市碑林区兴庆路 136号 (72)发明人 刘骁 杨东 崔逸群 王文庆  闫永强 朱博迪 毕玉冰 刘超飞  邓楠轶 董夏昕 介银娟 刘迪  肖力炀 崔鑫 王艺杰 朱召鹏  (74)专利代理 机构 西安智大知识产权代理事务 所 61215 代理人 王晶 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01)G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于信息检索与数据挖掘加权技术的 虚假消息 检测方法 (57)摘要 本发明公开了一种基于信息检索与数据挖 掘加权技术的虚假消息检测方法, 对待测数据集 包含真实消息和虚假消息, 用以培训和评估; 词 形还原方法用于预处理数据, 得到单词的主干部 分; 建立单词表用于将标题和文本连接成一个字 符串, 得到结果向量; 删除标点符号消除无关变 量; 应用停用词用于提升文本特征的质量, 降低 文本特征的维度; 语言模型, 用以评估各单词对 虚假消息评判的重要程度; 逻辑回归分类器, 用 于训练数据并进行归类, 检测消息的真实性。 该 方法通过利用信息检索与数据挖掘加权技术自 动化检测 消息, 提升 了虚假消息 检测的准确率。 权利要求书2页 说明书4页 附图1页 CN 114048292 A 2022.02.15 CN 114048292 A 1.一种基于信息检索与数据挖掘加权技术的虚假消息检测方法, 其特征在于, 包括以 下步骤; S100:准备一个待测数据集, 集 合包含真实消息和虚假消息, 用以培训和评估; S200:对数据集中的数据进行预处理, 使用词形还原方法, 把一个任何形式的语言词 汇 还原为一般形式, 得到单词的主干 部分; S300:建立单词表, 删除标点符号, 去除停用词, 停用词是在信息检索领域中不能提供 有价值的信息作用、 可以忽略的词语; S400:采用TF ‑IDF算法过滤掉在S300中单词表里对虚假消息的评判没有影响的词语, 得到筛选后的单词表; S500:拆分数据, 将待测数据集分成3 0%的测试 数据和70%的训练数据; S600:使用逻辑回归分类器对训练数据进行归类, 根据训练数据对分类边界建立回归 公式, 将数据映射到真实消息或虚假消息的类别中; S700:消息真实性分类, 基于S600训练构建的分类器, 可对任意消息进行分类分析, 检 测消息的真实性。 2.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S100中, 虚假消息5000篇文章, 真实消息5000篇文章, 真实消息和 虚假消息的比例各占一半, 以期得到相对平衡的数据集, 用以培训和评估。 3.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S200中, 对S100中的数据集中的数据进行预处理, 使用词形还原 方法, 去掉单词的词缀, 提取 单词的主干 部分, 提取后的单词为字典中的单词。 4.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S300中, 使用S200预处理后的数据集构建单词表, 将标题和文本 连接成一个字符串, 得到结果向量。 5.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S400中, 通过TF ‑IDF算法过滤掉在S300构建的单词表中对虚假消 息的评判没有影响的词语; 首先计算词频T F, 定义为词条在文本中出现的频率, 在此处计算 为单词表中某单词在虚 假消息中出现的比例, 然后计算逆向文件频率IDF, 可以由虚 假消息 和真实消息的总和数目除以某单词在虚 假消息或真实消息中出现的次数, 再将得到的商 取 对数得到, 如果某个词在一篇虚 假消息中出现的频率T F低, 然而在其他文章中常常出现,即 IDF低, 则认 为此单词不适合作为分类虚 假消息的参数, 通过TF乘以IDF, 过滤掉乘积约等于 0的数, 得到适用于虚假消息分类的单词表。 6.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S500中, 为了完成一个有监督模型的测试, 使用均匀随机抽样的 方式, 将数据集拆分为30%的训练集、 70%测试集数据, 这两个集合不能有交集, 以期获得 真实的检测准确率。 7.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S600中, 使用逻辑回归分类器对训练数据进行归类, 回归是用一 条直线对一些现有的数据点进 行拟合的过程, 根据S 500中的训练集数据对分类边界建立回 归公式, 并以此分类, 将数据映射到真实消 息或虚假消息的类别中, 训练后, 根据S500中的权 利 要 求 书 1/2 页 2 CN 114048292 A 2测试集对训练的结果进行测试, 得到虚假消息检测的准确率。 8.根据权利要求1所述的一种基于信息检索与数据挖掘加权技术的虚假消息检测方 法, 其特征在于, 所述步骤S700中, 得到回归系数函数, 将消息作为函数的输入值进行检测, 输出值为其消息的真实性。权 利 要 求 书 2/2 页 3 CN 114048292 A 3

.PDF文档 专利 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 第 1 页 专利 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 第 2 页 专利 一种基于信息检索与数据挖掘加权技术的虚假消息检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。