说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210450556.5 (22)申请日 2022.04.27 (71)申请人 中国人民公安大 学 地址 100038 北京市西城区木樨地 南里1号 (72)发明人 甄沐华 陈鹏 范子杨 王者  (74)专利代理 机构 北京天悦专利代理事务所 (普通合伙) 11311 专利代理师 田明 任晓航 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06Q 50/18(2012.01) (54)发明名称 一种食药环热线类事件犯罪线索筛查方法 及系统 (57)摘要 本发明涉及一种食药环热线类事件犯罪线 索筛查方法, 属于线索筛查领域, 所述方法基于 词库构建步骤, 通过利用中文数据关键信息抽取 及词向量模 型近似度匹配等自然语 言处理方法, 对关键词词汇信息进行识别提取以及扩展, 对基 本词集进行词义近似匹配, 建立较为完整全面的 犯罪线索专业词库, 进而进行犯罪线索筛查。 采 用本发明公开的一种食药环热线类事件犯罪线 索筛查方法, 能够实现对数据中犯罪线索的科 学、 有效筛查, 提升食药环业 务部门的工作效率。 权利要求书2页 说明书11页 附图3页 CN 115129808 A 2022.09.30 CN 115129808 A 1.一种食药环热线类事 件犯罪线索筛查方法, 所述方法包括 步骤: S1、 根据食药环事 件全量语料库, 建立犯罪线索专业词库; S2、 将待筛查数据的关键信息与犯罪线索专业词库中的数据进行匹配, 匹配度超过预 设阈值的, 判定为犯罪线索。 2.根据权利要求1所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S1包括子步骤: S11、 对食药环事 件全量语料库进行打标 预处理; S12、 结合经验知识从词汇集抽取 可表达疑似犯罪语义的关键词汇构成种子词集; S13、 对种子词集利用词向量模型进行扩展得到完备的专业词库, 对种子词集进行扩展 包括构建同类词集以及构建替代词集两方面。 3.根据权利要求2所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S11包括子步骤: S111、 搜集代 表疑似犯罪语义的词汇, 建立经验知识词集; S112、 参考所述经验知识词集对所述食药环事 件全量语料库进行文本预处 理。 4.根据权利要求3所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S112包括子步骤: 对所述食药环事件全量语料库进行中文分词、 去 除停用词、 去 除干扰词以及去 除重复 数据处理; 参考所述经验知识词集对所述食药环事件全量语料库中代表疑似犯罪语义的词汇进 行打标预处理, 并对所述词汇的词性进行 标注。 5.根据权利要求2所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S12包括子步骤: S121、 根据经 过预处理的所述食药环事 件全量语料库进行词向量模型训练; S122、 通过所述词向量模型从训练好的词向量文件中获取 经验知识词集词向量; S123、 利用经验知识词集词向量在已知犯罪线索数据中查找相似度 大于预设阈值的词 汇作为种子词集。 6.根据权利要求5所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S13中构建同类词集包括子步骤: S131、 对所述种子词集中以短语句式呈现的词汇进行分词 处理, 并对切分后的词汇划 分词性; S132、 根据分词后的种子词集在全量语料词向量中将相似度大于预设阈值的词 汇作为 同类词集。 7.根据权利要求6所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S13中构建替代词 集包括利用步骤S123中所述种子词 集的词向量, 结合近义词 查找工具产 生种子词集的替代词集。 8.根据权利要求7所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于: 对于 单条待筛查数据, 首先进行单词集中词汇碰撞匹配, 其次计算单词集与所述单条待筛查数 据的相似度加权值, 再次计算三类共六个词集与所述单条待筛查数据的相似度加权值积分 之和,最后与舆情领域公开敏感词集匹配词汇数积分得到结果。权 利 要 求 书 1/2 页 2 CN 115129808 A 29.根据权利要求8所述的一种 食药环热线类事件犯罪线索筛查方法, 其特征在于, 步骤 S2包括子步骤: S21、 对待筛查数据进行文本预处 理; S22、 采用分层抽样方法计算所述种子词集的回溯值; S23、 计算匹配词集词汇与待筛查文本相似度; S24、 计算所述待筛查文本的积分值, 将积分值高于预设积分阈值的待筛查数据判定为 犯罪线索。 10.一种食药环热线类事件犯罪线索筛查系统, 其特征在于: 所述系统采用如权利要求 1‑9中任一权利要求所述方法实现食药环热线类事 件犯罪线索筛查。权 利 要 求 书 2/2 页 3 CN 115129808 A 3

.PDF文档 专利 一种食药环热线类事件犯罪线索筛查方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种食药环热线类事件犯罪线索筛查方法及系统 第 1 页 专利 一种食药环热线类事件犯罪线索筛查方法及系统 第 2 页 专利 一种食药环热线类事件犯罪线索筛查方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。