说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210800733.8 (22)申请日 2022.07.08 (71)申请人 河南省信息中心 地址 450000 河南省郑州市郑东 新区圃田 西路154号 (72)发明人 时兴华 刘孟旭 赵满满 赵卫利 任鹏 王阳 李冉 梁永强 谢馥远 (74)专利代理 机构 郑州大豫知识产权代理事务 所(普通合伙) 41214 专利代理师 张雯雯 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 16/951(2019.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大数据的信息处理方法和信息处 理系统 (57)摘要 本发明提供的一种基于大数据的信息处理 方法和信息处理系统, 具体应用于文本识别领 域, 包括获取待处理文本; 通过敏感词检测模型 和敏感词库, 得到第一敏感词检测结果和第二敏 感词检测结果; 基于检测结果构建第一敏感词矩 阵和第二敏感词矩阵; 将矩阵进行匹配, 匹配成 功的词语集合确定为敏 感词, 计算匹配失败的词 语集合中任一词的的成词率, 进而得到该词的敏 感度; 将敏感度大于预设阈值的任一词确定为所 述待处理文本中的敏感词, 并作为未登录词加入 所述敏感词库; 反之交由人工复查, 确定所述待 处理文本中的敏感词。 由此提高敏感词检测的正 确性和效率。 权利要求书3页 说明书8页 附图2页 CN 115017904 A 2022.09.06 CN 115017904 A 1.一种基于大 数据的信息处 理方法, 其特 征在于, 包括: 步骤1, 利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本; 步骤2, 将所述待处理文本输入敏感词检测模型, 得到第一敏感词检测结果; 其中, 所述 敏感词检测模型包括编码器和解码器, 所述编码器由双向长短时记忆网络构成, 所述解码 器由循环神经网络构成; 步骤3, 将所述待处理文本与敏感词库匹配, 得到第二敏感词检测结果; 所述敏感词库 中包含敏感词和敏感字符; 步骤4, 基于所述第一敏感词检测结果和所述第 二敏感词检测结果, 分别构建第 一敏感 词矩阵和第二敏感词矩阵; 步骤5, 将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成功的第一 敏感词集 合和匹配失败的第二敏感词集 合; 步骤6, 将所述第一敏感词集 合确定为所述待处 理文本中的敏感词; 步骤7, 计算所述第二敏感词集合中任一词的成词率, 根据 所述成词率得到该词的敏感 度; 步骤8, 将所述敏感度 大于预设阈值的任一词确定为所述待处理文本中的敏感词, 并作 为未登录词加入所述敏感词库; 步骤9, 将所述敏感度小于等于预设阈值的任一词交 由人工复查, 确定所述待处理文本 中的敏感词。 2.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤1, 利用爬 虫软件收集文本数据, 经过预处理得到待处理文本, 包括: 所述文本数据中包含字母、 文字 和表情符号; 将所述表情符号转换为表情文本; 其中, 所述表情文本包括符号、 文字和/或字母的组 合; 所述字母、 所述文字和所述表情文本作为待处 理文本。 3.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤2, 将所述 待处理文本输入敏感词检测模型, 得到第一敏感词检测结果, 包括: 获得所述待处 理文本的向量 化表示; 将所述向量 化表示输入所述双向长短时记 忆网络进行编码, 得到编码向量; 将所述编码向量输入循环神经网络进行解码, 得到第一敏感词检测结果。 4.根据权利要求2所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤3, 将所述 待处理文本与敏感词库匹配, 得到第二敏感词检测结果, 包括: 将所述待处理文本进行分词, 获得分词集合; 其中, 所述表情文本的符号、 文字和/或字 母的组合作为所述分词集 合中的一个分词; 将所述分词集 合中任一分词与所述敏感词库中任一词匹配, 得到匹配结果; 根据所述匹配结果, 得到第二敏感词检测结果。 5.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤5, 将所述 第一敏感词矩阵和所述第二敏感词矩阵进 行匹配, 得到匹配成功的第一敏感词集合和匹配 失败的第二敏感词集 合, 包括: 将所述第一敏感词矩阵和所述第 二敏感词矩阵输入词语对齐模型中, 得到正交变换矩权 利 要 求 书 1/3 页 2 CN 115017904 A 2阵; 根据所述正交变换矩阵对齐所述第 一敏感词矩阵和所述第 二敏感词矩阵, 得到词语匹 配结果; 将匹配成功的词语作为第一敏感词集 合; 将匹配失败的词语作为第二敏感词集 合。 6.根据权利要求1所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所 述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 包括: 计算所述第二敏感词集 合中任一词相对于所述待处 理文本的TF ‑IDF值; 将所述TF ‑IDF值作为该词的成词率。 7.根据权利要求6所述的基于大数据的信 息处理方法, 其特征在于, 所述步骤7, 计算所 述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度, 还 包括: 获得所述第二敏感词集 合中任一词的义原; 分别将该词和该词的义原与所述敏感词库匹配, 得到对应的词语权重值和义原权重 值; 根据以下公式计算该词的敏感度: 其中, Fi表示第i个词的敏感度, M表示第二敏感词集合中的词语数量, ki表示第i个词的 成词率, wi表示第i个词的权重值, 中N表示第i个词共有N个义原, qi,j表示第i个词 的第j个义原的权 重值。 8.根据权利要求1所述的基于大 数据的信息处 理方法, 其特 征在于, 该 方法还包括: 对待处理文本中的敏感词进行 标记和汇总; 可视化显示敏感词、 标记和汇总信息 。 9.一种基于大 数据的信息处 理系统, 其特 征在于, 包括: 文本处理模块, 用于利用爬虫 软件收集文本数据, 经 过预处理得到待处 理文本; 第一敏感词检测模块, 用于将所述待处理文本输入敏感词检测模型, 得到第一敏感词 检测结果; 其中, 所述敏感词检测模型包括编 码器和解码 器, 所述编 码器由双向长 短时记忆 网络构成, 所述 解码器由循环神经网络构成; 第二敏感词检测模块, 用于将所述待处理文本与敏感词库匹配, 得到第二敏感词检测 结果; 所述敏感词库中包 含敏感词和敏感字符; 矩阵构建模块, 用于基于所述第一敏感词检测结果和所述第二敏感词检测结果, 分别 构建第一敏感词矩阵和第二敏感词矩阵; 匹配模块, 用于将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配, 得到匹配成 功的第一敏感词集 合和匹配失败的第二敏感词集 合; 敏感词确定模块, 用于将所述第一敏感词集 合确定为所述待处 理文本中的敏感词; 计算所述第二敏感词集 合中任一词的成词率, 根据所述成词率得到该词的敏感度; 将所述敏感度 大于预设阈值的任一词确定为所述待处理文本 中的敏感词, 并作为未登 录词加入所述敏感词库; 将所述敏感度小于等于预设阈值的任一词交由人工复查。权 利 要 求 书 2/3 页 3 CN 115017904 A 3
专利 一种基于大数据的信息处理方法和信息处理系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:46
上传分享
举报
下载
原文档
(582.3 KB)
分享
友情链接
ISO 19827 2016 Water quality — Determination of the acute toxicity to the freshwater rotifer Brachionus calyciflorus.pdf
ISO 28000 2022 安全和复原力 - 安全管理系统 - 要求.pdf
ISO 1703 2018 Assembly tools for screws and nuts — Nomenclature.pdf
ISO TR 15155-2 2012 Agricultural irrigation equipment — Test facilities for agricultural irrigation equipment — Part 2 Test facility operating manual.pdf
ISO 6699 2016 Cycles — Handlebar centre and stem dimensions.pdf
ISO 10156 2017 Gas cylinders — Gases and gas mixtures — Determination of fire potential and oxidizing ability for the selection of cylinder valve outlets.pdf
ISO 1841-2 1996 Meat and meat products — Determination of chloride content — Part 2 Potentiometric method.pdf
ISO 22555 2022 Ships and marine technology — Propeller pitch indicators.pdf
ISO 23306 2020 Specification of liquefied natural gas as a fuel for marine applications.pdf
ISO 4865-1 2023 Dentistry — General requirements of hand instruments — Part.pdf
GB-T 12737-2008 工业用化工产品中以硫酸根表示的痕量硫化合物测定的通用方法 还原和滴定法.pdf
GB-T 25922-2023 封闭管道中流体流量的测量 用安装在充满流体的圆形截面管道中的涡街流量计测量流量.pdf
GB-T 20178-2022 土方机械 机器安全标签 通则.pdf
GB-T 210.2-2004 工业碳酸钠及其试验方法 第2部分 工业碳酸钠试验方法.pdf
GB-T 19352.4-2003 热喷涂 热喷涂结构的质量要求 第4部分 基本的质量要求.pdf
GB-T 18859-2016 封闭式低压成套开关设备和控制设备 在内部故障引起电弧情况下的试验导则.pdf
GB 11120-2011 涡轮机油.pdf
GB-T 5250-2014 可渗透性烧结金属材料 流体渗透性的测定.pdf
GB-T 7123.1-2015 多组分胶粘剂可操作时间的测定.pdf
GB-T 2820.9-2002 往复式内燃机驱动的交流发电机组 第9部分 机械振动的测量和评价.pdf
1
/
3
14
评价文档
赞助1.5元 点击下载(582.3 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。