说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210463353.X (22)申请日 2022.04.28 (71)申请人 深圳市百川数安科技有限公司 地址 518000 广东省深圳市南 山区蛇口街 道渔一社区后海 大道1021号东角头工 业区BC座C 631 (72)发明人 刘堡萱 文成明  (74)专利代理 机构 北京中和立达知识产权代理 有限公司 1 1756 专利代理师 孟姣 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/332(2019.01) G06F 16/36(2019.01) (54)发明名称 互联网社区的敏感词的扩展 方法、 装置及存 储介质 (57)摘要 本发明涉及数据处理技术领域, 是关于一种 互联网社区的敏感词的扩展 方法、 装置及存储介 质, 方法包括: 获取常用汉字表, 并对常用汉字表 中的每个常用汉字进行笔画 拆分; 根据每个常用 汉字的笔画确定与其对应的形近字, 以得到每个 常用汉字对应的形近字集合; 获取初始敏感词 集, 并从初始敏感词集中的每个敏感词中提取目 标常用汉字; 根据目标常用汉字对应的形近字集 合替换目标常用汉字, 以得到敏感词对应的候选 扩展敏感词集; 对每个敏感词对应的候选扩展 敏 感词集中的每个候选扩展敏感词进行筛选和审 核, 得到扩展敏感词; 将扩展敏感词加入到初始 敏感词集中, 以得到目标敏感词集。 通过该技术 方案, 预测黑产关键词的效果, 达到识别黑产帖 评的效果。 权利要求书2页 说明书9页 附图8页 CN 114817760 A 2022.07.29 CN 114817760 A 1.一种互联网社区的敏感词的扩展方法, 其特 征在于, 用于终端设备, 所述方法包括: 获取常用汉字表, 并对所述常用汉字表中的每 个常用汉字进行 笔画拆分; 根据每个常用汉字的笔画确定与其对应的形近字, 以得到每个常用汉字对应的形近字 集合; 获取初始敏感词集, 并从所述初始敏感词集中的每 个敏感词中提取目标常用汉字; 根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字, 以得到所述敏感词 对应的候选扩展敏感词集; 对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核, 得 到扩展敏感词; 将所述扩展敏感词加入到所述初始敏感词集中, 以得到目标 敏感词集。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 使用所述目标 敏感词集对互联网社区中的帖评数据进行 敏感词检测。 3.根据权利要求1所述的方法, 其特征在于, 根据每个常用汉字的笔画确定与其对应的 形近字, 以得到每 个常用汉字对应的形近 字集合, 包括: 根据总笔画数, 计算每个常用汉字与所述常用汉字表中每个其他常用汉字之间的最大 不相似笔画数; 根据笔画名称, 计算每 个常用汉字与每 个所述其他常用汉字之间的不相似笔画数; 当所述不相似笔画数大于所述最大不相似笔画数时, 确定所述常用汉字和所述其他常 用汉字不是 形近字; 当所述不相似笔画数小于或者等于所述最大不相似笔画数时, 确定所述常用汉字与 所 述其他常用汉字之 间是形近字, 将该其他常用汉字添加到所述常用汉字对应的形近字集合 中。 4.根据权利要求3所述的方法, 其特征在于, 采用以下第 一计算公式计算所述最大不相 似笔画数A: 其中, A表示所述最大不相似笔画数, Floor表示向下取整函数, Sa表示所述常用汉字的 总笔画数, Sb表示所述 其他常用汉字的总笔画数, mi n(Sa,Sb)表示取Sa和Sb中笔画数少的。 5.根据权利要求1所述的方法, 其特征在于, 对每个敏感词对应的候选扩展敏感词集中 的每个候选扩展敏感词进行筛 选和审核, 得到扩展敏感词, 包括: 根据总笔画数, 计算所述敏感词和每 个候选扩展敏感词之间的最大不 一致笔画数; 根据笔画名称, 计算所述敏感词和每 个候选扩展敏感词之间的不 一致笔画数; 当所述不一致笔画数 大于所述 最大不一致笔画数时, 丢弃 所述候选扩展敏感词; 当所述不一致笔画数小于或者等于所述最大不一致笔画数时, 对所述候选扩展敏感词 进行人工审核, 在人工审核通过后将所述 候选扩展敏感词确定为扩展敏感词。 6.根据权利要求1所述的方法, 其特征在于, 采用以下第 二计算公式计算所述最大不一 致笔画数B: 权 利 要 求 书 1/2 页 2 CN 114817760 A 2其中, B表示所述最大不一致笔画数, Wa表示所述敏感词的总笔画数, Wb表示所述候选 扩展敏感词的总笔画数, Fl oor表示向下 取整函数。 7.一种互联网社区的敏感词的扩展装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取常用汉字表, 并对所述常用汉字表中的每个常用汉字进行笔画拆 分; 确定模块, 用于根据每个常用汉字的笔画确定与其对应的形近字, 以得到每个常用汉 字对应的形近 字集合; 提取模块, 用于获取初始敏感词集, 并从所述初始敏感词集中的每个敏感词中提取目 标常用汉字; 替换模块, 用于根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字, 以 得到所述敏感词对应的候选扩展敏感词集; 处理模块, 用于对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词 进行 筛选和审核, 得到扩展敏感词; 添加模块, 用于将所述扩展敏感词加入到所述初始敏感词集中, 以得到目标 敏感词集。 8.一种互联网社区的敏感词的扩展装置, 其特 征在于, 所述装置包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处 理器被配置为: 获取常用汉字表, 并对所述常用汉字表中的每 个常用汉字进行 笔画拆分; 根据每个常用汉字的笔画确定与其对应的形近字, 以得到每个常用汉字对应的形近字 集合; 获取初始敏感词集, 并从所述初始敏感词集中的每 个敏感词中提取目标常用汉字; 根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字, 以得到所述敏感词 对应的候选扩展敏感词集; 对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核, 得 到扩展敏感词; 将所述扩展敏感词加入到所述初始敏感词集中, 以得到目标 敏感词集。 9.一种计算机可读存储介质, 其上存储有计算机指令, 其特征在于, 该指令被处理器执 行时实现权利要求1 ‑6中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114817760 A 3

.PDF文档 专利 互联网社区的敏感词的扩展方法、装置及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 互联网社区的敏感词的扩展方法、装置及存储介质 第 1 页 专利 互联网社区的敏感词的扩展方法、装置及存储介质 第 2 页 专利 互联网社区的敏感词的扩展方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。