说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210768483.4 (22)申请日 2022.07.01 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 覃星 白建民  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 敏感文本的识别方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种敏感文本的识别方法、 装 置、 电子设备及存储介质, 涉及计算机技术领域, 具体涉及自然语 言处理、 智能搜索等人工智能领 域。 具体实施方案为: 获取样本敏 感文本, 并获取 样本敏感文本中的多个敏感词; 将多个敏感词与 待检测文本进行匹配; 响应于各敏感词均与待检 测文本匹配成功, 获取与待检测文本匹配的相邻 两个敏感词在待检测文本中的间隔字符长度; 响 应于间隔字符长度均小于间隔字符长度阈值, 确 定待检测文本为敏感文本。 通过判断样本敏感文 本中的多个敏感词的间隔字符长度是满足判定 条件, 确定待检测文本中是否包含样本敏感文 本, 由此可以解决复合敏感词在 文本中无法检测 的问题, 提升文本 检测的正确率和实用性。 权利要求书3页 说明书8页 附图3页 CN 115017898 A 2022.09.06 CN 115017898 A 1.一种敏感文本的识别方法, 包括: 获取样本敏感文本, 并获取 所述样本敏感文本中的多个敏感词; 将多个所述敏感词与待检测文本进行匹配; 响应于各所述敏感词均与 所述待检测文本匹配成功, 获取与 所述待检测文本匹配的相 邻两个所述敏感词在所述待检测文本中的间隔字符长度; 响应于所述间隔字符长度均小于间隔字符长度阈值, 确定所述待检测文本为敏感文 本。 2.根据权利要求1所述的方法, 其中, 所述将多个所述敏感词与待检测文本进行匹配, 包括: 根据各所述敏感词在所述样本敏感文本中所处的位置, 对各所述敏感词进行排序, 以 得到排序 序列; 基于所述 排序序列将多个所述敏感词分别与所述待检测文本进行匹配。 3.根据权利要求2所述的方法, 其中, 所述敏感词的数量为n个, 所述基于所述排序序列 将多个所述敏感词分别与所述待检测文本进行匹配, 包括: 获取所述排序序列中的第i个所述敏感词, i小于等于n; 确定所述待检测文本 中与第i‑1个所述敏感词匹配的词所处的匹配位置, 并将第i个所 述敏感词与所述匹配位置之后剩余的所述待检测文本进行匹配; 响应于第i个所述敏感词匹配成功, 将第i+1个所述敏感词与所述待检测文本进行匹 配, 直至n个敏感词均匹配成功; 响应于第i个所述敏感词匹配失败, 确定所述待检测文本为非敏感文本 。 4.根据权利要求1所述的方法, 其中, 所述获取样本敏感文本, 包括: 周期性地获取候选敏感文本; 将所述候选敏感文本与当前 所述样本敏感文本进行比对; 响应于所述候选敏感文本与 所述样本敏感文本不同, 将所述候选敏感文本替换所述样 本敏感文本 。 5.根据权利要求1所述的方法, 其中, 还 包括: 获取所述待检测文本的文本大小; 响应于所述文本大小大于文本大小阈值, 将所述待检测文本分割成多个小于或者等于 所述文本大小阈值的目标文本 。 6.根据权利要求1所述的方法, 其中, 还 包括: 响应于存在任一所述间隔字符长度 大于或者等于所述间隔字符长度阈值, 确定所述待 检测文本为非敏感文本 。 7.根据权利要求1所述的方法, 其中, 在获取 所述待检测文本之后, 还 包括: 基于所述待检测文本生成所述待检测文本对应的字典树。 8.根据权利要求7所述的方法, 其中, 将所述敏感词与所述待检测文本进行匹配, 还包 括: 对所述敏感词与所述字典树基于多模匹配算法进行匹配。 9.一种敏感文本的识别装置, 包括: 获取模块, 用于获取样本敏感文本, 并获取 所述样本敏感文本中的多个敏感词;权 利 要 求 书 1/3 页 2 CN 115017898 A 2匹配模块, 用于将多个所述敏感词与待检测文本进行匹配; 采集模块, 用于响应于各所述敏感词均与所述待检测文本匹配成功, 获取与所述待检 测文本匹配的相邻两个所述敏感词在所述待检测文本中的间隔字符长度; 确认模块, 用于响应于所述间隔字符长度均小于间隔字符长度阈值, 确定所述待检测 文本为敏感文本 。 10.根据权利要求9所述的装置, 其中, 所述匹配模块, 还用于: 根据各所述敏感词在所述样本敏感文本中所处的位置, 对各所述敏感词进行排序, 以 得到排序 序列; 基于所述 排序序列将多个所述敏感词分别与所述待检测文本进行匹配。 11.根据权利要求10所述的装置, 其中, 所述敏感词的数量为n个, 所述匹配模块, 还用 于: 获取所述排序序列中的第i个所述敏感词, i小于等于n; 确定所述待检测文本 中与第i‑1个所述敏感词匹配的词所处的匹配位置, 并将第i个所 述敏感词与所述匹配位置之后剩余的所述待检测文本进行匹配; 响应于第i个所述敏感词匹配成功, 将第i+1个所述敏感词与所述待检测文本进行匹 配, 直至n个敏感词均匹配成功; 响应于第i个所述敏感词匹配失败, 确定所述待检测文本为非敏感文本 。 12.根据权利要求9所述的装置, 其中, 所述获取模块, 还用于: 周期性地获取候选敏感文本; 将所述候选敏感文本与当前 所述样本敏感文本进行比对; 响应于所述候选敏感文本与 所述样本敏感文本不同, 将所述候选敏感文本替换所述样 本敏感文本 。 13.根据权利要求9所述的装置, 其中, 所述获取模块, 还用于: 获取所述待检测文本的文本大小; 响应于所述文本大小大于文本大小阈值, 将所述待检测文本分割成多个小于或者等于 所述文本大小阈值的目标文本 。 14.根据权利要求9所述的装置, 其中, 所述确认模块, 还用于: 响应于存在任一所述间隔字符长度 大于或者等于所述间隔字符长度阈值, 确定所述待 检测文本为所述非敏感文本 。 15.根据权利要求9所述的装置, 其中, 所述获取模块, 还用于: 基于所述待检测文本生成所述待检测文本对应的字典树。 16.根据权利要求15所述的装置, 其中, 所述匹配模块, 还用于: 对所述敏感词与所述字典树基于多模匹配算法进行匹配。 17.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑8中任一项所述的敏感文本的识 别方法。权 利 要 求 书 2/3 页 3 CN 115017898 A 3

.PDF文档 专利 敏感文本的识别方法、装置、电子设备及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 敏感文本的识别方法、装置、电子设备及存储介质 第 1 页 专利 敏感文本的识别方法、装置、电子设备及存储介质 第 2 页 专利 敏感文本的识别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。