说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210860492.6 (22)申请日 2022.07.22 (65)同一申请的已公布的文献号 申请公布号 CN 115081440 A (43)申请公布日 2022.09.20 (73)专利权人 湖南湘生网络信息有限公司 地址 410006 湖南省长 沙市高新 开发区尖 山路39号长沙中电软件园一期10栋 501室501M-5号 (72)发明人 钟正阳 李一文 李顺 周渝雄  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 邱轶 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (56)对比文件 CN 111259151 A,2020.0 6.09 CN 1010476 06 A,2007.10.03 CN 114118065 A,2022.03.01 CN 112464667 A,2021.0 3.09 CN 10746 3666 A,2017.12.12 WO 2021139268 A1,2021.07.15 US 20161797 74 A1,2016.0 6.23 US 20191645 39 A1,2019.0 5.30 US 2009132651 A1,20 09.05.21 JP 2011158947 A,201 1.08.18 涂晴宇.面向人机交 互的语音情感识别与文 本敏感词检测. 《中国优秀硕士学位 论文全文数 据库 信息科技 辑》 .2020,I13 6-201. 审查员 邹盼盼 (54)发明名称 文本中变种词的识别及提取原敏感词的方 法、 装置及设备 (57)摘要 本申请涉及一种文本中变种词的识别及提 取原敏感词的方法、 装置及设备。 所述方法包括: 利用预先构建的敏感词库对待识别文本进行原 词查找匹配, 根据匹配结果对待识别文本进行同 音字和变种词验证, 若待识别文本中包含变种 词, 对敏感词库和变种词中每个中文转换成拼音 后进行遍历和字符串比较,将变种词中的中文对 应的拼音和原敏感词对应的拼音通过中划线连 接, 得到原敏感词位置; 根据敏感词库对变种词 进行遍历和字符串比较, 将变种词中的原敏感词 拼音左右添加空格 分割, 对分割后的变种词进行 正则化表达式处理, 得到数组; 根据原敏感词位 置从数组中进行原敏感词的提取。 采用本方法能 够提高提取原敏感词的准确率。 权利要求书2页 说明书8页 附图3页 CN 115081440 B 2022.11.01 CN 115081440 B 1.一种文本中变种词的识别及提取原敏感词的方法, 其特 征在于, 所述方法包括: 获取待识别文本; 利用预先构建的敏感词库对所述待识别文本进行原词查找匹配, 根据匹配结果对所述 待识别文本进行同音字和变种词验证, 得到验证结果; 所述验证结果包括所述待识别文本 包含变种词和所述变种词的长度; 所述变种词表示包 含敏感词的中英混合词组; 若所述待识别文本 中包含变种词, 对所述敏感词库和所述变种词中每个中文转换成拼 音后进行遍历和字符串比较,将所述变种词中的中文对应的拼音和原敏感词对应的拼音通 过中划线连接, 得到原敏感词位置; 所述原敏感词为变种词中包 含的敏感词; 根据所述敏感词库对所述变种词 进行遍历和字符串比较, 将所述变种词中的原敏感词 拼音左右添加空格分割, 得到分割后的变种词; 对所述分割后的变种词进行正则化表达式处 理, 得到数组; 根据所述原敏感词位置从所述数组中进行原敏感词的提取; 利用预先构建的敏感词库对所述待识别文本进行原词查找匹配, 根据匹配结果对所述 待识别文本进行同音字和变种词验证, 得到验证结果, 包括: 利用预先构建的敏感词库对所述待识别文本进行原词查找匹配, 若存在敏感词则匹配 成功输出, 若匹配失败, 对所述待识别文本进行同音字和变种词验证, 得到验证结果; 对所述待识别文本进行同音字和变种词验证, 得到验证结果, 包括: 将所述待识别文本和所述敏感词库通过ASCII码转换为拼音进行敏感词匹配, 若匹配 成功, 将每 个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取; 若匹配失败, 将每个中文转换成拼音后的待识别文本进行字符串查找, 得到待识别文 本中的变种词。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述原敏感词位置从所述数组中进行 原敏感词的提取, 包括: 根据所述原敏感词首次出现在变种词拼音中的位置和中划线的位置确定所述原敏感 词在数组中的位置, 利用识别出来的原敏感词的长度将原敏感词从数组中提取出来, 得到 原敏感词。 3.根据权利要求1所述的方法, 其特征在于, 将每个中文转换拼音后的待识别文本通过 中划线分割进行原敏感词提取, 包括: 对中文转换拼音后的待识别文本 中出现原敏感词拼音的位置和字数进行计算, 根据 所 述原敏感词拼音的位置和所述位置之前的中划线个数判定所述原敏感词在待识别文本中 的位置; 利用所述原敏感词在待识别文本中的位置和原敏感词的字数进行原敏感词提取。 4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 若所述待识别文本中包括特殊符号, 则以特殊符号为界, 将所述待识别文本分为第一 待识别文本和第二待识别文本分别进行 敏感词的识别和原敏感词的提取。 5.一种文本中变种词的识别及提取原敏感词的装置, 其特 征在于, 所述装置包括: 敏感词验证模块, 用于获取待识别文本; 利用预先构建的敏感词库对所述待识别文本 进行原词查找匹配, 根据匹配结果对所述待识别文本进行同音字和变种词验证, 得到验证 结果; 所述验证结果包括所述待识别文本包含变种词和所述变种词的长度; 所述变种词表权 利 要 求 书 1/2 页 2 CN 115081440 B 2示包含敏感词的中英混合词组; 敏感词遍历和比较模块, 用于若所述待识别文本中包含变种词, 对所述敏感词库和所 述变种词中每个中文转换成拼音后进 行遍历和字符串比较,将所述变种词中的中文对应的 拼音和原敏感词对应的拼音通过中划线连接, 得到原敏感词位置; 所述原敏感词为变种词 中包含的敏感词; 原敏感词提取模块, 用于根据所述敏感词库对所述变种词进行遍历和字符串比较, 将 所述变种词中的原敏感词拼音左右添加空格分割, 得到分割后的变种词; 对所述分割后的 变种词进行正则化表达式处理, 得到数组; 根据所述原敏感词位置从所述数组中进行原敏 感词的提取; 敏感词验证模块还用于利用预先构建的敏感词库对所述待识别文本进行原词查找匹 配, 根据匹配结果对所述待识别文本进行同音字和变种词验证, 得到验证结果, 包括: 利用 预先构建的敏感词库对所述待识别文本进行原词查找匹配, 若存在敏感词则匹配成功输 出, 若匹配失败, 对所述待识别文本进行同音字和变种词验证, 得到验证结果; 对所述待识 别文本进 行同音字和变种词验证, 得到验证结果, 包括: 将所述待识别文本和所述敏感词 库 通过ASCII码转换为拼音进 行敏感词匹配, 若匹配成功, 将 每个中文转换成拼音后的待识别 文本通过中划线分割进行原敏感词提取; 若匹配失败, 将每个中文转换成拼音后的待识别 文本进行字符串查找, 得到待识别文本中的变种词。 6.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115081440 B 3

.PDF文档 专利 文本中变种词的识别及提取原敏感词的方法、装置及设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本中变种词的识别及提取原敏感词的方法、装置及设备 第 1 页 专利 文本中变种词的识别及提取原敏感词的方法、装置及设备 第 2 页 专利 文本中变种词的识别及提取原敏感词的方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。