说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210706004.6 (22)申请日 2022.06.22 (71)申请人 深圳市百川数安科技有限公司 地址 518000 广东省深圳市蛇口街道渔一 社区后海 大道1021号东角头工业区BC 座C631 (72)发明人 刘堡萱 文成明  (74)专利代理 机构 北京中和立达知识产权代理 有限公司 1 1756 专利代理师 张攀 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/9536(2019.01) G06F 16/9538(2019.01) G06F 16/338(2019.01)G06F 16/31(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 互联网社区的相似 敏感词的扩展 方法、 装置 及存储介质 (57)摘要 本发明涉及数据处理技术领域, 是关于一种 互联网社区的相似敏感词的扩展方法、 装置及存 储介质, 方法包括: 从总敏感词库中提取预设数 量的目标敏感词, 并进行类别分类和标注, 以得 到初始训练集; 使用所述初始训练集和所述总敏 感词库中除所述目标敏感词外的其他敏感词对 Bert预训练模型进行迭代训练, 以得到目标敏 感 词细分类模 型; 使用所述目标敏感词细分类模型 对所述总敏感词库中的每个敏感词进行向量转 化, 得到对应的敏感词向量; 根据所述敏感词向 量, 计算每个敏感词与其他敏感词之间的相似 度; 根据所述相似度, 确定每个敏感词对应的同 类别相似扩展词。 通过该技术方案, 提高回扫的 命中率, 降低漏放, 减 小互联网社区的违规 风险。 权利要求书2页 说明书8页 附图5页 CN 114942995 A 2022.08.26 CN 114942995 A 1.一种互联网社区的相似敏感词的扩展方法, 其特征在于, 用于终端设备, 所述方法包 括: 从总敏感词库中提取预设数量的目标敏感词, 并进行类别分类和标注, 以得到初始训 练集; 使用所述初始训练集和所述总敏感词库中除所述目标敏感词外的其他敏感词对Bert 预训练模型进行迭代训练, 以得到目标 敏感词细分类模型; 使用所述目标敏感词细 分类模型对所述总敏感词库中的每个敏感词 进行向量转化, 得 到对应的敏感词向量; 根据所述敏感词向量, 计算每 个敏感词与其 他敏感词之间的相似度; 根据所述相似度, 确定每 个敏感词对应的同类别相似 扩展词。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 将所述每 个敏感词和与其对应的同类别相似 扩展词进行关联存 储; 根据存储的所述每 个敏感词和与其对应的同类别相似 扩展词进行相似词联想 。 3.根据权利要求1所述的方法, 其特征在于, 使用所述初始训练集和所述总敏感词库中 除所述目标敏感词外的其他敏感词对Bert预训练模型进 行迭代训练, 以得到目标敏感词细 分类模型, 包括: 使用所述初始训练集对Ber t预训练模型进行微调, 得到初始敏感词细分类模型; 使用所述初始敏感词细分模型对所述总敏感词库中除所述目标敏感词外的其他敏感 词进行分类识别, 以得到每 个其他敏感词对应的所属类别; 通过人工审核的方式确定所述初始敏感词细分类模型得到的每个其他敏感词对应的 所属类别是否正确; 当确定任一其他敏感词对应的所属类别不正确时, 对所述任一其他敏感词 进行类别标 注, 得到标注后的其 他敏感词; 使用所述标注后的其他敏感词对所述初始敏感词细 分类模型进行持续迭代, 直至所述 初始敏感词细分类模型符合要求, 确定为目标 敏感词细分类模型。 4.根据权利要求1所述的方法, 其特征在于, 根据所述相似度, 确定每个敏感词对应的 同类别相似 扩展词, 包括: 将每个敏感词对应的与其 他敏感词之间的相似度进行降序排列; 提取每个敏感词对应的排名在前的预设数目的其 他目标敏感词; 将所述其他目标敏感词确定为该 敏感词的同类别相似 扩展词。 5.根据权利要求1所述的方法, 其特征在于, 使用所述目标敏感词细分类模型对所述总 敏感词库中的每 个敏感词进行向量 转化, 得到对应的敏感词向量, 包括: 将每个敏感词作为所述目标敏感词细 分类模型的输入, 并提取所述目标敏感词细分类 模型的最后一层CLS向量作为该 敏感词对应的敏感词向量。 6.根据权利要求1所述的方法, 其特征在于, 根据所述敏感词向量, 计算每个敏感词与 其他敏感词之间的相似度, 包括: 计算所述敏感词向量和其他敏感词向量之间的距离, 其中, 采用以下任一距离计算方 式计算所述距离: 余弦距离、 欧式距离、 曼哈顿距离, 切比雪夫距离, 闵可 夫斯基距离和标准 化欧氏距离 。权 利 要 求 书 1/2 页 2 CN 114942995 A 27.根据权利要求1所述的方法, 其特征在于, 从总敏感词库中提取预设数量的目标敏感 词, 包括: 从所述总敏感词库中随机提取 预设数量的目标 敏感词。 8.一种互联网社区的相似敏感词的扩展装置, 其特 征在于, 所述装置包括: 提取模块, 用于从总敏感词库中提取预设数量的目标敏感词, 并进行类别分类和标注, 以得到初始训练集; 训练模块, 用于使用所述初始训练集和所述总敏感词库中除所述目标敏感词外的其他 敏感词对Ber t预训练模型进行迭代训练, 以得到目标 敏感词细分类模型; 转化模块, 用于使用所述目标敏感词细分类模型对所述总敏感词库中的每个敏感词进 行向量转化, 得到对应的敏感词向量; 计算模块, 用于根据所述敏感词向量, 计算每 个敏感词与其 他敏感词之间的相似度; 确定模块, 用于根据所述相似度, 确定每 个敏感词对应的同类别相似 扩展词。 9.一种互联网社区的相似敏感词的扩展装置, 其特 征在于, 所述装置包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处 理器被配置为: 从总敏感词库中提取预设数量的目标敏感词, 并进行类别分类和标注, 以得到初始训 练集; 使用所述初始训练集和所述总敏感词库中除所述目标敏感词外的其他敏感词对Bert 预训练模型进行迭代训练, 以得到目标 敏感词细分类模型; 使用所述目标敏感词细 分类模型对所述总敏感词库中的每个敏感词 进行向量转化, 得 到对应的敏感词向量; 根据所述敏感词向量, 计算每 个敏感词与其 他敏感词之间的相似度; 根据所述相似度, 确定每 个敏感词对应的同类别相似 扩展词。 10.一种计算机可读存储介质, 其上存储有计算机指令, 其特征在于, 该指令被处理器 执行时实现权利要求1 ‑7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114942995 A 3

.PDF文档 专利 互联网社区的相似敏感词的扩展方法、装置及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 互联网社区的相似敏感词的扩展方法、装置及存储介质 第 1 页 专利 互联网社区的相似敏感词的扩展方法、装置及存储介质 第 2 页 专利 互联网社区的相似敏感词的扩展方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。