说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111637526.7 (22)申请日 2021.12.3 0 (71)申请人 闪捷信息科技有限公司 地址 311100 浙江省杭州市余杭区五常街 道文一西路9 98号5幢6 08室 (72)发明人 张黎 程树华 陈广辉 刘维炜  杨大志  (74)专利代理 机构 浙江千克知识产权代理有限 公司 33246 代理人 裴金华 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/55(2019.01) G06F 21/62(2013.01) G06K 9/62(2022.01)G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 3/02(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度学习技术的敏感信息识别方 法 (57)摘要 本发明提供一种基于深度学习技术的敏感 信息识别方法, 涉及数据识别技术领域, 包括以 下步骤: 获取训练数据集; 分别对图像数据、 全中 文数据集和非全中文数据集训练得到第一、 第二 和第三分类模型; 接受待预测的数据; 分别根据 待预测的数据的类型输入至第一、 第二和第三分 类模型, 得到标签; 获取所有标签, 对结构化数 据, 则统计每个字段下实例标签最多的类别作为 该字段的类别; 对非结构化数据, 则将中文分词 字符的类别进行敏感信息统计。 本发明合理有 效, 可以通过对原始数据进行特征工程, 将数据 集输入到对应的分类模型进行训练, 得到不同的 分类模型, 根据待识别的敏感数据类型得到分类 标签, 对不同类型的数据进行识别, 识别准确率 高, 保护性 好。 权利要求书2页 说明书6页 附图1页 CN 114218391 A 2022.03.22 CN 114218391 A 1.一种基于深度学习技 术的敏感信息识别方法, 其特 征在于, 包括以下步骤: S1: 获取训练数据集; S2: 判断训练数据集是否为图像数据, 若是则使用深度学习模型进行训练, 得到第一分 类模型, 并执 行步骤S4; 反 之则执行步骤S3; S3: 判断训练数据集是否为全中文数据集, 若是则使用深度 学习模型进行训练, 得到第 二分类模型, 并执行步骤S4; 反之则使用机器学习模型进行训练, 得到第三分类模型, 并执 行步骤S4; S4: 接收待预测的数据; S5: 判断待预测的数据是否为图像数据, 若是, 则将待预测的数据输入至第一分类模 型, 将分类结果作为图像的标签; 反 之则执行步骤S6; S6: 判断待预测的数据是否为结构化数据; 若是则将每个字段的实例进行提取, 执行步 骤S7; 反之则提取非结构化字符, 进行中文分词, 执 行步骤S7; S7: 判断获取的字段实例 或者中文分词是否为全中文数据; 若是则将字段实例 或者中 文分词输入至第二分类模型, 得到所有字段实例或者中文分词的标签; 反之则将字段实例 或者中文分词输入至第三分类模型, 得到所有字段实例或者中文分词的标签; S8: 获取所有标签, 若待预测的数据为图像数据, 将每一张图像的分类结果作为该图像 的标签, 并判断其是否为敏感图像信息; 若待预测的数据为结构化数据, 则统计每个字段下 实例标签最多的类别作为该字段 的类别, 并判断其是否为敏感字段信息; 若待预测的数据 为非结构化数据, 则将 中文分词字符的类别进行敏感信息统计, 并判断其是否为敏感字符 信息。 2.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S4之前, 对分类模型进行测试和调优。 3.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S1时, 训练数据集包括至少一种敏感信息实例及其对应的标签, 敏感信息包 括姓名、 职业、 工作单位、 家 庭住址、 身份 证、 驾驶证、 护照以及毕业证书。 4.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S2时, 对图像数据的训练步骤具体包括: S21: 对图像进行增广; S22: 将图像 变换到同样的大小, 并进行归一 化处理; S23: 将处 理好的图像输入到resnet模型进行训练, 得到第一分类模型。 5.根据权利要求 4所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S21时, 图像增广的方法包括随机改变亮暗和对比度、 随机填充、 随机裁剪、 随 机翻转以及随机打乱真实框排列顺序。 6.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S3时, 对 全中文数据集的训练步骤具体包括: S311: 将数据集处 理成字段内容和标签两列; S312: 根据字符编码字典, 将字段内容 转换为向量, 并把标签进行独热编码; S313: 将处 理好的数据送到ber t模型中进行训练, 得到第二分类模型。 7.根据权利要求6所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于:权 利 要 求 书 1/2 页 2 CN 114218391 A 2执行步骤S312时, 根据提前设置的字符与数字对应字典, 逐一 把字段内容 转换为数字 。 8.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S3时, 对非全中文数据集的训练步骤具体包括: S321: 提取非中文数据集的自定义特 征; S322: 对特征进行预处理处理, 包括归一 化、 分箱等; S323: 将处 理好的数据输入到随机森林中进行训练, 得到第三分类模型。 9.根据权利要求8所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S321时, 自定义特征为能体现相应敏感信息的特征, 特征包括是否包含大写 字母、 是否包 含特殊字符以及字段的长度。 10.根据权利要求1所述的一种基于深度学习技 术的敏感信息识别方法, 其特 征在于: 执行步骤S6时, 中文分词为对数据中的文本内容采用Jieba分词, 剔除无用的停用词。权 利 要 求 书 2/2 页 3 CN 114218391 A 3

.PDF文档 专利 一种基于深度学习技术的敏感信息识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习技术的敏感信息识别方法 第 1 页 专利 一种基于深度学习技术的敏感信息识别方法 第 2 页 专利 一种基于深度学习技术的敏感信息识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。