专利一种基于深度学习技术的敏感信息识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111637526.7 (22)申请日 2021.12.3 0 (71)申请人闪捷信息科技有限公司地址 311100 浙江省杭州市余杭区五常街道文一西路9 98号5幢6 08室 (72)发明人张黎　程树华　陈广辉　刘维炜　杨大志　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 代理人裴金华 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/55(2019.01) G06F 21/62(2013.01) G06K 9/62(2022.01)G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 3/02(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于深度学习技术的敏感信息识别方法 (57)摘要本发明提供一种基于深度学习技术的敏感信息识别方法，涉及数据识别技术领域，包括以下步骤：获取训练数据集；分别对图像数据、全中文数据集和非全中文数据集训练得到第一、第二和第三分类模型；接受待预测的数据；分别根据待预测的数据的类型输入至第一、第二和第三分类模型，得到标签；获取所有标签，对结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别；对非结构化数据，则将中文分词字符的类别进行敏感信息统计。本发明合理有效，可以通过对原始数据进行特征工程，将数据集输入到对应的分类模型进行训练，得到不同的分类模型，根据待识别的敏感数据类型得到分类标签，对不同类型的数据进行识别，识别准确率高，保护性好。权利要求书2页说明书6页附图1页 CN 114218391 A 2022.03.22 CN 114218391 A 1.一种基于深度学习技术的敏感信息识别方法，其特征在于，包括以下步骤： S1：获取训练数据集； S2：判断训练数据集是否为图像数据，若是则使用深度学习模型进行训练，得到第一分类模型，并执行步骤S4；反之则执行步骤S3； S3：判断训练数据集是否为全中文数据集，若是则使用深度学习模型进行训练，得到第二分类模型，并执行步骤S4；反之则使用机器学习模型进行训练，得到第三分类模型，并执行步骤S4； S4：接收待预测的数据； S5：判断待预测的数据是否为图像数据，若是，则将待预测的数据输入至第一分类模型，将分类结果作为图像的标签；反之则执行步骤S6； S6：判断待预测的数据是否为结构化数据；若是则将每个字段的实例进行提取，执行步骤S7；反之则提取非结构化字符，进行中文分词，执行步骤S7； S7：判断获取的字段实例或者中文分词是否为全中文数据；若是则将字段实例或者中文分词输入至第二分类模型，得到所有字段实例或者中文分词的标签；反之则将字段实例或者中文分词输入至第三分类模型，得到所有字段实例或者中文分词的标签； S8：获取所有标签，若待预测的数据为图像数据，将每一张图像的分类结果作为该图像的标签，并判断其是否为敏感图像信息；若待预测的数据为结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别，并判断其是否为敏感字段信息；若待预测的数据为非结构化数据，则将中文分词字符的类别进行敏感信息统计，并判断其是否为敏感字符信息。 2.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S4之前，对分类模型进行测试和调优。 3.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S1时，训练数据集包括至少一种敏感信息实例及其对应的标签，敏感信息包括姓名、职业、工作单位、家庭住址、身份证、驾驶证、护照以及毕业证书。 4.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S2时，对图像数据的训练步骤具体包括： S21：对图像进行增广； S22：将图像变换到同样的大小，并进行归一化处理； S23：将处理好的图像输入到resnet模型进行训练，得到第一分类模型。 5.根据权利要求 4所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S21时，图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。 6.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S3时，对全中文数据集的训练步骤具体包括： S311：将数据集处理成字段内容和标签两列； S312：根据字符编码字典，将字段内容转换为向量，并把标签进行独热编码； S313：将处理好的数据送到ber t模型中进行训练，得到第二分类模型。 7.根据权利要求6所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：权　利　要　求　书 1/2 页 2 CN 114218391 A 2执行步骤S312时，根据提前设置的字符与数字对应字典，逐一把字段内容转换为数字。 8.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S3时，对非全中文数据集的训练步骤具体包括： S321：提取非中文数据集的自定义特征； S322：对特征进行预处理处理，包括归一化、分箱等； S323：将处理好的数据输入到随机森林中进行训练，得到第三分类模型。 9.根据权利要求8所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S321时，自定义特征为能体现相应敏感信息的特征，特征包括是否包含大写字母、是否包含特殊字符以及字段的长度。 10.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：执行步骤S6时，中文分词为对数据中的文本内容采用Jieba分词，剔除无用的停用词。权　利　要　求　书 2/2 页 3 CN 114218391 A 3

专利 一种基于深度学习技术的敏感信息识别方法

专利一种基于深度学习技术的敏感信息识别方法