(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111633204.5
(22)申请日 2021.12.2 9
(65)同一申请的已公布的文献号
申请公布号 CN 113987309 A
(43)申请公布日 2022.01.28
(73)专利权人 深圳红途科技有限公司
地址 518000 广东省深圳市南 山区粤海街
道滨海社区滨海 大道3398号赛西科技
大厦17层170 6房
(72)发明人 莫波 刘小龙
(74)专利代理 机构 深圳市精英专利事务所
44242
代理人 李燕娥
(51)Int.Cl.
G06F 16/906(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 21/62(2013.01)(56)对比文件
CN 113221747 A,2021.08.0 6
CN 110781204 A,2020.02.1 1
CN 112132238 A,2020.12.25
CN 111539021 A,2020.08.14
CN 111062236 A,2020.04.24
CN 111405562 A,2020.07.10
CN 109960727 A,2019.07.02
CN 111460494 A,2020.07.28
CN 113807399 A,2021.12.17
EP 21873 38 A1,2010.0 5.19
US 2021133557 A1,2021.0 5.06
CN 113849852 A,2021.12.28
CN 113849702 A,2021.12.28
傅江辉.基 于云计算的社交网络安全隐私数
据融合方法. 《济南大 学学报(自然科 学版)》
.2020,第2 9-33页.
审查员 唐文俊
(54)发明名称
个人隐私数据识别方法、 装置、 计算机设备
及存储介质
(57)摘要
本发明实施例公开了个人隐私数据识别方
法、 装置、 计算机设备及存储介质。 所述方法包
括: 加载数据 自动采集插件; 通过所述数据 自动
采集插件获取WEB应用程序运行过程中的数据,
以得到初始数据; 将所述初始数据输入至识别模
型内进行个人隐私数据识别, 以得到识别结果;
将所述初始数据与预设的数据识别策略进行匹
配, 以得到匹配分值; 根据所述匹配分值以及所
述识别结果确定数据类别; 判断所述数据类别是
否是个人隐私数据; 若所述数据类别是个人隐私
数据, 则输出所述数据类别。 通过实施本发明实
施例的方法可实现快速和准确识别WEB应用个人
隐私类数据, 效率高且覆盖全面, 不 易发生错漏。
权利要求书2页 说明书10页 附图4页
CN 113987309 B
2022.03.11
CN 113987309 B
1.个人隐私数据识别方法, 其特 征在于, 包括:
加载数据自动采集插 件;
通过所述数据自动采集插 件获取WEB应用程序运行 过程中的数据, 以得到初始数据;
将所述初始数据输入至识别模型内进行个人隐私数据识别, 以得到识别结果;
将所述初始数据与预设的数据识别策略进行匹配, 以得到匹配分值;
根据所述匹配分值以及所述识别结果确定数据类别;
判断所述数据类别是否是个人隐私数据;
若所述数据类别是个人隐私数据, 则输出所述数据类别; 所述识别模型是通过若干个
带有个人隐私数据具体类型标签的数据作为样 本集且采用多GPU并行计算框架对深度学习
网络进行训练所 得的;
所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采
用多GPU并行计算框架对深度学习网络进行训练所 得的, 包括:
获取若干个带有个人隐私数据具体类型标签的数据, 以得到样本集, 且将所述样本集
划分为训练集;
构建ResNet深度学习网络;
将所述训练集装载到多个GPU节点, 以进行梯度求 导, 得到所有节点的求 导结果;
对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数, 同步更
新所有GPU节点;
判断所述ResNet深度学习网络是否收敛;
若所述ResNet深度学习网络收敛, 则确定所述ResNet深度学习网络为识别模型;
若所述ResNet深度学习网络未收敛, 则执行所述将所述训练集装载到多个GPU节点, 以
进行梯度求 导, 得到所有节点的求 导结果。
2.根据权利要求1所述的个人隐私数据识别方法, 其特征在于, 所述将所述初始数据与
预设的数据识别策略进行匹配, 以得到匹配分值, 包括:
定义个人隐私类数据 具体类型的正则表达 式、 字典、 关键字识别规则, 并对识别规则进
行多模式组合, 形成多种数据识别策略;
将所述初始数据与预设的数据识别策略进行匹配, 以得到匹配分值。
3.根据权利要求2所述的个人隐私数据识别方法, 其特征在于, 所述根据 所述匹配分值
以及所述识别结果确定数据类别, 包括:
将所述匹配分值以及所述识别结果进行加权平均, 以得到各个具体 类型的分值;
筛选出分值 最高的具体 类型, 以得到数据类别。
4.个人隐私数据识别装置, 其特 征在于, 包括:
插件加载单元, 用于加载 数据自动采集插 件;
数据获取单元, 用于通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,
以得到初始数据;
模型识别单元, 用于将所述初始数据输入至识别模型内进行个人隐私数据识别, 以得
到识别结果;
匹配单元, 用于将所述初始数据与预设的数据识别策略进行匹配, 以得到匹配分值;
加权平均单 元, 用于根据所述匹配分值以及所述识别结果确定数据类别;权 利 要 求 书 1/2 页
2
CN 113987309 B
2判断单元, 用于判断所述数据类别是否是个人隐私数据;
输出单元, 用于若所述数据类别是个人隐私数据, 则输出 所述数据类别;
还包括:
模型生成单元, 用于通过若干个带有个人隐私数据 具体类型标签的数据作为样本集且
采用多GPU并行计算框架对深度学习网络进行训练, 以得到识别模型;
所述模型生成单 元包括:
样本集获取子单元, 用于获取若干个带有个人隐私数据具体类型标签的数据, 以得到
样本集, 且将所述样本集划分为训练集;
网络构建子单 元, 用于构建ResNet深度学习网络;
求导子单元, 用于将所述训练集装载到多个GPU节点, 以进行梯度求导, 得到所有节点
的求导结果;
参数更新子单元, 用于对所有节点的求导结果进行加权平均并更新ResNet深度学习网
络的网络参数, 同步更新所有GPU节点;
判断子单元, 用于判断所述ResNet深度学习网络是否收敛; 若所述ResNet深度学习网
络收敛, 则确定所述ResNet深度学习网络为识别模 型; 若所述ResNet深度学习网络未收敛,
则执行所述将所述训练集装载到多个GPU节点, 以进行梯度求导, 得到所有节点的求导结
果。
5.一种计算机设备, 其特征在于, 所述计算机设备包括存储器及处理器, 所述存储器上
存储有计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至3中任一项所述
的方法。
6.一种存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计算机程序被处
理器执行时实现如权利要求1至 3中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 113987309 B
3
专利 个人隐私数据识别方法、装置、计算机设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:55:43上传分享