说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111479738.7 (22)申请日 2021.12.0 6 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人 陈晋音 陈一鸣 陈奕芃  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 邱启旺 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种面向深度学习的数据去偏方法 (57)摘要 本发明公开了一种面向深度学习的数据去 偏方法, 首先构建原始样本数据集, 并对原始数 据集进行预处理。 再构建并训练用于消除偏见的 对抗式生 成网络模型, 并计算对抗网络模型的损 失函数。 然后训练对抗网络模型, 学习原始样本 数据集中与敏感性相关的偏见信息。 再构建权重 矩阵, 利用权重矩阵针对学习到的偏见信息相关 程度赋予不同的权重以消除偏见信息, 得到已经 经过偏见消除的数据集, 并且将该已经消除偏见 的数据集用于后续的训练过程, 以提高后续深度 学习模型分类的准确性。 本发明方法使得输入的 原始样本数据集中与敏感属性有关的偏见信息 被消除以提高分类结果的公平 性, 同时也保证了 分类主任务的精度不会受到 显著影响。 权利要求书1页 说明书6页 附图1页 CN 114462466 A 2022.05.10 CN 114462466 A 1.一种面向深度学习的数据去偏方法, 其特 征在于, 包括以下步骤: (1)获取原始数据, 并对原始数据包含的类别属性进行标记; 根据 标记的类别属性得到 原始样本数据集; (2)构建用于偏见消除的对抗网络模型, 并计算对抗网络模型的损失函数; (3)训练步骤(2)构建的对抗网络模型, 利用步骤(2)计算的损失函数通过对抗式的训 练不断进行迭代, 学习原 始样本数据集中与敏感属性相关的偏见信息; (4)将步骤(3)生成的去偏数据集输入 对抗网络模型进行分类训练; (5)构建权重矩阵, 根据步骤(3)中的训练结果利用权重矩阵针对学习到的偏见信息相 关程度赋予不同的权 重以消除偏见信息; (6)以权重矩阵的形式导出已经经过偏见消除的数据集, 并且将该已经消除偏见的数 据集用于继续训练对抗网络模型。 2.根据权利要求1所述的面向深度学习的数据去偏方法, 其特征在于, 所述步骤(2)具 体为: 所述对抗网络模型包括分类 器、 判别器和自编码器; 所述作用于分类 器的损失函数为 LC: 式中, 记录了分类器输出的分类结果, Yi代表实际的分类结果; 所述作用于判别器的损失函数为 LD: 其中, 为判别器输出的预测结果, gi为实际结果; 所述作用于自编码器的损失函数为 LA: 其中, S指代原始样本数据中带有敏感属性标签的数据, λ为权 重。 3.根据权利要求1所述的面向深度学习的数据去偏方法, 其特征在于, 所述步骤(3)具 体为: 训练步骤(2)构建 的对抗网络模型, 在模型训练时, 判别器D和自编码器A之间进行交 替对抗式训练, 利用损失函数为LC和损失函数为LD同时更新两者优化目标, 判别器D通过自 编码器A的输出更新自身特征提取方向, 自编码器A输出对抗式编码结构被判别器D损失函 数LD有效限制, 学习得到原 始样本数据集中与敏感属性相关的偏见信息, 得到去偏数据集。 4.根据权利要求1所述的面向深度学习的数据去偏方法, 其特征在于, 所述权重矩阵为 一个m×n的矩阵, 其中, m是 数据集总样本数, n是 前一步的自编码器提取的特 征总数目。 5.根据权利要求1所述的面向深度学习的数据去偏方法, 其特征在于, 所述步骤(4)具 体为: 对抗网络模型训练完 毕后, 在后续分类的过程中, 将该权重矩阵给不同属性赋值的不 同权重对应作用于原 始数据集, 从而消除敏感属性之间相关联的偏见信息 。权 利 要 求 书 1/1 页 2 CN 114462466 A 2一种面向深度学习的数据去偏方 法 技术领域 [0001]本发明属于深度学习领域, 具体涉及一种基于面向深度学习的数据去偏方法。 背景技术 [0002]深度学习技术以及使用深度学习技术搭建的人工智能模型具备比较强的自主学 习能力, 将具备这种能力的产品落地也即使用了深度学习技术的人工智能模型, 各种 人工 智能落地项目帮助人们在生产生活中做出多样化以及复杂化的决策, 并且将很多 人力无法 完成的问题简单化, 因此人工智能技术也广泛应用于人们生产生活的方方面面, 比如智慧 医疗、 自然语言处理、 图像识别、 广告精准投放、 信贷发放决策、 智慧教育以及刑事司法领域 等, 并且人工智能技术在这些领域也发挥了良好的效果, 带来了良好的经济效益和社会效 益。 随着研究人员的研究不断深入, 以及针对人工智能技术的不断创新, 使得深度学习模型 的性能不断提高同时算法 复杂度不断下降, 以深度学习为代表的人工智能技术已经逐步渗 透进人们生活的方 方面面。 [0003]然而最新的研究表明, 虽然应用深度学习技术可以帮助人们获得更为精准的预测 和分类结果以及为决策提供强有力的技术支撑, 但是, 深度学习模型在进行自动决策 的时 候可能存在偏见, 这种偏见可能表现在: 在 进行信贷发放决策时, 使用深度学习模型的决策 结果中, 客户的授信额度可能会随着地域和客户的受教育程度而不一样, 来自地域偏僻的 以及受教育程度不高的客户获得的授信额度相对较低。 因此, 在一些重要的场合, 决策者不 能过分依赖深度学习模型 的结果做出参考, 如果最终决策者坚持这样做, 那么导致的后果 会使得决策机构处于高风险的环境中, 比如会面临社会舆论的指责等。 由于人工智能技术 在面对各种偏见时并没有良好的偏见消除措施, 并且会持续将数据中的偏见特征代入后续 的决策结果中, 造成持续影响。 由于人工智能是整个时代科技发展的趋势, 并且由于深度学 习导致的偏见问题已经渗透至人们生产生活的各个领域, 因此研究面向深度学习的数据去 偏方法显得 尤为重要。 [0004]导致深度学习模型存在偏见的主要原因是用于深度模型训练的原始样本数据集 本身就带有偏见, 并且深度学习模型在训练阶段会学习这种偏见, 在推理阶段会将这种偏 见放大, 给最 终结果带来不良影响。 基于此原因, 目前业内对消除深度学习模型带有的偏见 问题的研究主要集中在 对原始样本数据进 行预处理以达到消除偏见的目的, 然而现有的面 向深度学习的偏见消除方法中, 仅仅针对原始样本数据中由敏感属性引起的偏见进行偏见 消除, 而忽略了由于属 性之间的关联作用导致非敏感属 性的数据也会带有偏见信息。 在生 产环境中, 原始样本数据中的偏见信息并不仅仅来源于包含敏感属 性的数据, 不同属 性之 间的关联性也会导致包含非敏感属性的数据带有偏见信息, 现有的去偏方法并没有很好的 处理这一点, 而是单一的针对包含敏感属 性的数据进行去偏, 因此训练得到的模型只能消 除一部分偏见, 总体效果 仍然不理想 。 [0005]鉴于深度学习模型存在上述的偏见问题以及现有的偏 见消除方法的局限性, 研究 一种面向深度学习的数据去偏方法, 生成一个纯净且无偏的深度学习模型对指导人们生产说 明 书 1/6 页 3 CN 114462466 A 3

.PDF文档 专利 一种面向深度学习的数据去偏方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向深度学习的数据去偏方法 第 1 页 专利 一种面向深度学习的数据去偏方法 第 2 页 专利 一种面向深度学习的数据去偏方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。