(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221094380 0.1
(22)申请日 2022.08.08
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 冯福利 丁斯昊 吴鹏 何向南
王奕曈 廖勇 张勇东
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06N 20/00(2019.01)
(54)发明名称
缓解不可测混淆因子导致的模型偏差的训
练方法与系统
(57)摘要
本发明公开了一种缓解不可测混淆因子导
致的模型偏差的训练方法及系统, 相关方法包
括: 结合用户物品对数据, 通过敏 感性分析, 估计
存在不可测混淆因子时的敏感性系数的不确定
集, 结合敏感性系数的不确定集 建立第一损失函
数, 将多个用户物品对数据构成的数据集输入至
待训练的机器学习模型, 使用对抗训练的方式优
化所述第一损失函数; 或者结合敏感性系数的不
确定集与预先训练好的机器学习模型建立第二
损失函数, 将多个用户物品对数据构成的数据集
输入至待训练的机器学习模型, 使用对抗训练的
方式优化所述第二损失函数。 本发明提供的方
案, 不需要人为干预及特定的专家领域知识, 可
以有效缓解 不可测混淆因子导 致的模型偏差 。
权利要求书3页 说明书8页 附图2页
CN 115293363 A
2022.11.04
CN 115293363 A
1.一种缓解 不可测混淆因子导 致的模型偏差的训练方法, 其特 征在于, 包括:
结合用户物品对数据, 通过敏感性分析, 估计存在不可测混淆因子时的敏感性系数的
不确定集, 所述敏感性系数为 倾向性系数的倒数;
对于当前选择的基于倾向性系数的偏差纠正方法的损失函数, 结合敏感性系数的不确
定集建立第一损失函数, 将多个用户物品对数据构成的数据集输入至待训练的机器学习模
型, 使用对抗训练的方式优化所述第一损失函数; 或者在所述第一损失函数 的基础上结合
预先训练好的机器学习模型建立第二损失函数, 将多个用户物品对数据构成的数据集输入
至待训练的机器学习模型, 使用对抗训练的方式优化所述第二损失函数。
2.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法, 其特
征在于, 所述结合用户物品对数据, 通过敏感性分析, 估计存在不可测混淆 因子时的敏感性
系数的不确定集包括:
结合用户物品对数据, 计算 不存在不可测混淆因子时的倾向性系数;
通过敏感性分析, 构建存在不可测混淆因子时的倾向性系数结构方程, 结合不可测混
淆因子对倾向性系数的影响, 确定存在不可测混淆 因子时的倾向性系数与不存在不可测混
淆因子时的倾向性系数之 间的关系, 并估计存在不可测混淆因子时的敏感性系数的不确定
集。
3.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法, 其特
征在于, 所述通过敏感性分析, 构建存在不可测混淆因子时的倾向性系数结构方程, 结合不
可测混淆 因子对倾向性系数的影响, 确定存在不可测混淆 因子时的倾向性系数与不存在不
可测混淆 因子时的倾向性系数之间的关系, 并估计存在不可测混淆因子时的敏感性系数的
不确定集包括:
通过敏感性分析, 构建存在不可测混淆因子时的倾向性系数 结构方程, 表示 为:
其中,
表示存在不可测混淆因子时的倾向性系数, m( ·)表示任意类型的函数,
表示任意类型的函数, (u,i)表示用于一个用户物品对数据, u表示用户索引, i表示物品索
引; xu,i表示一个用户物品对数据的特征, hu,i表示不可测混淆因子的特征,
表示不可
测混淆因子对倾向性系数的影响;
给定不可测混淆因子对倾向性系数的影响的范围约束
确定存在不可测
混淆因子时的倾向性系数
与不存在不可测混淆因子时 的倾向性系数pu,i之间的关系, 表
示为:
经过简化得到:
其中, Γ为设定值,
权 利 要 求 书 1/3 页
2
CN 115293363 A
2估计存在不可测混淆因子时的敏感性系数的不确定集W:
其中,
表示单个敏感性系数, au,i与bu,i表示敏感性系数的不确定集的下边界与上边界。
4.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法, 其特
征在于, 使用对抗训练的方式优化所述第一损失函数, 或者使用对抗训练的方式优化所述
第二损失函数包括:
通过在敏感性系数的不确定集中选择敏感性系数使得第一损失函数的损失值持续变
大, 同时优化待训练的机器学习模型的参数, 使得第一损失函数的损失值持续变小;
或者, 通过在敏感性系数的不确定集中选择敏感性系数使得第 二损失函数的损失值持
续变大, 同时优化待训练的机器学习模型的参数, 使得第二损失函数的损失值持续变小。
5.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法, 其特
征在于, 所述对于当前选择 的基于倾向性系 数的偏差纠正方法的损失函数, 结合敏感性系
数的不确定集建立第一损失函数包括:
对于当前选择的反倾向性系数偏差纠正方法的损失函数, 结合敏感性系数的不确定集
建立第一损失函数表示 为:
其中, LRD‑IPS(φ)为第一损失函数, φ表示待训练的机器学习模型的参数, W表示敏感性
系数的不确定集,
表示单个敏感性系数, |D|表示数据集D中用户物品对数据的数目,
(u,i)表示用于一个用户物品对数据, u表 示用户索引, i表 示物品索引; ou,i表示用户商品对
数据(u,i)是否被观测到, 观测到取值1未观测到取值为0; eu,i表示用户商品对数据(u,i)对
应的待训练的机器学习模型 预测结果与真实标签间的差值。
6.根据权利要求1或5所述的一种缓解不可测混淆因子导致的模型偏差的训练方法, 其
特征在于, 在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函
数包括:
对于当前选择的反倾向性系数偏差纠正方法的损失函数, 建立的第二损失函数表示
为:
其中, LBRD‑IPS(φ)表示第二损失函数, φ表示待训练的机器 学习模型的参数, W表示敏 感
性系数的不确定集,
表示单个敏感性系数, |D|表示数据 集D中用户物品对数据的数目,
(u,i)表示用于一个用户物品对数据, u表示用户索引, i表示物品索引;
表示预先训练
好的机器学习模 型的参数; ou,i表示用户商品对数据(u,i)是否被观测到, 观测到取值1未观
测到取值为0; eu,i(φ)表示用户商品对数据(u,i)对应的参数为φ的待训练的机器学习模
型预测结果与真实标签间的差值,
用户商品对数据(u,i)对应 的参数为
的预
先训练好的机器学习模型 预测结果与真实标签间的差值。
7.一种缓解不可测混淆因子导致的模型偏差的训练系统, 其特征在于, 基于权利要求1
~6任一项所述的方法实现, 该系统包括:权 利 要 求 书 2/3 页
3
CN 115293363 A
3
专利 缓解不可测混淆因子导致的模型偏差的训练方法与系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:06:19上传分享