专利缓解不可测混淆因子导致的模型偏差的训练方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221094380 0.1 (22)申请日 2022.08.08 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人冯福利　丁斯昊　吴鹏　何向南　王奕曈　廖勇　张勇东　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称缓解不可测混淆因子导致的模型偏差的训练方法与系统 (57)摘要本发明公开了一种缓解不可测混淆因子导致的模型偏差的训练方法及系统，相关方法包括：结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集，结合敏感性系数的不确定集建立第一损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第一损失函数；或者结合敏感性系数的不确定集与预先训练好的机器学习模型建立第二损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第二损失函数。本发明提供的方案，不需要人为干预及特定的专家领域知识，可以有效缓解不可测混淆因子导致的模型偏差。权利要求书3页说明书8页附图2页 CN 115293363 A 2022.11.04 CN 115293363 A 1.一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，包括：结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集，所述敏感性系数为倾向性系数的倒数；对于当前选择的基于倾向性系数的偏差纠正方法的损失函数，结合敏感性系数的不确定集建立第一损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第一损失函数；或者在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第二损失函数。 2.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，所述结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集包括：结合用户物品对数据，计算不存在不可测混淆因子时的倾向性系数；通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，结合不可测混淆因子对倾向性系数的影响，确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系，并估计存在不可测混淆因子时的敏感性系数的不确定集。 3.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，所述通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，结合不可测混淆因子对倾向性系数的影响，确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系，并估计存在不可测混淆因子时的敏感性系数的不确定集包括：通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，表示为：其中，表示存在不可测混淆因子时的倾向性系数， m( ·)表示任意类型的函数，表示任意类型的函数， (u,i)表示用于一个用户物品对数据， u表示用户索引， i表示物品索引； xu,i表示一个用户物品对数据的特征， hu,i表示不可测混淆因子的特征，表示不可测混淆因子对倾向性系数的影响；给定不可测混淆因子对倾向性系数的影响的范围约束确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数pu,i之间的关系，表示为：经过简化得到：其中， Γ为设定值，权　利　要　求　书 1/3 页 2 CN 115293363 A 2估计存在不可测混淆因子时的敏感性系数的不确定集W：其中，表示单个敏感性系数， au,i与bu,i表示敏感性系数的不确定集的下边界与上边界。 4.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，使用对抗训练的方式优化所述第一损失函数，或者使用对抗训练的方式优化所述第二损失函数包括：通过在敏感性系数的不确定集中选择敏感性系数使得第一损失函数的损失值持续变大，同时优化待训练的机器学习模型的参数，使得第一损失函数的损失值持续变小；或者，通过在敏感性系数的不确定集中选择敏感性系数使得第二损失函数的损失值持续变大，同时优化待训练的机器学习模型的参数，使得第二损失函数的损失值持续变小。 5.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，所述对于当前选择的基于倾向性系数的偏差纠正方法的损失函数，结合敏感性系数的不确定集建立第一损失函数包括：对于当前选择的反倾向性系数偏差纠正方法的损失函数，结合敏感性系数的不确定集建立第一损失函数表示为：其中， LRD‑IPS(φ)为第一损失函数， φ表示待训练的机器学习模型的参数， W表示敏感性系数的不确定集，表示单个敏感性系数， |D|表示数据集D中用户物品对数据的数目， (u,i)表示用于一个用户物品对数据， u表示用户索引， i表示物品索引； ou,i表示用户商品对数据(u,i)是否被观测到，观测到取值1未观测到取值为0； eu,i表示用户商品对数据(u,i)对应的待训练的机器学习模型预测结果与真实标签间的差值。 6.根据权利要求1或5所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数包括：对于当前选择的反倾向性系数偏差纠正方法的损失函数，建立的第二损失函数表示为：其中， LBRD‑IPS(φ)表示第二损失函数， φ表示待训练的机器学习模型的参数， W表示敏感性系数的不确定集，表示单个敏感性系数， |D|表示数据集D中用户物品对数据的数目， (u,i)表示用于一个用户物品对数据， u表示用户索引， i表示物品索引；表示预先训练好的机器学习模型的参数； ou,i表示用户商品对数据(u,i)是否被观测到，观测到取值1未观测到取值为0； eu,i(φ)表示用户商品对数据(u,i)对应的参数为φ的待训练的机器学习模型预测结果与真实标签间的差值，用户商品对数据(u,i)对应的参数为的预先训练好的机器学习模型预测结果与真实标签间的差值。 7.一种缓解不可测混淆因子导致的模型偏差的训练系统，其特征在于，基于权利要求1 ～6任一项所述的方法实现，该系统包括：权　利　要　求　书 2/3 页 3 CN 115293363 A 3

专利 缓解不可测混淆因子导致的模型偏差的训练方法与系统

专利缓解不可测混淆因子导致的模型偏差的训练方法与系统