(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211077575.4
(22)申请日 2022.09.05
(71)申请人 吉林大学
地址 130012 吉林省长 春市前进大街269 9
号
(72)发明人 王英 孙明辰 李莹姬 王鑫
(74)专利代理 机构 长春市恒誉 专利代理事务所
(普通合伙) 22212
专利代理师 李荣武
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种面向分布外泛化的领域感知稳定元学
习方法
(57)摘要
发明公开了一种面向分布外泛化的领域感
知稳定元学习方法, 本发明属于迁移学习领域。
本发明所要解决的技术问题是大多数元学习方
法假设基模 型在训练过程中可以访问域标签, 但
这个假设在许多真实的应用程序场景中是十分
苛刻的, 导致模型难以应用和部署。 此外, 现有的
元学习方法侧重于缩小数据级域转移, 而忽略了
任务级域转移会导致不充分的泛化甚至会发生
负迁移现象。 因此, 本发明提出一种面向分布外
泛化的领域感知稳定元学习方法, 使模型捕获具
有强分布外泛化能力的域不变表示。 本发明包
括: 一个任务构建模块, 用于构建具有多样性的
任务, 一个域感知的转换模块用于获得元表示和
伪域标签, 以及一个交叉熵损失和域对齐约束进
一步提升模型的泛化能力。
权利要求书3页 说明书7页 附图1页
CN 115409119 A
2022.11.29
CN 115409119 A
1.一种面向分布外泛化的领域感知稳定元 学习方法, 其特 征在于: 包括以下步骤:
步骤一: 由基于N ‑way K‑shot的元学习任务构建模块对分布外泛化的数据进行采样,
构建多样化的元任务, 作为提取元知识的重要学习单元, 每个任务包含多个训练域数据, 并
具有不同程度的域 转移;
步骤二: 对于一般的元学习方法, 通常将预测结果用于获得可推广的元知识, 从而减少
了系统偏差, 提高基模型在假设空间中的搜索能力; 但由于源域与看不见域之间的分布差
异, 可能导致不充分甚至负转移; 此外, 大多数现有的元学习方法都假设基础模 型可以访问
捷径域标签当缺乏域标签时, 该模型不能推广到看不见的域;
步骤三: 现有的方法仅 通过对齐数据级域的移位来学习域不变表示以减少分布差异是
不够的; 任务作为元学习的训练元素, 这意味着更多的未开 发的分布模式和冗余的信息; 因
此, 需要进一步探索任务级领域的转移, 以实现更完整的泛化; 此外, 传统的元学习 方法往
往利用经验风险最小化优化基模型而不是不变风险最小化, 这也导致基础 模型无法提取具
有较强泛化能力的域 不变表示;
步骤四: 在元训练过程中, 我们利用交叉熵损失和域对齐约束, 共同优化了一个元目标
损失函数, 这种训练策略使模型 可以获得 更有识别能力的域 不变表示。
2.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法, 其特征在于: 所
述步骤一, 包括:
(1)给定由特征空间X和标签空间Y构成的联合分布
中采样的数据
并
将其作为一个域, 对于每一个域中的元素(x,y)∈D用
和
分别表示特征和标
签;
(2)指定M个域并将其作为训练的源域
其中Di表示第i个源域, 其中任意两
个源域Di和Dj的联合分布是不相同的, 即对于任意 i和j若1≤i≠j≤ M则
(3)从源域DS数据组成的元数据集中按照N ‑wayK‑shot的模 式进行采样任务, 其中对于
任意源域Di, 随机选取N个标签{c1,…,cN}作为待采样标签, 并在Di中对于任意标签ci∈
{c1,…,cN}进行采集K个样本, 保证任务的无偏和多样性;
(4)将任务构建模块作为黑盒模型整体, 其输入为源域
输出为任务集合τ,
其定义如下:
τ ={t1,…,tn}
其中ti为第i个被采样任务由从多个源域中采样的数据构成,
表示第i个被采样任务
中从源域Dz中采样的数据, 待采样标签为cp∈{c1,…,cN}; 。
3.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法, 其特征在于: 所
述步骤二, 包括:
(1)根据社会影响理论, 同一聚类 中的数据往往具有相似的特征属性和分布模式; 我们
通过考虑正相对模式, 使得样本的分类更加容易, 并且通过聚类提供了额外的冗余信息, 使权 利 要 求 书 1/3 页
2
CN 115409119 A
2分类决策 具有鲁棒 性;
(2)在元训练阶段, 我们使用多层感知机MLPsfθ()用以捕获输入数据x的高层次元表
示, 其定义如下:
h=fθ(x)
其中h为所获取的高层次元表示, θ 为多层感知机的可 学习参数;
(3)对于在元训练过程中单一任务的数据X={x1,…,xn}, 利用fθ()获取所有输入样本
的高层次元表示矩阵H, 其定义如下:
H=fθ(X)
(3)我们将表示高层次元表示矩阵H在其相应的嵌入空间中进行聚类, 并利用聚类结果
作为伪域标签; 具体来说, 我们采用可扩展的聚类模块(如K ‑means)将高层次元表示矩阵H
分割成多个不重 叠的簇: {c1,…,cN}, 其中N是簇的数量, 其过程定义如下:
c1,…,cN=C(H)
其中C()为K ‑means聚类函数, 其通过尝试将样本分离到n个等方差组中来对数据进行
聚类; 此算法需要指定聚类数的簇的数量 N, 其计算过程定义如下:
其中min(·)为最小化函数, ||·||2为计算二范数运算符。
4.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法, 其特征在于: 所
述步骤三, 包括:
(1)我们利用瓦瑟斯坦距离将域对齐约束构造为最终联合损失中的不变风险最小化正
则化, 以提取 具有较强泛化能力的域 不变表示;
(2)瓦瑟斯坦距离W是一种评估两个分布之间的距离的测量方法, 它可以为梯度下降参
数的更新提供更平滑的结果; 给定来自源域的两个表示矩阵
和
它们的瓦瑟斯坦距
离
可以定义 为:
其中,
表示利用伪域标签Ci进行采样的样本高层次元表示, inf表示取下界运算符, |
|·||2为计算二范数运算符;
(3)瓦瑟斯 坦距离减小了不同域联合分布的差异, 域对齐约束可以定义 为:
其中,
为利用伪域标签Ci进行采样的样本高层次元表示矩阵, n表示每 个任务t∈ τ 所
采样的源域数量。
5.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法, 其特征在于: 所
述步骤四, 包括:
(1)形式上, 我们使用域感知转换模块fθ(·)和投影头gφ(·)的联合模块作为基础模
型, 其中θ和φ分别表示它 们的参数;权 利 要 求 书 2/3 页
3
CN 115409119 A
3
专利 一种面向分布外泛化的领域感知稳定元学习方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:04:11上传分享