专利一种面向分布外泛化的领域感知稳定元学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211077575.4 (22)申请日 2022.09.05 (71)申请人吉林大学地址 130012 吉林省长春市前进大街269 9 号 (72)发明人王英　孙明辰　李莹姬　王鑫　 (74)专利代理机构长春市恒誉专利代理事务所 (普通合伙) 22212 专利代理师李荣武 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种面向分布外泛化的领域感知稳定元学习方法 (57)摘要发明公开了一种面向分布外泛化的领域感知稳定元学习方法，本发明属于迁移学习领域。本发明所要解决的技术问题是大多数元学习方法假设基模型在训练过程中可以访问域标签，但这个假设在许多真实的应用程序场景中是十分苛刻的，导致模型难以应用和部署。此外，现有的元学习方法侧重于缩小数据级域转移，而忽略了任务级域转移会导致不充分的泛化甚至会发生负迁移现象。因此，本发明提出一种面向分布外泛化的领域感知稳定元学习方法，使模型捕获具有强分布外泛化能力的域不变表示。本发明包括：一个任务构建模块，用于构建具有多样性的任务，一个域感知的转换模块用于获得元表示和伪域标签，以及一个交叉熵损失和域对齐约束进一步提升模型的泛化能力。权利要求书3页说明书7页附图1页 CN 115409119 A 2022.11.29 CN 115409119 A 1.一种面向分布外泛化的领域感知稳定元学习方法，其特征在于：包括以下步骤：步骤一：由基于N ‑way K‑shot的元学习任务构建模块对分布外泛化的数据进行采样，构建多样化的元任务，作为提取元知识的重要学习单元，每个任务包含多个训练域数据，并具有不同程度的域转移；步骤二：对于一般的元学习方法，通常将预测结果用于获得可推广的元知识，从而减少了系统偏差，提高基模型在假设空间中的搜索能力；但由于源域与看不见域之间的分布差异，可能导致不充分甚至负转移；此外，大多数现有的元学习方法都假设基础模型可以访问捷径域标签当缺乏域标签时，该模型不能推广到看不见的域；步骤三：现有的方法仅通过对齐数据级域的移位来学习域不变表示以减少分布差异是不够的；任务作为元学习的训练元素，这意味着更多的未开发的分布模式和冗余的信息；因此，需要进一步探索任务级领域的转移，以实现更完整的泛化；此外，传统的元学习方法往往利用经验风险最小化优化基模型而不是不变风险最小化，这也导致基础模型无法提取具有较强泛化能力的域不变表示；步骤四：在元训练过程中，我们利用交叉熵损失和域对齐约束，共同优化了一个元目标损失函数，这种训练策略使模型可以获得更有识别能力的域不变表示。 2.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法，其特征在于：所述步骤一，包括： (1)给定由特征空间X和标签空间Y构成的联合分布中采样的数据并将其作为一个域，对于每一个域中的元素(x,y)∈D用和分别表示特征和标签； (2)指定M个域并将其作为训练的源域其中Di表示第i个源域，其中任意两个源域Di和Dj的联合分布是不相同的，即对于任意 i和j若1≤i≠j≤ M则 (3)从源域DS数据组成的元数据集中按照N ‑wayK‑shot的模式进行采样任务，其中对于任意源域Di，随机选取N个标签{c1,…,cN}作为待采样标签，并在Di中对于任意标签ci∈ {c1,…,cN}进行采集K个样本，保证任务的无偏和多样性； (4)将任务构建模块作为黑盒模型整体，其输入为源域输出为任务集合τ，其定义如下： τ ＝{t1,…,tn} 其中ti为第i个被采样任务由从多个源域中采样的数据构成，表示第i个被采样任务中从源域Dz中采样的数据，待采样标签为cp∈{c1,…,cN}；。 3.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法，其特征在于：所述步骤二，包括： (1)根据社会影响理论，同一聚类中的数据往往具有相似的特征属性和分布模式；我们通过考虑正相对模式，使得样本的分类更加容易，并且通过聚类提供了额外的冗余信息，使权　利　要　求　书 1/3 页 2 CN 115409119 A 2分类决策具有鲁棒性； (2)在元训练阶段，我们使用多层感知机MLPsfθ()用以捕获输入数据x的高层次元表示，其定义如下： h＝fθ(x) 其中h为所获取的高层次元表示， θ 为多层感知机的可学习参数； (3)对于在元训练过程中单一任务的数据X＝{x1,…,xn}，利用fθ()获取所有输入样本的高层次元表示矩阵H，其定义如下： H＝fθ(X) (3)我们将表示高层次元表示矩阵H在其相应的嵌入空间中进行聚类，并利用聚类结果作为伪域标签；具体来说，我们采用可扩展的聚类模块(如K ‑means)将高层次元表示矩阵H 分割成多个不重叠的簇： {c1,…,cN}，其中N是簇的数量，其过程定义如下： c1,…,cN＝C(H) 其中C()为K ‑means聚类函数，其通过尝试将样本分离到n个等方差组中来对数据进行聚类；此算法需要指定聚类数的簇的数量 N，其计算过程定义如下：其中min(·)为最小化函数， ||·||2为计算二范数运算符。 4.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法，其特征在于：所述步骤三，包括： (1)我们利用瓦瑟斯坦距离将域对齐约束构造为最终联合损失中的不变风险最小化正则化，以提取具有较强泛化能力的域不变表示； (2)瓦瑟斯坦距离W是一种评估两个分布之间的距离的测量方法，它可以为梯度下降参数的更新提供更平滑的结果；给定来自源域的两个表示矩阵和它们的瓦瑟斯坦距离可以定义为：其中，表示利用伪域标签Ci进行采样的样本高层次元表示， inf表示取下界运算符， | |·||2为计算二范数运算符； (3)瓦瑟斯坦距离减小了不同域联合分布的差异，域对齐约束可以定义为：其中，为利用伪域标签Ci进行采样的样本高层次元表示矩阵， n表示每个任务t∈ τ 所采样的源域数量。 5.根据权利要求1所述的面向分布外泛化的领域感知稳定元学习方法，其特征在于：所述步骤四，包括： (1)形式上，我们使用域感知转换模块fθ(·)和投影头gφ(·)的联合模块作为基础模型，其中θ和φ分别表示它们的参数；权　利　要　求　书 2/3 页 3 CN 115409119 A 3

专利 一种面向分布外泛化的领域感知稳定元学习方法

专利一种面向分布外泛化的领域感知稳定元学习方法