专利一种编码器的训练方法、装置及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210061366.4 (22)申请日 2022.01.19 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人宋奕兵　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人石翰林 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/30(2022.01)G06V 10/34(2022.01) G06V 10/26(2022.01) G06V 10/764(2022.01) (54)发明名称一种编码器的训练方法、装置及存储介质 (57)摘要本申请公开了一种编码器的训练方法以及相关装置，应用于人工智能的计算机视觉领域。通过获取训练图像；对训练图像进行处理操作不同的样本；进一步的将不同的样本分别输入对应的编码器进行特征提取得到特征向量；然后将特征向量输入目标解码器得到对应的预测信息；进而基于预测信息进行损失函数计算，以对第一编码器进行训练。从而实现兼顾全局信息与局部信息的编码器训练过程，通过编码器进行局部特征的提取，并采用目标解码器中的注意力模块进行全局特征的关联，使得训练后的编码器提的特征向量更加精确度，提高图像识别的准确性。权利要求书3页说明书22页附图8页 CN 114418069 A 2022.04.29 CN 114418069 A 1.一种编码器的训练方法，其特征在于，包括：获取训练图像；对所述训练图像进行处理操作，以得到第一样本和第二样本，所述第一样本和所述第二样本采用的处理操作不同；将所述第一样本输入第一编码器进行特征提取得到第一特征向量，并将所述第二样本输入第二编码器进行特征提取得到第二特征向量；将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，所述目标解码器包含至少两个串行的注意力模块，所述注意力模块用于提取所述第一特征向量的全局信息和所述第二特征向量的全局信息；将所述第一预测信息与所述第二预测信息输入目标损失函数，以对所述第一编码器进行训练。 2.根据权利要求1所述的方法，其特征在于，所述对所述训练图像进行处理操作，以得到第一样本和第二样本，包括：确定所述训练图像的类型；基于所述训练图像的类型获取预设方式集合，所述预设方式集合包含至少两个类别的处理方式；基于不同的所述处理方式分别对所述训练图像进行处理操作，以得到所述第一样本和所述第二样本。 3.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，包括：基于第一映射器将所述第一特征向量映射为第一目标向量，并基于第二映射器将所述第二特征向量映射为第二目标向量，所述第一目标向量的维度数大于所述第一特征向量，所述第二目标向量的维度数大于所述第二特征向量，所述第二映射器的映射维度基于所述第一映射器传导所得；将所述第一目标向量输入所述目标解码器得到所述第一预测信息，并将所述第二目标向量输入所述目标解码器得到所述第二预测信息。 4.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取目标任务在图像识别过程中采用的目标特征维度；基于所述目标特征维度对所述第一映射器进行映射维度配置，以使得所述第一映射器将所述目标特征维度传导至所述第二映射器进行映射维度配置；基于映射维度配置后的所述第一映射器将所述第一特征向量映射为第一目标向量，并基于映射维度配置后的所述第二映射器将所述第二特征向量映射为第二目标向量。 5.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，包括：将所述第一特征向量输入所述目标解码器中的第一全连接层得到第一分类向量，并将所述第二特征向量输入所述目标解码器中的第二全连接层得到第二分类向量；将所述第一分类向量输入所述多头注意力层提取所述第一特征向量的全局信息，并将所述第二分类向量输入所述多头注意力层提取所述第二特征向量的全局信息；将所述第一特征向量的全局信息输入所述第三全连接层得到所述第一预测信息，并将权　利　要　求　书 1/3 页 2 CN 114418069 A 2所述第二特征向量的全局信息输入所述第三全连接层得到所述第二预测信息。 6.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取目标任务对应的特征分布信息；提取所述特征分布信息对应的注意力分布，以确定空间关注度；基于所述空间关注度对所述目标解码器对应的注意力模块数量进行配置。 7.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取所述多头注意力层中配置的位置编码参数；为所述位置编码参数配置调整参数，以使得所述位置编码参数在对第一编码器进行训练过程中进行参数调整。 8.根据权利要求1所述的方法，其特征在于，所述将所述第一预测信息与所述第二预测信息输入目标损失函数，以对所述第一编码器进行训练，包括：将所述第一预测信息与所述第二预测信息输入所述目标损失函数，以使得所述第一预测信息与所述第二预测信息在目标维度的特征距离进行靠近；基于所述特征距离的靠近过程确定网络参数；根据所述网络参数进行反向传播，以对所述第一编码器进行训练。 9.根据权利要求8所述的方法，其特征在于，所述方法还包括：确定所述第一编码器在训练过程中对应的参数信息；将所述参数信息迁移至第二编码器，以对所述第二编码器进行训练。 10.根据权利要求8所述的方法，其特征在于，所述方法还包括：获取用于计算所述网络参数的候选计算方式；分别基于所述候选计算方式进行网络参数的确定，以确定候选参数集合；通过所述候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；基于评估任务对所述候选编码器集合中的编码器进行能力评估，以确定目标编码器；确定所述目标编码器对应的目标计算方式，以对所述第一编码器的训练过程进行配置，所述目标计算方式包括点积计算、二范数计算或一范数计算。 11.根据权利要求1 ‑10任一项所述的方法，其特征在于，所述方法还包括：对所述训练图像进行处理操作，以得到第三样本，所述第三样本、所述第一样本和所述第二样本所采用的处理操作不同；将所述第三样本输入第三编码器进行特征提取得到第三特征向量；将所述第三特征向量输入目标解码器得到第三预测信息；将所述第一预测信息与所述第三预测信息输入所述目标损失函数，以对训练后的所述第一编码器进行参数调整。 12.根据权利要求1 ‑10任一项所述的方法，其特征在于，所述第一编码器为卷积神经网络，所述方法还包括：获取待识别图像；将所述待识别图像输入所述卷积神经网络进行特征提取，以得到目标特征；基于所述目标特征执行图像处理任务，以得到任务处理结果，所述图像处理任务包括图像识别任务、图像分割任务或图像检测任务。权　利　要　求　书 2/3 页 3 CN 114418069 A 3

专利 一种编码器的训练方法、装置及存储介质

专利一种编码器的训练方法、装置及存储介质