专利构建视觉模型结构的方法、装置、介质及边缘计算设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111634626.4 (22)申请日 2021.12.2 9 (71)申请人阿波罗智联（北京）科技有限公司地址 102600 北京市大兴区北京经济技术开发区瑞合西二路7号院1号楼1层101 申请人阿波罗智行科技（广州）有限公司 (72)发明人夏春龙　 (74)专利代理机构北京市通商律师事务所 11951 代理人姜莹丽 (51)Int.Cl. G06T 17/05(2011.01) G06T 17/10(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称构建视觉模型结构的方法、装置、介质及边缘计算设备 (57)摘要本公开提供了一种构建视觉模型结构的方法、装置、介质及边缘计算设备，涉及智能交通技术领域，尤其涉及构建视觉模型技术领域。具体实现方案为：获取目标图像的本征特征，并基于所述本征特征，确定所述目标图像的局部特征和全局特征；建立所述本征特征、所述局部特征和所述全局特征之间的全局相互关系；基于所述全局相互关系，构建视觉模型的全局注意力模型结构。通过本公开可以在不增加模型参数量的前提下提升模型的特征提取能力，进而提升模型的性能。权利要求书3页说明书8页附图4页 CN 114359496 A 2022.04.15 CN 114359496 A 1.一种构建视觉模型结构的方法，包括：获取目标图像的本征特征，并基于所述本征特征，确定所述目标图像的局部特征和全局特征；建立所述本征特征、所述局部特征和所述全局特征之间的全局相互关系；基于所述全局相互关系，构建视觉模型的全局注意力模型结构。 2.根据权利要求1所述的方法，其中，所述基于所述本征特征，确定所述目标图像的局部特征，包括：基于第一数量的通道，检测目标图像的特征，得到第一数量的本征特征；增加通道数，得到第二数量的通道，并基于所述第二数量的通道检测所述本征特征，得到第二数量的本征特征；其中，所述第二数量大于第一数量；采用深度可分离卷积，基于第二数量通道，分别提取第二数量的本征特征中每个本征特征的局部特征，得到第二数量的局部特征。 3.根据权利要求2所述的方法，其中，所述基于所述本征特征，确定所述目标图像的全局特征，包括：获取第二数量的本征特征；基于二维自适应池化操作，按照不同比例对所述本征特征的长维度和宽维度进行降维操作，得到多种不同维度的本征特征，其中一种维度本征特征的长维度和另一种维度本征特征的宽维度相等；对所述多种不同维度的本征特征进行矩阵相乘，得到不同区域特征之间的全局相互关系，并将所述全局相互关系确定为全局特征。 4.根据权利要求3所述的方法，其中，所述确定所述目标图像的全局特征之后，所述方法还包括：基于局部特征的维度大小，对所述全局特征的长维度和宽维度进行尺度变化，得到全局特征的维度大小；其中，所述全局特征的维度大小与所述局部特征的维度大小相同。 5.根据权利要求3或4所述的方法，其中，所述方法还包括：采用数值区间对所述全局相互关系进行表示；其中，所述数值区间的一端用于表征所述全局相互关系为不相关，所述数值区间的另一端用于表征所述全局相互关系为完全相关。 6.根据权利要求1所述的方法，其中，所述建立所述本征特征、所述局部特征和所述全局特征之间的全局相互关系，包括：将建立的所述全局相互关系与第二数量的局部特征做乘积运行，得到第二数量具有所述全局相互关系的局部特征；对第二数量具有所述全局相互关系的局部特征进行降维，得到第一数量具有所述全局相互关系的局部特征；基于所述第一数量具有所述全局相互关系的局部特征与所述本征特征的和，建立本征特征、所述局部特征和所述全局特征之间的全局相互关系。 7.根据权利要求1所述的方法，其中，所述基于所述全局相互关系，构建视觉模型的全局注意力模型结构，包括：权　利　要　求　书 1/3 页 2 CN 114359496 A 2将建立的所述全局相互关系，添加至视觉模型的模型结构，得到全局注意力模型结构。 8.根据权利要求1所述的方法，其中，所述方法还包括：获取训练数据和包含所述全局注意力模型结构的视觉模型；将所述训练数据批量输入至所述视觉模型中，训练所述全局注意力模型结构；确定所述视觉模型的输出值与实际输出值的误差，并基于所述误差更新所述视觉模型的权重，循环训练所述全局注意力模型结构；响应于所述视觉模型满足预设条件，保存所述视觉模型。 9.根据权利要求6所述的方法，其中，保存的所述视觉模型为多个；保存所述视觉模型之后，所述方法还包括：获取测试数据，并基于所述测试数据对保存的多个所述视觉模型进行检测，得到每个所述视觉模型的检测结果；比较所述检测结果，确定最终保存的所述视觉模型。 10.一种构建视觉模型结构的装置，包括：确定模块，用于获取目标图像的本征特征，并基于所述本征特征，确定所述目标图像的局部特征和全局特征；建立模块，用于建立所述本征特征、所述局部特征和所述全局特征之间的全局相互关系；构建模块，用于基于所述全局相互关系，构建视觉模型的全局注意力模型结构。 11.根据权利要求10所述的装置，其中，所述确定模块，用于：基于第一数量的通道，检测目标图像的特征，得到第一数量的本征特征；增加通道数，得到第二数量的通道，并基于所述第二数量的通道检测所述本征特征，得到第二数量的本征特征；其中，所述第二数量大于第一数量；采用深度可分离卷积，基于第二数量通道，分别提取第二数量的本征特征中每个本征特征的局部特征，得到第二数量的局部特征。 12.根据权利要求10所述的装置，其中，所述确定模块，用于：获取第二数量的本征特征；基于二维自适应池化操作，按照不同比例对所述本征特征的长维度和宽维度进行降维操作，得到多种不同维度的本征特征，其中一种维度本征特征的长维度和另一种维度本征特征的宽维度相等；对所述多种不同维度的本征特征进行矩阵相乘，得到不同区域特征之间的全局相互关系，并将所述全局相互关系确定为全局特征。 13.根据权利要求10所述的装置，其中，所述建立模块，还用于：基于局部特征的维度大小，对所述全局特征的长维度和宽维度进行尺度变化，得到全局特征的维度大小；其中，所述全局特征的维度大小与所述局部特征的维度大小相同。 14.根据权利要求13所述的装置，其中，所述确定模块，还用于：采用数值区间对所述全局相互关系进行表示；其中，所述数值区间的一端用于表征所述全局相互关系为不相关，所述数值区间的另一端用于表征所述全局相互关系为完全相关。权　利　要　求　书 2/3 页 3 CN 114359496 A 3

专利 构建视觉模型结构的方法、装置、介质及边缘计算设备

专利构建视觉模型结构的方法、装置、介质及边缘计算设备