专利基于多模态信息交互的零样本视觉定位方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210315275.9 (22)申请日 2022.03.28 (71)申请人湖南大学地址 410000 湖南省长沙市岳麓区麓山南路麓山门 (72)发明人金晶　杨超　 (74)专利代理机构长沙湘驰达知识产权代理事务所(普通合伙) 43242 专利代理师周昭 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01)G06F 16/532(2019.01) G06F 16/583(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称基于多模态信息交互的零样本视觉定位方法、装置及设备 (57)摘要本发明涉及本发明提供的一种基于多模态信息交互的零样本视觉定位方法、装置及设备，通过导入零样本视觉定位数据集，并对所述数据集中的数据进行预处理；获取查询语句文本，并基于预处理后的数据提取所述查询语句文本的文本特征；获取图像，并基于预处理后的数据提取所述图像的视觉特征和位置特征；将所述文本特征和所述视觉特征进行交互，得到多模态的交互特征；将所述位置特征和所述多模态的交互特征进行融合，得到多模态融合特征；根据所述多模态融合特征，分类回归并计算损失函数和准确率；解决了传统的视觉定位方式成本较高而零样本视觉定位精度低的技术问题，实现了更加精确、成本更低的进行视觉定位的技术效果，实现了更加精确、成本更低的进行视觉定位的技术效果。权利要求书2页说明书9页附图4页 CN 114708419 A 2022.07.05 CN 114708419 A 1.一种基于多模态信息交互的零样本视觉定位方法，其特征在于，所述方法包括：导入零样本视觉定位数据集，并对所述数据集中的数据进行预处理；获取查询语句文本，并基于预处理后的数据提取所述查询语句文本的文本特征；获取图像，并基于预处理后的数据提取所述图像的视觉特征和位置特征；将所述文本特征和所述视觉特征进行交互，得到多模态的交互特征；将所述位置特征和所述多模态的交互特征进行融合，得到多模态融合特征；根据所述多模态融合特征，分类回归并计算损失函数和准确率。 2.根据权利要求1所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述对所述数据集中的数据进行预处理包括：将所述数据集中的文本内容转换为张量的形式；将所述数据集中的图像转换成张量的形式，并统一成相同尺寸大小。 3.根据权利要求1或2所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述获取查询语句文本，并基于预处理后的数据提取所述查询语句文本的文本特征包括：获取查询语句文本；基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征。 4.根据权利要求3所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述获取图像，并基于预处理后的数据提取所述图像的视觉特征和位置特征包括：获取图像；基于预处理后的数据和所述图像提取双向多尺度的视觉特征，并生成不同尺度网格；将所述不同尺度网格的中心坐标作为位置特征。 5.根据权利要求4所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征包括：获得所述查询语句文本中单词的上下文特征表示和短语的上下文特征表示，将短语的上下文特征表示作为粗粒度的文本特征；计算每个单词的上下文特征表示在所述单词所属短语中的重要程度；选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。 6.根据权利要求5所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述基于预处理后的数据提取所述图像的视觉特征和位置特征包括：获取所述图像编码后的多尺度图像特征；将所述编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合，得到所述图像的视觉特征。 7.根据权利要求6所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述将所述文本特征和所述视觉特征进行交互，得到多模态的交互特征，包括：将所述粗粒度的文本特征与所述视觉特征做元素积，得到粗粒度的多模态交互特征；将所述细粒度文本的文本特征与所述视觉特征做元素积，得到细粒度的多模态交互特征。 8.根据权利要求7所述的基于多模态信息交互的零样本视觉定位方法，其特征在于，所述将所述位置特征和所述多模态的交互特征进行融合，得到多模态融合特征，包括：权　利　要　求　书 1/2 页 2 CN 114708419 A 2将所述粗粒的的多模态交互特征、所述细粒度的多模态特征和所述位置特征拼接成融合向量，得到多模态融合特征。 9.一种基于多模态信息交互的零样本视觉定位装置，其特征在于，所述装置包括：预处理模块，用于导入零样本视觉定位数据集，并对所述数据集中的数据进行预处理；文本特征提取模块，用于获取查询语句文本，并基于预处理后的数据提取所述查询语句文本的文本特征；图像特征提取模块，用于获取图像，并基于预处理后的数据提取所述图像的视觉特征和位置特征；交互模块，用于将所述文本特征和所述视觉特征进行交互，得到多模态的交互特征；融合模块，用于将所述位置特征和所述多模态的交互特征进行融合，得到多模态融合特征；分类回归模块，用于根据所述多模态融合特征，分类回归并计算损失函数和准确率。 10.一种基于多模态信息交互的零样本视觉定位设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1 ‑8任一项所述的基于多模态信息交互的零样本视觉定位方法的步骤。权　利　要　求　书 2/2 页 3 CN 114708419 A 3

专利 基于多模态信息交互的零样本视觉定位方法、装置及设备

专利基于多模态信息交互的零样本视觉定位方法、装置及设备