说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210315275.9 (22)申请日 2022.03.28 (71)申请人 湖南大学 地址 410000 湖南省长 沙市岳麓区麓山 南 路麓山门 (72)发明人 金晶 杨超  (74)专利代理 机构 长沙湘驰达知识产权代理事 务所(普通 合伙) 43242 专利代理师 周昭 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01)G06F 16/532(2019.01) G06F 16/583(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 基于多模态信息交互的零样本视觉定位方 法、 装置及设备 (57)摘要 本发明涉及本发明提供的一种基于多模态 信息交互的零样本视觉定位方法、 装置及设备, 通过导入零样本视觉定位数据集, 并对所述数据 集中的数据进行预处理; 获取查询语句文本, 并 基于预处理后的数据提取所述查询语句文本的 文本特征; 获取图像, 并基于预处理后的数据提 取所述图像的视觉特征和位置特征; 将所述文本 特征和所述视觉特征进行交互, 得到多模态的交 互特征; 将所述位置特征和所述多模态的交互特 征进行融合, 得到多模态融合特征; 根据所述多 模态融合特征, 分类回归并计算损失函数和准确 率; 解决了传统的视觉定位方式成本较高而零样 本视觉定位精度低的技术问题, 实现了更加精 确、 成本更低的进行视觉定位的技术效果, 实现 了更加精确、 成本更低的进行视觉定位的技术效 果。 权利要求书2页 说明书9页 附图4页 CN 114708419 A 2022.07.05 CN 114708419 A 1.一种基于多模态信息交 互的零样本 视觉定位方法, 其特 征在于, 所述方法包括: 导入零样本 视觉定位数据集, 并对所述数据集中的数据进行 预处理; 获取查询语句文本, 并基于预处 理后的数据提取 所述查询语句文本的文本特 征; 获取图像, 并基于预处 理后的数据提取 所述图像的视 觉特征和位置特 征; 将所述文本特 征和所述视 觉特征进行交 互, 得到多模态的交 互特征; 将所述位置特征和所述多模态的交 互特征进行融合, 得到多模态融合特 征; 根据所述多模态融合特 征, 分类回归并计算损失函数和准确率。 2.根据权利要求1所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述对所述数据集中的数据进行 预处理包括: 将所述数据集中的文本内容 转换为张量的形式; 将所述数据集中的图像转换成张量的形式, 并统一成相同尺寸大小。 3.根据权利要求1或2所述的基于多模态信息交互的零样本视觉定位方法, 其特征在 于, 所述获取查询语句文本, 并基于预处理后的数据提取所述查询 语句文本的文本特征包 括: 获取查询语句文本; 基于预处 理后的数据和所述 查询语句文本分别提取粗粒度和细粒度的文本特 征。 4.根据权利要求3所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述获取图像, 并基于预处 理后的数据提取 所述图像的视 觉特征和位置特 征包括: 获取图像; 基于预处 理后的数据和所述图像提取双向多尺度的视 觉特征, 并生成不同尺度网格; 将所述不同尺度网格的中心坐标作为 位置特征。 5.根据权利要求4所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述基于预处 理后的数据和所述 查询语句文本分别提取粗粒度和细粒度的文本特 征包括: 获得所述查询语句文本 中单词的上下文特征表示和短语的上下文特征表示, 将短语的 上下文特征表示作为 粗粒度的文本特 征; 计算每个单词的上 下文特征表示在所述单词所属短语中的重要程度; 选取重要程度高的单词的上 下文特征表示作为细粒度的文本特 征。 6.根据权利要求5所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述基于预处 理后的数据提取 所述图像的视 觉特征和位置特 征包括: 获取所述图像编码后的多尺度图像特 征; 将所述编码后的多尺度图像特征进行双向交叉尺度连接和加权特征融合, 得到所述图 像的视觉特征。 7.根据权利要求6所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述将所述文本特 征和所述视 觉特征进行交 互, 得到多模态的交 互特征, 包括: 将所述粗粒度的文本特 征与所述视 觉特征做元素积, 得到粗粒度的多模态交 互特征; 将所述细粒度文本的文本特征与 所述视觉特征做元素积, 得到细粒度的多模态 交互特 征。 8.根据权利要求7所述的基于多模态信 息交互的零样本视觉定位方法, 其特征在于, 所 述将所述 位置特征和所述多模态的交 互特征进行融合, 得到多模态融合特 征, 包括:权 利 要 求 书 1/2 页 2 CN 114708419 A 2将所述粗粒的的多模态 交互特征、 所述细粒度的多模态特征和所述位置特征拼接成融 合向量, 得到多模态融合特 征。 9.一种基于多模态信息交 互的零样本 视觉定位装置, 其特 征在于, 所述装置包括: 预处理模块, 用于导入零样本 视觉定位数据集, 并对所述数据集中的数据进行 预处理; 文本特征提取模块, 用于获取查询语句文本, 并基于预处理后的数据提取所述查询语 句文本的文本特 征; 图像特征提取模块, 用于获取图像, 并基于预处理后的数据提取所述图像的视觉特征 和位置特 征; 交互模块, 用于将所述文本特 征和所述视 觉特征进行交 互, 得到多模态的交 互特征; 融合模块, 用于将所述位置特征和所述多模态的交互特征进行融合, 得到多模态融合 特征; 分类回归 模块, 用于根据所述多模态融合特 征, 分类回归并计算损失函数和准确率。 10.一种基于多模态信 息交互的零样本视觉定位设备, 包括存储器、 处理器及存储在存 储器上并可在处 理器上运行的计算机程序, 其特 征在于, 所述处理器执行所述程序时实现权利要求1 ‑8任一项所述的基于多模态信息交互的零 样本视觉定位方法的步骤。权 利 要 求 书 2/2 页 3 CN 114708419 A 3

.PDF文档 专利 基于多模态信息交互的零样本视觉定位方法、装置及设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态信息交互的零样本视觉定位方法、装置及设备 第 1 页 专利 基于多模态信息交互的零样本视觉定位方法、装置及设备 第 2 页 专利 基于多模态信息交互的零样本视觉定位方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。