说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210516499.6 (22)申请日 2022.05.13 (65)同一申请的已公布的文献号 申请公布号 CN 114625910 A (43)申请公布日 2022.06.14 (73)专利权人 中国科学技术大学 地址 230026 安徽省合肥市包河区常青街 道金寨路96号 专利权人 人民网股份有限公司 (72)发明人 毛震东 张勇东 郭俊波 张坤  郭文歆  (74)专利代理 机构 合肥天明专利事务所(普通 合伙) 34115 专利代理师 谢中用(51)Int.Cl. G06F 16/583(2019.01) G06F 16/532(2019.01) G06F 16/51(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (56)对比文件 US 202139070 0 A1,2021.12.16 CN 113239153 A,2021.08.10 CN 112905827 A,2021.0 6.04 CN 114297473 A,202 2.04.08 CN 112784092 A,2021.0 5.11 审查员 李梦诗 (54)发明名称 基于负感知注意力框架的图像文本跨模态 检索方法 (57)摘要 本发明公开了一种基于负感知注意力框架 的图像文本跨模态检索方法, 与现有的仅关注匹 配片段而削弱或消除不匹配片段作用效果的方 法相比, 同时关注了图像 ‑文本对中的匹配和不 匹配片段, 通过高效的迭代优化策略最大限度地 挖掘负面的不匹配片段, 生 成更具区分性和鲁棒 性的负面作用。 并且, 本发明提出的双分支匹配 机制, 能够显式地利用片段带来的正面作用和负 面作用, 精确地衡量出片段的相似度与不相似 度, 用以共同推断出图文之间的整体相似度, 因 此可以实现更准确的检索效果。 权利要求书2页 说明书7页 附图3页 CN 114625910 B 2022.08.19 CN 114625910 B 1.一种基于负感知注意力框架的图像文本跨模态检索方法, 其训练过程包括以下步 骤: 步骤一: 图像V和包含m个单词的文本U 组成图像 ‑文本对 (U, V) , 通过预训练模型提取图 像V每个区域的特 征向量 、 文本U每 个单词的特 征向量 ; 步骤二: 一个区域和一个片段组成的区域 ‑单词对称为片段, 设置区分边界tk, 相似度大 于tk的片段视为匹配片段, 相似度小于或者 等于tk的片段视为 不匹配片段; 步骤三: 计算文本所有单词ui与图像V所有 区域 的相似度 , i∈ [1,m], j∈[1,n]; 计算各单词ui, i∈[1,m]与图像V所有区域 的相似度与区分边界 tk的差值的最大值, 作为各单词的匹配程度 ; 对各单词的匹 配程度进行模态内传播, 得到单词的模态内增强匹配程度 ; 其中 表示第i个和第 个单词之间的语义关系, λ是比例因子; 则图像 ‑文本对 (U, V) 中第i个单词所带来的负面作 用 ; 其中 为掩码函数, 当输入为负数时输出为1, 否 则输出为0, 表示点积运算; 步骤四 : 第i个单词在图像中的共享语义可以被聚合为图像相关语义特征 ; 其中 是单词 ui和区域vj的语义关联; 为掩码函数, 当输入为正数时输出与输入相等, 否则 输出‑∞; 单词ui的特征相似度为 ; 语义相关度权重加权的分数 相似度 , j∈[1,n]; 图像 ‑文本对 (U, V) 中 第i个单词所 带来的正 面作用 ; 步骤五: 图像 ‑文本对 (U, V) 的相似度 。 2.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法, 其特征 在于, 步骤一中, 通过预训练模型提取图像V每个区域的特征向量时, 通过预训练的Faster   R‑CNN检测出图像V的候选区域, 对每个区域利用预训练的ResNet ‑101进行均值池卷积特征 提取并经 过一个全连接层, 得到每 个区域的特 征向量 。 3.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法, 其特征 在于, 步骤一中, 通过预训练模型提取文本U每个单词的特征向量时, 每个单词首先被表示 为一个300维的GloVe 向量, 然后使用双向门控循环单元BiGRU对GloVe 向量进行处理, 最终 使用双向隐藏状态的平均值作为每 个单词的特 征向量 。 4.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法, 其特征 在于, 步骤二中设置区分边界tk时, 通过如下交替优化方法得到tk:权 利 要 求 书 1/2 页 2 CN 114625910 B 2对于一个匹配的图像 ‑文本对, 该文本中的单词ui, i∈[1,m], 和该图像所有区域 中相似度最高的区域组成匹配片段; 对于一个不匹配的图像 ‑文本对, 该文本中的单词ui, i∈[1,m]和该图像所有区域 中相似度最高的区域组成不匹配片段; 则匹配片段的相似度 , 不匹配片段的相似度 ; 并构造如下集 合: , 其中, 其中 和 分别表示不匹配片段的相似度 的集合和匹配片段的相似度 的集合, 和 在训练过程中动态更新, k 为更新的轮数; 基于构造出的集合 和 , 分别建立匹配片段相似度s的概率密度函数 和不 匹配片段的相似度s的概 率密度函数 : 其中, 和 分别是两种概 率分布的均值和标准差; 当: , 优化问题 具有最优解; 即此时的tk使 得不匹配片段和匹配片段区分错误的概率最低, 其中t是该优化问题的决策变量, α 是惩罚 参数, 。权 利 要 求 书 2/2 页 3 CN 114625910 B 3

.PDF文档 专利 基于负感知注意力框架的图像文本跨模态检索方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于负感知注意力框架的图像文本跨模态检索方法 第 1 页 专利 基于负感知注意力框架的图像文本跨模态检索方法 第 2 页 专利 基于负感知注意力框架的图像文本跨模态检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。