专利基于负感知注意力框架的图像文本跨模态检索方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210516499.6 (22)申请日 2022.05.13 (65)同一申请的已公布的文献号申请公布号 CN 114625910 A (43)申请公布日 2022.06.14 (73)专利权人中国科学技术大学地址 230026 安徽省合肥市包河区常青街道金寨路96号专利权人人民网股份有限公司 (72)发明人毛震东　张勇东　郭俊波　张坤　郭文歆　 (74)专利代理机构合肥天明专利事务所(普通合伙) 34115 专利代理师谢中用(51)Int.Cl. G06F 16/583(2019.01) G06F 16/532(2019.01) G06F 16/51(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (56)对比文件 US 202139070 0 A1,2021.12.16 CN 113239153 A,2021.08.10 CN 112905827 A,2021.0 6.04 CN 114297473 A,202 2.04.08 CN 112784092 A,2021.0 5.11 审查员李梦诗 (54)发明名称基于负感知注意力框架的图像文本跨模态检索方法 (57)摘要本发明公开了一种基于负感知注意力框架的图像文本跨模态检索方法，与现有的仅关注匹配片段而削弱或消除不匹配片段作用效果的方法相比，同时关注了图像 ‑文本对中的匹配和不匹配片段，通过高效的迭代优化策略最大限度地挖掘负面的不匹配片段，生成更具区分性和鲁棒性的负面作用。并且，本发明提出的双分支匹配机制，能够显式地利用片段带来的正面作用和负面作用，精确地衡量出片段的相似度与不相似度，用以共同推断出图文之间的整体相似度，因此可以实现更准确的检索效果。权利要求书2页说明书7页附图3页 CN 114625910 B 2022.08.19 CN 114625910 B 1.一种基于负感知注意力框架的图像文本跨模态检索方法，其训练过程包括以下步骤：步骤一：图像V和包含m个单词的文本U 组成图像 ‑文本对（U， V），通过预训练模型提取图像V每个区域的特征向量、文本U每个单词的特征向量；步骤二：一个区域和一个片段组成的区域 ‑单词对称为片段，设置区分边界tk，相似度大于tk的片段视为匹配片段，相似度小于或者等于tk的片段视为不匹配片段；步骤三：计算文本所有单词ui与图像V所有区域的相似度， i∈ [1,m]， j∈[1,n]；计算各单词ui， i∈[1,m]与图像V所有区域的相似度与区分边界 tk的差值的最大值，作为各单词的匹配程度；对各单词的匹配程度进行模态内传播，得到单词的模态内增强匹配程度；其中表示第i个和第个单词之间的语义关系， λ是比例因子；则图像 ‑文本对（U， V）中第i个单词所带来的负面作用；其中为掩码函数，当输入为负数时输出为1，否则输出为0，表示点积运算；步骤四：第i个单词在图像中的共享语义可以被聚合为图像相关语义特征；其中是单词 ui和区域vj的语义关联；为掩码函数，当输入为正数时输出与输入相等，否则输出‑∞；单词ui的特征相似度为；语义相关度权重加权的分数相似度， j∈[1,n]；图像 ‑文本对（U， V）中第i个单词所带来的正面作用；步骤五：图像 ‑文本对（U， V）的相似度。 2.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法，其特征在于，步骤一中，通过预训练模型提取图像V每个区域的特征向量时，通过预训练的Faster R‑CNN检测出图像V的候选区域，对每个区域利用预训练的ResNet ‑101进行均值池卷积特征提取并经过一个全连接层，得到每个区域的特征向量。 3.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法，其特征在于，步骤一中，通过预训练模型提取文本U每个单词的特征向量时，每个单词首先被表示为一个300维的GloVe 向量，然后使用双向门控循环单元BiGRU对GloVe 向量进行处理，最终使用双向隐藏状态的平均值作为每个单词的特征向量。 4.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法，其特征在于，步骤二中设置区分边界tk时，通过如下交替优化方法得到tk：权　利　要　求　书 1/2 页 2 CN 114625910 B 2对于一个匹配的图像 ‑文本对，该文本中的单词ui， i∈[1,m]，和该图像所有区域中相似度最高的区域组成匹配片段；对于一个不匹配的图像 ‑文本对，该文本中的单词ui， i∈[1,m]和该图像所有区域中相似度最高的区域组成不匹配片段；则匹配片段的相似度，不匹配片段的相似度；并构造如下集合：，其中，其中和分别表示不匹配片段的相似度的集合和匹配片段的相似度的集合，和在训练过程中动态更新， k 为更新的轮数；基于构造出的集合和，分别建立匹配片段相似度s的概率密度函数和不匹配片段的相似度s的概率密度函数：其中，和分别是两种概率分布的均值和标准差；当：，优化问题具有最优解；即此时的tk使得不匹配片段和匹配片段区分错误的概率最低，其中t是该优化问题的决策变量， α 是惩罚参数，。权　利　要　求　书 2/2 页 3 CN 114625910 B 3

专利 基于负感知注意力框架的图像文本跨模态检索方法

专利基于负感知注意力框架的图像文本跨模态检索方法