专利基于混合注意力机制的自动图像描述方法与系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210352863.X (22)申请日 2022.04.02 (65)同一申请的已公布的文献号申请公布号 CN 114693790 A (43)申请公布日 2022.07.01 (73)专利权人江西财经大学地址 330013 江西省南昌市经济技术开发区双港东大街169号 (72)发明人姜文晖　李钦　方玉明　沈飞　刘扬　 (74)专利代理机构北京中济纬天专利代理有限公司 11429 专利代理师黄攀 (51)Int.Cl. G06T 7/73(2017.01)G06T 7/11(2017.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (56)对比文件 CN 113569892 A,2021.10.2 9 CN 108829677 A,2018.1 1.16 CN 110674850 A,2020.01.10 李中益等.基于图像语义的服务机器人视觉隐私行为识别与保护系统. 《计算机辅助设计与图形学学报》 .2020,第1679-1687页. Jun Xu et al. .Learning Multimodal Attention LSTM Netw orks for Video Captioning. 《Multimedia Searc h and Recommendation》 .2017,第5 37-545页. 审查员李振娟 (54)发明名称基于混合注意力机制的自动图像描述方法与系统 (57)摘要本发明提出一种基于混合注意力机制的自动图像描述方法与系统，该方法包括：获取待描述图像中目标边界框的区域图像特征以及位置信息；将区域图像特征输入至机器注意力模块中得到机器注意力特征；获取人类进行图像描述任务时的认知数据，根据认知数据构建人类进行图像描述任务时的视觉认知模型；根据视觉认知模型得到注意力特征，根据注意力特征进行融合以得到最终图像描述。本发明将人类认知机制指导的注意力与传统机器注意力相结合，为描述生成过程中的注意力权重提供更好的参考，从而生成更精确的描述，提升了自动图像描述方法的性能，取得了更为优异的结果。权利要求书4页说明书9页附图2页 CN 114693790 B 2022.11.18 CN 114693790 B 1.一种基于混合注意力机制的自动图像描述方法，其特征在于，所述方法包括如下步骤：步骤一、获取待描述图像，确定所述待描述图像中的目标边界框，获取所述目标边界框内的区域图像特征，以及所述目标边界框的位置信息；步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征；步骤三、获取人类进行图像描述任务时的认知数据，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型；步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图，将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征；步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征；步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述；在步骤二中，将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤：将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出以及图像全局特征输入至机器注意力模块中，经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词；其中，第一长短期记忆人工神经网络的当前时刻输出表示为：根据所述第一长短期记忆人工神经网络的当前时刻输出以及所述区域图像特征V计算得到特征权重αt，通过所述特征权重αt对所述区域图像特征V 进行特征加权以得到第一机器注意力特征其中，第一机器注意力特征表示为：其中， Wa、 Wh以及Wv均为可学习参数， LSTM1表示第一长短期记忆人工神经网络， T表示转置操作， softmax( ·)表示归一化操作，表示元素级的加法运算；在所述步骤四中，将所述待描述图像输入至视觉认知模型中以得到认知图，将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力权　利　要　求　书 1/4 页 2 CN 114693790 B 2特征的方法包括如下步骤：将待描述图像I输入至视觉认知模型中以得到认知图Is，其中Is∈RIW×IH， IW为输入图像的宽， IH为输入图像的高；根据所述目标边界框的位置信息，在认知图Is提取出各目标边界框对应的区域认知图，并将第i个图像区域的认知图记为 IRi；对第i个图像区域的认知图IRi中的像素按值从大到小进行排序，统计前J％的像素点对应的集合并记为Ti，计算Ti的均值作为区域重要性评分：其中， Si表示第i个图像的区域重要性评分， Ti， j表示Ti集合中的第j个元素， |Ti|表示Ti 中元素的总数；根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征；其中，区域重要性评分S表示为S＝[s1， s2， ...， sk]，区域图像特征V表示为V＝[v1， v2， ...， vi， ...， vk]；对区域图像特征进行加权计算的公式表示为： c＝softmax(ws*S) 第二人类认知机制指导的注意力特征表示为：其中， vi表示任一区域图像特征， ws为常量， c为归一化后的人类注意力机制的权重向量， [s1， s2， ...， sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合， [v1， v2， ...， vi， ...， vk]表示多个区域图像特征的集合， k为区域图像特征的数量值。 2.根据权利要求1所述的基于混合注意力机制的自动图像描述方法，其特征在于，在所述步骤一中，利用视觉基因数据集所预先训练的目标检测算法，提取所述待描述图像中所述目标边界框内的区域图像特征，以及所述目标边界框在所述待描述图像中的位置信息；所述区域图像特征为k个2048维的向量，其中k 为区域图像特征的数量值。 3.根据权利要求1所述的基于混合注意力机制的自动图像描述方法，其特征在于，在所述步骤三中，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤：获取图像描述生成任务下的人类注视数据集；将收集到的人类注视数据集经过高斯模糊处理后，用于构建人类进行图像描述任务时的视觉认知模型；其中，在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。 4.根据权利要求1所述的基于混合注意力机制的自动图像描述方法，其特征在于，在所权　利　要　求　书 2/4 页 3 CN 114693790 B 3

专利 基于混合注意力机制的自动图像描述方法与系统

专利基于混合注意力机制的自动图像描述方法与系统