说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210352863.X (22)申请日 2022.04.02 (65)同一申请的已公布的文献号 申请公布号 CN 114693790 A (43)申请公布日 2022.07.01 (73)专利权人 江西财经 大学 地址 330013 江西省南昌市经济技 术开发 区双港东大街169号 (72)发明人 姜文晖 李钦 方玉明 沈飞  刘扬  (74)专利代理 机构 北京中济纬天专利代理有限 公司 11429 专利代理师 黄攀 (51)Int.Cl. G06T 7/73(2017.01)G06T 7/11(2017.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (56)对比文件 CN 113569892 A,2021.10.2 9 CN 108829677 A,2018.1 1.16 CN 110674850 A,2020.01.10 李中益等.基于图像语义的服 务机器人视觉 隐私行为识别与保护系统. 《计算机 辅助设计与 图形学学报》 .2020,第1679-1687页. Jun Xu et al. .Learning Multimodal Attention LSTM Netw orks for Video Captioning. 《Multimedia Searc h and Recommendation》 .2017,第5 37-545页. 审查员 李振娟 (54)发明名称 基于混合注意力机制的自动图像描述方法 与系统 (57)摘要 本发明提出一种基于混合注意力机制的自 动图像描述方法与系统, 该方法包括: 获取待描 述图像中目标边界框的区域图像特征以及位置 信息; 将区域图像特征输入至机器注 意力模块中 得到机器注 意力特征; 获取人类进行图像描述任 务时的认知数据, 根据认知数据构建人类进行图 像描述任务时的视觉认知模型; 根据视觉认知模 型得到注 意力特征, 根据注意力特征进行融合以 得到最终图像描述。 本发明将人类认知机制指导 的注意力与传统机器注意力相结合, 为描述生成 过程中的注 意力权重提供更好的参考, 从而生成 更精确的描述, 提升了自动图像描述方法的性 能, 取得了更为优异的结果。 权利要求书4页 说明书9页 附图2页 CN 114693790 B 2022.11.18 CN 114693790 B 1.一种基于混合注意力机制的自动图像描述方法, 其特征在于, 所述方法包括如下步 骤: 步骤一、 获取待描述图像, 确定所述待描述图像 中的目标边界框, 获取所述目标边界框 内的区域图像特 征, 以及所述目标边界框的位置信息; 步骤二、 将所述区域图像特 征输入至 机器注意力模块以得到 机器注意力特 征; 步骤三、 获取人类进行图像描述任务时的认知数据, 根据所述认知数据构建人类进行 图像描述任务时的视 觉认知模型; 步骤四、 将所述待描述图像输入至视觉认知模型中以得到认知图, 将所述认知图以及 所述区域图像特 征输入至人类注意力模块中以得到人类认知机制指导的注意力特 征; 步骤五、 将所述人类认知机制 指导的注意力特征以及所述机器注意力特征输入至特征 融合模块进行融合以得到融合图像特 征; 步骤六、 将所述融合图像特 征输入至解码器中以得到最终图像描述; 在步骤二中, 将所述 区域图像特征输入至机器注意力模块以得到机器注意力特征的方 法包括如下步骤: 将当前时刻输入的词向量xt、 第二长短期记忆人工神 经网络的前一时刻输出 以及 图像全局特征 输入至机器注意力模块中, 经第一长短期记忆人工神经网络得到第一长短 期记忆人工神经网络的当前时刻输出 其中所述当前时刻输入的词向量xt表示对所述待 描述图像进行描述时输出的句子中的单词; 其中, 第一长短期记 忆人工神经网络的当前时刻输出 表示为: 根据所述第一长短期记忆人工神经网络的当前时刻输出 以及所述区域图像特征V计 算得到特征权重αt, 通过所述特征权重αt对所述区域图像特征V 进行特征加权以得到第一机 器注意力特 征 其中, 第一机器注意力特 征 表示为: 其中, Wa、 Wh以及Wv均为可学习参数, LSTM1表示第一长短期记忆人工神经网络, T表示转 置操作, softmax( ·)表示归一 化操作, 表示元素级的加法运 算; 在所述步骤四中, 将所述待描述图像输入至视觉认知模型中以得到认知图, 将所述认 知图以及所述区域图像特征输入至人类注意力模块中 以得到人类认知机制指导的注意力权 利 要 求 书 1/4 页 2 CN 114693790 B 2特征的方法包括如下步骤: 将待描述图像I输入至视觉认知模型中以得到认知图Is, 其中Is∈RIW×IH, IW为输入图像 的宽, IH为输入图像的高; 根据所述目标边界框的位置信息, 在 认知图Is提取出各目标边界框对应的区域认知图, 并将第i个图像区域的认知图记为 IRi; 对第i个图像区域的认知图IRi中的像素按 值从大到小进行排序, 统计 前J%的像素点对 应的集合并记为Ti, 计算Ti的均值作为区域重要性评分: 其中, Si表示第i个图像的区域重要性评分, Ti, j表示Ti集合中的第j个元素, |Ti|表示Ti 中元素的总数; 根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的 注意力特 征; 其中, 区域重要性评分S表示为S=[s1, s2, ..., sk], 区域图像特征V表示为V=[v1, v2, ..., vi, ..., vk]; 对区域图像特 征进行加权计算的公式表示 为: c=softmax(ws*S) 第二人类认知机制指导的注意力特 征 表示为: 其中, vi表示任一区域图像特征, ws为常量, c为归一化后的人类注意力机制的权重向 量, [s1, s2, ..., sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的 集合, [v1, v2, ..., vi, ..., vk]表示多个区域图像特 征的集合, k为区域图像特 征的数量 值。 2.根据权利要求1所述的基于混合注意力 机制的自动图像描述方法, 其特征在于, 在所 述步骤一中, 利用视觉基因数据集所预先训练的目标检测 算法, 提取所述待描述图像中所 述目标边界框内的区域图像特 征, 以及所述目标边界框在所述待 描述图像中的位置信息; 所述区域图像特 征为k个2048维的向量, 其中k 为区域图像特 征的数量 值。 3.根据权利要求1所述的基于混合注意力 机制的自动图像描述方法, 其特征在于, 在所 述步骤三中, 根据所述认知数据构建人类进 行图像描述任务时的视觉认知 模型的方法包括 如下步骤: 获取图像描述 生成任务下的人类注视数据集; 将收集到的人类注视数据集经过高斯模糊处理后, 用于构建人类进行图像描述任务 时 的视觉认知模型; 其中, 在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的 视觉认知模型。 4.根据权利要求1所述的基于混合注意力 机制的自动图像描述方法, 其特征在于, 在所权 利 要 求 书 2/4 页 3 CN 114693790 B 3

.PDF文档 专利 基于混合注意力机制的自动图像描述方法与系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于混合注意力机制的自动图像描述方法与系统 第 1 页 专利 基于混合注意力机制的自动图像描述方法与系统 第 2 页 专利 基于混合注意力机制的自动图像描述方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:38:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。