说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210665448.X (22)申请日 2022.06.14 (71)申请人 辽宁工业大学 地址 121001 辽宁省锦州市古塔区士英街 169号 (72)发明人 梅红岩 耿耀港 李文潇 李凯  李雨恬  (74)专利代理 机构 北京鸿元知识产权代理有限 公司 11327 专利代理师 袁文婷 张娓娓 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/258(2020.01) (54)发明名称 基于融合特征的图像标题生成方法、 系统、 电子设备 (57)摘要 本发明提供一种基于融合特征的图像标题 生成方法, 通过SE通道特征提取模块获取目标图 像的通道级特征; 通过节点 嵌入区域特征提取模 块获取目标图像的区域级特征; 通过特征融合模 块基于注意力机制对通道级特征与区域级特征 进行融合以获取融合特征; 通过LSTM解码器对融 合特征进行解码以在LSTM解码器的字典中选择 目标单词, 并按照预设的语句生成规则对目标单 词进行组句子处理以形成与 目标图像相对应的 图像标题, 使用模型创新地融合图像和文本间的 特征,使得提取到的图像特征具有类似视觉注意 力的特性,有效缩减训练的时间, 改善注意力权 重的可解释性, 统一视觉图像和语 言理解间的跨 模块特征。 权利要求书3页 说明书12页 附图4页 CN 115019142 A 2022.09.06 CN 115019142 A 1.一种基于融合特 征的图像标题生成方法, 其特 征在于, 包括: 搭建并训练图神经网络以形成融合特征目标标题生成模型; 其中, 所述融合特征目标 标题生成模型包括融合特征编码器和双层LSTM解码器; 其中, 所述融合特征编码器中至少 包括SE通道特 征提取模块、 节点嵌入区域特 征提取模块和特 征融合模块; 通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取 以获取所述目标图像的通道级 特征; 通过所述节 点嵌入区域特征提取模块基于目标检测技 术对所述目标图像进行区域特 征提取以获取 所述目标图像的区域级特 征; 通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融 合以获取融合特 征; 通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目 标单词, 并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图 像相对应的图像标题。 2.如权利要求1所述的基于 融合特征的图像标题生成方法, 其特征在于, 所述搭建并训 练图神经网络以形成融合特 征目标标题生成模型, 包括: 通过网络检索获取MSCOCO数据集; 将所述MSCOCO数据集输入预搭建的图神经网络中进行反复训练, 直至所述图神经网络 的输出信息的损失函数小于预设的训练阈值, 并将最后一次训练的图神经网络作为融合特 征目标标题生成模型; 其中, 所述图神经网络遵循编码器 ‑解码器结构。 3.如权利要求2所述的基于融合特征的图像标题生成方法, 其特征在于, 通过所述SE通 道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图 像的通道级特 征, 包括: 将所述SE通道特 征提取模块嵌入在预设的ResNet ‑101神经网络中; 所述SE通道特征提取模块嵌入在ResNet ‑101神经网络的残差运算中进行SE操作; 并 且, 将最后一次SE操作形成的SE操作特 征作为通道级特 征。 4.如权利要求3所述的基于融合特征的图像标题生成方法, 其特征在于, 所述SE操作包 括: 对所述目标图像进行图像转换处 理形成多维张量数据; 根据所述多维张量数据确定所述目标图像的特 征图; 对所述特征图进行压缩操作以获取所述特征图的标量, 基于所述标量计算所述目标图 像的全局特征; 其中, 所述压缩操作为: 对所述特征图中的元素进行逐行逐列累加, 并除以 元素总数以获取 所述标量; 使用Sigmo id函数对所述全局特 征进行激活 处理以获取通道级特 征注意力权 重; 将所述全局特征中每个通道的特征与和各个通道相对应的通道级特征注意力权重相 乘以获取 各个通道的SE操作特 征。 5.如权利要求4所述的基于 融合特征的图像标题生成方法, 其特征在于, 所述通过所述 融合特征编码器中的节点嵌入区域特征提取模块基于目标检测 技术对所述目标图像进行 区域特征提取以获取 所述目标图像的区域级特 征, 包括: 通过目标检测技术检测所述目标图像, 以获取所述目标图像的区域视觉特征、 对象信权 利 要 求 书 1/3 页 2 CN 115019142 A 2息、 对象属性信息、 对象间关系信息, 及锚框位置; 根据所述对象信息、 对象属性信息、 对象间关系信息建立关于松鼠目标图像的有向图 结构, 并将所述有向图结构的节点编码为X, X={x1,···, x|V|}; 其中, xi为所述有向图结 构的各个节点对应的区域视 觉特征, |V|为所述有向图结构的节点个数; 基于所述节点编码对所述有向结构中的各个节点进行类型嵌入以获取与所述对象信 息相对应的对象类型信息; 使用GCN网络对所述有向图结构的各个节点进行信息提取操作, 以将所述节点的邻接 节点的邻接信息汇聚在各个节点中, 并将各个节 点的原始信息与所述临界信息相加输入至 预设的ReLU激活函数中以获取节 点特征, 以及, 将所述GCN网络最后一层输出的节 点特征作 为所述目标图像的区域级特 征。 6.如权利要求5所述的基于 融合特征的图像标题生成方法, 其特征在于, 所述通过所述 特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合 特征, 包括: 通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行向 量拼接操作以获取拼接向量: F=concat(Fc,Fr) 其中, F为 拼接向量, Fc为通道级特 征, Fr为区域级特 征; 基于预设的参数对所述 拼接向量进行注意力权 重的计算以获取注意力权 重; 对所述拼接向量与所述注意力权 重进行乘融合操作以获取融合特 征。 7.如权利要求5所述的基于 融合特征的图像标题生成方法, 其特征在于, 所述通过所述 LSTM解码器对 所述融合特征进 行解码以在所述LSTM解码 器的字典 中选择目标单词, 并按照 预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图 像标题, 包括: 通过所述LSTM解码器将所述融合特征初始化为LSTM的细胞状态和隐藏层状态, 并根据 所述细胞状态和所述隐藏状态进行线性变换, 以获取与所述隐藏状态对应的维度数据; 将所述维度数据输入至所述LSTM解码器 的Softmax层, 以生成与所述LSTM解码器中的 字典相对应的词汇可能性, 并选取 所述词汇可能性 最大的词汇作为目标 单词; 按照预设的语句生成规则对所获取的所有的目标单词根据汉语语法进行排序以形成 与所述目标图像相对应的图像标题。 8.一种基于融合特征的图像标题生成系统, 实现如权利要求1 ‑7任一所述的基于融合 特征的图像标题生成方法, 包括; 模型训练单元, 用于搭建并训练图神经网络以形成融合特征目标标题生成模型; 其中, 所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器; 其中, 所述融合 特征编码器中至少包括SE通道特征提取模块、 节点嵌入区域特征提取模块和特征融合模 块; 通道特征提取单元, 用于通过所述SE通道特征提取模块基于残差操作对预采集的目标 图像进行通道特 征提取以获取 所述目标图像的通道级特 征; 区域特征提取单元, 用于通过所述节点嵌入区域特征提取模块基于目标检测技术对所 述目标图像进行区域特 征提取以获取 所述目标图像的区域级特 征;权 利 要 求 书 2/3 页 3 CN 115019142 A 3

.PDF文档 专利 基于融合特征的图像标题生成方法、系统、电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于融合特征的图像标题生成方法、系统、电子设备 第 1 页 专利 基于融合特征的图像标题生成方法、系统、电子设备 第 2 页 专利 基于融合特征的图像标题生成方法、系统、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。