专利基于融合特征的图像标题生成方法、系统、电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210665448.X (22)申请日 2022.06.14 (71)申请人辽宁工业大学地址 121001 辽宁省锦州市古塔区士英街 169号 (72)发明人梅红岩　耿耀港　李文潇　李凯　李雨恬　 (74)专利代理机构北京鸿元知识产权代理有限公司 11327 专利代理师袁文婷　张娓娓 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/258(2020.01) (54)发明名称基于融合特征的图像标题生成方法、系统、电子设备 (57)摘要本发明提供一种基于融合特征的图像标题生成方法，通过SE通道特征提取模块获取目标图像的通道级特征；通过节点嵌入区域特征提取模块获取目标图像的区域级特征；通过特征融合模块基于注意力机制对通道级特征与区域级特征进行融合以获取融合特征；通过LSTM解码器对融合特征进行解码以在LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对目标单词进行组句子处理以形成与目标图像相对应的图像标题，使用模型创新地融合图像和文本间的特征,使得提取到的图像特征具有类似视觉注意力的特性,有效缩减训练的时间，改善注意力权重的可解释性，统一视觉图像和语言理解间的跨模块特征。权利要求书3页说明书12页附图4页 CN 115019142 A 2022.09.06 CN 115019142 A 1.一种基于融合特征的图像标题生成方法，其特征在于，包括：搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征；通过所述LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题。 2.如权利要求1所述的基于融合特征的图像标题生成方法，其特征在于，所述搭建并训练图神经网络以形成融合特征目标标题生成模型，包括：通过网络检索获取MSCOCO数据集；将所述MSCOCO数据集输入预搭建的图神经网络中进行反复训练，直至所述图神经网络的输出信息的损失函数小于预设的训练阈值，并将最后一次训练的图神经网络作为融合特征目标标题生成模型；其中，所述图神经网络遵循编码器 ‑解码器结构。 3.如权利要求2所述的基于融合特征的图像标题生成方法，其特征在于，通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征，包括：将所述SE通道特征提取模块嵌入在预设的ResNet ‑101神经网络中；所述SE通道特征提取模块嵌入在ResNet ‑101神经网络的残差运算中进行SE操作；并且，将最后一次SE操作形成的SE操作特征作为通道级特征。 4.如权利要求3所述的基于融合特征的图像标题生成方法，其特征在于，所述SE操作包括：对所述目标图像进行图像转换处理形成多维张量数据；根据所述多维张量数据确定所述目标图像的特征图；对所述特征图进行压缩操作以获取所述特征图的标量，基于所述标量计算所述目标图像的全局特征；其中，所述压缩操作为：对所述特征图中的元素进行逐行逐列累加，并除以元素总数以获取所述标量；使用Sigmo id函数对所述全局特征进行激活处理以获取通道级特征注意力权重；将所述全局特征中每个通道的特征与和各个通道相对应的通道级特征注意力权重相乘以获取各个通道的SE操作特征。 5.如权利要求4所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述融合特征编码器中的节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征，包括：通过目标检测技术检测所述目标图像，以获取所述目标图像的区域视觉特征、对象信权　利　要　求　书 1/3 页 2 CN 115019142 A 2息、对象属性信息、对象间关系信息，及锚框位置；根据所述对象信息、对象属性信息、对象间关系信息建立关于松鼠目标图像的有向图结构，并将所述有向图结构的节点编码为X， X＝{x1，···， x|V|}；其中， xi为所述有向图结构的各个节点对应的区域视觉特征， |V|为所述有向图结构的节点个数；基于所述节点编码对所述有向结构中的各个节点进行类型嵌入以获取与所述对象信息相对应的对象类型信息；使用GCN网络对所述有向图结构的各个节点进行信息提取操作，以将所述节点的邻接节点的邻接信息汇聚在各个节点中，并将各个节点的原始信息与所述临界信息相加输入至预设的ReLU激活函数中以获取节点特征，以及，将所述GCN网络最后一层输出的节点特征作为所述目标图像的区域级特征。 6.如权利要求5所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行融合以获取融合特征，包括：通过所述特征融合模块基于注意力机制对所述通道级特征与所述区域级特征进行向量拼接操作以获取拼接向量： F＝concat(Fc,Fr) 其中， F为拼接向量， Fc为通道级特征， Fr为区域级特征；基于预设的参数对所述拼接向量进行注意力权重的计算以获取注意力权重；对所述拼接向量与所述注意力权重进行乘融合操作以获取融合特征。 7.如权利要求5所述的基于融合特征的图像标题生成方法，其特征在于，所述通过所述 LSTM解码器对所述融合特征进行解码以在所述LSTM解码器的字典中选择目标单词，并按照预设的语句生成规则对所述目标单词进行组句子处理以形成与所述目标图像相对应的图像标题，包括：通过所述LSTM解码器将所述融合特征初始化为LSTM的细胞状态和隐藏层状态，并根据所述细胞状态和所述隐藏状态进行线性变换，以获取与所述隐藏状态对应的维度数据；将所述维度数据输入至所述LSTM解码器的Softmax层，以生成与所述LSTM解码器中的字典相对应的词汇可能性，并选取所述词汇可能性最大的词汇作为目标单词；按照预设的语句生成规则对所获取的所有的目标单词根据汉语语法进行排序以形成与所述目标图像相对应的图像标题。 8.一种基于融合特征的图像标题生成系统，实现如权利要求1 ‑7任一所述的基于融合特征的图像标题生成方法，包括；模型训练单元，用于搭建并训练图神经网络以形成融合特征目标标题生成模型；其中，所述融合特征目标标题生成模型包括融合特征编码器和双层LSTM解码器；其中，所述融合特征编码器中至少包括SE通道特征提取模块、节点嵌入区域特征提取模块和特征融合模块；通道特征提取单元，用于通过所述SE通道特征提取模块基于残差操作对预采集的目标图像进行通道特征提取以获取所述目标图像的通道级特征；区域特征提取单元，用于通过所述节点嵌入区域特征提取模块基于目标检测技术对所述目标图像进行区域特征提取以获取所述目标图像的区域级特征；权　利　要　求　书 2/3 页 3 CN 115019142 A 3

专利 基于融合特征的图像标题生成方法、系统、电子设备

专利基于融合特征的图像标题生成方法、系统、电子设备