专利一种结构化知识增强的图文匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210895904.X (22)申请日 2022.07.27 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人康昭　高辉　郑旭　赵晓翠　刘鸿飞　李濛　 (74)专利代理机构成都希盛知识产权代理有限公司 512 26 专利代理师陈泽斌 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种结构化知识增强的图文匹配方法 (57)摘要本发明涉及跨模态图文匹配技术，其公开了一种结构化知识增强的图文匹配方法，通过挖掘知识之间的结构关系信息，充分利用知识辅助匹配，从而提高图文匹配的效果。该方法在图像区域知识特征中加入空间信息，通过融合后的特征捕获图像区域之间关系，并构建区域知识结构图。通过图卷积神经网络训练出包含结构化信息的区域知识特征，并将这些区域特征融合成图像的结构化知识特征。最终使用图文的结构化知识特征进行相似度计算，完成结构化知识增强的图文匹配。权利要求书4页说明书10页附图1页 CN 115374289 A 2022.11.22 CN 115374289 A 1.一种结构化知识增强的图文匹配方法，其特征在于，包括以下步骤： A、训练图文匹配模型： A1、构建图文训练数据集，所述图文训练数据集包括多个训练数据组，每个训练数据组包括一个正样本和两个负样本，所述正样本由正确的图文对构成，所述两个负样本中的其中一个负样本为由正样本中的图像与随机选择的错误文本构成的错误图文对，另一个负样本为由正样本中的文本与随机选择的错误图像构成的错误图文对； A2、从由所有正样本的文本构成的图像字幕库中，提取高频词语作为知识概念，并统计知识概念的共现次数，根据知识概念的共现次数构建共现知识图，然后基于共现知识图获取知识概念特征； A3、对训练数据组中的正样本及其对应的负样本进行特征提取，针对每一个样本，包括如下步骤： A31、对输入的图文对进行特征提取，获得图像各区域的特征和对应文本各区域的特征； A32、基于步骤A31获得的图像的各区域特征，以及步骤A2 获得的知识概念特征，提取图像的区域视觉知识特征；将各图像区域的区域视觉知识特征与其对应的区域空间特征进行融合，得到各图像区域的区域知识特征；根据图像的区域知识特征之间的关系构建图像知识结构图，然后根据图像知识结构图和区域视觉知识特征，提取结构化的图像知识特征；基于步骤A31获得的文本的各区域特征，以及步骤A2获得的知识概念特征，提取文本知识特征； A33、计算图像知识特征与文本知识特征之间的余弦相似度，分别获得正样本的余弦相似度、对应的负样本的余弦相似度； A4、根据获得的正样本的余弦相似度及其对应的负样本的余弦相似度进行损失函数的计算，然后按梯度下降法进行步骤A 2‑A3的迭代训练，生成图文匹配模型； B、基于图文匹配模型进行图文匹配：输入图像和待检索文本，通过图文匹配模型计算输入的图像和所有待检索的文本之间的相似度，根据相似度确定匹配出的文本；或者，输入文本和待检索图像，通过图文匹配模型计算输入的文本和所有待检索的图像之间的相似度，根据相似度确定匹配出的图像。 2.如权利要求1所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A2中，从由所有正样本的文本构成的图像字幕库中，提取高频词语作为知识概念，并统计知识概念的共现次数，具体包括：统计图像字幕库中所有词语的出现次数，并根据词语的出现次数由高至低对词语进行排序，以覆盖词语总量预设比例的标准，从高到低选出q个词语作为知识概念；将知识概念中的任意两两词语组合成词语对，统计每一个词语对在图像字幕库中的共现次数。 3.如权利要求2所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A2中，根据知识概念的共现次数构建共现知识图，具体包括：以知识概念作为节点，以各知识概念之间的共现频率作为边，构建出共现知识图；所述共现频率为共现次数与图像字幕库的文本个数之比。权　利　要　求　书 1/4 页 2 CN 115374289 A 24.如权利要求2所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A2中，基于共现知识图获取知识概念特征，具体包括：使用Glove模型，将q个知识概念映射为初始的知识概念特征C＝{c1,c2,…,cq}，然后基于知识概念特征C以及共现知识图的邻接矩阵P，使用GRU网络计算得到最终的知识概念特征K＝{k1,k2,…,kq}。 5.如权利要求1所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A31中，对输入的图文对进行特征提取，获得图像各区域的特征和对应文本各区域的特征，具体包括：利用Faster R‑CNN模型提取出图文对中的图像的n个区域特征，获得图像的区域视觉特征提取出各图像区域的空间特征，获得图像的区域空间特征利用Bi‑GRU网络提取出图文对中的文本的m个区域特征，获得文本区域特征 6.如权利要求5所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A32中，基于步骤A31获得的图像的各区域特征，以及步骤A2 获得的知识特征，提取图像的区域视觉知识特征；将各图像区域的区域视觉知识特征与其对应的区域空间特征进行融合，得到各图像区域的区域知识特征，具体包括：首先，基于图像的区域视觉特征计算每个图像区域和所有知识概念特征的相似度，其计算公式如下：其中，表示第i个区域视觉特征与第m个知识概念特征km的相似度，表示第i个区域视觉特征， km表示第m个知识概念特征， T表示矩阵转置， WI为参数矩阵， β 为放大系数；然后，以相似度作为各区域视觉特征的各知识概念特征的权值，按如下公式进行加权求和，得到n个图像区域的区域视觉知识特征其中，表示第i个图像区域的区域视觉知识特征；最终，按如下公式，融合各图像区域的区域视觉知识特征及其区域空间特征，得到各图像区域包含空间位置信息的区域知识特征其中， fconcat表示拼接操作。 7.如权利要求6所述的一种结构化知识增强的图文匹配方法，其特征在于，步骤A32中，根据图像的区域知识特征之间的关系构建图像知识结构图，具体包括：首先，分别计算图像的每个区域知识特征与其他区域知识特征的相关性，得到相关性权　利　要　求　书 2/4 页 3 CN 115374289 A 3

专利 一种结构化知识增强的图文匹配方法

专利一种结构化知识增强的图文匹配方法