说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210895904.X (22)申请日 2022.07.27 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 康昭 高辉 郑旭 赵晓翠  刘鸿飞 李濛  (74)专利代理 机构 成都希盛知识产权代理有限 公司 512 26 专利代理师 陈泽斌 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结构化知识增强的图文匹配方法 (57)摘要 本发明涉及跨模态图文匹配技术, 其 公开了 一种结构化知识增强的 图文匹配方法, 通过挖掘 知识之间的结构关系信息, 充分利用知识辅助匹 配, 从而提高图文匹配的效果。 该方法在图像区 域知识特征中加入空间信息, 通过融合后的特征 捕获图像区域之间关系, 并构建区域知识结构 图。 通过图卷积神经网络训练出包含 结构化信息 的区域知识特征, 并将这些区域特征融合成图像 的结构化知识特征。 最终使用图文的结构化知识 特征进行相似度计算, 完成结构化知识增强的 图 文匹配。 权利要求书4页 说明书10页 附图1页 CN 115374289 A 2022.11.22 CN 115374289 A 1.一种结构化知识增强的图文匹配方法, 其特 征在于, 包括以下步骤: A、 训练图文匹配模型: A1、 构建图文训练数据集, 所述图文训练数据集包括多个训练数据组, 每个训练数据组 包括一个正样本和两个负样本, 所述正样本由正确的图文对构成, 所述两个负样本中的其 中一个负样本为由正样本中的图像与随机选择的错误文本构成的错误图文对, 另一个负样 本为由正样本中的文本与随机 选择的错 误图像构成的错 误图文对; A2、 从由所有正样本的文本构成的图像字幕库中, 提取高频词语作为知识概念, 并统计 知识概念的共现次数, 根据知识概念的共现次数构建共现知识图, 然后基于共现知识图获 取知识概念特 征; A3、 对训练数据组中的正样本及其对应的负样本进行特征提取, 针对每一个样本, 包括 如下步骤: A31、 对输入的图文对进行特征提取, 获得图像各区域的特征和对应文本各区域的特 征; A32、 基于步骤A31获得的图像的各 区域特征, 以及步骤A2 获得的知识概念特征, 提取图 像的区域视觉知识特征; 将各图像区域的区域视觉知识特征与其对应的区域空间特征进 行 融合, 得到各图像区域的区域知识特征; 根据图像的区域知识特征之间的关系构建图像知 识结构图, 然后根据图像知识结构图和区域视 觉知识特 征, 提取结构化的图像知识特 征; 基于步骤A31获得的文本的各区域特征, 以及步骤A2获得的知识概念特征, 提取文本知 识特征; A33、 计算图像知识特征与文本知识特征之间的余弦相似度, 分别获得正样本的余弦相 似度、 对应的负 样本的余弦相似度; A4、 根据获得的正样本的余弦相似度及其对应的负样本的余弦相似度进行损失函数的 计算, 然后按梯度下降法进行步骤A 2‑A3的迭代训练, 生成图文匹配模型; B、 基于图文匹配模型进行图文匹配: 输入图像和待检索文本, 通过图文 匹配模型计算输入的图像和所有待检索的文本之间 的相似度, 根据相似度确定匹配出的文本; 或者, 输入文本和待检索图像, 通过图文匹配模型计算输入的文本和所有待检索的图 像之间的相似度, 根据相似度确定匹配出的图像。 2.如权利要求1所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A2中, 从由所有正样本的文本构 成的图像字幕库中, 提取高频词语作为知识概念, 并统计知识概念的共现次数, 具体包括: 统计图像字幕库中所有词语的出现次数, 并根据词语的出现次数由高至低对词语进行 排序, 以覆盖词语总量预设比例的标准, 从高到低选出q个词语作为知识概念; 将知识概念中的任意两两词语组合成词语对, 统计每一个词语对在图像字幕库中的共 现次数。 3.如权利要求2所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A2中, 根据知识概念的共现次数构建共现知识图, 具体包括: 以知识概念作为节点, 以各知识概念之间的共现频率作为边, 构建出共现知识图; 所述 共现频率 为共现次数与图像字幕库的文本个数之比。权 利 要 求 书 1/4 页 2 CN 115374289 A 24.如权利要求2所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A2中, 基于共现知识图获取知识概念特 征, 具体包括: 使用Glove模型, 将q个知识概念映射为初始的知识概念特征C={c1,c2,…,cq}, 然后基 于知识概念特征C以及共现知识图的邻接矩阵P, 使用GRU网络计算得到最终的知识概念特 征K={k1,k2,…,kq}。 5.如权利要求1所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A31中, 对输入的图文对进行特征提取, 获得图像各区域的特征和对应文本各区域 的特征, 具体包括: 利用Faster R‑CNN模型提取出图文对中的图像的n个区域特征, 获得图像的区域视觉特 征 提取出各图像区域的空间特征, 获得图像的区域空间特征 利用Bi‑GRU网络提取出图文对中的文本的m个区域特征, 获得文本区域特征 6.如权利要求5所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A32中, 基于步骤A31获得的图像的各 区域特征, 以及步骤A2 获得的知识特征, 提取 图像的区域视觉知识特征; 将各图像区域的区域视觉知识特征与其对应的区域空间特征进 行融合, 得到各图像区域的区域知识特 征, 具体包括: 首先, 基于图像的区域视觉特征 计算每个图像区域和所有知识概 念特征的相似度, 其计算公式如下: 其中, 表示第i个区域视觉特征与第m个知识概念特征km的相似度, 表示第i个区域 视觉特征, km表示第m个知识概念特 征, T表示矩阵转置, WI为参数矩阵, β 为 放大系数; 然后, 以相似度作为各区域视觉特征的各知识概念特征的权值, 按如下公式进行加权 求和, 得到n个图像区域的区域视 觉知识特 征 其中, 表示第i个图像区域的区域视 觉知识特 征; 最终, 按如下公式, 融合各图像区域的区域视觉知识特征及其区域空间特征, 得到各图 像区域包 含空间位置信息的区域知识特 征 其中, fconcat表示拼接操作。 7.如权利要求6所述的一种结构化知识增强的图文匹配方法, 其特 征在于, 步骤A32中, 根据图像的区域知识特 征之间的关系构建图像知识结构图, 具体包括: 首先, 分别计算图像的每个区域知识特征与其他区域知识特征的相关性, 得到相关性权 利 要 求 书 2/4 页 3 CN 115374289 A 3

.PDF文档 专利 一种结构化知识增强的图文匹配方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结构化知识增强的图文匹配方法 第 1 页 专利 一种结构化知识增强的图文匹配方法 第 2 页 专利 一种结构化知识增强的图文匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。