说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111636300.5 (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号 申请公布号 CN 114003758 A (43)申请公布日 2022.02.01 (73)专利权人 航天宏康智能科技 (北京) 有限公 司 地址 100048 北京市海淀区阜成路14 号 (72)发明人 经小川 杜婉茹 刘萱 王潇茵  孙鹏程 李瑞群  (74)专利代理 机构 北京铭硕知识产权代理有限 公司 11286 代理人 王学强 王兆赓 (51)Int.Cl. G06F 16/583(2019.01)G06F 16/58(2019.01) G06F 40/284(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06V 10/25(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 110825901 A,2020.02.21 CN 110599557 A,2019.12.20 CN 1091016 02 A,2018.12.28 CN 110111399 A,2019.08.09 CN 113283551 A,2021.08.20 CN 111753116 A,2020.10.09 US 2021089571 A1,2021.0 3.25 审查员 李萌 (54)发明名称 图像检索模型的训练方法和装置以及检索 方法和装置 (57)摘要 提供了一种图像检索模型的训练方法和装 置以及检索方法和装置。 所述训练方法包括: 获 取训练图像和用于描述训练图像的训练文本; 基 于训练图像通过图像信息特征提取过程获得图 像区域特征向量和图像全局特征向量; 基于训练 文本通过文本信息特征提取过程获得文本分词 特征向量和文本全局特征向量; 基于图像区域特 征向量、 图像全局特征向量、 文本分词特征向量 和文本全局特征向量, 通过图像检索模 型获得相 似度; 以相似度最大作为目标, 对图像检索模型 进行训练。 权利要求书6页 说明书15页 附图5页 CN 114003758 B 2022.03.08 CN 114003758 B 1.一种图像 检索模型的训练方法, 其特 征在于, 所述训练方法包括: 获取训练图像和用于描述所述训练图像的训练文本; 基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像 区域特征向量生成的图像全局特 征向量; 基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本 分词特征向量生成的文本全局特 征向量; 基于所述图像区域特征向量、 所述图像全局特征向量、 所述文本分词特征向量和所述 文本全局特 征向量, 通过图像 检索模型获得相似度; 以所述相似度最大作为目标, 对图像 检索模型进行训练, 其中, 通过图像 检索模型获得相似度的步骤 包括通过如下公式获得 所述相似度: 其中,  表示所述相似度, γ1和γ2分别为所述图像区域特征向量、 所述图像全局特征向量、 所述文本 分词特征向量和所述文本全局特征向量中的一个特征向 量 ,weights 为图像检索模型 , 被构造为 用于获取相似度向量的权重矩阵 , 为 的2‑范数运算,d表示特征向量的维度, 其中, 当γ1为图像区域特 征向量 ,γ2为文本分词特 征向量 时, 所述相似度通过 下式 获得: 其中, , , , 其中, 表示基于所述文本分词特征向量 生成的更新的图像区域特征向量, 表示注意力权 重, 表示所述图像区域特 征向量 与文本分词特 征向量 的余弦相似度。 2.根据权利要求1所述的方法, 其特 征在于, 所述图像信息特 征提取过程包括: 通过卷积网络组从所述训练图像中提取图像初始特 征图; 通过区域 候选网络对所述图像初始特 征图进行图像区域划分; 将所述图像区域划分的结果和所述图像初始特征图作为输入, 通过感兴趣区域池化网 络提取图像关键区域特 征图; 将所述图像关键区域特 征图送入 全连接层以获得 所述图像区域特 征向量; 并且 通过自注意力机制聚合所述图像区域特 征向量以获得 所述图像全局特 征向量。 3.根据权利要求2所述的方法, 其特 征在于, 所述图像区域特 征向量表示 为 其中,V为所述图像区域特征向量, v1,v2,…vm为图像关键区域特征 图的特征向量, m为 所述图像关键区域特 征图的个数,权 利 要 求 书 1/6 页 2 CN 114003758 B 2所述图像全局特 征向量表示 为 其中, 为所述图像全局特 征向量,αi为与特征向量 对应的权 重。 4.根据权利要求1所述的方法, 其特 征在于, 所述文本信息特 征提取过程包括: 通过分词将所述训练文本划分为 n个单词, 其中, n 为正整数; 使用词嵌入方法将所述 n个单词转 化为词向量; 通过双向门控循环单 元对所述词向量进行编码以获得 所述文本分词特 征向量; 并且 通过自注意力机制聚合所述文本分词特 征向量以获得 所述文本全局特 征向量。 5.根据权利要求 4所述的方法, 其特 征在于, 所述词向量表示 为 其中,W为词向量矩阵, w1,w2,…wn为词向量, dword表示词向量的维度, 所述通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量的 步骤包括: 通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词 的包含上下文关系的词 特征向量, 并由所述n个单词的所述词特征向量组成所述文本分词 特征向量, 所述文本分词特 征向量表示 为 其中,T为所述文本分词特 征向量,t1,t2,…tn为所述词特 征向量, 所述文本全局特 征向量表示 为 其中, 为所述文本全局特 征向量,βi为与所述词的特 征向量对应的权 重。 6.一种使用图像 检索模型的检索方法, 其特 征在于, 所述检索方法包括: 获取待检索数据, 所述待检索数据包括待检索图像和待检索文本中的至少一种; 基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少 一者获得待检索局域特 征向量和由所述待检索局域特 征向量生成的待检索全局特 征向量; 基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向 量生成的图像全局特征向量, 以及待检索局 域特征向量和所述待检索全局特征向量, 通过 图像检索模型获得相似度; 并且 按照所述相似度由大到小的规则排序生成检索结果的候选队列, 其中, 通过图像 检索模型获得相似度的步骤 包括通过如下公式获得 所述相似度: 其中,  表示所述相似度, γ1和γ2分别为所述图像区域特征向量、 所述图像全局特征向量、 所述待检索局域特征向量和所述待检索 全局特征向量中的一个特 征向量, weights 为图像检索模型, 被构造为用于获取相似度向量的权重矩阵,权 利 要 求 书 2/6 页 3 CN 114003758 B 3

.PDF文档 专利 图像检索模型的训练方法和装置以及检索方法和装置

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像检索模型的训练方法和装置以及检索方法和装置 第 1 页 专利 图像检索模型的训练方法和装置以及检索方法和装置 第 2 页 专利 图像检索模型的训练方法和装置以及检索方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。