说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111229288.6 (22)申请日 2021.10.21 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 欧中洪 田子敬 史明昊 罗中李 宋美娜 钟茂华 梁昊光 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 罗岚 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于预训练模型和召回排序的跨模态检索 系统及方法 (57)摘要 本发明提出一种基于预训练模型和召回排 序的跨模态检索系统及方法, 其中, 该系统包括: 多维度文本信息提取模块, 用于为所述跨模态检 索系统提供文本侧的信息支持, 通过不同维度扩 大文本信息的语义表示, 增加文本样本量; 智能 图像检索模块, 用于视频智能抽帧模块和以图搜 图模块, 其中, 视频智 能抽帧模块用于从一段视 频中抽取出最能代表视频内容的若干张图片, 以 图搜图模块用于完成大规模高效率的图片检索 任务; 跨模态检索模块, 用于根据查询项生成大 致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检索结果。 该系统用于降低信息 管理成本、 提升信息搜索精度和 效率, 支撑大型 赛事咨询和新闻搜索的多 模态自动化信息 检索。 权利要求书2页 说明书9页 附图7页 CN 114419387 A 2022.04.29 CN 114419387 A 1.一种基于预训练模型和召回排序的跨模态检索系统, 其特 征在于, 包括以下模块: 多维度文本信息提取模块, 用于为所述跨模态检索系统提供文本侧的信息支持, 通过 不同维度扩大文本信息的语义表示, 增 加文本样本量; 智能图像检索模块, 包括视频智能抽帧模块和以图搜图模块, 其中, 视频智能抽帧模块 用于从一段视频中抽取出最能代表视频内容的若干张图片, 以图搜图模块用于完成大规模 高效率的图片检索任务; 跨模态检索模块, 用于根据查询项生成大致相关地候选集, 对所述候选集进行精确排 序, 最终返回相关地检索结果。 2.根据权利要求1所述的系统, 其特 征在于, 所述多维度文本信息提取模块, 包括: 语音数据处 理模块, 用于音频提取和基于深度学习的语音识别; 自然语言文本扩展模块, 用于获取不同语序不同语种下对于当前语句地语义描述, 从 多方面对已有地文本数据进行扩展, 还用于根据细粒度地文本分析, 获取大量地负样本数 据。 3.根据权利要求1所述的系统, 其特征在于, 所述视频智能抽帧模块用于从一段视频中 抽取出最能代 表视频内容的若干张图片, 具体包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 4.根据权利要求1所述的系统, 其特征在于, 所述以图搜图模块用于完成大规模高效率 的图片检索任务, 具体包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 5.根据权利要求1所述的系统, 其特 征在于, 所述 跨模态检索模块, 包括: 粗略召回模块, 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模 型, 进行快速的粗略召回; 精确排序模块, 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子 模型, 进行精确排序。 6.一种基于预训练模型和召回排序的跨模态检索方法, 其特 征在于, 包括以下步骤: 提取文本信息, 通过不同维度扩大文本信息的语义表示, 增 加文本样本量; 提取图像信息, 从一段视频中抽取出最能代表视频内容的若干张图片, 从数据库中检 索出相同或相似图片; 根据查询项生成大致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检 索结果。 7.根据权利要求6所述的方法, 其特 征在于, 所述 提取文本信息, 包括: 音频提取和基于深度学习的语音识别; 获取不同语序不同语种下对于当前语句地语义描述, 从多方面对已有地文本数据进行 扩展, 还用于根据细粒度地文本分析, 获取 大量地负样本数据。权 利 要 求 书 1/2 页 2 CN 114419387 A 28.根据权利要求6所述的方法, 其特征在于, 所述从一段视频中抽取出最 能代表视频内 容的若干张图片, 包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 9.根据权利要求6所述的方法, 其特征在于, 所述从数据库中检索出相同或相似图片, 包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 10.根据权利要求6所述的方法, 所述根据查询项生成大致相关地候选集, 对所述候选 集进行精确排序, 包括: 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模型, 进行快速的 粗略召回; 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子模型, 进行精确 排序。权 利 要 求 书 2/2 页 3 CN 114419387 A 3
专利 基于预训练模型和召回排序的跨模态检索系统及方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 02:02:08
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 42549-2023 海洋调查船舶实验室安全管理规范.pdf
T-ACEF 065—2023 重金属污染土壤生态风险评估技术指南.pdf
OWASP Webgoat 中文手册 V2.2.pdf
T-CSTM 00838—2022 材料基因工程 材料数据标识 MID.pdf
DB52-T 1179-2017 磷矿开采磷石膏充填采矿技术规范 贵州省.pdf
GB-T 34653-2017 全断面隧道掘进机 单护盾岩石隧道掘进机.pdf
GB-T 37408-2019 光伏发电并网逆变器技术要求.pdf
T-CSAE 260—2022 智能网联汽车视觉感知计算芯片技术要求和测试方法.pdf
GA-T 1996-2022 警用天通卫星移动终端及应用设备技术要求和测试方法.pdf
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
信通院 安全托管运营服务(MSS)发展态势洞察报告.pdf
腾讯安全 浅谈勒索病毒场景下零信任技术应用.pdf
T-CVMA 41—2020 犬致病性钩端螺旋体荧光PCR检测方法.pdf
GB-T 38569-2020 工业微生物菌株质量评价 拉曼光谱法.pdf
GB-T 26471-2023 塔式起重机 安装、拆卸与爬升规则.pdf
SL-T 793-2020 河湖健康评估技术导则.pdf
GB-T 22309-2023 道路车辆 制动衬片 盘式制动块总成和鼓式制动蹄总成剪切强度试验方法.pdf
GB-T 20999-2017 交通信号控制机与上位机间的数据通信协议.pdf
T-CSCA 120028—2019 “上海品牌”评价认证依据: 公众物业管理服务认证要求.pdf
GB-T 37756-2019 产品水足迹评价和报告指南.pdf
1
/
3
19
评价文档
赞助1.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。