专利一种基于AI算法的媒体文件多模检索方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210604891.6 (22)申请日 2022.05.30 (71)申请人新华智云科技有限公司地址 310012 浙江省杭州市西湖区文一西路460号文娱中心43 0室 (72)发明人甘江威　方露露　杨丛聿　 (74)专利代理机构杭州裕阳联合专利代理有限公司 33289 专利代理师杨琪宇 (51)Int.Cl. G06F 16/41(2019.01) G06F 16/483(2019.01) G06F 16/487(2019.01) G06F 16/36(2019.01) G06F 16/953(2019.01) (54)发明名称一种基于AI算法的媒体文件多模检索方法和系统 (57)摘要本发明公开了一种基于AI算法的媒体文件多模检索方法和系统，所述方法包括：对音视频信息采用现有对应AI算法获取音视频中的文本信息；获取文本信息中的基础数据，根据所述基础数据构建一级标签；根据所述一级标签构建一阶索引，并将所述一阶索引存储于关系型数据库中；通过所述AI算法获取每一音视频的meta信息和内容信息，构建二级标签；根据所述二级标签构建二阶索引，通过查询所述二阶索引对所述音视频进行查询定位。所述方法和系统利用ES搜索引擎进行搜索加速，并采用二阶索引+二阶搜索的方式对搜索命中的记录进行精确定位和详细解析，从而可以大幅提高搜索命中准确率。权利要求书1页说明书5页附图3页 CN 115017339 A 2022.09.06 CN 115017339 A 1.一种基于AI 算法的媒体文件多模检索方法，其特征在于，所述方法包括：对音视频信息采用现有对应AI 算法获取音视频中的标签信息；获取音视频信息中的基础数据和mate信息，根据所述基础数据和mate信息构建一级标签；根据所述一级标签构建一阶索引，并将所述一阶索引存储于非关系型数据库中；通过所述AI算法识别每一音视频内容信息，并提取所述标签信息构建二级标签；根据所述二级标签构建二阶索引，通过查询所述二阶索引对所述音视频进行查询定位。 2.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述方法包括通过AI算法获取包括音视频数据中的标签ID，并获取文件自身的文件ID，并将所述文件ID和标签ID构建联合索引，并将所述文件ID和标签ID构建联合索引以及标签ID作为唯一索引存储于非关系型数据库中。 3.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述方法还包括：将通过所述A I算法获取的标签信息后，根据标签信息的类型进行分区，获取每一分区标签的文件ID和标签ID作为对应分区的联合索引。 4.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述一阶索引包括文件的基础信息和文件meta信息，所述二阶索引包括音视频内容信息，其中所述音视频内容信息包括：机构、地点、人物和场景，将所述基础信息中的文件ID和标签ID 和对应的文件内容信息组装成结构化索引。 5.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述方法包括：通过关键词查找并命中一阶索引中的文件ID和标签ID，并根据所述文件ID和标签ID获取二阶索引中的内容信息，并根据所述内容信息对文件进行全量索引查询，获取最终查询到的文件。 6.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述一阶索引的构建方法包括：利用ASR算法和OCR算法识别对应音视频信息中的文本信息，并对识别的文本信息中的基础数据和meta数据进行分词处理，得到用于构建一阶索引的关键词标签信息。 7.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，所述一阶索引构建方法包括：利用NLP和视频标签构建知识图谱，并将所述知识图谱作为一阶索引结构，去除一阶段索引中的时间信息。 8.根据权利要求1所述的一种基于AI算法的媒体文件多模检索方法，其特征在于，根据所述标签类型进行分区的方法包括：根据不同的文件类型生成对应的分区关键词，所述分区关键词将对应文档中识别的基础信息、 meta信息和内容信息进行分区存储。 9.一种基于AI算法的媒体文件多模检索系统，其特征在于，所述系统执行权利要求1 ‑8 中任意一项所述的一种基于AI 算法的媒体文件多模检索方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行权利要求1 ‑8中任意一项所述一种AI算法的媒体文件多模检索方法。权　利　要　求　书 1/1 页 2 CN 115017339 A 2一种基于AI算法的媒体文件多模检索方法和系统技术领域 [0001]本发明涉及媒体文件检索方法和系统，特别涉及一种基于AI算法的媒体文件多模检索方法和系统背景技术 [0002]现有检索方法和系统通常采用基于ES搜索引擎，只能够对于文本(一般理解是标题，说明等文字性内容；网页也是文字性内容)支持模糊搜索，关键词搜索，按时间、相关度等排序能力，其中上述检索方法和系统存在的技术问题包括： 1、只能对简单的文字信息搜索；但对于现在的图片(照片)，视频媒体为主的社交，娱乐平台，却无法对图片，视频等媒资内容进行搜索； 2、目前的平台的搜索能力，也无法提供对于长时间视频、长时间音频的片段命中详情。发明内容 [0003]本发明其中一个发明目的在于提供一种基于AI算法的媒体文件多模检索方法和系统，所述方法和系统以现有的A I算法为基础，对媒体音视频文件进行多维度分析，并使用异构数据库对全维度信息进行持久化，从而可以提高对媒体文件的检索维度和能力。 [0004]本发明另一个发明目的在于提供一种基于AI算法的媒体文件多模检索方法和系统，所述方法和系统利用ES 搜索引擎进行搜索加速，并采用二阶索引+二阶搜索的方式对搜索命中的记录进行精确定位和详细解析，从而可以大幅提高搜索命中准确率。 [0005]本发明另一个发明目的在于提供一种基于AI算法的媒体文件多模检索方法和系统，所述方法和系统利用二阶索引的方式，利用现有A I算法构建视频不同片段的标签组，或构建图片的标签组，通过二阶索引将可以准确定位到视频的具体片段和图片位置。 [0006]为了实现至少一个上述发明目的，本发明进一步提供一种基于AI算法的媒体文件多模检索方法，所述方法包括： [0007]对音视频信息采用现有对应AI 算法获取音视频中的标签信息； [0008]获取音视频信息中的基础数据和mat e信息，根据所述基础数据和mat e信息构建一级标签； [0009]根据所述一级标签构建一阶索引，并将所述一阶索引存储于非关系型数据库中； [0010]通过所述AI算法识别每一音视频内容信息，并提取所述标签信息构建二级标签； [0011]根据所述二级标签构建二阶索引，通过查询所述二阶索引对所述音视频进行查询定位。 [0012]根据本发明其中一个较佳实施例，所述方法包括通过AI算法获取包括音视频数据中的文件ID和标签ID，并将所述文件ID和标签ID构建联合索引，并将所述文件ID和标签ID 构建联合索引以及标签ID作为唯一索引存储于非关系型数据库中。 [0013]根据本发明另一个较佳实施例，所述方法还包括：将通过所述AI算法获取的标签后，根据标签的类型进行分区，获取每一分区标签的文件ID和标签ID作为对应分区的联合说　明　书 1/5 页 3 CN 115017339 A 3

专利 一种基于AI算法的媒体文件多模检索方法和系统

专利一种基于AI算法的媒体文件多模检索方法和系统