说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210554099.4 (22)申请日 2022.05.19 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 唐鑫 王冠皓  (74)专利代理 机构 北京鸿德 海业知识产权代理 有限公司 1 1412 专利代理师 田宏宾 (51)Int.Cl. G06F 16/40(2019.01) G06F 40/30(2020.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 多媒体数据处理方法、 装置、 电子设备及可 读存储介质 (57)摘要 本公开提供了一种多媒体数据处理方法、 装 置、 电子设备及可读存储介质, 涉及数据处理技 术领域和图像处理技术领域, 尤其涉及深度学 习、 语音技术等人工智 能技术领域。 具体实现方 案为: 获取待处理的多媒体数据的至少两个模态 数据; 所述至少两个模态数据包括文本模态数 据、 音频模态数据和图像模态数据中的至少两 个; 对所述至少两个模态数据进行切分处理, 以 获得所述至少两个模态数据的数据片段; 对所述 至少两个模态数据的数据片段进行融合处理, 以 获得所述多媒体数据的至少两 个多媒体片段。 权利要求书2页 说明书10页 附图2页 CN 115080770 A 2022.09.20 CN 115080770 A 1.一种多媒体数据处 理方法, 包括: 获取待处理的多媒体数据的至少两个模态数据; 所述至少两个模态数据包括文本模态 数据、 音频模态数据和图像模态数据中的至少两个; 对所述至少两个模态数据进行切分处 理, 以获得 所述至少两个模态数据的数据片段; 对所述至少两个模态数据的数据片段进行融合处理, 以获得所述多媒体数据的至少两 个多媒体片段。 2.根据权利要求1所述的方法, 其中, 所述对所述至少两个模态数据进行切分处理, 以 获得所述至少两个模态数据的数据片段, 包括: 根据所述至少两个模态数据, 分别确定特定特征对象在所述至少两个模态数据中出现 的位置; 根据所述位置, 对所述至少两个模态数据进行切分处理, 以获得所述至少两个模态数 据中各模态数据的至少两个数据片段。 3.根据权利要求2所述的方法, 其中, 所述根据所述至少两个模态数据, 分别确定特定 特征对象在所述至少两个模态数据中出现的位置, 包括: 针对文本模态数据, 识别特定文本类型的文本信息, 以作为所述特定特 征对象; 确定所述特定特 征对象在所获取的文本模态数据中出现的位置 。 4.根据权利要求3所述的方法, 其中, 所述对所述至少两个模态数据进行切分处理, 以 获得所述至少两个模态数据的数据片段, 还 包括: 基于所述文本模态数据的至少两个数据片段的语义特征, 将所述文本模态数据的至少 两个数据片段中语义相似的数据片段进行合并处 理。 5.根据权利要求2所述的方法, 其中, 所述根据所述至少两个模态数据, 分别确定特定 特征对象在所述至少两个模态数据中出现的位置, 包括: 针对音频模态数据, 识别声纹特 征, 以作为所述特定特 征对象; 确定所述特定特 征对象在所获取的音频模态数据中出现的位置 。 6.根据权利要求2所述的方法, 其中, 所述根据所述至少两个模态数据, 分别确定特定 特征对象在所述至少两个模态数据中出现的位置, 包括: 针对图像模态数据, 识别 镜头切换信 息、 场景信息和人脸信 息中的至少一个, 以作为所 述特定特 征对象; 确定所述特定特 征对象在所获取的图像模态数据中出现的位置 。 7.根据权利要求6所述的方法, 其中, 所述对所述至少两个模态数据进行切分处理, 以 获得所述至少两个模态数据的数据片段, 还 包括: 基于所述图像模态数据的至少两个数据片段的语义特征, 对所述图像模态数据的至少 两个数据片段中语义相似的数据片段进行合并处 理。 8.根据权利要求2 ‑7中任一项所述的方法, 其中, 所述根据所述位置, 对所述至少两个 模态数据进行切分处理, 以获得所述至少两个模态数据中各模态数据的至少两个数据片段 之后, 还包括: 利用不同模态数据的至少两个数据片段, 对所述各模态数据的至少两个数据片段进行 校准处理, 以调整所述各模态数据的至少两个数据片段。 9.一种多媒体数据处 理装置, 包括:权 利 要 求 书 1/2 页 2 CN 115080770 A 2获取单元, 用于获取待处理的多媒体数据的至少两个模态数据; 所述至少两个模态数 据包括文本模态数据、 音频模态数据和图像模态数据中的至少两个; 分段单元, 用于对所述至少两个模态数据进行切分处理, 以获得所述至少两个模态数 据的数据片段; 融合单元, 用于对所述至少两个模态数据的数据片段进行融合处理, 以获得所述多媒 体数据的至少两个多媒体片段。 10.根据权利要求9所述的装置, 其中, 所述分段 单元, 具体用于 根据所述至少两个模态数据, 分别确定特定特征对象在所述至少两个模态数据中出现 的位置; 以及 根据所述位置, 对所述至少两个模态数据进行切分处理, 以获得所述至少两个模态数 据中各模态数据的至少两个数据片段。 11.根据权利要求10所述的装置, 其中, 所述分段 单元, 具体用于 针对文本模态数据, 识别特定文本类型的文本信息, 以作为所述特定特 征对象; 以及 确定所述特定特 征对象在所获取的文本模态数据中出现的位置 。 12.根据权利要求1 1所述的装置, 其中, 所述分段 单元, 还用于 基于所述文本模态数据的至少两个数据片段的语义特征, 将所述文本模态数据的至少 两个数据片段中语义相似的数据片段进行合并处 理。 13.根据权利要求10所述的装置, 其中, 所述分段 单元, 具体用于 针对音频模态数据, 识别声纹特 征, 以作为所述特定特 征对象; 以及 确定所述特定特 征对象在所获取的音频模态数据中出现的位置 。 14.根据权利要求10所述的装置, 其中, 所述分段 单元, 具体用于 针对图像模态数据, 识别 镜头切换信 息、 场景信息和人脸信 息中的至少一个, 以作为所 述特定特 征对象; 以及 确定所述特定特 征对象在所获取的图像模态数据中出现的位置 。 15.根据权利要求14所述的装置, 其中, 所述分段 单元, 还用于 基于所述图像模态数据的至少两个数据片段的语义特征, 对所述图像模态数据的至少 两个数据片段中语义相似的数据片段进行合并处 理。 16.根据权利要求10 ‑15中任一项所述的装置, 其中, 所述分段 单元, 还用于 利用不同模态数据的至少两个数据片段, 对所述各模态数据的至少两个数据片段进行 校准处理, 以调整所述各模态数据的至少两个数据片段。 17.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行根据权利要求1 ‑8中任一项所述的方法。 18.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑8中任一项所述的方法。 19.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115080770 A 3

.PDF文档 专利 多媒体数据处理方法、装置、电子设备及可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多媒体数据处理方法、装置、电子设备及可读存储介质 第 1 页 专利 多媒体数据处理方法、装置、电子设备及可读存储介质 第 2 页 专利 多媒体数据处理方法、装置、电子设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。