专利多媒体数据处理方法、装置、电子设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210554099.4 (22)申请日 2022.05.19 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人唐鑫　王冠皓　 (74)专利代理机构北京鸿德海业知识产权代理有限公司 1 1412 专利代理师田宏宾 (51)Int.Cl. G06F 16/40(2019.01) G06F 40/30(2020.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称多媒体数据处理方法、装置、电子设备及可读存储介质 (57)摘要本公开提供了一种多媒体数据处理方法、装置、电子设备及可读存储介质，涉及数据处理技术领域和图像处理技术领域，尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为：获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。权利要求书2页说明书10页附图2页 CN 115080770 A 2022.09.20 CN 115080770 A 1.一种多媒体数据处理方法，包括：获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。 2.根据权利要求1所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，包括：根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置；根据所述位置，对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据中各模态数据的至少两个数据片段。 3.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对文本模态数据，识别特定文本类型的文本信息，以作为所述特定特征对象；确定所述特定特征对象在所获取的文本模态数据中出现的位置。 4.根据权利要求3所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，还包括：基于所述文本模态数据的至少两个数据片段的语义特征，将所述文本模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。 5.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对音频模态数据，识别声纹特征，以作为所述特定特征对象；确定所述特定特征对象在所获取的音频模态数据中出现的位置。 6.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对图像模态数据，识别镜头切换信息、场景信息和人脸信息中的至少一个，以作为所述特定特征对象；确定所述特定特征对象在所获取的图像模态数据中出现的位置。 7.根据权利要求6所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，还包括：基于所述图像模态数据的至少两个数据片段的语义特征，对所述图像模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。 8.根据权利要求2 ‑7中任一项所述的方法，其中，所述根据所述位置，对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据中各模态数据的至少两个数据片段之后，还包括：利用不同模态数据的至少两个数据片段，对所述各模态数据的至少两个数据片段进行校准处理，以调整所述各模态数据的至少两个数据片段。 9.一种多媒体数据处理装置，包括：权　利　要　求　书 1/2 页 2 CN 115080770 A 2获取单元，用于获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；分段单元，用于对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；融合单元，用于对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。 10.根据权利要求9所述的装置，其中，所述分段单元，具体用于根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置；以及根据所述位置，对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据中各模态数据的至少两个数据片段。 11.根据权利要求10所述的装置，其中，所述分段单元，具体用于针对文本模态数据，识别特定文本类型的文本信息，以作为所述特定特征对象；以及确定所述特定特征对象在所获取的文本模态数据中出现的位置。 12.根据权利要求1 1所述的装置，其中，所述分段单元，还用于基于所述文本模态数据的至少两个数据片段的语义特征，将所述文本模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。 13.根据权利要求10所述的装置，其中，所述分段单元，具体用于针对音频模态数据，识别声纹特征，以作为所述特定特征对象；以及确定所述特定特征对象在所获取的音频模态数据中出现的位置。 14.根据权利要求10所述的装置，其中，所述分段单元，具体用于针对图像模态数据，识别镜头切换信息、场景信息和人脸信息中的至少一个，以作为所述特定特征对象；以及确定所述特定特征对象在所获取的图像模态数据中出现的位置。 15.根据权利要求14所述的装置，其中，所述分段单元，还用于基于所述图像模态数据的至少两个数据片段的语义特征，对所述图像模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。 16.根据权利要求10 ‑15中任一项所述的装置，其中，所述分段单元，还用于利用不同模态数据的至少两个数据片段，对所述各模态数据的至少两个数据片段进行校准处理，以调整所述各模态数据的至少两个数据片段。 17.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1 ‑8中任一项所述的方法。 18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑8中任一项所述的方法。 19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1 ‑8中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115080770 A 3

专利 多媒体数据处理方法、装置、电子设备及可读存储介质

专利多媒体数据处理方法、装置、电子设备及可读存储介质