专利数据处理方法、智能终端及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210556456.0 (22)申请日 2022.05.17 (71)申请人深圳传音控股股份有限公司地址 518000 广东省深圳市南山区粤海街道深南大道9789 号德赛科技大厦标识层17层（自然层15层） 1702-170 3号 (72)发明人党香福　黄河　 (74)专利代理机构深圳市嘉勤知识产权代理有限公司 4 4651 专利代理师辛鸿飞 (51)Int.Cl. H04N 21/439(2011.01) H04N 21/4402(2011.01) H04N 21/43(2011.01) H04N 21/488(2011.01)H04N 5/278(2006.01) G10L 15/26(2006.01) G10L 15/18(2013.01) G10L 15/00(2013.01) G06F 40/30(2020.01) G06F 40/58(2020.01) (54)发明名称数据处理方法、智能终端及存储介质 (57)摘要本申请提出了一种数据处理方法、智能终端及存储介质。该方法包括：从目标数据中提取音频数据，对音频数据进行识别和/或翻译，确定或生成文本信息，对目标数据以及文本信息进行同步播放。通过本申请的技术方案可以在智能终端播放视频时自动对音频数据进行提取识别，生成字幕与视频同步播放，提升了字幕显示的准确性以及效率。权利要求书1页说明书14页附图11页 CN 115278351 A 2022.11.01 CN 115278351 A 1.一种数据处理方法，其特征在于，包括： S11：从目标数据中提取音频数据； S12：对所述音频数据进行识别和/或翻译，确定或生成文本信息； S13：对所述目标数据以及所述文本信息进行同步播放。 2.根据权利要求1所述的方法，其特征在于，所述S1 1包括：识别或确定所述目标数据中的音频流；将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据，所述第一音频数据为目标音频数据。 3.根据权利要求2所述的方法，其特征在于，所述将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据，包括：根据预设频率范围和/或音频特征信息，将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据。 4.根据权利要求1至 3中任一项所述的方法，其特征在于，所述S12包括：提取所述音频数据中的声纹信息，识别或确定所述声纹信息对应的目标语种；在所述目标语种对应的预设区域中对所述声纹信息进行匹配，确定或生成文本信息；和/或，所述S12之后，还包括：对所述文本信息进行语义分析，根据分析结果对所述文本信息进行调整。 5.根据权利要求1至 3中任一项所述的方法，其特征在于，所述S13包括：提取所述音频数据的时间轴；识别或确定所述文本信息的显示参数；根据所述时间轴和所述显示参数对所述目标数据以及所述文本信息进行同步播放。 6.根据权利要求5所述的方法，其特征在于，所述识别或确定所述文本信息的显示参数，包括：识别或确定所述目标数据的场景信息；根据所述场景信息设置所述文本信息的显示参数。 7.根据权利要求1至 3中任一项所述的方法，其特征在于，所述S1 1之后，还包括：确定或生成所述音频数据中的预设声音；根据所述预设声音对所述音频数据进行降噪处理。 8.根据权利要求1至 3中任一项所述的方法，其特征在于，所述S12包括：识别或确定所述音频数据对应的第一语种；在所述第一语种对应的数据库中对所述音频数据进行匹配，确定或生成初始文本信息；根据第二语种对所述第一文本信息进行翻译，确定或生成目标文本信息。 9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器，其中，所述存储器上存储有数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。权　利　要　求　书 1/1 页 2 CN 115278351 A 2数据处理方法、智能终端及存储介质技术领域 [0001]本申请涉及智能终端技术领域，具体涉及一种数据处理方法、智能终端及存储介质。背景技术 [0002]随着互联网技术的不断发展，音视频以其便捷的访问体验、多样化的影片来源以及实时的更新速度吸引了广大的用户，使得音视频成为了用户生活中不可或缺的重要组成部分。字幕的出现，使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容，越来越多的用户习惯了添加字幕的音视频文件。 [0003]目前，智能终端可以通过服务器端对音频文件进行识别，然后生成对应的文字字幕，但是申请人发现在通过服务器进行识别时，为了控制网络流量常常会压缩音频采样率，导致转换效果差，并且在线处理在网络环境较差的条件下，存在延时的问题，导致字幕的显示不准确并且效率低，用户体验差。 [0004]前面的叙述在于提供一般的背景信息，并不一定构成现有技术。发明内容 [0005]针对上述技术问题，本申请提供一种数据处理方法、智能终端及存储介质，可以提取音频并实时生成字幕，提升了字幕显示的准确性以及效率。 [0006]为解决上述技术问题，本申请提供一种数据处理方法，可选地，应用于智能终端，包括以下步骤： [0007]S11：从目标数据中提取音频数据； [0008]S12：对所述音频数据进行识别和/或翻译，确定或生成文本信息； [0009]S13：对所述目标数据以及所述文本信息进行同步播放。 [0010]可选地，所述S1 1包括： [0011]识别或确定所述目标数据中的音频流； [0012]将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据，所述第一音频数据为目标音频数据。 [0013]可选地，所述将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据，包括： [0014]根据预设频率范围和/或音频特征信息，将所述音频流划分为第一音频数据、第二音频数据以及第三音频数据。 [0015]可选地， [0016]所述S12包括： [0017]提取所述音频数据中的声纹信息，识别或确定所述声纹信息对应的目标语种； [0018]在所述目标语种对应的预设区域中对所述声纹信息进行匹配，确定或生成文本信息；和/或，说　明　书 1/14 页 3 CN 115278351 A 3

专利 数据处理方法、智能终端及存储介质

专利数据处理方法、智能终端及存储介质