专利视频脚本生成方法、装置、电子设备及介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210781581.1 (22)申请日 2022.07.05 (65)同一申请的已公布的文献号申请公布号 CN 114860995 A (43)申请公布日 2022.08.05 (73)专利权人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人刘家辰　肖欣延　李伟　佘俏俏　吴甜　吕雅娟　 (74)专利代理机构北京市汉坤律师事务所 11602 专利代理师姜浩然　吴丽丽 (51)Int.Cl. G06F 16/783(2019.01)G06F 16/35(2019.01) G06F 40/258(2020.01) G06F 40/30(2020.01) H04N 21/81(2011.01) 审查员吴莎莎 (54)发明名称视频脚本生成方法、装置、电子设备及介质 (57)摘要本公开提供了一种视频脚本生成方法、装置、电子设备及介质，涉及计算机视觉、自然语言处理、深度学习等人工智能技术领域，尤其涉及人机交互、智能创作等场景。实现方案为：响应于确定至少一个原始文本，从至少一个原始文本中提取多个文本单元，其中，每个文本单元中的文本内容均具有连贯的语义；基于多个文本单元之间的逻辑关系，确定视频脚本的结构框架，其中，结构框架包括具有时序关系的多个结构单元，每个结构单元对应于至少一个文本单元；以及基于结构框架，生成视频脚本。权利要求书4页说明书13页附图4页 CN 114860995 B 2022.09.06 CN 114860995 B 1.一种视频脚本生成方法，其特征在于，所述方法包括：响应于确定至少一个原始文本，从所述至少一个原始文本中提取多个文本单元，其中，每个文本单元中的文本内容均具有连贯的语义，并且每个文本单元作为最小的可执行单元执行后续的视频脚本的生成过程；通过执行下述操作，确定所述多个文本单元之间的逻辑关系：针对所述多个文本单元中来自同一原始文本的至少两个文本单元，基于所述至少两个文本单元中的每一者在该原始文本中所对应的章节，确定所述至少两个文本单元之间的逻辑关系；或基于所述多个文本单元中的每一者所对应的语用类型，确定所述多个文本单元之间的逻辑关系，所述语用类型是相应的文本单元的标签；响应于确定所述多个文本单元之间的逻辑关系能够匹配至少两种结构框架，根据预设的视频时长，从所述至少两种结构框架中选择所述视频脚本的结构框架，其中，所述结构框架包括具有时序关系的多个结构单元，每个结构单元对应于至少一个文本单元；以及基于所述结构框架，生成所述视频脚本。 2.根据权利要求1所述的方法，其特征在于，所述结构框架包括以下至少一种结构类型：平行结构；分层结构；或递进结构。 3.根据权利要求1或2所述的方法，其特征在于，所述基于所述结构框架，生成所述视频脚本包括：针对所述结构框架中的每个结构单元，从该结构单元所对应的至少一个文本单元的文本内容中提取该结构单元所对应的摘要信息；以及基于所述结构框架中的每个结构单元所对应的摘要信息，生成所述视频脚本。 4.根据权利要求1或2所述的方法，其特征在于，所述视频脚本包括转场信息，并且其中，所述基于所述结构框架，生成所述视频脚本包括：针对所述结构框架中在时序上相邻的任意两个结构单元，在该两个结构单元之间插入转场信息。 5.根据权利要求1或2所述的方法，其特征在于，所述视频脚本包括数字人信息，并且其中，所述基于所述结构框架，生成所述视频脚本包括：针对所述结构框架中的任意一个结构单元，基于该结构单元所对应的至少一个文本单元中的文本内容，确定该结构单元所对应的数字人信息。 6.根据权利要求5所述的方法，其特征在于，所述数字人信息包括以下至少一种：数字人的台词；数字人的动作；数字人的姿态；或数字人的表情。 7.根据权利要求1或2所述的方法，其特征在于，所述视频脚本包括视频标题，并且其中，所述基于所述结构框架，生成所述视频脚本包括：权　利　要　求　书 1/4 页 2 CN 114860995 B 2将所述结构框架中每个结构单元所对应的至少一个文本单元输入标题提取模型，以得到所述视频标题。 8.根据权利要求1或2所述的方法，其特征在于，所述视频脚本包括插入性信息，并且其中，所述基于所述结构框架，生成所述视频脚本包括：识别所述结构框架中至少一个插入点；以及确定所述至少一个插入点中的每一者所对应的插入性信息，其中，所述插入性信息来自至少一个具有高关注度的历史视频脚本。 9.根据权利要求8所述的方法，其特征在于，所述插入性信息包括以下至少一种类型：插入语信息；或特效信息。 10.根据权利要求1或2所述的方法，其特征在于，所述视频脚本包括非文本元素，并且其中，所述基于所述结构框架，生成所述视频脚本包括：针对所述结构框架中的任意一个结构单元，基于该结构单元所对应的至少一个文本单元中的文本内容，确定该结构单元所对应的非文本元素。 11.根据权利要求10所述的方法，其特征在于，所述非文本元素包括图像、音频或视频中的至少一种。 12.根据权利要求1或2所述的方法，其特征在于，所述至少一个原始文本为基于视频主题而搜索得到的。 13.根据权利要求1或2所述的方法，其特征在于，所述从所述至少一个原始文本中提取多个文本单元包括：识别所述至少一个原始文本中的冗余内容；以及从所述至少一个原始文本中除所述冗余内容之外的文本内容中，提取所述多个文本单元。 14.根据权利要求1或2所述的方法，其特征在于，还包括：响应于确定将所述视频脚本设定为目标语言风格，确定与所述目标语言风格相对应的转换模型，其中，所述转换模型能够将输入的文本转换为所述目标语言风格的文本；以及将所述视频脚本输入所述转换模型，以得到更新后的视频脚本。 15.根据权利要求14所述的方法，其特征在于，还包括：针对更新后的视频脚本中的任意一个更新句，响应于该更新句在更新前的视频脚本中所对应的原始句的语义与所述更新句的语义不一致，将该更新句还原为所述原始句。 16.一种视频脚本生成装置，其特征在于，所述装置包括：提取模块，被配置用于响应于确定至少一个原始文本，从所述至少一个原始文本中提取多个文本单元，其中，每个文本单元中的文本内容均具有连贯的语义，并且每个文本单元作为最小的可执行单元执行后续的视频脚本的生成过程；第一确定模块，被配置用于通过执行下述操作，确定所述多个文本单元之间的逻辑关系：针对所述多个文本单元中来自同一原始文本的至少两个文本单元，基于所述至少两个文本单元中的每一者在该原始文本中所对应的章节，确定所述至少两个文本单元之间的逻辑关系；或基于所述多个文本单元中的每一者所对应的语用类型，确定所述多个文本单元之间的逻辑关系，所述语用类型是相应的文本单元的标签；响应于确定所述多个文本单元权　利　要　求　书 2/4 页 3 CN 114860995 B 3

专利 视频脚本生成方法、装置、电子设备及介质

专利视频脚本生成方法、装置、电子设备及介质