说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210781581.1 (22)申请日 2022.07.05 (65)同一申请的已公布的文献号 申请公布号 CN 114860995 A (43)申请公布日 2022.08.05 (73)专利权人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 刘家辰 肖欣延 李伟 佘俏俏  吴甜 吕雅娟  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/783(2019.01)G06F 16/35(2019.01) G06F 40/258(2020.01) G06F 40/30(2020.01) H04N 21/81(2011.01) 审查员 吴莎莎 (54)发明名称 视频脚本生成方法、 装置、 电子设备及 介质 (57)摘要 本公开提供了一种视频脚本生成方法、 装 置、 电子设备及介质, 涉及计算机视觉、 自然语言 处理、 深度学习等人工智 能技术领域, 尤其涉及 人机交互、 智能创作等场景。 实现方案为: 响应于 确定至少一个原始文本, 从至少一个原始文本中 提取多个文本单元, 其中, 每个文本单元中的文 本内容均具有连贯的语义; 基于多个文本单元之 间的逻辑 关系, 确定视频脚本的结构框架, 其中, 结构框架包括具有时序关系的多个结构单元, 每 个结构单元对应于至少一个文本单元; 以及基于 结构框架, 生成视频脚本 。 权利要求书4页 说明书13页 附图4页 CN 114860995 B 2022.09.06 CN 114860995 B 1.一种视频脚本生成方法, 其特 征在于, 所述方法包括: 响应于确定至少一个原始文本, 从所述至少一个原始文本 中提取多个文本单元, 其中, 每个文本单元中的文本内容均具有连贯的语义, 并且每个文本单元作为最小的可执行单元 执行后续的视频脚本的生成过程; 通过执行下述操作, 确定所述多个文本单 元之间的逻辑关系: 针对所述多个文本单元中来自同一原始文本的至少两个文本单元, 基于所述至少两个 文本单元中的每一者在该原始文本中所对应的章节, 确定所述至少两个文本单元之 间的逻 辑关系; 或 基于所述多个文本单元中的每一者所对应的语用类型, 确定所述多个文本单元之间的 逻辑关系, 所述语用类型 是相应的文本单 元的标签; 响应于确定所述多个文本单元之间的逻辑关系能够匹配至少两种结构框架, 根据 预设 的视频时长, 从所述至少两种结构框架中选择所述视频脚本的结构 框架, 其中, 所述结构 框 架包括具有时序关系的多个结构单 元, 每个结构单 元对应于 至少一个文本单 元; 以及 基于所述结构框架, 生成所述视频脚本 。 2.根据权利要求1所述的方法, 其特征在于, 所述结构框架包括以下至少一种结构类 型: 平行结构; 分层结构; 或 递进结构。 3.根据权利要求1或2所述的方法, 其特征在于, 所述基于所述结构框架, 生成所述视频 脚本包括: 针对所述结构框架中的每个结构单元, 从该结构单元所对应的至少一个文本单元的文 本内容中提取 该结构单元所对应的摘要信息; 以及 基于所述结构框架中的每 个结构单 元所对应的摘要信息, 生成所述视频脚本 。 4.根据权利要求1或2所述的方法, 其特征在于, 所述视频脚本包括转场信息, 并且其 中, 所述基于所述结构框架, 生成所述视频脚本包括: 针对所述结构框架中在时序 上相邻的任意两个结构单元, 在该两个结构单元之间插入 转场信息 。 5.根据权利要求1或2所述的方法, 其特征在于, 所述视频脚本包括数字人信息, 并且其 中, 所述基于所述结构框架, 生成所述视频脚本包括: 针对所述结构框架中的任意一个结构单元, 基于该结构单元所对应的至少一个文本单 元中的文本内容, 确定该 结构单元所对应的数字人信息 。 6.根据权利要求5所述的方法, 其特 征在于, 所述数字人信息包括以下至少一种: 数字人的台词; 数字人的动作; 数字人的姿态; 或 数字人的表情。 7.根据权利要求1或2所述的方法, 其特征在于, 所述视频脚本包括视频标题, 并且其 中, 所述基于所述结构框架, 生成所述视频脚本包括:权 利 要 求 书 1/4 页 2 CN 114860995 B 2将所述结构框架中每个结构单元所对应的至少一个文本单元输入标题提取模型, 以得 到所述视频 标题。 8.根据权利要求1或2所述的方法, 其特征在于, 所述视频脚本包括插入性信息, 并且其 中, 所述基于所述结构框架, 生成所述视频脚本包括: 识别所述结构框架中至少一个插 入点; 以及 确定所述至少一个插入点中的每一者所对应的插入性信息, 其中, 所述插入性信息来 自至少一个具有高关注度的历史视频脚本 。 9.根据权利要求8所述的方法, 其特 征在于, 所述插 入性信息包括以下至少一种类型: 插入语信息; 或 特效信息 。 10.根据权利要求1或2所述的方法, 其特征在于, 所述视频脚本包括非文本元素, 并且 其中, 所述基于所述结构框架, 生成所述视频脚本包括: 针对所述结构框架中的任意一个结构单元, 基于该结构单元所对应的至少一个文本单 元中的文本内容, 确定该 结构单元所对应的非文本元 素。 11.根据权利要求10所述的方法, 其特征在于, 所述非文本元素包括图像、 音频或视频 中的至少一种。 12.根据权利要求1或2所述的方法, 其特征在于, 所述至少一个原始文本为基于视频主 题而搜索得到的。 13.根据权利要求1或2所述的方法, 其特征在于, 所述从所述至少一个原始文本 中提取 多个文本单 元包括: 识别所述至少一个原 始文本中的冗余内容; 以及 从所述至少一个原始文本 中除所述冗余内容之外的文本 内容中, 提取所述多个文本单 元。 14.根据权利要求1或2所述的方法, 其特 征在于, 还 包括: 响应于确定将所述视频脚本设定为目标语言风格, 确定与所述目标语言风格相对应的 转换模型, 其中, 所述 转换模型能够将输入的文本转换为所述目标语言风格的文本; 以及 将所述视频脚本 输入所述 转换模型, 以得到更新后的视频脚本 。 15.根据权利要求14所述的方法, 其特 征在于, 还 包括: 针对更新后的视频脚本 中的任意一个更新句, 响应于该更新句在更新前的视频脚本中 所对应的原 始句的语义与所述更新句的语义 不一致, 将该更新句还原为所述原 始句。 16.一种视频脚本生成装置, 其特 征在于, 所述装置包括: 提取模块, 被配置用于响应于确定至少一个原始文本, 从所述至少一个原始文本中提 取多个文本单元, 其中, 每个文本单元中的文本内容均具有连贯的语义, 并且每个文本单元 作为最小的可 执行单元执行后续的视频脚本的生成过程; 第一确定模块, 被配置用于通过执行下述操作, 确定所述多个文本单元之间的逻辑关 系: 针对所述多个文本单元中来自同一原始文本的至少 两个文本单元, 基于所述至少 两个 文本单元中的每一者在该原始文本中所对应的章节, 确定所述至少两个文本单元之 间的逻 辑关系; 或基于所述多个文本单元中的每一者所对应的语用类型, 确定所述多个文本单元 之间的逻辑关系, 所述语用类型是相应的文本单元 的标签; 响应于确定所述多个文本单元权 利 要 求 书 2/4 页 3 CN 114860995 B 3

.PDF文档 专利 视频脚本生成方法、装置、电子设备及介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频脚本生成方法、装置、电子设备及介质 第 1 页 专利 视频脚本生成方法、装置、电子设备及介质 第 2 页 专利 视频脚本生成方法、装置、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。