说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210681368.3 (22)申请日 2022.06.15 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 吴甜 李彦宏 肖欣延 刘昊  刘家辰 佘俏俏 吕雅娟  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06T 13/40(2011.01) G06T 13/20(2011.01) G06F 16/953(2019.01) G06F 40/30(2020.01)G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 生成数字人的方法、 模 型的训练方法、 装置、 设备和介质 (57)摘要 本公开提供了一种生成数字人的方法、 模 型 的训练方法、 装置、 设备和介质, 涉及人工智能领 域, 具体涉及自然语言 处理、 深度学习、 计算机视 觉、 图像处理、 增强现实和虚拟现实等技术领域, 可应用于元宇宙等场景。 实现方案为: 获取素材 内容; 基于预训练的场景划分模型, 从素材内容 中确定多个场景, 其中, 多个场景中的每个场景 分别对应于素材内容中的一个具有完整语义信 息的内容片段; 以及对于多个场景中的每个场 景, 基于对应的内容片段, 确定该场景对应的目 标内容; 基于对应的目标内容, 确定该场景的场 景标签信息; 以及基于场景标签信息, 配置特定 于该场景的数字人。 权利要求书5页 说明书17页 附图8页 CN 115082602 A 2022.09.20 CN 115082602 A 1.一种生成数字人的方法, 所述方法包括: 获取素材内容; 基于预训练的场景划分模型, 从所述素材内容中确定多个场景, 其中, 所述多个场景中 的每个场景分别对应于所述素 材内容中的一个具有完整语义信息的内容片段; 以及 对于所述多个场景中的每 个场景, 基于对应的内容片段, 确定该场景对应的目标内容; 基于所述对应的目标内容, 确定该场景的场景 标签信息; 以及 基于所述场景 标签信息, 配置特定 于该场景的数字人。 2.根据权利要求1所述的方法, 其中, 获取 素材内容包括: 基于下列方式 中的至少一 者, 获取所述素材内容: 基于网页地址, 获取 所述素材内容; 或 基于搜索关键词, 获得 所述素材内容。 3.根据权利要求1或2所述的方法, 其中, 所述素材内容包括图像数据和视频数据中的 至少一者以及文本数据。 4.根据权利要求1至3 中任一项所述的方法, 其中, 基于预训练的场景划分模型, 从所述 素材内容中确定多个场景, 包括: 通过对所述素材内容进行篇章结构分析和篇章语义分割, 从所述素材内容中确定多个 子主题, 并且确定所述多个子主题之间的结构关系; 以及 基于所述结构关系, 将所述多个子主题划分为所述多个场景。 5.根据权利要求4所述的方法, 其中, 对于所述多个场景中的每个场景, 基于对应的内 容片段, 确定该场景对应的目标内容, 包括: 基于该场景与前一场景之间的结构关系, 生成用于该场景的第一内容。 6.根据权利要求4或5所述的方法, 其中, 对于所述多个场景中的每个场景, 基于对应的 内容片段, 确定该场景对应的目标内容, 包括: 基于预训练的风格转换模型, 将所述对应的内容片段转换为所述对应的目标内容, 其 中, 所述风格转换模型 是基于提 示学习训练得到的。 7.根据权利要求6所述的方法, 其中, 对于所述多个场景中的每个场景, 基于对应的内 容片段, 确定该场景对应的目标内容, 还 包括以下中的至少一项: 对所述对应的内容片段执行文本改写和文本压缩中的至少一种处理, 以更新所述对应 的内容片段; 以及 对所述经转换的目标内容执行文本改写和文本压缩中的至少一种处理, 以更新所述对 应的目标内容。 8.根据权利要求1至7中任一项所述的方法, 其中, 所述场景标签信 息包括语义标签, 其 中, 对于所述多个场景中的每个场景, 基于所述对应的目标内容, 确定该场景的场景标签信 息, 包括: 对所述对应的目标内容进行情感分析, 以获得 所述语义标签。 9.根据权利要求8所述的方法, 其中, 所述语义标签用于标识所述对应的目标内容所表 达的情感包括: 积极、 中性或消极。 10.根据权利要求8或9所述的方法, 其中, 对于所述多个场景中的每个场景, 基于所述权 利 要 求 书 1/5 页 2 CN 115082602 A 2标签信息, 配置特定 于该场景的数字人, 包括: 基于所述语义标签, 配置所述数字人的服饰、 表情和动作中的至少一 者。 11.根据权利要求10所述的方法, 还 包括: 将所述目标内容 转换成语音, 用于所述数字人播报。 12.根据权利要求11所述的方法, 其中, 对于所述多个场景中的每个场景, 基于所述场 景标签信息, 配置特定 于该场景的数字人, 还 包括: 基于所述语义标签, 配置所述数字人语音的语气。 13.根据权利要求1至12中任一项所述的方法, 还 包括: 以全息图像的形式呈现所述数字人。 14.根据权利要求1至12中任一项所述的方法, 还 包括: 以视频的形式呈现所述数字人。 15.根据权利要求14所述的方法, 还 包括: 对于所述多个场景中的每 个场景, 基于所述素 材内容和该场景对应的目标内容, 检索与该场景相关的视频 素材; 以及 将所述视频 素材和所述数字人相结合。 16.根据权利要求15所述的方法, 其中, 对于所述多个场景中的每个场景, 基于所述素 材内容和该场景对应的目标内容, 检索与该场景相关的视频 素材, 包括: 提取场景关键词; 以及 基于所述场景关键词, 检索与该场景相关的视频 素材。 17.根据权利要求15或16所述的方法, 其中, 对于所述多个场景中的每个场景, 基于所 述素材内容和该场景对应的目标内容, 检索与该场景相关的视频 素材, 包括: 提取句子级关键词; 以及 基于所述句子级关键词, 检索与该场景相关的视频 素材。 18.根据权利要求17 所述的方法, 还 包括: 基于所述句子级关键词, 将检索到的视频 素材和所述目标内容对齐。 19.根据权利要求15 至18中任一项所述的方法, 还 包括: 响应于确定所述视频素材中包括特定素材, 基于所述特定素材在所述视频素材中的显 示位置, 确定所述数字人的动作。 20.根据权利要求14至19中任一项所述的方法, 还 包括: 对于所述多个场景中的每 个场景, 从该场景对应的目标内容中提取键 ‑值形式的信息; 以及 基于所述键 ‑值形式的信息, 生成用于所述视频的辅助素 材。 21.根据权利要求15 至20中任一项所述的方法, 还 包括: 确定所述视频 素材相对应的场景 所需的播 放时长的占比; 以及 基于所述占比, 确定是否在相应场景中触发所述数字人。 22.一种场景划分模型的训练方法, 包括: 获取样本素 材内容和所述样本素 材内容中的多个样本场景; 基于预设场景划分模型, 从所述样本素 材内容中确定多个预测场景; 以及 基于所述多个样本场景和所述多个预测场景调 整所述预设场景划分模型的参数, 以得权 利 要 求 书 2/5 页 3 CN 115082602 A 3

.PDF文档 专利 生成数字人的方法、模型的训练方法、装置、设备和介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 生成数字人的方法、模型的训练方法、装置、设备和介质 第 1 页 专利 生成数字人的方法、模型的训练方法、装置、设备和介质 第 2 页 专利 生成数字人的方法、模型的训练方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。