专利生成数字人的方法、模型的训练方法、装置、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210681368.3 (22)申请日 2022.06.15 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人吴甜　李彦宏　肖欣延　刘昊　刘家辰　佘俏俏　吕雅娟　 (74)专利代理机构北京市汉坤律师事务所 11602 专利代理师姜浩然　吴丽丽 (51)Int.Cl. G06T 13/40(2011.01) G06T 13/20(2011.01) G06F 16/953(2019.01) G06F 40/30(2020.01)G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称生成数字人的方法、模型的训练方法、装置、设备和介质 (57)摘要本公开提供了一种生成数字人的方法、模型的训练方法、装置、设备和介质，涉及人工智能领域，具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等技术领域，可应用于元宇宙等场景。实现方案为：获取素材内容；基于预训练的场景划分模型，从素材内容中确定多个场景，其中，多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段；以及对于多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容；基于对应的目标内容，确定该场景的场景标签信息；以及基于场景标签信息，配置特定于该场景的数字人。权利要求书5页说明书17页附图8页 CN 115082602 A 2022.09.20 CN 115082602 A 1.一种生成数字人的方法，所述方法包括：获取素材内容；基于预训练的场景划分模型，从所述素材内容中确定多个场景，其中，所述多个场景中的每个场景分别对应于所述素材内容中的一个具有完整语义信息的内容片段；以及对于所述多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容；基于所述对应的目标内容，确定该场景的场景标签信息；以及基于所述场景标签信息，配置特定于该场景的数字人。 2.根据权利要求1所述的方法，其中，获取素材内容包括：基于下列方式中的至少一者，获取所述素材内容：基于网页地址，获取所述素材内容；或基于搜索关键词，获得所述素材内容。 3.根据权利要求1或2所述的方法，其中，所述素材内容包括图像数据和视频数据中的至少一者以及文本数据。 4.根据权利要求1至3 中任一项所述的方法，其中，基于预训练的场景划分模型，从所述素材内容中确定多个场景，包括：通过对所述素材内容进行篇章结构分析和篇章语义分割，从所述素材内容中确定多个子主题，并且确定所述多个子主题之间的结构关系；以及基于所述结构关系，将所述多个子主题划分为所述多个场景。 5.根据权利要求4所述的方法，其中，对于所述多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容，包括：基于该场景与前一场景之间的结构关系，生成用于该场景的第一内容。 6.根据权利要求4或5所述的方法，其中，对于所述多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容，包括：基于预训练的风格转换模型，将所述对应的内容片段转换为所述对应的目标内容，其中，所述风格转换模型是基于提示学习训练得到的。 7.根据权利要求6所述的方法，其中，对于所述多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容，还包括以下中的至少一项：对所述对应的内容片段执行文本改写和文本压缩中的至少一种处理，以更新所述对应的内容片段；以及对所述经转换的目标内容执行文本改写和文本压缩中的至少一种处理，以更新所述对应的目标内容。 8.根据权利要求1至7中任一项所述的方法，其中，所述场景标签信息包括语义标签，其中，对于所述多个场景中的每个场景，基于所述对应的目标内容，确定该场景的场景标签信息，包括：对所述对应的目标内容进行情感分析，以获得所述语义标签。 9.根据权利要求8所述的方法，其中，所述语义标签用于标识所述对应的目标内容所表达的情感包括：积极、中性或消极。 10.根据权利要求8或9所述的方法，其中，对于所述多个场景中的每个场景，基于所述权　利　要　求　书 1/5 页 2 CN 115082602 A 2标签信息，配置特定于该场景的数字人，包括：基于所述语义标签，配置所述数字人的服饰、表情和动作中的至少一者。 11.根据权利要求10所述的方法，还包括：将所述目标内容转换成语音，用于所述数字人播报。 12.根据权利要求11所述的方法，其中，对于所述多个场景中的每个场景，基于所述场景标签信息，配置特定于该场景的数字人，还包括：基于所述语义标签，配置所述数字人语音的语气。 13.根据权利要求1至12中任一项所述的方法，还包括：以全息图像的形式呈现所述数字人。 14.根据权利要求1至12中任一项所述的方法，还包括：以视频的形式呈现所述数字人。 15.根据权利要求14所述的方法，还包括：对于所述多个场景中的每个场景，基于所述素材内容和该场景对应的目标内容，检索与该场景相关的视频素材；以及将所述视频素材和所述数字人相结合。 16.根据权利要求15所述的方法，其中，对于所述多个场景中的每个场景，基于所述素材内容和该场景对应的目标内容，检索与该场景相关的视频素材，包括：提取场景关键词；以及基于所述场景关键词，检索与该场景相关的视频素材。 17.根据权利要求15或16所述的方法，其中，对于所述多个场景中的每个场景，基于所述素材内容和该场景对应的目标内容，检索与该场景相关的视频素材，包括：提取句子级关键词；以及基于所述句子级关键词，检索与该场景相关的视频素材。 18.根据权利要求17 所述的方法，还包括：基于所述句子级关键词，将检索到的视频素材和所述目标内容对齐。 19.根据权利要求15 至18中任一项所述的方法，还包括：响应于确定所述视频素材中包括特定素材，基于所述特定素材在所述视频素材中的显示位置，确定所述数字人的动作。 20.根据权利要求14至19中任一项所述的方法，还包括：对于所述多个场景中的每个场景，从该场景对应的目标内容中提取键 ‑值形式的信息；以及基于所述键 ‑值形式的信息，生成用于所述视频的辅助素材。 21.根据权利要求15 至20中任一项所述的方法，还包括：确定所述视频素材相对应的场景所需的播放时长的占比；以及基于所述占比，确定是否在相应场景中触发所述数字人。 22.一种场景划分模型的训练方法，包括：获取样本素材内容和所述样本素材内容中的多个样本场景；基于预设场景划分模型，从所述样本素材内容中确定多个预测场景；以及基于所述多个样本场景和所述多个预测场景调整所述预设场景划分模型的参数，以得权　利　要　求　书 2/5 页 3 CN 115082602 A 3

专利 生成数字人的方法、模型的训练方法、装置、设备和介质

专利生成数字人的方法、模型的训练方法、装置、设备和介质