说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211185775.1 (22)申请日 2022.09.27 (71)申请人 北京达佳互联信息技 术有限公司 地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人 黄星 郭益林 高远 申婷婷  宋丛礼 万鹏飞 卢海怡 杨林  徐智伟 张栋楠  (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 翟玉生 (51)Int.Cl. G06T 17/00(2006.01) G06V 10/80(2022.01) G06V 40/20(2022.01) (54)发明名称 动作生成方法及装置、 设备、 介质 (57)摘要 本公开提供一种动作生成方法及装置、 设 备、 介质, 该方法: 通过第一网络提取待处理图像 中目标对象的高层语义特征, 高层语义特征用于 表征待处理图像包含的抽象语义信息; 通过第二 网络对待处理图像和预先设置的目标动作信息 进行处理, 得到待处理图像中目标对象执行目标 动作的低层语义特征, 低层语义特征用于表征目 标对象执行目标动作时视觉可见的特征; 通过第 一网络对低层语义特征与高层语义特征进行融 合, 生成目标图像, 该目标图像表示目标对象执 行目标动作的图像。 该方法有效融合高层语义特 征和低层语义特征中的 图像语义信息, 在保证目 标动作质量的情况下提高图像生成 效率, 保证图 像生成过程的实时性。 权利要求书2页 说明书11页 附图2页 CN 115546402 A 2022.12.30 CN 115546402 A 1.一种动作生成方法, 其特 征在于, 所述方法包括: 通过第一网络提取待处理图像中目标对象的高层语义特征, 所述高层语义特征用于表 征所述待处 理图像包 含的抽象语义信息; 通过第二网络对所述待处理图像和预先设置的目标动作信 息进行处理, 得到所述待处 理图像中所述目标对象执行目标动作的低层语义特征; 所述低层语义特征用于表征所述目 标对象执 行目标动作时视 觉可见的特征; 通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合, 生成目标图 像, 所述目标图像表示所述目标对象执 行所述目标动作的图像。 2.根据权利要求1所述的方法, 其特征在于, 所述通过第 一网络提取所述待处理图像中 目标对象的高层语义特 征, 包括: 通过所述第 一网络中的编码器对所述待处理图像中的图像 内容进行编码处理, 得到编 码数据; 通过所述第一网络中的注意力模块对所述编码数据进行基于注意力机制的特征提取 处理, 得到所述待处 理图像中的初始高层语义特 征; 通过所述第 一网络中的残差模块对所述初始高层语义特征进行模型深度提升处理, 得 到所述高层语义特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述通过第 二网络对所述待处理图像和预 先设置的目标动作信息进 行处理, 得到所述待处理图像中所述目标对象执行目标动作的低 层语义特 征, 包括: 获取预先设置的背景图像; 通过所述第二网络对所述待处理图像、 所述目标动作信息和所述背景图像进行处理, 得到所述目标对象在所述背景图像对应的背景 下执行所述目标动作的人体解析 数据; 通过所述第二网络中的风格编码模型, 对所述待处理图像和所述背景图像进行处理, 得到所述待处 理图像中所述目标对象在所述背景图像对应的背景 下的外观属性数据; 将所述人体解析 数据和所述外观属性数据, 确定为所述低层语义特 征。 4.根据权利要求3所述的方法, 其特征在于, 通过所述第二网络对所述待处理图像、 所 述目标动作信息和所述背 景图像进行 处理, 得到所述目标对象在所述背 景图像对应的背 景 下执行所述目标动作的人体解析 数据, 包括: 通过所述第二网络中的人体参数化三维模型获取所述待处理图像中所述目标对象在 初始动作下的三 维人体参数, 所述初始动作为所述目标对象在所述待处理图像中执行的动 作; 通过所述第 二网络中的渲染模型对所述三维人体参数和所述目标动作信 息进行处理, 得到所述目标对象执 行所述目标动作的初始人体解析 数据; 通过所述第 二网络中的人体解析模型, 对所述初始人体解析数据以及预先设置的背景 图像进行解析 处理, 得到所述目标对象在所述背 景图像对应的背 景下执行所述目标动作的 人体解析 数据。 5.根据权利要求4所述的方法, 其特征在于, 所述通过所述第 一网络对所述低层语义特 征与所述高层语义特 征进行融合, 生成目标图像之前, 还 包括: 通过所述第 二网络中的渲染模型对所述三维人体参数进行处理, 得到所述目标对象在权 利 要 求 书 1/2 页 2 CN 115546402 A 2所述初始动作下的运动流估计数据, 所述运动流估计数据 表示所述目标对象执行动作时的 动作姿态; 所述通过所述第一网络对所述低层语义特征与 所述高层语义特征进行融合, 生成 目标 图像, 包括: 通过所述第 一网络对所述运动 流估计数据、 所述低层语义特征与所述高层语义特征进 行融合, 生成所述目标图像。 6.根据权利要求1所述的方法, 其特征在于, 所述通过所述第 一网络对所述低层语义特 征与所述高层语义特 征进行融合, 生成目标图像, 包括: 通过所述第一网络中的融合模块将所述低层语义特征中的人体解析数据输入到所述 第一网络的残差模块以及解码器中; 通过所述第 一网络中的归一化模块将所述低层语义特征中的外观属性数据, 输入到所 述第一网络的残差模块以及解码器中; 通过残差模块将所述第一网络中的注意力模块从所述待处理图像中提取到的初始高 层语义特征, 与所述人体解析数据以及所述外观属 性数据进行融合, 得到待处理的融合语 义特征; 通过所述第一网络中的解码器将所述融合语义特 征转换为所述目标图像。 7.一种动作生成装置, 其特 征在于, 所述装置包括: 提取单元, 被配置为通过第一网络提取待处理图像中目标对象的高层语义特征, 所述 高层语义特征用于表征所述待处理图像包含的抽象语义信息; 通过第二网络对所述待处理 图像和预先设置的目标动作信息进行 处理, 得到所述待处理图像中所述目标对象执行目标 动作的低层语义特征; 所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见 的特征; 生成单元, 被配置为通过所述第 一网络对所述低层语义特征与 所述高层语义特征进行 融合, 生成目标图像, 所述目标图像表示所述目标对象执 行所述目标动作的图像。 8.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至6任一项所述的动作 生成方法。 9.一种计算机可读存储介质, 当所述计算机可读存储介质中的指令由电子设备执行 时, 使得电子设备能够执 行如权利要求1至 6任一项所述的动作生成方法。权 利 要 求 书 2/2 页 3 CN 115546402 A 3

.PDF文档 专利 动作生成方法及装置、设备、介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 动作生成方法及装置、设备、介质 第 1 页 专利 动作生成方法及装置、设备、介质 第 2 页 专利 动作生成方法及装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:34:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。