专利动作生成方法及装置、设备、介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211185775.1 (22)申请日 2022.09.27 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人黄星　郭益林　高远　申婷婷　宋丛礼　万鹏飞　卢海怡　杨林　徐智伟　张栋楠　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师翟玉生 (51)Int.Cl. G06T 17/00(2006.01) G06V 10/80(2022.01) G06V 40/20(2022.01) (54)发明名称动作生成方法及装置、设备、介质 (57)摘要本公开提供一种动作生成方法及装置、设备、介质，该方法：通过第一网络提取待处理图像中目标对象的高层语义特征，高层语义特征用于表征待处理图像包含的抽象语义信息；通过第二网络对待处理图像和预先设置的目标动作信息进行处理，得到待处理图像中目标对象执行目标动作的低层语义特征，低层语义特征用于表征目标对象执行目标动作时视觉可见的特征；通过第一网络对低层语义特征与高层语义特征进行融合，生成目标图像，该目标图像表示目标对象执行目标动作的图像。该方法有效融合高层语义特征和低层语义特征中的图像语义信息，在保证目标动作质量的情况下提高图像生成效率，保证图像生成过程的实时性。权利要求书2页说明书11页附图2页 CN 115546402 A 2022.12.30 CN 115546402 A 1.一种动作生成方法，其特征在于，所述方法包括：通过第一网络提取待处理图像中目标对象的高层语义特征，所述高层语义特征用于表征所述待处理图像包含的抽象语义信息；通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理，得到所述待处理图像中所述目标对象执行目标动作的低层语义特征；所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见的特征；通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合，生成目标图像，所述目标图像表示所述目标对象执行所述目标动作的图像。 2.根据权利要求1所述的方法，其特征在于，所述通过第一网络提取所述待处理图像中目标对象的高层语义特征，包括：通过所述第一网络中的编码器对所述待处理图像中的图像内容进行编码处理，得到编码数据；通过所述第一网络中的注意力模块对所述编码数据进行基于注意力机制的特征提取处理，得到所述待处理图像中的初始高层语义特征；通过所述第一网络中的残差模块对所述初始高层语义特征进行模型深度提升处理，得到所述高层语义特征。 3.根据权利要求1所述的方法，其特征在于，所述通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理，得到所述待处理图像中所述目标对象执行目标动作的低层语义特征，包括：获取预先设置的背景图像；通过所述第二网络对所述待处理图像、所述目标动作信息和所述背景图像进行处理，得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据；通过所述第二网络中的风格编码模型，对所述待处理图像和所述背景图像进行处理，得到所述待处理图像中所述目标对象在所述背景图像对应的背景下的外观属性数据；将所述人体解析数据和所述外观属性数据，确定为所述低层语义特征。 4.根据权利要求3所述的方法，其特征在于，通过所述第二网络对所述待处理图像、所述目标动作信息和所述背景图像进行处理，得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据，包括：通过所述第二网络中的人体参数化三维模型获取所述待处理图像中所述目标对象在初始动作下的三维人体参数，所述初始动作为所述目标对象在所述待处理图像中执行的动作；通过所述第二网络中的渲染模型对所述三维人体参数和所述目标动作信息进行处理，得到所述目标对象执行所述目标动作的初始人体解析数据；通过所述第二网络中的人体解析模型，对所述初始人体解析数据以及预先设置的背景图像进行解析处理，得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据。 5.根据权利要求4所述的方法，其特征在于，所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合，生成目标图像之前，还包括：通过所述第二网络中的渲染模型对所述三维人体参数进行处理，得到所述目标对象在权　利　要　求　书 1/2 页 2 CN 115546402 A 2所述初始动作下的运动流估计数据，所述运动流估计数据表示所述目标对象执行动作时的动作姿态；所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合，生成目标图像，包括：通过所述第一网络对所述运动流估计数据、所述低层语义特征与所述高层语义特征进行融合，生成所述目标图像。 6.根据权利要求1所述的方法，其特征在于，所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合，生成目标图像，包括：通过所述第一网络中的融合模块将所述低层语义特征中的人体解析数据输入到所述第一网络的残差模块以及解码器中；通过所述第一网络中的归一化模块将所述低层语义特征中的外观属性数据，输入到所述第一网络的残差模块以及解码器中；通过残差模块将所述第一网络中的注意力模块从所述待处理图像中提取到的初始高层语义特征，与所述人体解析数据以及所述外观属性数据进行融合，得到待处理的融合语义特征；通过所述第一网络中的解码器将所述融合语义特征转换为所述目标图像。 7.一种动作生成装置，其特征在于，所述装置包括：提取单元，被配置为通过第一网络提取待处理图像中目标对象的高层语义特征，所述高层语义特征用于表征所述待处理图像包含的抽象语义信息；通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理，得到所述待处理图像中所述目标对象执行目标动作的低层语义特征；所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见的特征；生成单元，被配置为通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合，生成目标图像，所述目标图像表示所述目标对象执行所述目标动作的图像。 8.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6任一项所述的动作生成方法。 9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备执行时，使得电子设备能够执行如权利要求1至 6任一项所述的动作生成方法。权　利　要　求　书 2/2 页 3 CN 115546402 A 3

专利 动作生成方法及装置、设备、介质

专利动作生成方法及装置、设备、介质