专利一种动画绘本生成方法、装置、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111658559.X (22)申请日 2021.12.3 0 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人吴小燕　何山　殷兵　胡金水　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人刘希 (51)Int.Cl. G06T 13/40(2011.01) G10L 13/08(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/74(2022.01) (54)发明名称一种动画绘本生成方法、装置、设备和存储介质 (57)摘要本申请公开了一种动画绘本生成方法、装置、设备和存储介质，该方法包括：识别静态绘本中的若干对象以及若干文本；确定各对象以及各文本之间的对应关系，其中，对应关系表示文本由与文本对应的对象讲述；生成各文本的语音数据，以及确定各文本对应的对象的画面变化内容，其中，画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化；基于语音数据和画面变化内容，生成静态绘本对应的动画绘本数据。通过上述方式，本申请能够将绘本中的静态人物转化为能说会动的动画人物。权利要求书4页说明书12页附图8页 CN 114359446 A 2022.04.15 CN 114359446 A 1.一种动画绘本生成方法，其特征在于，包括：识别静态绘本中的若干对象以及若干文本；确定各所述对象以及各所述文本之间的对应关系，其中，所述对应关系表示所述文本由与所述文本对应的对象讲述；生成各所述文本的语音数据，以及确定各所述文本对应的对象的画面变化内容，其中，所述画面变化内容表示在播放所述文本对应的语音数据过程中所述对象的预设部位的变化；基于所述语音数据和所述画面变化内容，生成所述静态绘本对应的动画绘本数据。 2.根据权利要求1所述的方法，其特征在于，所述识别静态绘本中的若干对象以及若干文本，包括：对所述静态绘本进行对象检测，得到包含所述若干对象的检测结果；以及对所述静态绘本进行文本识别，得到所述若干文本。 3.根据权利要求1所述的方法，其特征在于，所述确定各所述对象以及各所述文本之间的对应关系，包括：利用第一提取网络从所述静态绘本中提取各所述对象的图像特征；以及对于各所述文本，利用第二提取网络从所述文本中提取所述文本的若干词向量，并将所述文本的若干词向量聚合得到所述文本的第一文本特征；利用关系识别网络对各所述对象的图像特征和各所述文本的第一文本特征进行判别，得到各所述文本与各所述对象之间的相似度；基于所述相似度，得到各所述对象以及各所述文本之间的对应关系。 4.根据权利要求1所述的方法，其特征在于，所述生成各所述文本的语音数据，包括：确定各所述文本对应的声音参考信息，其中，所述声音参考信息包括角色类别和情感类别中至少一者；基于所述声音参考信息，生成各所述文本的语音数据。 5.根据权利要求4所述的方法，其特征在于，所述确定各所述文本对应的声音参考信息，包括：从所述若干文本中抽取得到至少一个命名实体的实体特征；利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理，得到各所述文本对应的声音参考信息；和/或，所述声音参考信息包括角色类别和情感类别，所述基于所述声音参考信息，生成各所述文本的语音数据，包括：基于所述文本对应的角色类别，确定所述文本对应的目标音色；基于所述文本对应的目标音色和情感类别，对所述文本进行语音合成，得到所述文本的语音数据。 6.根据权利要求5所述的方法，其特征在于，所述利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理，得到各所述文本对应的声音参考信息，包括：基于各所述命名实体的实体特征，确定各所述命名实体之间的实体关系，以及基于各所述文本的第二文本特征，得到各所述文本之间的文本关系；权　利　要　求　书 1/4 页 2 CN 114359446 A 2基于所述实体关系和文本关系，确定各所述命名实体与各所述文本之间的对应关系，利用各所述命名实体与各所述文本之间的对应关，得到各所述文本对应的声音参考信息。 7.根据权利要求1所述的方法，其特征在于，所述确定各所述文本对应的所述对象的画面变化内容，包括：在所述静态绘本中检测出各所述对象的预设部位对应的部位区域，对所述对象的部位区域进行关键点提取，得到所述对象的参考关键点位置信息，其中，所述参考关键点位置信息包括所述对象的预设部位中多个关键点在所述静态绘本的位置信息；对于各所述文本，将所述文本对应的对象和语音数据作为目标对象和目标语音，基于所述目标对象的参考关键点位置信息以及所述目标语音，得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况，基于所述目标对象对应的所述位置变化情况，确定所述目标对象的画面变化内容。 8.根据权利要求7所述的方法，其特征在于，所述目标对象对应的所述位置变化情况包括所述目标对象的若干组关键点位置偏移量，不同组所述关键点位置偏移量对应所述目标语音的不同时间片段，每组所述关键点位置偏移量包括所述目标对象的多个关键点对应所述时间片段的位置偏移量；所述基于所述目标对象对应的所述位置变化情况，确定所述目标对象的画面变化内容，包括：对于各所述时间片段，基于所述目标对象对应所述时间片段的关键点位置偏移量，确定所述目标对象对应所述时间片段的目标部位图像；其中，所述目标部位图像包含所述预设部位，所述目标对象对应不同所述时间片段的若干帧所述目标部位图像组成所述目标对象的画面变化内容。 9.根据权利要求8所述的方法，其特征在于，所述基于所述目标对象的参考关键点位置信息以及所述目标语音，得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况，包括：提取所述目标语音的语音特征；利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理，得到所述目标对象的若干组关键点位置偏移量；和/或，所述基于所述目标对象对应所述时间片段的关键点位置偏移量，确定所述目标对象对应所述时间片段的目标部位图像，包括：基于所述目标对象的参考关键点位置信息和对应所述时间片段的所述关键点位置偏移量，得到所述目标对象对应所述时间片段的区域信息，其中，所述区域信息包括所述目标对象的部位区域中至少部分像素点的位置偏移量；基于所述至少部分像素点的位置偏移量和所述目标对象的参考部位图像，得到所述目标对象对应所述时间片段的目标部位图像，其中，所述参考部位图像包含所述目标对象的所述预设部位。 10.根据权利要求9所述的方法，其特征在于，所述利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理，得到所述目标对象的若干组关键点位置偏移量，包括：将所述目标对象的参考关键点位置信息、所述语音特征、参考因子输入所述位置预测权　利　要　求　书 2/4 页 3 CN 114359446 A 3

专利 一种动画绘本生成方法、装置、设备和存储介质

专利一种动画绘本生成方法、装置、设备和存储介质