专利图像处理方法及模型生成方法、装置、车辆、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210476318.1 (22)申请日 2022.04.29 (71)申请人上海商汤临港智能科技有限公司地址 200232 上海市浦东新区自由贸易试验区临港新片区泥城镇秋山路1775弄 29、 30号2楼01室 (72)发明人康硕　李潇婕　王飞　钱晨　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师贾伟　吴素花 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06K 9/62(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 15/25(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像处理方法及模型生成方法、装置、车辆、存储介质 (57)摘要本申请实施例公开了一种图像处理方法及模型生成方法、装置、车辆、存储介质，其中，图像处理方法包括：获取包含嘴部对象的图像帧序列；对图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到每一图像帧的嘴部关键点特征；根据图像帧序列中多个图像帧的嘴部关键点特征，生成音节分类特征；其中，音节分类特征表征图像帧序列中嘴部对象的口型对应的音节类别；在预设关键词库中确定与音节分类特征匹配的关键词。权利要求书3页说明书24页附图5页 CN 114821794 A 2022.07.29 CN 114821794 A 1.一种图像处理方法，其特征在于，所述方法包括：获取包含嘴部对象的图像帧序列；对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别；在预设关键词库中确定与所述音节分类特征匹配的关键词。 2.根据权利要求1所述的方法，其特征在于，所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征，包括：确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息；针对所述图像帧序列中的每一图像帧，根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征。 3.根据权利要求2所述的方法，其特征在于，所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息；所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息，确定所述图像帧对应的嘴部关键点特征，包括：针对每一所述嘴部关键点，根据所述嘴部关键点在所述图像帧中的位置信息，以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息，确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差，作为所述嘴部关键点的帧间差异信息；针对每一所述嘴部关键点，根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差，确定所述嘴部关键点的帧内差异信息。 4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述图像帧序列中多个图像帧的嘴部关键点特征，生成音节分类特征，包括：分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征；对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取，得到所述嘴部对象的时空特征；基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。 5.根据权利要求4所述的方法，其特征在于，所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一图像帧的空间特征，包括：对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合，得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征；对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合，得到所述嘴部对象在每一图像帧的空间特征。 6.根据权利要求1至 5任一项所述的方法，其特征在于，所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征，包括：利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理，得到音节分类特征；权　利　要　求　书 1/3 页 2 CN 114821794 A 2所述在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用经过训练的分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。 7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取包含嘴部对象的图像帧序列，包括：对获取到的包含嘴部对象的原始图像序列进行图像插帧，得到所述图像帧序列；或者，基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点，对所述原始图像序列进行插帧，得到所述图像帧序列。 8.一种生成唇语识别模型的方法，其特征在于，所述方法包括：获取包含嘴部对象的样本图像帧序列；其中，所述样本图像帧序列标注有关键词标签；对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取，得到所述每一样本图像帧的嘴部关键点特征；利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词；其中，所述音节分类特征表征所述样本图像帧序列中嘴部对象的口型对应的音节类别；基于确定出的所述关键词和所述关键词标签，对所述模型的网络参数进行至少一次更新，得到经过训练的唇语识别模型。 9.根据权利要求8所述的方法，其特征在于，所述模型中包括音节特征提取网络和分类网络；所述利用待训练的模型，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，并在预设关键词库中确定与所述音节分类特征匹配的关键词，包括：利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征；利用所述分类网络，在预设关键词库中确定与所述音节分类特征匹配的关键词。 10.根据权利要求9所述的方法，其特征在于，所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络；所述利用所述音节特征提取网络，根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征，生成音节分类特征，包括：利用所述空间特征提取子网络，分别对每一所述样本图像帧的嘴部关键点特征进行空间特征提取，得到所述嘴部对象在每一样本图像帧的空间特征；利用所述时间特征提取子网络，对所述嘴部对象在多个所述样本图像帧的空间特征进行样本时间特征提取，得到所述嘴部对象的时空特征；利用所述音节分类特征提取子网络，基于所述嘴部对象的时空特征进行音节分类特征提取，得到所述嘴部对象的音节分类特征。 11.一种图像处理装置，其特征在于，包括：第一获取模块，用于获取包含嘴部对象的图像帧序列；第一识别模块，用于对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取，得到所述每一图像帧的嘴部关键点特征；第一确定模块，用于根据所述图像帧序列中多个图像帧的所述嘴部关键点特征，生成音节分类特征；其中，所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音权　利　要　求　书 2/3 页 3 CN 114821794 A 3

专利 图像处理方法及模型生成方法、装置、车辆、存储介质

专利图像处理方法及模型生成方法、装置、车辆、存储介质