专利一种基于分阶段交叉训练的唇语识别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210025779.7 (22)申请日 2022.01.11 (66)本国优先权数据 202111628916.8 2021.12.28 CN (71)申请人西安邮电大学地址 710121 陕西省西安市长安街618号 (72)发明人路龙宾　许学斌　刘一彪　范海潮　 (74)专利代理机构北京高沃律师事务所 1 1569 代理人刘芳 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于分阶段交叉训练的唇语识别方法及系统 (57)摘要本发明涉及一种基于分阶段交叉训练的唇语识别方法及系统。所述方法包括：基于端到端的训练方式获取第一阶段编码网络参数、解码网络参数；第二阶段根据单一身份数据训练模型，生成存在过拟合的编码网络以及解码网络的初始化参数，利用编码网络初始化参数自适应生成解码网络加权正则化约束，利用解码网络初始化参数自适应生成编码网络加权正则化约束。本发明方法通过此种交叉训练的方式保证编码网络与解码网络的独立性，以此提高唇语识别网络的泛化能力，进而在将本发明训练好的唇语识别模型应用于唇语识别时，能够提高对未知说话人唇语识别的鲁棒性和准确率。权利要求书3页说明书13页附图2页 CN 114419731 A 2022.04.29 CN 114419731 A 1.一种基于分阶段交叉训练的唇语识别方法，其特征在于，包括：获取不同身份唇语训练数据集合；所述不同身份唇语训练数据集合中的单个训练数据包括样本输入的图像序列以及样本输出的类别编码；利用所述不同身份唇语训练数据集合中的全部训练数据，基于端到端方式训练唇语识别模型，获取端到端训练阶段的编码网络参数以及解码网络参数；所述唇语识别模型包括语义特征编码网络和语义特征解码网络；根据所述端到端训练阶段的编码网络参数以及解码网络参数，利用所述不同身份唇语训练数据集合中的单一身份训练数据来训练所述唇语识别模型，获取具有过拟合的编码网络参数以及解码网络参数；根据所述具有过拟合的编码网络参数以及解码网络参数，利用交叉训练方式自适应生成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失；根据所述编码网络加权正则化损失以及解码网络加权正则化损失确定总体优化损失；以所述总体优化损失为优化目标，采用Adam优化器优化所述唇语识别模型的编码网络参数以及解码网络参数；判断所述唇语识别模型是否收敛；若所述唇语识别模型未收敛，返回所述根据所述具有过拟合的编码网络参数以及解码网络参数，利用交叉训练方式自适应生成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失的步骤；若所述唇语识别模型收敛，则生成训练好的唇语识别模型；采用所述训练好的唇语识别模型进行唇语识别。 2.根据权利要求1所述的方法，其特征在于，所述利用所述不同身份唇语训练数据集合中的全部训练数据，基于端到端方式训练唇语识别模型，获取端到端训练阶段的编码网络参数以及解码网络参数，具体包括：以全部身份训练数据损失Lall( θ,φ)作为优化目标，利用所述端到端方式对所述唇语识别模型的语义特征编码网络和语义特征解码网络同时进行优化，采用Adam优化器实现所述优化目标的网络参数求解，获得所述端到端训练阶段的编码网络参数θ与解码网络参数 φ。 3.根据权利要求2所述的方法，其特征在于，所述根据所述端到端训练阶段的编码网络参数以及解码网络参数，利用所述不同身份唇语训练数据集合中的单一身份训练数据来训练所述唇语识别模型，获取具有过拟合的编码网络参数以及解码网络参数，具体包括：以单一身份训练数据损失Ls( θ',φ')作为优化目标，基于所述不同身份唇语训练数据集合中的单一身份训练数据Di，利用所述端到端方式对所述唇语识别模型的语义特征编码网络和语义特征解码网络同时进行优化，获取具有过拟合的编码网络参数θ'以及解码网络参数φ'。 4.根据权利要求3所述的方法，其特征在于，所述根据所述具有过拟合的编码网络参数以及解码网络参数，利用交叉训练方式自适应生成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失，具体包括：采用网络参数为θ'的语义特征编码网络eθ'()提取训练与测试数据的语义特征，依据不权　利　要　求　书 1/3 页 2 CN 114419731 A 2同身份语义特征的差异性度量生成第一归一化权重根据所述第一归一化权重计算解码网络加权正则化损失Lwf(φ)；采用网络参数为θ 的语义特征编码网络eθ()提取训练与测试数据的语义特征，依据不同身份语义特征的差异性度量生成第二归一化权重根据所述第二归一化权重计算编码网络加权正则化损失Lwe( θ )。 5.根据权利要求4所述的方法，其特征在于，所述根据所述编码网络加权正则化损失以及解码网络加权正则化损失确定总体优化损失，具体包括：根据所述编码网络加权正则化损失Lwe( θ )以及解码网络加权正则化损失Lwf(φ)，采用公式L( θ,φ)＝Lall( θ,φ)+λ1Lwe( θ )+λ2Lwf(φ)确定所述总体优化损失L( θ,φ)；其中λ1、 λ2为正则系数。 6.一种基于分阶段交叉训练的唇语识别系统，其特征在于，包括：唇语训练数据集合获取模块，用于获取不同身份唇语训练数据集合；所述不同身份唇语训练数据集合中的单个训练数据包括样本输入的图像序列以及样本输出的类别编码；端到端网络训练模块，用于利用所述不同身份唇语训练数据集合中的全部训练数据，基于端到端方式训练唇语识别模型，获取端到端训练阶段的编码网络参数以及解码网络参数；所述唇语识别模型包括语义特征编码网络和语义特征解码网络；单一身份训练模块，用于根据所述端到端训练阶段的编码网络参数以及解码网络参数，利用所述不同身份唇语训练数据集合中的单一身份训练数据来训练所述唇语识别模型，获取具有过拟合的编码网络参数以及解码网络参数；网络交叉训练模块，用于根据所述具有过拟合的编码网络参数以及解码网络参数，利用交叉训练方式自适应生成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失；总体优化损失确定模块，用于根据所述编码网络加权正则化损失以及解码网络加权正则化损失确定总体优化损失；网络参数优化模块，用于以所述总体优化损失为优化目标，采用Adam优化器优化所述唇语识别模型的编码网络参数以及解码网络参数；网络收敛判断模块，用于判断所述唇语识别模型是否收敛；交叉训练返回模块，用于若所述唇语识别模型未收敛，返回所述根据所述具有过拟合的编码网络参数以及解码网络参数，利用交叉训练方式自适应生成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失的步骤；唇语识别模型生成模块，用于若所述唇语识别模型收敛，则生成训练好的唇语识别模型；唇语识别模块，用于采用所述训练好的唇语识别模型进行唇语识别。 7.根据权利要求6所述的系统，其特征在于，所述端到端网络训练模块具体包括：端到端网络训练单元，用于以全部身份训练数据损失Lall( θ,φ)作为优化目标，利用所述端到端方式对所述唇语识别模型的语义特征编码网络和语义特征解码网络同时进行优化，采用Adam优化器实现所述优化目标的网络参数求解，获得所述端到端训练阶段的编码权　利　要　求　书 2/3 页 3 CN 114419731 A 3

专利 一种基于分阶段交叉训练的唇语识别方法及系统

专利一种基于分阶段交叉训练的唇语识别方法及系统