(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210025779.7
(22)申请日 2022.01.11
(66)本国优先权数据
202111628916.8 2021.12.28 CN
(71)申请人 西安邮电大 学
地址 710121 陕西省西安市长安 街618号
(72)发明人 路龙宾 许学斌 刘一彪 范海潮
(74)专利代理 机构 北京高沃 律师事务所 1 1569
代理人 刘芳
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于分阶段交叉训练的唇语识别方法
及系统
(57)摘要
本发明涉及一种基于分阶段交叉训练的唇
语识别方法及系统。 所述方法包括: 基于端到端
的训练方式获取第一阶段编码网络参数、 解码网
络参数; 第二阶段根据单一身份数据训练模型,
生成存在过拟合的编码网络以及解码网络的初
始化参数, 利用编码网络初始化参数自适应生成
解码网络加权正则化约束, 利用解码网络初始化
参数自适应生成编码网络加权正则化约束。 本发
明方法通过此种交叉训练的方式保证编码网络
与解码网络的独立性, 以此提高唇语识别网络的
泛化能力, 进而在将本发明训练好的唇语识别模
型应用于 唇语识别时, 能够提高对 未知说话人唇
语识别的鲁棒 性和准确率。
权利要求书3页 说明书13页 附图2页
CN 114419731 A
2022.04.29
CN 114419731 A
1.一种基于分阶段交叉训练的唇语识别方法, 其特 征在于, 包括:
获取不同身份唇语训练数据集合; 所述不同身份唇语训练数据集合中的单个训练数据
包括样本 输入的图像序列以及样本 输出的类别编码;
利用所述不同身份唇语训练数据集合中的全部训练数据, 基于端到端方式训练唇语识
别模型, 获取端到端训练阶段的编码网络参数以及解码网络参数; 所述唇语识别模型包括
语义特征编码网络和语义特 征解码网络;
根据所述端到端训练阶段的编码网络参数以及解码网络参数, 利用所述不同身份唇语
训练数据集合中的单一身份训练数据来训练所述唇语识别模型, 获取具有过拟合的编 码网
络参数以及解码网络参数;
根据所述具有过拟合的编码网络参数以及解码网络参数, 利用交叉训练方式自适应生
成交叉训练阶段的编码网络加权正则化损失以及解码网络加权正则化损失;
根据所述编码网络加权正则化损失以及解码网络加权正则化损失确定总体优化损失;
以所述总体优化损失为优化目标, 采用Adam优化器优化所述唇语识别模型的编码网络
参数以及解码网络参数;
判断所述唇语识别模型 是否收敛;
若所述唇语识别模型未收敛, 返回所述根据 所述具有过拟合的编码网络参数以及解码
网络参数, 利用交叉训练方式 自适应生成交叉训练阶段的编码网络加权正则化损失以及解
码网络加权正则化损失的步骤;
若所述唇语识别模型收敛, 则生成训练好的唇语识别模型;
采用所述训练好的唇语识别模型进行 唇语识别。
2.根据权利要求1所述的方法, 其特征在于, 所述利用所述不同身份唇语训练数据集合
中的全部训练数据, 基于端到端方式训练唇语识别模型, 获取端到端训练阶段的编码网络
参数以及解码网络参数, 具体包括:
以全部身份训练数据损失Lall( θ,φ)作为优化目标, 利用所述端到端方式对所述唇语
识别模型的语义特征编码网络和语义特征解码网络同时进 行优化, 采用Adam优化器实现所
述优化目标的网络参数求解, 获得所述端到端训练阶段的编码网络参数θ与解码网络参数
φ。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述端到端训练阶段的编码网络
参数以及解码网络参数, 利用所述不同身份唇语训练数据集合中的单一身份训练数据来训
练所述唇语识别模型, 获取 具有过拟合的编码网络参数以及解码网络参数, 具体包括:
以单一身份训练数据损失Ls( θ',φ')作为优化目标, 基于所述不同身份唇语训练数据
集合中的单一身份训练数据Di, 利用所述端到端方 式对所述唇语识别模型的语义特征编码
网络和语义特征解码网络同时进 行优化, 获取具有过拟合的编 码网络参数θ'以及解码网络
参数φ'。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述具有过拟合的编码网络参数
以及解码网络参数, 利用交叉训练方式 自适应生成交叉训练阶段的编 码网络加权正则化损
失以及解码网络加权正则化损失, 具体包括:
采用网络 参数为θ'的语 义特征编码网络eθ'()提取训练与测试数据的语 义特征, 依据不权 利 要 求 书 1/3 页
2
CN 114419731 A
2同身份语义特征的差异性度量 生成第一归一 化权重
根据所述第一归一 化权重
计算解码网络加权正则化损失Lwf(φ);
采用网络参数为θ 的语义特征编码网络eθ()提取训练与测试数据的语义特征, 依据不
同身份语义特征的差异性度量 生成第二归一 化权重
根据所述第二归一 化权重
计算编码网络加权正则化损失Lwe( θ )。
5.根据权利要求4所述的方法, 其特征在于, 所述根据所述编码网络加权正则化损失以
及解码网络加权正则化损失确定总体优化损失, 具体包括:
根据所述编码网络加权正则 化损失Lwe( θ )以及解码网络加权正则 化损失Lwf(φ), 采用
公式L( θ,φ)=Lall( θ,φ)+λ1Lwe( θ )+λ2Lwf(φ)确定所述总体优化损失L( θ,φ); 其中λ1、 λ2为
正则系数。
6.一种基于分阶段交叉训练的唇语识别系统, 其特 征在于, 包括:
唇语训练数据集合获取模块, 用于获取不同身份唇语训练数据集合; 所述不同身份唇
语训练数据集 合中的单个训练数据包括样本 输入的图像序列以及样本 输出的类别编码;
端到端网络训练模块, 用于利用所述不同身份唇语训练数据集合中的全部训练数据,
基于端到端方式训练唇语识别模型, 获取端到端训练阶段的编 码网络参数以及解码网络参
数; 所述唇语识别模型包括语义特 征编码网络和语义特 征解码网络;
单一身份训练模块, 用于根据所述端到端训练阶段的编码网络参数以及解码网络参
数, 利用所述不同身份唇语训练数据集合中的单一身份训练数据来训练所述唇语识别模
型, 获取具有过拟合的编码网络参数以及解码网络参数;
网络交叉训练模块, 用于根据所述具有过拟合的编码网络参数以及解码网络参数, 利
用交叉训练方式自适应生成交叉训练阶段 的编码网络加权正则化损失以及解码网络加权
正则化损失;
总体优化损失确定模块, 用于根据 所述编码网络加权正则化损失以及解码网络加权正
则化损失确定总体优化损失;
网络参数优化模块, 用于以所述总体优化损失为优化目标, 采用Adam优化器优化所述
唇语识别模型的编码网络参数以及解码网络参数;
网络收敛判断模块, 用于判断所述唇语识别模型 是否收敛;
交叉训练返回模块, 用于若所述唇语识别模型未收敛, 返回所述根据所述具有过拟合
的编码网络参数以及解码网络参数, 利用交叉训练方式 自适应生成交叉训练阶段的编 码网
络加权正则化损失以及解码网络加权正则化损失的步骤;
唇语识别模型生成模块, 用于若所述唇语识别模型收敛, 则生成训练好的唇语识别模
型;
唇语识别模块, 用于采用所述训练好的唇语识别模型进行 唇语识别。
7.根据权利要求6所述的系统, 其特 征在于, 所述端到端网络训练模块具体包括:
端到端网络训练单元, 用于以全部身份训练数据损失Lall( θ,φ)作 为优化目标, 利用所
述端到端方式对所述唇语识别模型的语义特征编码网络和语义特征解码网络同时进行优
化, 采用Adam优化器实现所述优化目标的网络参数求解, 获得所述端到端训练阶段的编码权 利 要 求 书 2/3 页
3
CN 114419731 A
3
专利 一种基于分阶段交叉训练的唇语识别方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:11:55上传分享