专利基于多阶采样和早期注意力的手语翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210560369.2 (22)申请日 2022.05.23 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人冯伟　万亮　薛森华　高丽清　刘泽康　刘之谏　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师程毓英 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称基于多阶采样和早期注意力的手语翻译方法 (57)摘要本发明涉及一种基于多阶采样和早期注意力的手语翻译方法:其特征在于，包括两个部分，第一部分：首先利用CNN进行视频特征的逐帧提取，然后设置不同的采样率，对时序特征进行下采样，得到不同视野的时序特征，针对每种采样率下的时序特征，利用非局部模块关联跨度较大的特征，最后将时序特征上采样到原来的长度并对多个特征进行融合；第二部分，建立基于早期注意力的编码器 ‑解码器网络：编码器 ‑解码器网络的基本结构是LS TM，编码器将多尺度融合后的特征序列进行编码，解码器则将经过编码的特征序列解码为文本信息；利用早期注意力机制加权融合视觉特征。权利要求书2页说明书6页附图3页 CN 115100735 A 2022.09.23 CN 115100735 A 1.一种基于多阶采样和早期注意力的手语翻译方法:其特征在于，包括两个部分，第一部分：首先利用CNN进行视频特征的逐帧提取，然后设置不同的采样率，对时序特征进行下采样，得到不同视野的时序特征，针对每种采样率下的时序特征，利用非局部模块关联跨度较大的特征，最后将时序特征上采样到原来的长度并对多个特征进行融合，具体过程如下： s11帧级特征提取：提取输入视频的特征，得到长度为T、特征维度为d的逐帧特征序列 X； s12时序特征的多阶采样：利用卷积层和池化层提取K个不同时间尺度的特征序列Xi，公式如下： Xi＝pi(ci(X)),i≤K 其中ci、 pi分别表示用于在时间维度上采样的逐点卷积层、池化层；池化层核大小设定为2的整数倍，其值越大，得到的特征序列长度越短、时间跨度越大，越能表达视频整体上的信息，但详细视觉信息丢失得也越多；反之，其值较小时得到的采样序列则包含更详尽的信息； s13时序关系计算：使用非局部模块对每个特征序列Xi进行加权计算，方法如下：对每个特征序列Xi使用两个逐点卷积处理，得到特征序列Xi的自我注意矩阵 Ti为特征序列Xi的长度，将Ai经过softmax 归一化计算后与Xi相乘，得到归一化的特征序列X′i； s14时序多尺度融合：将各个归一化的特征序列X ′i通过时间维度上的反平均池化扩展到视频原先长度之后，再做逐元素相加操作，得到的多尺度融合后的特征序列I；第二部分，建立基于早期注意力的编码器 ‑解码器网络：编码器 ‑解码器网络的基本结构是LSTM，编码器将多尺度融合后的特征序列I进行编码，解码器则将经过编码的特征序列解码为文本信息；利用早期注意力机制加权融合视觉特征，方法如下： s21编码过程：多尺度融合后的特征序列 I输入LSTM编码器，得到长度为T的编码器隐藏状态序列h1,h2,...,hT； s22计算注意力mij：利用编码时刻i时编码器隐藏状态 hi和解码时刻j时解码器状态sj计算注意力mij； s23在s22的基础上，将解码时刻j前的注意力相加，得到早期注意力eij，再将早期注意力eij加入到当前注意力 nij的计算；之后，将加入早期注意力的当前注意力nij经过softmax 归一化得到注意力权值aij； s24语义编码计算：利用注意力权值aij对编码器隐藏状态序列h1,h2,...,hT进行加权求和，得到语义编码序列C1,C2,...,CU； s25注意力计算部分的损失函数La：对于编码时刻i和解码时刻j，取其对应的注意力权值aij和经过softmax归一化的早期注意力softmax(eij)两者中的最小值，将所有i和j的组合对应的取值求和得到La，如下式所示； aij与softmax(eij)差异越大， La的值越小； s26解码过程： LSTM解码器递归地预测出长度为U的翻译序列y＝y1y2...yU，对于j时刻，权　利　要　求　书 1/2 页 2 CN 115100735 A 2利用所得到的语义编码Cj、 j时刻的上一时刻解码符号yj‑1和解码器状态sj得到j时刻的解码符号yj； s27训练时对于翻译序列y和目标序列z，计算交叉熵损失Le； s28总损失函数L：将Le和La相加得到总损失函数L。 2.根据权利要求1所述的方法，其特征在于， s11帧级特征提取：使用轻量级模型 SqueezeNet s11提取输入视频的特征。权　利　要　求　书 2/2 页 3 CN 115100735 A 3

专利 基于多阶采样和早期注意力的手语翻译方法

专利基于多阶采样和早期注意力的手语翻译方法