说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210560369.2 (22)申请日 2022.05.23 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 冯伟 万亮 薛森华 高丽清  刘泽康 刘之谏  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 程毓英 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 基于多阶采样和早期注意力的手语翻译方 法 (57)摘要 本发明涉及一种基于多阶采样和早期注意 力的手语翻译方法:其特征在于, 包括两个部分, 第一部分: 首先利用CNN进行视频特征的逐帧提 取, 然后设置不同的采样率, 对时序特征进行下 采样, 得到不同视野的时序特征, 针对每种采样 率下的时序特征, 利用非局部模块关联跨度较大 的特征, 最后将时序特征上采样 到原来的长度并 对多个特征进行融合; 第二部分, 建立基于早期 注意力的编码器 ‑解码器网络: 编码器 ‑解码器网 络的基本结构是LS TM, 编码器将多尺度融合后的 特征序列进行编码, 解码器则将经过编码的特征 序列解码为文本信息; 利用早期注 意力机制加权 融合视觉特征。 权利要求书2页 说明书6页 附图3页 CN 115100735 A 2022.09.23 CN 115100735 A 1.一种基于多阶采样和早期注意力的手 语翻译方法:其特 征在于, 包括两个部分, 第一部分: 首先利用CNN进行视频特征的逐帧提取, 然后设置不同的采样率, 对时序特 征进行下采样, 得到不同视野的时序特征, 针对每种采样率下的时序特征, 利用非局部模块 关联跨度较大 的特征, 最后将时序特征上采样到原来的长度并对多个特征进行融合, 具体 过程如下: s11帧级特征提取: 提取输入视频的特征, 得到长度为T、 特征维度为d的逐帧特征序列 X; s12时序特征的多阶采样: 利用卷积层和池 化层提取K个不同时间尺度的特征序列Xi, 公 式如下: Xi=pi(ci(X)),i≤K 其中ci、 pi分别表示用于在时间维度上采样的逐点卷积层、 池化层; 池化层核大小设定 为2的整数倍, 其值越大, 得到的特征序列长度越短、 时间跨度越大, 越能表达视频整体上的 信息, 但详细视觉信息丢失得也越多; 反之, 其值较小时得到的采样序列则包含 更详尽的信 息; s13时序关系计算: 使用非局部模块对每个特征序列Xi进行加权计算, 方法如下: 对每个 特征序列Xi使用两个逐点卷积处理, 得到特征序列Xi的自我注意矩阵 Ti为特征序 列Xi的长度, 将Ai经过softmax 归一化计算后与Xi相乘, 得到归一 化的特征序列X′i; s14时序多尺度融合: 将各个归一化的特征序列X ′i通过时间维度上的反平均池化扩展 到视频原先长度之后, 再做逐 元素相加操作, 得到的多尺度融合后的特 征序列I; 第二部分, 建立基于早期注意力的编码器 ‑解码器网络: 编码器 ‑解码器网络的基本结 构是LSTM, 编码 器将多尺度融合后的特征序列I进行编码, 解码 器则将经过编码的特征序列 解码为文本信息; 利用早期注意力机制加权融合视 觉特征, 方法如下: s21编码过程: 多尺度融合后的特征序列 I输入LSTM编码器, 得到长度为T的编码器隐藏 状态序列h1,h2,...,hT; s22计算注意力mij: 利用编码时刻i时编码器隐藏状态 hi和解码时刻j时解码器状态sj计 算注意力mij; s23在s22的基础上, 将解码时刻j前 的注意力相加, 得到早期注意力eij, 再将早期注意 力eij加入到当前注意力 nij的计算; 之后, 将加 入早期注意力的当前注意力nij经过softmax 归一化得到注意力权值aij; s24语义编码计算: 利用注意力权值aij对编码器隐藏状态序列h1,h2,...,hT进行加权求 和, 得到语义编码序列C1,C2,...,CU; s25注意力计算部分的损失函数La: 对于编码时刻i和解码时刻j, 取其对应的注意力权 值aij和经过softmax归一化的早期注意力softmax(eij)两者中的最小值, 将所有i和j的组 合对应的取值 求和得到La, 如下式所示; aij与softmax(eij)差异越大, La的值越小; s26解码过程: LSTM解码器递归地预测出长度为U的翻译序列y=y1y2...yU, 对于j时刻,权 利 要 求 书 1/2 页 2 CN 115100735 A 2利用所得到的语 义编码Cj、 j时刻的上一时刻解码符号yj‑1和解码器状态sj得到j时刻的解码 符号yj; s27训练时对于翻译序列y和目标序列z, 计算交叉熵损失Le; s28总损失函数L: 将Le和La相加得到总损失函数L。 2.根据权利要求1所述的方法, 其特征在于, s11帧级特征提取: 使用轻量级模型 SqueezeNet s11提取输入视频的特 征。权 利 要 求 书 2/2 页 3 CN 115100735 A 3

.PDF文档 专利 基于多阶采样和早期注意力的手语翻译方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多阶采样和早期注意力的手语翻译方法 第 1 页 专利 基于多阶采样和早期注意力的手语翻译方法 第 2 页 专利 基于多阶采样和早期注意力的手语翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:48:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。