说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211083801.X (22)申请日 2022.09.06 (71)申请人 厦门大学 地址 361005 福建省厦门市思明区思明南 路422号 (72)发明人 李晓潮 杨曼 甘利鹏  (74)专利代理 机构 厦门南强之 路专利事务所 (普通合伙) 35200 专利代理师 马应森 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于BERT模型的通道特征交互时间建模行 为识别方法 (57)摘要 基于BERT模型的通道特征交互时间建模行 为识别方法, 属于计算机视觉、 深度学习和行为 识别技术领域。 将动作视频分解成对应的RGB图 像序列输入二维卷积神经网络, 基于二维卷积神 经网络提取的特征, 通过通道重组模块和通道 BERT模型对子通道特征序列进行自注意力计算, 提取随时间变化差异较大的关键子通道特征以 及它们之间的交互相关性, 获得区分动作类别的 关键语义特征及其相关性, 从而提高行为分类精 度。 通过将通道BERT和时间BERT联合起来, 进一 步关注关键帧中的关键通道语义特征, 从而获得 更高的行为识别准确率。 权利要求书2页 说明书8页 附图2页 CN 115457657 A 2022.12.09 CN 115457657 A 1.基于BERT模型的通道特征交互时间建模行为识别方法, 其特征在于其具体步骤如 下: 1)将动作视频分解成对应的RGB图像序列输入二维卷积神经网络, 提取B,T,C,H,W维度 特征图; 其中, B表 示分批量训练 时输入视频帧的批量数, C表 示通道数, T表 示T帧连续图像, H、 W表示输入图像的高和宽; 2)将提取的特征图输入池化模块进行空间平均池化操作, 得到B,T,C维度的特征序列 F; 3)将特征序列F分别输入联合 ‑BERT自注意力模型的两个分支, 分别 进行通道和时间特 征提取: 在第1个分支中, 将提取到的特征序列F输入通道重组模块, 输出的重组子通道特征 序列XC经通道BERT模块加权 处理后通过全连接层输出进行预测, 得到行为识别的第一预测 矩阵; 在第2个 分支中, 特征序列F输入时间BERT模块中, 通过全连接层输出得到行为识别的 第二预测矩阵; 第1个分支和第2个分支中的通道BERT模块和时间BERT模块共享 参数; 4)将第一预测矩阵和第 二预测矩阵加权 融合后输入分类模块, 得到行为识别的分类结 果。 2.如权利要求1所述基于BERT模型的通道特征交互时间建模行为识别方法, 其特征在 于在步骤3)中, 所述联合 ‑BERT自注意力模型包括两个分支, 提取通道间相关性的第1个分 支和图像 帧间的时间相关性的第2个分支; 第 1个分支用于从重组子通道组的语义特征中, 利用多头自注意力机制对子通道建立相互作用, 获得区分动作类别的关键语义特征及其相 关性; 第2个分支用于利用自注意力机制在不同时刻图像帧融合时, 根据帧之间的相似性计 算提取出关键的图像帧。 3.如权利要求1所述基于BERT模型的通道特征交互时间建模行为识别方法, 其特征在 于在步骤3)中, 所述将特征序列F分别输入联合 ‑BERT自注意力模型的两个分支, 分别进行 通道和时间特 征提取的具体步骤 包括: (1)在第1个分支中, 基于通道重组模块和通道BERT模块获得 区分动作类别的关键通道 语义特征及其相关性, 将二 维卷积神经网络提取到的特征序列F输入通道重组模块, 在通道 重组模块中将相 邻帧对应子通道特征沿时间维度进行重组拼接, 构成包含时间变化关系的 子通道特征时间序列; 输出的重组子通道特征序列XC经通道BERT模块进行自注意力计算, 提取出随时间变化差异较大的关键子通道特征以及它们之 间的交互相关性; 根据子通道特 征序列间的相关性进行加权处理, 经全连接层输出得到行为识别的第一预测矩阵, 实现通 道特征交互在时间维度的建模; 2)在第2个分支中, 直接把池化后的特征序列F输入时间BERT模块中, 计算视频帧之间 的相似性, 通过全连接层输出 得到行为识别的第二预测矩阵。 4.如权利要求1所述基于BERT模型的通道特征交互时间建模行为识别方法, 其特征在 于在步骤3)中, 所述通道重组模块, 包含通道分离模块和子通道特征序列; 将特征序列F输 入通道分离模块, 沿着通道维度将其平均分割成N个子通道, 每个子通道包含C/N个通道特 征, 即F′=[F′(1),F′(2),...,F ′(N)], 其中 将相邻帧对应子 通道特征 F′沿着时间维度进行拼接, 得到 子通道特 征序列, 其中NC=T×C/N;权 利 要 求 书 1/2 页 2 CN 115457657 A 2对于第n(1≤n≤N))个子通道组 有 表示每 个子通道组内包 含T帧图像特 征序列信息 。 5.如权利要求1所述基于BERT模型的通道特征交互时间建模行为识别方法, 其特征在 于在步骤3)中, 所述通道BERT模块, 包含位置编码层、 多头自注意力机制 模块、 通道连接模 块和全连接层; 通道重 组模块输出的特征序列XC被输入通道BERT模块的位置编码层对位置 信息进行编码, 得到位置嵌入特征 将位置嵌入特征 输入多头自注 意力机制模块的多头注 意力机制和位置前馈网络PFFN( ·)层, 通过自注 意计算和PFFN( ·) 层的非线性映射, 得到能突出通道差异且子通道组相互作用的矩阵 将所有子通道组的输出YC输入通道连接模块沿着通道维度进行拼接, 得到与特征F通道维 度相同的矩阵yC; 将矩阵yC输入全连接层得到行为识别的第一预测矩阵。权 利 要 求 书 2/2 页 3 CN 115457657 A 3

.PDF文档 专利 基于BERT模型的通道特征交互时间建模行为识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于BERT模型的通道特征交互时间建模行为识别方法 第 1 页 专利 基于BERT模型的通道特征交互时间建模行为识别方法 第 2 页 专利 基于BERT模型的通道特征交互时间建模行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:14:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。