说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210426677.6 (22)申请日 2022.04.21 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 曹晨雨 吴斌 王柏  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) (54)发明名称 基于知识蒸馏的视频多线索社交关系抽取 方法及装置 (57)摘要 本发明提出一种基于知识蒸馏的视频多线 索社交关系抽取方法及装置, 其中方法包括, 获 取待训练无约束场景视频的视频帧序列; 将视频 帧序列通过预先训练好的教师模 型进行预处理, 提取软目标; 将视频帧序列输入到学生模型中, 获取场景特征和语义特征, 同时通过余弦损失函 数进行同步训练以拉近场景特征和语义特征与 软目标的距离; 其中, 所述学生模型包括场景识 别模型和语义分析模型; 将场景特征和语义特征 通过多层注意力网络以及卷积层和池化层进行 特征提取并进行融合, 将融合后的特征、 场景特 征、 语义特征进行分段并作为三类节点进行构 图; 将构图后的节点特征通过图卷积网络作聚 合, 并经过分类器作分类, 生成视频多线索社交 关系提取框架。 权利要求书2页 说明书7页 附图2页 CN 114972841 A 2022.08.30 CN 114972841 A 1.一种基于知识蒸馏的视频多 线索社交关系抽取 方法, 其特 征在于, 包括以下步骤: 获取待训练无约束场景视频的视频帧序列; 将所述视频帧序列通过 预先训练好的教师模型进行 预处理, 提取软目标; 将所述视频帧序列输入到学生模型中, 获取场景特征和语义特征, 同时通过余弦损 失 函数进行同步训练以拉近所述场景特征和语义特征与所述软目标 的距离; 其中, 所述学生 模型包括场景识别模型和语义分析模型; 将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取 并进行融合, 将融合后的特征、 所述场景特征、 所述语义特征进 行分段并作为三类节点进 行 构图; 将构图后的节点特征通过图卷积网络作聚合, 并经过分类器作分类, 生成视频多线索 社交关系提取框架。 2.根据权利要求1所述的方法, 其特征在于, 在生成视频多线索社交关系提取框架后, 还包括: 获取待分析 无约束场景视频的视频帧序列; 将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提 取框架; 基于视频多线索社交关系提取框架提取 所述无约束场景视频中的社交关系。 3.根据权利要求1所述的方法, 其特征在于, 所述通过余弦损失函数进行同步训练以拉 近所述场景 特征和语义特 征与所述软目标的距离, 包括: 通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特 征空间, 再使用所述 余弦损失函数拉近所述软目标与所述场景 特征和语义特 征的距离 。 4.根据权利要求1所述的方法, 其特征在于, 所述将融合后的特征、 所述场景特征、 所述 语义特征进行分段并作为 三类节点进行构图, 包括: 将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自 身权重的特征并经过映射, 得到对应整个所述视频帧的特征序列, 选取特征的前半部 分, 中 间半部分和后半部分分别作为三个节点, 然后将所述融合后的特征、 所述语义特征和所述 场景特征作为三类节 点, 所述融合后的特征节点与所述语义特征节点和所述场景特征节点 进行全连接, 从而 进行构图。 5.根据权利要求1所述的方法, 其特 征在于, 在经 过分类器作分类之后, 还 包括: 通过将所述场景特征和语义特征的余弦损失函数以及分类损失函数进行加权融合对 所述学生模型进行训练。 6.一种基于知识蒸馏的视频多 线索社交关系抽取装置, 其特 征在于, 包括以下步骤: 获取模块, 用于获取待训练无约束场景视频的视频帧序列; 预处理模块, 用于将所述视频帧序列通过预先训练好的教师模型进行预处理, 提取软 目标; 蒸馏模块, 用于将所述视频帧序列输入到学生模型中, 获取场景特征和语义特征, 同时 通过余弦损失函数进 行同步训练以拉近所述场景特征和语义特征与所述软目标的距离; 其 中, 所述学生模型包括场景识别模型和语义分析模型; 构图模块, 用于将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层权 利 要 求 书 1/2 页 2 CN 114972841 A 2进行特征提取并进 行融合, 将融合后的特征、 所述场景特征、 所述语义特征进 行分段并作为 三类节点进行构图; 生成模块, 用于将构图后的节点特征通过图卷积网络作聚合, 并经过分类器作分类, 生 成视频多 线索社交关系提取框架。 7.根据权利要求6所述的装置, 其特 征在于, 还 包括提取模块, 用于: 获取待分析 无约束场景视频的视频帧序列; 将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提 取框架; 基于视频多线索社交关系提取框架提取 所述无约束场景视频中的社交关系。 8.根据权利要求6所述的装置, 其特 征在于, 所述蒸馏模块, 还用于: 通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特 征空间, 再使用所述 余弦损失函数拉近所述软目标与所述场景 特征和语义特 征的距离 。 9.根据权利要求6所述的装置, 其特 征在于, 所述构图模块, 还用于: 将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自 身权重的特征并经过映射, 得到对应整个所述视频帧的特征序列, 选取特征的前半部 分, 中 间半部分和后半部分分别作为三个节点, 然后将所述融合后的特征、 所述语义特征和所述 场景特征作为三类节 点, 所述融合后的特征节点与所述语义特征节点和所述场景特征节点 进行全连接, 从而 进行构图。 10.根据权利要求6所述的装置, 其特 征在于, 所述 生成模块, 还 包括训练单 元, 用于: 在经过分类器作分类之后, 通过将所述场景特征和语义特征的余弦损失函数以及 分类 损失函数进行加权融合对所述学生模型进行训练。权 利 要 求 书 2/2 页 3 CN 114972841 A 3

.PDF文档 专利 基于知识蒸馏的视频多线索社交关系抽取方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识蒸馏的视频多线索社交关系抽取方法及装置 第 1 页 专利 基于知识蒸馏的视频多线索社交关系抽取方法及装置 第 2 页 专利 基于知识蒸馏的视频多线索社交关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:38:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。