专利基于知识蒸馏的视频多线索社交关系抽取方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210426677.6 (22)申请日 2022.04.21 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号北京邮电大学新科研楼627室 (72)发明人曹晨雨　吴斌　王柏　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) (54)发明名称基于知识蒸馏的视频多线索社交关系抽取方法及装置 (57)摘要本发明提出一种基于知识蒸馏的视频多线索社交关系抽取方法及装置，其中方法包括，获取待训练无约束场景视频的视频帧序列；将视频帧序列通过预先训练好的教师模型进行预处理，提取软目标；将视频帧序列输入到学生模型中，获取场景特征和语义特征，同时通过余弦损失函数进行同步训练以拉近场景特征和语义特征与软目标的距离；其中，所述学生模型包括场景识别模型和语义分析模型；将场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合，将融合后的特征、场景特征、语义特征进行分段并作为三类节点进行构图；将构图后的节点特征通过图卷积网络作聚合，并经过分类器作分类，生成视频多线索社交关系提取框架。权利要求书2页说明书7页附图2页 CN 114972841 A 2022.08.30 CN 114972841 A 1.一种基于知识蒸馏的视频多线索社交关系抽取方法，其特征在于，包括以下步骤：获取待训练无约束场景视频的视频帧序列；将所述视频帧序列通过预先训练好的教师模型进行预处理，提取软目标；将所述视频帧序列输入到学生模型中，获取场景特征和语义特征，同时通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离；其中，所述学生模型包括场景识别模型和语义分析模型；将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层进行特征提取并进行融合，将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图；将构图后的节点特征通过图卷积网络作聚合，并经过分类器作分类，生成视频多线索社交关系提取框架。 2.根据权利要求1所述的方法，其特征在于，在生成视频多线索社交关系提取框架后，还包括：获取待分析无约束场景视频的视频帧序列；将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提取框架；基于视频多线索社交关系提取框架提取所述无约束场景视频中的社交关系。 3.根据权利要求1所述的方法，其特征在于，所述通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离，包括：通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特征空间，再使用所述余弦损失函数拉近所述软目标与所述场景特征和语义特征的距离。 4.根据权利要求1所述的方法，其特征在于，所述将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图，包括：将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自身权重的特征并经过映射，得到对应整个所述视频帧的特征序列，选取特征的前半部分，中间半部分和后半部分分别作为三个节点，然后将所述融合后的特征、所述语义特征和所述场景特征作为三类节点，所述融合后的特征节点与所述语义特征节点和所述场景特征节点进行全连接，从而进行构图。 5.根据权利要求1所述的方法，其特征在于，在经过分类器作分类之后，还包括：通过将所述场景特征和语义特征的余弦损失函数以及分类损失函数进行加权融合对所述学生模型进行训练。 6.一种基于知识蒸馏的视频多线索社交关系抽取装置，其特征在于，包括以下步骤：获取模块，用于获取待训练无约束场景视频的视频帧序列；预处理模块，用于将所述视频帧序列通过预先训练好的教师模型进行预处理，提取软目标；蒸馏模块，用于将所述视频帧序列输入到学生模型中，获取场景特征和语义特征，同时通过余弦损失函数进行同步训练以拉近所述场景特征和语义特征与所述软目标的距离；其中，所述学生模型包括场景识别模型和语义分析模型；构图模块，用于将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层权　利　要　求　书 1/2 页 2 CN 114972841 A 2进行特征提取并进行融合，将融合后的特征、所述场景特征、所述语义特征进行分段并作为三类节点进行构图；生成模块，用于将构图后的节点特征通过图卷积网络作聚合，并经过分类器作分类，生成视频多线索社交关系提取框架。 7.根据权利要求6所述的装置，其特征在于，还包括提取模块，用于：获取待分析无约束场景视频的视频帧序列；将所述待分析无约束场景视频的视频帧序列输入所述待分析视频多线索社交关系提取框架；基于视频多线索社交关系提取框架提取所述无约束场景视频中的社交关系。 8.根据权利要求6所述的装置，其特征在于，所述蒸馏模块，还用于：通过池化将所述场景特征和语义特征与教师模型输出的所述软目标映射到同一个特征空间，再使用所述余弦损失函数拉近所述软目标与所述场景特征和语义特征的距离。 9.根据权利要求6所述的装置，其特征在于，所述构图模块，还用于：将所述场景特征和语义特征通过多层注意力网络以及卷积层和池化层提取出调整自身权重的特征并经过映射，得到对应整个所述视频帧的特征序列，选取特征的前半部分，中间半部分和后半部分分别作为三个节点，然后将所述融合后的特征、所述语义特征和所述场景特征作为三类节点，所述融合后的特征节点与所述语义特征节点和所述场景特征节点进行全连接，从而进行构图。 10.根据权利要求6所述的装置，其特征在于，所述生成模块，还包括训练单元，用于：在经过分类器作分类之后，通过将所述场景特征和语义特征的余弦损失函数以及分类损失函数进行加权融合对所述学生模型进行训练。权　利　要　求　书 2/2 页 3 CN 114972841 A 3

专利 基于知识蒸馏的视频多线索社交关系抽取方法及装置

专利基于知识蒸馏的视频多线索社交关系抽取方法及装置