说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211023079.0 (22)申请日 2022.08.25 (71)申请人 山东聚祥机 械股份有限公司 地址 274900 山东省菏泽市巨野县城彭泽 路西段路南 (72)发明人 庞守恩 沈胜庆 薛兵 杨纪冲 (74)专利代理 机构 深圳市广诺专利代理事务所 (普通合伙) 44611 专利代理师 刘伟 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) H04N 21/234(2011.01) H04N 21/44(2011.01) (54)发明名称 一种视频场景分类方法及系统 (57)摘要 本发明公开了一种视频场景分类方法及系 统, 具体涉及视频场景分类技技术领域, 视频场 景分类方法包括在视频的部分模态存在数据缺 失的前提下, 通过训练好的视频场景分类方法, 得到部分模态数据缺失情况下的视频场景分类 结果; 视频场景分类系统包括: 特征学习模块和 视频场景分类模块。 本发明基于松弛一致性和多 模态结构保持, 通过放松对多模态语义一致性的 限制, 使得视频各模态间的互补性得 以保持, 通 过多模态结构保持约束, 实现各模态数据在非线 性变换前后相似性得以保持, 通过上述两个约 束, 学习具有更丰富语义表征能力的视频场景特 征表示, 提高场景分类的准确率。 权利要求书2页 说明书5页 附图2页 CN 115393764 A 2022.11.25 CN 115393764 A 1.一种视频场景分类方法, 其特征在于: 包括: 在视频的部分模态存在数据缺失的前提 下, 通过训练好的视频场景分类方法, 得到部 分模态数据缺 失情况下的视频场景分类结果; 上述视频场景分类方法包括以下几部分: 视频的视觉、 声音、 文本三个模态数据通过各自非 线性映射网络, 实现非线性特征变换; 所有模态样本经过各自多层神经网络的非线性变换 后, 转化为新的特征表示, 其中缺 失的样本采用全零向量表 示, 为了保持同一样本多个模态 之间的语义一致性, 将样本集各模态变换后的特征再次加权, 加权后的各模态特征与该样 本其它模态特征计算相似性; 最小化相似性, 得到具有松弛一致性的各模态新的特征表示; 通过上述松弛一致性保持的约束, 得到新的特征向量, 计算各模态样 本之间的相似性, 使得 各个模态样本都可以保持特征变换前后的相似性, 实现多模态结构保持; 通过样本各模态 的非线性变换和松弛一致性及结构保持约束, 得到视觉、 声音、 文本三个模态的新的特征表 示, 将该特征表示向量经 过全连接层, 得到存在部分模态数据缺失的视频场景分类结果。 2.根据权利要求1所述的一种视频场景分类方法, 其特征在于: 非线性变换网络包括三 个多层神经网络, 输入分别为视觉、 声音和文本模态原始特征, 非线性变换后的特征加权为 线性加权 。 3.根据权利要求1所述的一种视频场景分类方法, 其特征在于: 视频场景分类方法训练 的过程包括: S1: 获取视频场景数据集, 去除部分数据构 造模态缺失数据集; S2: 各模态经过 多层神经网络的非线性变换, 得到非线性变换后的视觉、 声音、 文本模态的特征表 示; S3: 将 每个模态变换后的特征表示进 行线性加权, 并与同一样本其它模态相应加权后特征计算相 似性; S4: 将 每个模态分别计算样本 之间的相似性, 使得多个模态都可以保持特征变换前后 的相似性; S5: 对松弛一致性损失和结构性保持损失进行加权求和, 通过最小化损失和, 学 习得到各模态最优的特征表示; S 6: 最后通过全连接层将三个模态的特征融合, 并通过多层 神经网络进行分类。 4.根据权利要求3所述的一种视频场景分类方法, 其特征在于: S1具体为: 对原始真实 数据集进行预处理, 从中挑选出数据完整的视频作为本方法的ground truth数据集, 从中 挑选部分视频, 去掉其中任一或者两个模态, 制造数据缺 失数据集; 在数据预 处理之后还包 括: 视频各模态数据分离和视频各模态特征提取: 视频各模态数据分离: 视频数据包含三个 模态, 分别为视觉模态、 声音模态、 文本模态; 首先通过关键帧提取方法, 提取视频数据的关 键帧, 作为视觉模态数据; 然后通过音频提取方法, 提取视频的音频信息, 作为音频模态的 数据; 最后将视频中的评论、 话题信息作为文本模态的数据; 视频各模态特征提取: 视频各 模态首先进行特征提取, 其中视觉模态的各帧通过卷积神经网络提取图像特征; 声音模态 通过去噪自编码器提取音频特征; 文本模态通过sentence2v ector方法提取该模态特征, 存 在数据缺失的各模态数据, 特 征向量为空。 5.根据权利要求4所述的一种视频场景分类方法, 其特征在于: S5中计算松弛一致性损 失: 松弛一致性损失主要是通过线性变换后计算同意样本不同模态之间的相似性, 通过线 性加权可以对强一致性损失进行松弛; 计算结构性保持损失: 通过特征变换前后同一模态 不同样本之间的相似性保持, 保持视频 数据特征变换前后样本之间的相似性。 6.根据权利要求5所述的一种视频场景分类方法, 其特征在于: S6中网络训练: 将松弛 一致性损失和结构性保持损失加权求和, 作为特征学习阶段的损失函数, 通过反向传播算 法进行训练, 直到损失收敛或达到某个设定值; 将交叉熵损失作为分类阶段的损失函数, 通权 利 要 求 书 1/2 页 2 CN 115393764 A 2过反向传播算法进行训练, 直到损失收敛或达到某个特定值, 结束训练过程; 判别阶段: 将 未经训练的测试集样本输入训练好的网络结构, 通过学习阶段的网络结构输出特征表示, 并将特征表示输入判别网络, 输出分类结果。 7.一种权利要求1 ‑6任一项所述的视频场景分类方法的视频场景分类系统, 其特征在 于: 包括: 特征学习模块, 其被配置为: 基于存在部 分模态缺 失的视频场景数据, 采用训练好 的特征学习网络结构进 行特征学习, 得到视觉、 声音和文本三个模态的特征表 示; 视频场景 分类模块, 其被配置为: 基于特征学习模块得到的各模态的特征表 示, 将其作为本模块的输 入, 通过本模块的多层神经网络融合多模态特 征并进行分类。权 利 要 求 书 2/2 页 3 CN 115393764 A 3
专利 一种视频场景分类方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 10:13:04
上传分享
举报
下载
原文档
(418.7 KB)
分享
友情链接
ISO IEC TS 17021-7 2014 Conformity assessment — Requirements for bodies providin.pdf
ISO 13640 2018 Buildings and civil engineering works Sealants Specifications for test substrates.pdf
ISO 5-4 2009 Photography and graphic technology — Density measurements — Part 4 Geometric conditions for reflection density.pdf
ISO TR 20520 2018 Traditional Chinese medicine — Infection control for acupuncture t.pdf
ISO 6898 1984 Open front mechanical power presses — Capacity ratings and dimensions.pdf
ISO 1839:1980 Tea - Sampling.pdf
ISO IEC 14496-33 2019 Information technology — Coding of audio-visual objects — Part 33 Internet video coding.pdf
ISO 8733 1997 Parallel pins with internal thread of unhardened steel and austenitic stainless steel.pdf
ISO 17266 2018 Cinematography — Multichannel analogue and digital photographic sound and control records on 35 mm motion-picture prints and negatives, and digital sound-control records on.pdf
ISO IEC 7816-8 2021 Identification cards — Integrated circuit cards — Part 8 Commands and mechanisms for security operations.pdf
GB-T 28772-2012 内燃机油分类.pdf
GB-T 17626.1-2006 电磁兼容 试验和测量技术 抗扰度试验总论.pdf
GB-T 20703-2006 船舶电气装置 取暖和烹调电器.pdf
GB-T 39352-2020 空间数据与信息传输系统 邻近空间链路协议 数据链路层.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB 11555-2009 汽车风窗玻璃除霜和除雾系统的性能和试验方法.pdf
GB-T 32424-2015 系统与软件工程 用户文档的设计者和开发者要求.pdf
GB-T 23602-2009 钛及钛合金表面除鳞和清洁方法.pdf
GB-T 2793-1995 胶粘剂不挥发物含量的测定.pdf
GB-T 40374-2021 硬质合金化学分析方法 铅量和镉量的测定 火焰原子吸收光谱法和电感耦合等离子体原子发射光谱法.pdf
1
/
3
10
评价文档
赞助1.5元 点击下载(418.7 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。