(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111624359.2
(22)申请日 2021.12.28
(65)同一申请的已公布的文献号
申请公布号 CN 113989944 A
(43)申请公布日 2022.01.28
(73)专利权人 北京瑞莱智慧科技有限公司
地址 100084 北京市海淀区清华科技园科
技大厦A座19层
(72)发明人 不公告发明人
(74)专利代理 机构 北京中强智尚知识产权代理
有限公司 1 1448
代理人 吕梦雪
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)G06V 10/774(2022.01)
G06K 9/62(2022.01)
(56)对比文件
CN 113762027 A,2021.12.07
审查员 吴媛媛
(54)发明名称
操作动作识别方法、 装置及存 储介质
(57)摘要
本申请实施例涉及图像处理领域, 并提供了
一种操作动作识别方法、 装置及存储介质。 其中
方法包括: 获取待识别的视频数据, 其中, 视频数
据包括多帧图像; 按照预先确定的选区坐标, 分
别从各帧图像中选取出多个规则形状的选区图
像, 其中, 每个选区图像对应至少一个操作动作
特征; 分别对 各帧图像的多个选区图像进行预处
理, 并将各帧图像预处理后的多个选区图像拼接
为一个预定尺 寸的待识别图像; 对 各帧图像的待
识别图像进行分类处理, 得到每帧图像的操作动
作标签。 上述方法能够有效的提升图像 分类的准
确性和泛化能力, 并有效的解决了由于个人操作
习惯、 个人体貌特征和复杂背景影 响所导致的误
判率高的问题, 还能够提高操作动作识别的效
率。
权利要求书3页 说明书12页 附图3页
CN 113989944 B
2022.04.08
CN 113989944 B
1.一种操作动作识别方法, 其特 征在于, 所述方法包括:
获取待识别的视频 数据, 其中, 所述视频 数据包括多帧图像;
按照预先确定的选区坐标, 分别从各帧图像 中选取出多个规则形状的选区图像, 其中,
每个选区图像对应至少一个操作动作特 征;
分别对各帧图像的多个选区图像进行预处理, 并将所述各帧图像预处理后的多个选区
图像拼接为 一个预定尺寸的待识别图像;
对所述各帧图像的待识别图像进行分类处 理, 得到每帧图像的操作动作标签;
其中, 所述选区坐标的确定方法, 包括:
获取样本视频数据, 其中, 所述样本视频数据包括多帧图像, 每帧图像标注有一个操作
动作标签;
将所述多帧图像中的每一帧图像分别转换为光流图像, 得到多帧光流图像, 并按照操
作动作标签将所述多帧光 流图像划分为多个光 流图像集;
计算各个所述光流图像集中的多帧光流图像的各个像素点的像素值均值, 并将像素值
均值大于预设像素值的像素点的集 合确定为操作区域;
接收样本 视频数据中预 先选定的特征识别区域;
将所述操作区域和/或特征识别区域划分为多个规则形状的备选区域, 并根据所述多
个规则形状的备选区域对应的坐标值, 得到所述选区坐标。
2.根据权利要求1所述的方法, 其特 征在于, 所述样本 视频数据的标注方法, 包括:
获取样本视频数据, 其中, 所述样本视频数据包括多个完整工序的分片视频, 每个分片
视频包括至少一个操作动作的多帧图像;
对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注, 得到多个第
一图像集, 其中, 所述第一图像集包含目标操作动作的所有帧图像, 所述目标操作动作为所
述完整工序中的任意操作动作;
为各个所述第一图像集中的所有帧图像设置所述目标操作动作对应的操作动作标签。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述样本视频数据中的每个操作动
作的初始帧和结束帧分别进行 标注, 得到多个第一图像集, 包括:
获取每个操作动作对应的预设起始动作和预设结束动作;
根据所述每个操作动作对应的预设起始动作和预设结束动作, 对所述样本视频数据中
的每个操作动作的初始帧和结束帧分别进行 标注;
针对每个所述操作动作, 根据所述操作动作的初始帧、 结束帧以及所述初始帧和所述
结束帧之间的所有帧图像, 构建所述第一图像集;
为所述样本视频数据中除所述多个第一图像集之外的所有帧图像设置非操作动作标
签。
4.根据权利要求2或3所述的方法, 其特 征在于, 所述方法还 包括:
对各个操作动作标签对应的帧图像的数量进行统计;
根据所述各个操作动作标签对应的帧图像的数量中的最大值, 确定目标 数量区间;
当任一所述操作动作标签对应的帧图像的数量未在所述目标数量 区间时, 通过复制操
作获取所述操作动作标签对应的帧图像, 以使 所述操作动作标签对应的帧图像的数量在所
述目标数量区间内。权 利 要 求 书 1/3 页
2
CN 113989944 B
25.根据权利要求1所述的方法, 其特征在于, 所述分别对各帧图像的多个选区图像进行
预处理, 并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像,
包括:
分别对所述各帧图像的多个选区图像进行尺寸变换处理, 得到所述各帧图像的多个尺
寸相同的选区变换图像;
按照预定的图像拼接顺序, 分别将所述各帧图像的多个选区变换图像拼接为一个组合
图像;
依据所述预定尺寸, 对所述各帧图像的组合图像中的空白区域进行图像填充, 得到各
帧图像的待识别图像。
6.根据权利要求1所述的方法, 其特征在于, 在按照预先确定的选区坐标, 分别从各帧
图像中选取 出多个规则形状的选区图像之前, 所述方法还 包括:
获取所述待识别的视频 数据对应的当前图像数据和预设的标准图像数据;
通过特征匹配算法, 根据所述当前图像数据和所述标准图像数据, 得到所述标准图像
数据到所述当前图像数据的放 射转换矩阵;
利用所述放射转换矩阵, 将所述预先确定的选区坐标转换为当前图像数据的选区坐
标;
则所述按照预先确定的选区坐标, 分别从各帧图像中选取出多个规则形状的选区图
像, 包括:
按照当前图像数据的选区坐标, 分别从各帧图像中选取 出多个规则形状的选区图像。
7.一种操作动作识别装置, 其特 征在于, 所述装置包括:
输入输出模块, 用于获取待识别的视频 数据, 其中, 所述视频 数据包括多帧图像;
处理模块, 用于按照预先确定的选区坐标, 分别从各帧图像中选取出多个规则形状的
选区图像, 其中, 每个选区图像对应至少一个操作动作特征; 分别对 各帧图像的多个选区图
像进行预处理, 并将所述各帧图像预 处理后的多个选区图像拼接为一个预定尺寸的待识别
图像; 对所述各帧图像的待识别图像进行分类处 理, 得到每帧图像的操作动作标签;
所述输入输出模块, 还用于 输出每帧图像的操作动作标签;
所述输入输出模块, 还用于获取样本视频数据, 其中, 所述样本视频数据包括多帧图
像, 每帧图像标注有一个操作动作标签;
所述处理模块, 还用于将所述多帧图像中的每一帧图像分别转换为光流图像, 得到多
帧光流图像, 并按照操作动作标签将所述多帧光流图像划分为多个光流图像集; 计算各个
所述光流图像集中的多帧光流图像的各个像素点的像素值均值, 并将像素值均值大于预设
像素值的像素点的集合确定为操作区域; 接 收样本视频数据中预先选定的特征识别区域;
将所述操作区域和/或特征识别区域划分为多个规则形状的备选区域, 并根据所述多个规
则形状的备选区域对应的坐标值, 得到所述选区坐标;
所述输入输出模块, 还用于 输出所述选区坐标。
8.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执行
时实现权利要求1至 6中任一项所述的方法的步骤。
9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述计算机程序被处理器执行时实现权利要求1至6中任一项所述权 利 要 求 书 2/3 页
3
CN 113989944 B
3
专利 操作动作识别方法、装置及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:11上传分享