专利 操作动作识别方法、装置及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111624359.2 (22)申请日 2021.12.28 (65)同一申请的已公布的文献号申请公布号 CN 113989944 A (43)申请公布日 2022.01.28 (73)专利权人北京瑞莱智慧科技有限公司地址 100084 北京市海淀区清华科技园科技大厦A座19层 (72)发明人不公告发明人　 (74)专利代理机构北京中强智尚知识产权代理有限公司 1 1448 代理人吕梦雪 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01)G06V 10/774(2022.01) G06K 9/62(2022.01) (56)对比文件 CN 113762027 A,2021.12.07 审查员吴媛媛 (54)发明名称操作动作识别方法、装置及存储介质 (57)摘要本申请实施例涉及图像处理领域，并提供了一种操作动作识别方法、装置及存储介质。其中方法包括：获取待识别的视频数据，其中，视频数据包括多帧图像；按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签。上述方法能够有效的提升图像分类的准确性和泛化能力，并有效的解决了由于个人操作习惯、个人体貌特征和复杂背景影响所导致的误判率高的问题，还能够提高操作动作识别的效率。权利要求书3页说明书12页附图3页 CN 113989944 B 2022.04.08 CN 113989944 B 1.一种操作动作识别方法，其特征在于，所述方法包括：获取待识别的视频数据，其中，所述视频数据包括多帧图像；按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对所述各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签；其中，所述选区坐标的确定方法，包括：获取样本视频数据，其中，所述样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签；将所述多帧图像中的每一帧图像分别转换为光流图像，得到多帧光流图像，并按照操作动作标签将所述多帧光流图像划分为多个光流图像集；计算各个所述光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域；接收样本视频数据中预先选定的特征识别区域；将所述操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据所述多个规则形状的备选区域对应的坐标值，得到所述选区坐标。 2.根据权利要求1所述的方法，其特征在于，所述样本视频数据的标注方法，包括：获取样本视频数据，其中，所述样本视频数据包括多个完整工序的分片视频，每个分片视频包括至少一个操作动作的多帧图像；对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，其中，所述第一图像集包含目标操作动作的所有帧图像，所述目标操作动作为所述完整工序中的任意操作动作；为各个所述第一图像集中的所有帧图像设置所述目标操作动作对应的操作动作标签。 3.根据权利要求2所述的方法，其特征在于，所述对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注，得到多个第一图像集，包括：获取每个操作动作对应的预设起始动作和预设结束动作；根据所述每个操作动作对应的预设起始动作和预设结束动作，对所述样本视频数据中的每个操作动作的初始帧和结束帧分别进行标注；针对每个所述操作动作，根据所述操作动作的初始帧、结束帧以及所述初始帧和所述结束帧之间的所有帧图像，构建所述第一图像集；为所述样本视频数据中除所述多个第一图像集之外的所有帧图像设置非操作动作标签。 4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：对各个操作动作标签对应的帧图像的数量进行统计；根据所述各个操作动作标签对应的帧图像的数量中的最大值，确定目标数量区间；当任一所述操作动作标签对应的帧图像的数量未在所述目标数量区间时，通过复制操作获取所述操作动作标签对应的帧图像，以使所述操作动作标签对应的帧图像的数量在所述目标数量区间内。权　利　要　求　书 1/3 页 2 CN 113989944 B 25.根据权利要求1所述的方法，其特征在于，所述分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像，包括：分别对所述各帧图像的多个选区图像进行尺寸变换处理，得到所述各帧图像的多个尺寸相同的选区变换图像；按照预定的图像拼接顺序，分别将所述各帧图像的多个选区变换图像拼接为一个组合图像；依据所述预定尺寸，对所述各帧图像的组合图像中的空白区域进行图像填充，得到各帧图像的待识别图像。 6.根据权利要求1所述的方法，其特征在于，在按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像之前，所述方法还包括：获取所述待识别的视频数据对应的当前图像数据和预设的标准图像数据；通过特征匹配算法，根据所述当前图像数据和所述标准图像数据，得到所述标准图像数据到所述当前图像数据的放射转换矩阵；利用所述放射转换矩阵，将所述预先确定的选区坐标转换为当前图像数据的选区坐标；则所述按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，包括：按照当前图像数据的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像。 7.一种操作动作识别装置，其特征在于，所述装置包括：输入输出模块，用于获取待识别的视频数据，其中，所述视频数据包括多帧图像；处理模块，用于按照预先确定的选区坐标，分别从各帧图像中选取出多个规则形状的选区图像，其中，每个选区图像对应至少一个操作动作特征；分别对各帧图像的多个选区图像进行预处理，并将所述各帧图像预处理后的多个选区图像拼接为一个预定尺寸的待识别图像；对所述各帧图像的待识别图像进行分类处理，得到每帧图像的操作动作标签；所述输入输出模块，还用于输出每帧图像的操作动作标签；所述输入输出模块，还用于获取样本视频数据，其中，所述样本视频数据包括多帧图像，每帧图像标注有一个操作动作标签；所述处理模块，还用于将所述多帧图像中的每一帧图像分别转换为光流图像，得到多帧光流图像，并按照操作动作标签将所述多帧光流图像划分为多个光流图像集；计算各个所述光流图像集中的多帧光流图像的各个像素点的像素值均值，并将像素值均值大于预设像素值的像素点的集合确定为操作区域；接收样本视频数据中预先选定的特征识别区域；将所述操作区域和/或特征识别区域划分为多个规则形状的备选区域，并根据所述多个规则形状的备选区域对应的坐标值，得到所述选区坐标；所述输入输出模块，还用于输出所述选区坐标。 8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述权　利　要　求　书 2/3 页 3 CN 113989944 B 3

专利 操作动作识别方法、装置及存储介质

专利操作动作识别方法、装置及存储介质