专利基于特征和动作的视频行为检测人工智能方法和机器人

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211072481.8 (22)申请日 2022.09.02 (71)申请人华南师范大学地址 510631 广东省广州市天河区中山大道西55号 (72)发明人朱定局　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师彭东梅 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/10(2022.01) G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01)G06N 3/04(2006.01) (54)发明名称基于特征和动作的视频行为检测人工智能方法和机器人 (57)摘要基于特征和动作的视频行为检测人工智能方法和机器人，包括：典型特征选择步骤；典型特征检测步骤；待检测帧标记步骤；待检测视频片段截取步骤；预设类型的行为动作检测步骤；待检测视频标记步骤。上述方法、系统和机器人，通过先选择典型特征可以得到行为动作的典型特征种类，然后检测典型特征，再在具备典型特征的那些视频段进行预设类型的行为动作的检测，就减少了很多不含有典型特征的视频段的检测，从而可以极大地提高检测的速度和效率。这种方式，对于实时视频获取同样适用，在没有典型特征出现时则无需进行预设类型的行为动作的检测，从而可以极大地节省计算成本，提高检测速度，能够达到实时检测的效果。权利要求书4页说明书12页附图3页 CN 115376049 A 2022.11.22 CN 115376049 A 1.一种人工智能方法，其特征在于，所述方法包括：典型特征选择步骤：获取每一种预设类型的行为动作的K个视频片段(K为大于1的自然数)，将所述多个视频片段中每一视频片段作为输入，通过预设的物体检测深度学习模型计算，得到所述每一种预设类型的行为动作的所述每一视频片段中的每一物体类型，将所述每一视频片段中的每一物体类型加入典型特征备选集合；统计典型特征备选集合中每一物体类型的数量，若所述每一物体类型的数量/K大于或等于预设比例，则将所述每一物体类型作为一种典型特征；典型特征检测步骤:获取待检测视频中每一帧图像，将所述每一帧图像作为输入，通过典型特征检测深度学习模型的计算，得到的输出作为所述每一帧图像的典型特征的标签；若所述每一帧图像的典型特征的标签不为空，则根据所述每一帧图像的典型特征的标签中的标记范围从所述每一帧图像中截取标记范围内的图像；将所述标记范围内的图像作为输入，通过人物识别图像深度学习模型的计算，得到的输出作为所述每一帧图像的典型特征的标签中人物的信息；待检测帧标记步骤：获取所述待检测视频中每一帧图像及所述每一帧图像的典型特征的标签；若所述每一帧图像的典型特征的标签不为空，则将根据所述典型特征的标签中典型特征的名称确定对应的预设类型的行为动作的预设最大时长，作为待检测预设时长；若所述典型特征的标签有多个不为空，则根据所述典型特征的多个标签中多个典型特征的名称确定对应的多个预设类型的行为动作的多个预设最大时长，取多个预设最大时长中最大的多个预设最大时长，作为待检测预设时长；若所述每一帧图像的典型特征的标签不为空，则将所述每一帧图像标记为待检测帧，将所述每一帧图像前所述待检测预设时长/2的时长的所有帧标记为待检测帧，将所述每一帧图像后所述待检测预设时长/2的时长的所有帧标记为待检测帧；有些帧会被重复地标记为待检测帧，有些帧则不会被标记为待检测帧；待检测视频片段截取步骤：将所述待检测视频中标记为待检测帧且未标记为已抽取的连续帧抽取出来作为一个待检测视频片段，将已抽取的待检测帧标记为已抽取；预设类型的行为动作检测步骤：将所述待检测视频片段作为输入，经过预设类型的行为动作检测深度学习模型计算得到的输出作为所述待检测视频片段中预设类型的行为动作的标签；将所述标记范围内的视频片段作为输入，通过人物视频识别深度学习模型的计算，得到的输出作为所述视频片段的预设类型的行为动作的标签中人物的信息；将所有所述待检测视频片段中预设类型的行为动作的标签作为所述待检测视频中预设类型的行为动作的标签；待检测视频标记步骤：将所述带有每一种预设类型的行为动作的标签的所述待检测视频片段替换所述待检测视频中对应的所述待检测视频片段，得到标记了预设类型的行为动作后的待检测视频。 2.根据权利要求1所述的人工智能方法，其特征在于，所述方法还包括：视频获取步骤：获取待检测视频；预设类型的行为动作设置步骤：获取用户设置的预设类型的行为动作；获取预设类型的行为动作的视频步骤：获取每一种所述预设类型的行为动作的视频样本；获取预设类型的行为动作典型特征设置步骤：获取用户设置的预设类型的行为动作的权　利　要　求　书 1/4 页 2 CN 115376049 A 2典型特征；获取预设类型的行为动作的典型特征的图像步骤：获取每一种所述典型特征的图像样本。 3.根据权利要求1所述的人工智能方法，其特征在于，所述方法还包括：建立视频行为知识图谱步骤：建立多个预设类型的行为动作实体、多个典型特征实体、多个人物实体、多个监管部门实体、多个监管人员实体；视频行为知识图谱关系定义步骤：人物实体通过具有关系指向预设类型的行为动作实体；人物实体通过具有关系指向典型特征实体；人物实体通过在关系指向监管部门实体；监管人员实体通过在关系指向监管部门实体；视频行为知识图谱静态关系生成步骤：根据用户设置的预设类型的行为动作的典型特征，在典型特征实体和预设类型的行为动作实体之间建立关系。 4.根据权利要求1所述的人工智能方法，其特征在于，所述方法还包括：典型特征检测模型构建步骤:将每一种典型特征的图像样本作为输入，将所述每一种典型特征的标签作为预期输出，对深度学习模型进行训练和测试，得到典型特征检测深度学习模型；预设类型的行为动作检测模型构建步骤:将每一种预设类型的行为动作的视频样本作为输入，将所述每一种预设类型的行为动作的标签作为预期输出，对深度学习模型进行训练和测试，得到预设类型的行为动作检测深度学习模型；人物图像识别模型构建步骤：获取每一人物的照片，将所述每一人物的照片作为输入，将所述人物的信息作为预期输出，对人脸图像识别深度学习模型进行迁移学习，得到人物图像识别深度学习模型；人物视频识别模型构建步骤：获取每一人物的视频，将所述每一人物的视频作为输入，将所述人物的信息作为预期输出，对人脸视频识别深度学习模型进行迁移学习，得到人物视频识别深度学习模型。 5.一种人工智能系统，其特征在于，所述系统包括：典型特征检测模块:获取所述待检测视频中每一帧图像，将所述每一帧图像作为输入，通过典型特征检测深度学习模型的计算，得到的输出作为所述每一帧图像的典型特征的标签；若所述每一帧图像的典型特征的标签不为空，则根据所述每一帧图像的典型特征的标签中的标记范围从所述每一帧图像中截取标记范围内的图像；将所述标记范围内的图像作为输入，通过人物识别图像深度学习模型的计算，得到的输出作为所述每一帧图像的典型特征的标签中人物的信息；待检测帧标记模块：获取所述待检测视频中每一帧图像及所述每一帧图像的典型特征的标签；若所述每一帧图像的典型特征的标签不为空，则将根据所述典型特征的标签中典型特征的名称确定对应的预设类型的行为动作的预设最大时长，作为待检测预设时长；若所述典型特征的标签有多个不为空，则根据所述典型特征的多个标签中多个典型特征的名称确定对应的多个预设类型的行为动作的多个预设最大时长，取多个预设最大时长中最大的多个预设最大时长，作为待检测预设时长；若所述每一帧图像的典型特征的标签不为空，则将所述每一帧图像标记为待检测帧，将所述每一帧图像前所述待检测预设时长/2的时长的所有帧标记为待检测帧，将所述每一帧图像后所述待检测预设时长/2的时长的所有帧标权　利　要　求　书 2/4 页 3 CN 115376049 A 3

专利 基于特征和动作的视频行为检测人工智能方法和机器人

专利基于特征和动作的视频行为检测人工智能方法和机器人