专利公交驾驶员怠速状态眨眼与打哈欠检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210942867.3 (22)申请日 2022.08.08 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人董红召　方浩杰　林少轩　杨嘉炜　全程　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. G06V 20/59(2022.01) G06V 40/16(2022.01) G06V 40/18(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 10/62(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称公交驾驶员怠速状态眨眼与打哈欠检测方法 (57)摘要公交驾驶员怠速状态眨眼与打哈欠检测方法，包括： S1、建立公交模拟驾驶平台；为保证后续数据集采集以及实验，建立由六自由度汽车性能虚拟仿真实验平台、驾驶仿真系统及模拟驾驶软件组成的公交模拟驾驶平台，并利用移动端设备进行图像数据采集； S2、建立数据集；在公交模拟驾驶平台模拟采集各类情况下驾驶图像数据，采用目标检测算法进行识别检测； S3、将图像数据输入目标检测模型训练；为提高脸部遮挡情况下检测能力，以及提高模型泛化能力，增加噪声数据，提升模型的鲁棒性，对于输入图像数据进行Mosaic数据增强；对于传入图像进行随机翻转、缩放、裁剪的处理，并将得到的图像进行依次拼接。权利要求书3页说明书8页附图3页 CN 115359461 A 2022.11.18 CN 115359461 A 1.公交驾驶员怠速状态眨眼与打哈欠检测方法，包括如下步骤： S1、建立公交模拟驾驶平台；为保证后续数据集采集以及实验，建立由六自由度汽车性能虚拟仿真实验平台、驾驶仿真系统及模拟驾驶软件组成的公交模拟驾驶平台，并利用移动端设备进行图像数据采集； S2、建立数据集；在公交模拟驾驶平台模拟采集各类情况下驾驶图像数据，采用目标检测算法进行识别检测；利用标注工具对数据集图片进行标注以及归一化处理；图像数据标注中，从时间序列的角度对图像数据进行标注，即在睁眼到闭眼，再从闭眼到睁眼的完整过程中，由人工判断将完全闭眼的图像数据标注为闭眼状态，其余数据均标注为睁眼状态；在获取完整打哈欠时间序列图像数据后，截取中部70％的图像数据并对其嘴部区域标注为张嘴，其余均标注为闭嘴状态；数据集共计7类标签，分别是未戴口罩(Um)、佩戴口罩(Ym)、睁眼(Oe)、闭眼(Ce)、张嘴 (Om)、闭嘴(Cm)、打哈欠(Ya)；标签框参数定义与计数逻辑方法相同，具体为(C， rx， ry， L， S)； C 为类别ID参数， rx和ry为目标中心点横纵坐标， L 为目标框较长边， S为目标框较短边； S3、将图像数据输入目标检测模型训练；为提高脸部遮挡情况下检测能力，以及提高模型泛化能力，增加噪声数据，提升模型的鲁棒性，对于输入图像数据进行Mosaic数据增强；对于传入图像进行随机翻转、缩放、裁剪的处理，并将得到的图像进行依次拼接； YOLOv5目标检测模型作为基础网络，并在此基础上进行改进； 31)由于头部旋转以及手部遮挡，会导致眼部、嘴部标签框形状多变，眼部标签框还会因为远近的原因导致两只眼睛标签框尺度不一，因此采用自适应锚框方法，锚框即为标签框；在每次训练之前对数据集中标注信息进行核查，并利用遗传算法随机对锚框进行变异，计算此数据集标注信息与锚定框的最佳召回率，并进行反复迭代覆盖，当最佳召回率大于或等于召回率阈值，则不需要更新锚定框； 32)通过增加结合层、卷积层、 C3层，整体分别多进行一次上采样和下采样，将主干网络中保留较多小目标特征信息的同尺度特征层输入结合层，进行特征融合操作，提高对于小目标检测性能； 33)对于不同层级进行特征融合；将主干网络多层计算结果一次或多次输入进入BiFPN 加强特征提取网络，当BiFPN自下而上的部分对于两个同尺度特征进行融合到自上而下结构时，同时对于三个同尺度特征利用跳跃连接的方式进行融合； 34、图像检测及检测结果逻辑判断； T1：公交驾驶员开启驾驶平台后，移动端图像采集设备开启，校核车速车况采集设备与移动端图像采集设备时间维度的一致性，将目标检测模型初始化，并结合车速判断是行驶状态还是怠速状态； T2：移动端设备将图像数据传入模型进行检测，即对视频采集到的数据每一帧都进行检测，检测的结果包括面部预测框参数、眼部预测框参数、嘴部预测框参数，打哈欠预测框参数，预测框参数包括类别ID，以及预测框中心坐标(rx， ry)，预测框长边(L)与短边(S)，以权　利　要　求　书 1/3 页 2 CN 115359461 A 2及置信度；由眼部区域计算眨眼计数，嘴部区域和打哈欠检测分别计算未佩戴口罩和佩戴口罩情况下的打哈欠次数； T3：针对于面部预测结果，首先查看面部检测预测框是否是唯一值，若仅存在一个结果，则直接输出结果；若存在多个值，则比较多个预测框的置信度，由于公交驾驶员驾驶位仅存在一位驾驶员，因此仅保留置信度最大的预测框；若单帧图像未检测出面部数据，则不进行后续操作判断；若连续1秒内未检测到面部数据，跳过其余步骤，直接结合车速车况数据进行判断：处于怠速状态则暂时停止疲劳状态检测，处于行驶状态则立即进行预警处理；若检测结果为佩戴口罩，则利用打哈欠预测结果计算打哈欠次数，若是未佩戴口罩则利用嘴部区域预测结果计算打哈欠次数； T4：面部预测结果处理完毕后，同步处理打哈欠、眼部、嘴部预测结果； 1)判断打哈欠预测结果：打哈欠检测结果仅在佩戴口罩情况下执行，因此当面部检测结果为佩戴口罩时才输出结果； 1a.面部检测结果为佩戴口罩时，首先查看打哈欠检测预测框是否是唯一值，若存在多个值，则比较多个预测框的置信度，仅保留置信度最大的预测框；若单帧图像未检测出嘴部数据，则可能存在遮挡问题，取上一帧嘴部区域检测结果进行替代； 1b.完成单帧图像检测后，在时间序列上结合多帧图像结果，对于打哈欠频率进行计算；打哈欠预测帧数大于等于10帧，满足该时间序列帧结果计一次打哈欠； 2)判断眼部预测结果： 2a.首先查看眼部检测预测框的个数，若眼部预测框大于两个，则仅保留置信度最大的两个预测框，并进行后续操作；若仅存在一个，则直接输出该预测框结果；若因遮挡或其他原因导致未存在眼部区域检测结果，则直接取上一帧眼部区域检测结果进行替代； 2b.当存在两个预测框时，首先比较两个检测框结果是否一致，若两只眼睛检测不一致，首先比较两个眼部区域预测框面积，如公式1所示， L右为右眼预测框长边(L)，以此类推；若比值A在0.8～1.2的区间内则认定公交驾驶员面部已处于正对状态，比较两个预测框的置信度，将置信度较大的预测框结果作为该帧图像眼部检测结果；若比值A不在该区间内，则处于大幅度偏转状态，此时比较两个预测框面积，取预测框面积较大的预测结果作为输出； 2c.完成单帧图像检测后，在时间序列上结合多帧图像结果，对于眨眼频率进行计算；当前帧输出结果为睁眼，且在接下来多帧结果均为闭眼，且帧数大于等于2帧，至出现图像帧结果为睁眼，满足该时间序列帧结果计一次眨眼； 3)判断嘴部预测结果：嘴部预测框判断逻辑与打哈欠检测框判断逻辑基本相同，在时间序列上结合多帧图像结果，当嘴部预测结果为张嘴的帧数大于等于10帧，直至出现图像帧结果为闭嘴，满足该时间序列帧结果计一次打哈欠。权　利　要　求　书 2/3 页 3 CN 115359461 A 3

专利 公交驾驶员怠速状态眨眼与打哈欠检测方法

专利公交驾驶员怠速状态眨眼与打哈欠检测方法