说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210942867.3 (22)申请日 2022.08.08 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 董红召 方浩杰 林少轩 杨嘉炜  全程  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 楼明阳 (51)Int.Cl. G06V 20/59(2022.01) G06V 40/16(2022.01) G06V 40/18(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 10/62(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 公交驾驶员怠速状态眨眼与打哈欠检测方 法 (57)摘要 公交驾驶员怠速状态眨眼与打哈欠检测方 法, 包括: S1、 建立公交模拟驾驶平台; 为保证后 续数据集采集以及实验, 建立由六自由度汽车性 能虚拟仿真实验平台、 驾驶仿真系统及模拟驾驶 软件组成的公交模拟驾驶平台, 并利用移动端设 备进行图像数据采集; S2、 建立数据集; 在公交模 拟驾驶平台模拟采集各类情况下驾驶图像数据, 采用目标检测算法进行识别检测; S3、 将图像数 据输入目标检测模型训练; 为提高脸部遮挡情况 下检测能力, 以及提高模型泛化能力, 增加噪声 数据, 提升模型的鲁棒性, 对于输入图像数据进 行Mosaic数据增强; 对于传入图像进行随机翻 转、 缩放、 裁剪的处理, 并将得到的图像进行依次 拼接。 权利要求书3页 说明书8页 附图3页 CN 115359461 A 2022.11.18 CN 115359461 A 1.公交驾驶员怠速状态眨眼与打哈欠检测方法, 包括如下步骤: S1、 建立公交模拟 驾驶平台; 为保证后续数据集采集以及实验, 建立由六自由度汽车性能虚拟仿真实验平台、 驾驶 仿真系统及模拟驾驶软件组成的公交模拟驾驶平台, 并利用移动端设备进行图像数据采 集; S2、 建立数据集; 在公交模拟驾驶平台模拟采集各类情况下驾驶图像数据, 采用目标检测算法进行识别 检测; 利用标注工具对数据集图片进行标注以及归一化处理; 图像数据标注中, 从时间序列 的角度对图像数据进 行标注, 即在睁眼到闭眼, 再从闭眼到睁眼的完整 过程中, 由人工判断 将完全闭眼的图像数据标注为闭眼状态, 其余数据均标注为睁眼状态; 在获取完整打 哈欠 时间序列图像数据后, 截取中部70%的图像数据并对其嘴部区域标注为张嘴, 其余均标注 为闭嘴状态; 数据集共计7类标签, 分别是未戴口罩(Um)、 佩戴口罩(Ym)、 睁眼(Oe)、 闭眼(Ce)、 张嘴 (Om)、 闭嘴(Cm)、 打哈欠(Ya); 标签框参数定 义与计数逻辑 方法相同, 具体 为(C, rx, ry, L, S); C 为类别ID参数, rx和ry为目标中心点横纵坐标, L 为目标框较长边, S为目标框较短边; S3、 将图像数据输入目标检测模型训练; 为提高脸部遮挡情况下检测能力, 以及提高模型泛化能力, 增加噪声数据, 提升模型的 鲁棒性, 对于输入图像数据进行Mosaic数据增强; 对于传入图像进行 随机翻转、 缩放、 裁剪 的处理, 并将得到的图像进行依次拼接; YOLOv5目标检测模型作为基础网络, 并在此基础上进行改进; 31)由于头部旋转以及手部遮挡, 会导致眼部、 嘴部标签框形状多变, 眼部标签框还会 因为远近的原因导致两只眼睛标签框尺度不一, 因此采用自适应锚框方法, 锚框即为标签 框; 在每次训练之前对数据集中标注信息进 行核查, 并利用遗传算法随机对锚框进 行变异, 计算此数据集标注信息与锚定框的最佳召回率, 并进行反复迭代覆盖, 当最佳召回率大于 或等于召回率阈值, 则不需要更新锚定 框; 32)通过增加结合层、 卷积层、 C3层, 整体分别 多进行一次上采样和下采样, 将主干网络 中保留较多小目标特征信息的同尺度特征层输入结合层, 进行特征融合操作, 提高对于小 目标检测性能; 33)对于不同层级进行特征融合; 将主干网络多层计算结果一次或多次输入进入BiFPN 加强特征提取网络, 当BiFPN自下而上的部分对于两个同尺度特征进行融合到自上而下结 构时, 同时对于三个同尺度特 征利用跳跃 连接的方式进行融合; 34、 图像检测及检测结果逻辑判断; T1: 公交驾驶员开启驾驶平台后, 移动端图像采集设备开启, 校核车速车况采集设备与 移动端图像采集设备时间维度的一致性, 将目标检测模型初始化, 并结合车速判断是行驶 状态还是怠速状态; T2: 移动端设备将图像数据传入模型进行检测, 即对视频采集到的数据每一帧都进行 检测, 检测的结果包括面部预测框参数、 眼部预测框参数、 嘴部预测框参数, 打哈欠预测框 参数, 预测框参数包括类别ID, 以及预测框中心坐标(rx, ry), 预测框长边(L)与短边(S), 以权 利 要 求 书 1/3 页 2 CN 115359461 A 2及置信度; 由眼部区域计算眨眼计数, 嘴部区域和打 哈欠检测分别计算未佩戴口罩和佩戴 口罩情况 下的打哈欠次数; T3: 针对于面部预测结果, 首先查看面部检测预测框是否是唯一值, 若仅存在一个结 果, 则直接输出结果; 若存在多个值, 则比较多个预测框的置信度, 由于公交驾驶员驾驶位 仅存在一位驾驶员, 因此仅保留置信度最大的预测框; 若单帧图像未检测出面部数据, 则不 进行后续操作判断; 若连续1秒 内未检测到面部数据, 跳过其余步骤, 直接结合车速车况数 据进行判断: 处于怠速状态则暂时停止疲劳状态检测, 处于行驶状态则立即进 行预警处理; 若检测结果为佩戴口罩, 则利用打 哈欠预测结果计算打 哈欠次数, 若是未佩戴口罩则利用 嘴部区域预测结果计算打哈欠次数; T4: 面部预测结果处 理完毕后, 同步处 理打哈欠、 眼部、 嘴部预测结果; 1)判断打哈欠预测结果: 打哈欠检测结果仅在佩戴口罩情况下执行, 因此当面部检测结果为佩戴口罩 时才输出 结果; 1a.面部检测结果为佩戴口罩 时, 首先查看打哈欠检测预测框是否是唯一值, 若存在多 个值, 则比较多个预测框的置信度, 仅保留置信度最大的预测框; 若 单帧图像未检测出嘴部 数据, 则可能存在遮挡问题, 取 上一帧嘴部区域检测结果进行替代; 1b.完成单帧图像检测后, 在时间序列上结合多帧图像结果, 对于打哈欠频率进行计 算; 打哈欠预测帧数 大于等于10帧, 满足该时间序列帧结果计一次打哈欠; 2)判断眼部预测结果: 2a.首先查看眼部检测预测框的个数, 若眼部预测框大于两个, 则仅保留置信度最大的 两个预测框, 并进行后续操作; 若仅存在一个, 则直接输出该预测框结果; 若因遮挡或其他 原因导致未存在眼部区域检测结果, 则直接取 上一帧眼部区域检测结果进行替代; 2b.当存在两个预测框时, 首先 比较两个检测框结果是否一致, 若两只眼睛检测不一 致, 首先比较两个眼部区域预测框面积, 如公 式1所示, L右为右眼预测框长边(L), 以此类推; 若比值A在0.8~1.2的区间内则认定公交驾驶员面部已处于正对状态, 比较两个预测 框的 置信度, 将置信度较大的预测框结果作为该帧图像眼部检测结果; 若比值A不在该区间内, 则处于大幅度偏转状态, 此时比较两个预测框面积, 取预测框面积较大 的预测结果作为输 出; 2c.完成单帧图像检测后, 在时间序列上结合多帧图像结果, 对于眨眼频率进行计算; 当前帧输出结果为睁眼, 且在接下来多帧结果均为闭眼, 且帧数大于等于2帧, 至出现图像 帧结果为睁眼, 满足该时间序列帧结果计一次眨眼; 3)判断嘴部预测结果: 嘴部预测框判断逻辑与打哈欠检测框判断逻辑基本相同, 在时间序列 上结合多帧图像 结果, 当嘴部预测结果为张嘴的帧数大于等于10帧, 直至出现图像帧结果为闭嘴, 满足该时 间序列帧结果计一次打哈欠。权 利 要 求 书 2/3 页 3 CN 115359461 A 3

.PDF文档 专利 公交驾驶员怠速状态眨眼与打哈欠检测方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 公交驾驶员怠速状态眨眼与打哈欠检测方法 第 1 页 专利 公交驾驶员怠速状态眨眼与打哈欠检测方法 第 2 页 专利 公交驾驶员怠速状态眨眼与打哈欠检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:13:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。