专利基于多模态特征融合的行为识别方法、系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210641293.6 (22)申请日 2022.06.08 (71)申请人智己汽车科技有限公司地址 201210 上海市浦东新区祥科路268号 3层301室 (72)发明人张伟捷　姚劲　高瑞　任昶伟　李波　 (74)专利代理机构上海瀚桥专利代理事务所 (普通合伙) 31261 专利代理师曹芳玲 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/56(2022.01) G06V 20/62(2022.01) G06V 40/16(2022.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G10L 15/06(2013.01) G10L 15/25(2013.01) (54)发明名称基于多模态特征融合的行为识别方法、系统 (57)摘要本发明公开了一种基于多模态特征融合的行为识别方法及系统，所述方法包括：获取语音信息、视频信息及车辆的运行状态数据，所述视频信息包括面部数据、路况环境数据、肢体数据；分别对所述语音信息、视频信息处理，得到语音特征信息、文本特征信息及图像特征信息；将所述语音特征信息、文本特征信息及图像特征信息分别输入对应的分类器中，融合多个所述分类器输出的结果形成融合信息；基于所述融合信息进行行为识别，基于行为识别结果匹配检测车辆的运行状态数据。权利要求书2页说明书8页附图2页 CN 115205729 A 2022.10.18 CN 115205729 A 1.一种基于多模态特征融合的行为识别方法，应用于车辆，其特征在于，包括：获取语音信息、视频信息及车辆的运行状态数据，所述视频信息包括面部数据、路况环境数据、肢体数据；分别对所述语音信息、视频信息处理，得到语音特征信息、文本特征信息及图像特征信息；将所述语音特征信息、文本特征信息及图像特征信息分别输入对应的分类器中，融合多个所述分类器输出的结果形成融合信息；基于所述融合信息进行行为识别，基于行为识别结果匹配检测车辆的运行状态数据。 2.根据权利要求1所述的行为识别方法，其特征在于，所述分别对所述语音信息、视频信息处理，得到语音特征信息、文本特征信息及图像特征信息，包括：利用语音识别模型对所述语音信息处理，至少获取驾乘人员的身份信息、情绪状态信息、声纹特征、语音文本信息；利用视频识别模型对所述视频信息处理，至少获取驾乘人员的面部信息、年龄信息、身份信息、性别信息、情绪状态信息、身体姿态信息、手势信息、唇形信息、视线信息、路况环境信息；根据所述语音文本信息判断语音信息是否未包含控制指令，若未包含控制指令以视频信息处理结果为高优先级。 3.根据权利要求2所述的行为识别方法，其特征在于，所述融合多个所述分类器输出的结果形成融合信息，包括：利用多模态识别模型融合得到的语音特征信息、文本特征信息及图像特征信息，将所述的语音特征信息、文本特征信息及图像特征信息以图像序列、声学特征或频谱图特征为融合方向进行融合，得到融合信息。 4.根据权利要求1所述的行为识别方法，其特征在于，所述基于所述融合信息进行行为识别，包括：所述融合信息包括至少一个行为数据，每个行为数据至少根据所述的语音特征信息、文本特征信息及图像特征信息中的一种得出；若所述融合信息包括多个行为数据时，依据所述每个行为数据的识别概率以及该行为数据关联的行为参数数量确定所述融合信息对应的行为。 5.一种基于多模态特征融合的行为识别系统，应用于车辆，其特征在于，包括：获取模块，用于获取语音信息、视频信息及车辆的运行状态数据，所述视频信息包括面部数据、路况环境数据、肢体数据；融合模块，用于分别对所述语音信息、视频信息处理，得到语音特征信息、文本特征信息及图像特征信息；将所述语音特征信息、文本特征信息及图像特征信息分别输入对应的分类器中，融合多个所述分类器输出的结果形成融合信息；识别模块，用于基于所述融合信息进行行为识别，基于行为识别结果匹配检测车辆的运行状态数据。 6.根据权利要求5所述的行为识别系统，其特征在于，所述融合模块包括：语音识别模块，用于对所述语音信息处理，至少获取驾乘人员的身份信息、情绪状态信息、声纹特征、语音文本信息；视频识别模块，用于对所述视频信息处理，至少获取驾乘人员的面部信息、年龄信息、权　利　要　求　书 1/2 页 2 CN 115205729 A 2身份信息、性别信息、情绪状态信息、身体姿态信息、手势信息、唇形信息、视线信息、路况环境信息；根据所述语音文本信息判断语音信息是否包含控制指令，若未包含控制指令以视频信息处理结果为高优先级。 7.根据权利要求5所述的行为识别系统，其特征在于，所述融合模块还包括：融合子单元，用于利用多模态识别模型融合得到的语音特征信息、文本特征信息及图像特征信息，将所述的语音特征信息、文本特征信息及图像特征信息以图像序列、声学特征或频谱图特征为融合方向进行融合，得到融合信息。 8.根据权利要求5所述的行为识别系统，其特征在于，所述识别模块包括：识别子单元，用于所述融合信息包括至少一个行为数据，每个行为数据至少根据所述的语音特征信息、文本特征信息及图像特征信息中的一种得出；若所述融合信息包括多个行为数据时，依据所述每个行为数据的识别概率以及该行为数据关联的行为参数数量确定所述融合信息对应的行为。 9.一种基于多模态特征融合的车辆控制方法，应用于车辆，其特征在于，包括：根据权利要求1至5任一项所述的基于多模态特征融合的行为识别方法获得行为识别结果；分析所述识别结果，确定与所述识别结果相匹配的驾驶场景，不同所述驾驶场景关联车辆不同功能；开启所述驾驶场景，并控制与所述驾驶场景关联的车辆功能启动并关闭与该驾驶场景未关联的车辆功能；所述驾驶场景包括至少一个场景模式。 10.一种基于多模态特征融合的车辆控制系统，应用于车辆，其特征在于，包括：行为识别模块，用于根据权利要求1至5任一项所述的基于多模态特征融合的行为识别方法获得行为识别结果；场景确定模块，用于分析所述识别结果，确定与所述识别结果相匹配的驾驶场景，不同所述驾驶场景关联车辆不同功能；控制模块，用于开启所述驾驶场景，并控制与所述驾驶场景关联的车辆功能启动并关闭与该驾驶场景未关联的车辆功能。 11.一种车辆，其包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求 1至5任一项或权利要求9所述方法的步骤。 12.一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至 5任一项或权利要求9所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115205729 A 3

专利 基于多模态特征融合的行为识别方法、系统

专利基于多模态特征融合的行为识别方法、系统