专利基于用户面部表情的语音识别方法、装置、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211163199.0 (22)申请日 2022.09.23 (71)申请人深圳通联金融网络科技服务有限公司地址 518000 广东省深圳市南山区科发路8 号金融服务技术创新基地1栋9 楼A (72)发明人陶贵宾　 (74)专利代理机构深圳市正德知识产权代理事务所(特殊普通合伙) 44548 专利代理师胡珍林　王玉梅 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 25/30(2013.01)G10L 25/63(2013.01) G06V 40/16(2022.01) G06V 10/26(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06F 40/35(2020.01) G06N 3/04(2006.01) (54)发明名称基于用户面部表情的语音识别方法、装置、介质及设备 (57)摘要本公开提供一种基于用户面部表情的语音识别方法、装置、介质及设备，该方法包括：根据识别模型确定在预设时间段内目标用户在监控环境下的面部特征点的变化情况，以生成面部动态特征图像，将多个特征区域动态子图像与对应特征区域的预设动态子图像进行匹配，确定所述目标用户对应的情感标签，对预设时间段内目标用户在监控环境中的音频数据进行采集，生成目标用户对应的用户语音，根据情感标签对语音识别模型进行训练，通过训练后的语音识别模型对用户语音进行语义识别，生成目标用户对应的语义信息。从而使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。权利要求书3页说明书9页附图1页 CN 115440196 A 2022.12.06 CN 115440196 A 1.一种基于用户面部表情的语音识别方法，其特征在于，所述方法包括：通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述人脸对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像，其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征所述情感标签的强弱关系进行设定；对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，并识别所述目标音频数据中所述目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，其中，通过麦克风采集的所述用户语音对智能终端下达控制指令；从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多个初始样本语音数据和多个情感标签之间的映射关系。 2.根据权利要求1所述的识别方法，其特征在于，所述根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，包括：根据所述目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；基于所述用户语音频段对所述目标音频数据进行降噪处理，以去除所述目标音频数据中的所述环境音频，并对处理后的目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。 3.根据权利要求1所述的识别方法，其特征在于，所述从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音权　利　要　求　书 1/3 页 2 CN 115440196 A 2识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，包括：基于所述情感标签对所述初始数据库中的所述初始样本语音数据进行筛选，获得预设数量的第一样本语音数据和对应的第一情感语义，所述第一情感语义为所述第一样本语音数据在所述情感标签下的语义信息；通过所述语音识别模型的特征提取网络对所述第一样本语音数据进行特征提取，生成所述第一样本语音数据对应的特征向量，通过所述语音识别模型的全连接神经网络对所述特征向量进行语义识别，生成目标语义信息，在确定所述目标语义信息与所述第一情感语义不一致的情况下，根据所述第一情感语义更新所述语音识别模型；基于更新后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的所述语义信息。 4.根据权利要求1所述的识别方法，其特征在于，所述将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，包括：对任一特征区域动态子图像进行归一化处理，生成同一尺寸的动态灰度子图像；对所述灰度子图像进行识别，以确定所述灰度子图像对应的所述特征区域；获取所述特征区域对应的所述多个预设动态子图像，并将所述多个预设动态子图像与所述灰度子图像进行匹配，以确定所述多个预设动态子图像与所述灰度子图像之间的相似度，其中，每个预设动态子图像对应一个预设表情识别结果；确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识别结果。 5.一种基于用户面部表情的语音识别装置，其特征在于，包括：第一生成模块，用于通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述目标用户对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像；其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；确定模块，用于将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征所述情感标签的强弱关系进行设定；权　利　要　求　书 2/3 页 3 CN 115440196 A 3

专利 基于用户面部表情的语音识别方法、装置、介质及设备

专利基于用户面部表情的语音识别方法、装置、介质及设备