说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211163199.0 (22)申请日 2022.09.23 (71)申请人 深圳通联金融网络科技 服务有限公 司 地址 518000 广东省深圳市南 山区科发路8 号金融服 务技术创新基地1栋9 楼A (72)发明人 陶贵宾  (74)专利代理 机构 深圳市正德知识产权代理事 务所(特殊普通 合伙) 44548 专利代理师 胡珍林 王玉梅 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 25/30(2013.01)G10L 25/63(2013.01) G06V 40/16(2022.01) G06V 10/26(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06F 40/35(2020.01) G06N 3/04(2006.01) (54)发明名称 基于用户面部表情的语音识别方法、 装置、 介质及设备 (57)摘要 本公开提供一种基于用户面部表情的语音 识别方法、 装置、 介质及设备, 该方法包括: 根据 识别模型确定在预设时间段内目标用户在监控 环境下的面部特征点的变化情况, 以生成面部动 态特征图像, 将多个特征区域动态子图像与对应 特征区域的预设动态子图像进行匹配, 确定所述 目标用户对应的情感标签, 对预设时间段内目标 用户在监控环 境中的音 频数据进行采集, 生成目 标用户对应的用户语音, 根据情感标签对语音识 别模型进行训练, 通过训练后的语音识别模型对 用户语音进行语义识别, 生 成目标用户对应的语 义信息。 从而使智能设备能够更准确识别出用户 语音所对应的用户意图, 提高了语音识别的准确 性, 给用户带来了更好的产品体验。 权利要求书3页 说明书9页 附图1页 CN 115440196 A 2022.12.06 CN 115440196 A 1.一种基于用户面部表情的语音识别方法, 其特 征在于, 所述方法包括: 通过红外采集装置对监控环境中的热图像进行采集, 并在基于图像识别模型确认所述 监控环境中存在人脸的情况下, 根据特征识别算法确定所述人脸对应的目标用户的面部特 征点, 并基于所述面部特征点的预设分布规则, 循环执行以下步骤, 直至确定所述目标用户 在所述监控环境下的所述面部特征点产生变化为止: 按照预设目标时长从初始动态图像中 选取相应时长的帧图像, 以生成所述 目标用户对应的面部动态特征图像, 并将所述面部动 态特征图像与预设标准动态图像进行匹配生成比较结果, 根据所述比较结果判断是否匹配 成功, 若匹配成功, 判断相应时长的帧图像中所述目标用户未产生情绪波动, 则延长已使用 的目标时长, 重新获得相应时长的帧图像, 若匹配不成功, 提取所述时长的帧图像, 生成所 述目标用户对应的面部动态特征图像, 并基于所述预设分布规则和所述人脸对应的多个特 征区域, 对所述面部动态特征图像进行分割, 生成所述多个特征区域对应的多个特征区域 动态子图像, 其中所述多个特征区域至少包括眼部特征区域、 鼻子特征区域和嘴部特征区 域; 将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进 行匹配, 确定所述多个特征区域动态子图像对应的多个表情识别结果, 根据预设权重将所 述多个表情识别结果进行融合确定所述 目标用户对应的情感标签, 其中, 所述表情识别结 果用于表征所述目标用户对应的情感标签, 所述预设权重根据各个特征区域表征所述情感 标签的强弱关系进行设定; 对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集, 生成 目标 音频数据, 并识别所述 目标音频数据中所述 目标用户对应的用户语音频段, 根据所述用户 语音频段对所述目标音频数据进 行降噪处理, 按照设定语音 特征对降噪后的所述目标音频 数据进行语音提取, 以生成所述目标用户对应的用户语音, 其中, 通过麦克风采集的所述用 户语音对智能终端下达控制指令; 从初始数据库中筛选出与 所述情感标签对应的初始样本语音数据, 将所述初始样本语 音数据加入到语音识别模型的样本训练集中, 基于所述样本训练集对所述语音识别模型进 行识别训练, 通过训练后的所述语音识别模型对所述用户语音进行语义识别, 以生成所述 目标用户对应的语义信息, 其中, 所述初始数据库中包括多个初始样本语音数据和多个情 感标签之间的映射关系。 2.根据权利要求1所述的识别方法, 其特征在于, 所述根据 所述用户语音频段对所述目 标音频数据进行降噪处理, 按照设定语音特征对降噪后的所述目标音频数据进行语音提 取, 以生成所述目标用户对应的用户语音, 包括: 根据所述目标用户对应的历史用户语音, 对所述目标音频数据中的用户语音进行分 析, 以根据所述目标音频 数据生成所述用户语音频 段和环境音频; 基于所述用户语音频段对所述目标音频数据进行降噪处理, 以去除所述目标音频数据 中的所述环境音频, 并对处理后的目标音频数据进行拓扑恢复生成所述目标用户对应的所 述用户语音。 3.根据权利要求1所述的识别方法, 其特征在于, 所述从初始数据库中筛选出与所述情 感标签对应的初始样本语音数据, 将所述初始样本语音数据加入到语音识别模型的样本训 练集中, 基于所述样本训练集对所述语音识别模型进行识别训练, 通过训练后的所述语音权 利 要 求 书 1/3 页 2 CN 115440196 A 2识别模型对所述用户语音 进行语义识别, 以生成所述目标用户对应的语义信息, 包括: 基于所述情 感标签对所述初始数据库中的所述初始样本语音数据进行筛选, 获得预设 数量的第一样本语音 数据和对应的第一情感语义, 所述第一情感语义为所述第一样本语音 数据在所述情感标签下的语义信息; 通过所述语音识别模型的特征提取网络对所述第 一样本语音数据进行特征提取, 生成 所述第一样本语音数据对应的特征向量, 通过所述语音识别模型的全连接神经网络对所述 特征向量进行语义识别, 生成目标语义信息, 在确定所述 目标语义信息与所述第一情感语 义不一致的情况 下, 根据所述第一情感语义更新所述语音识别模型; 基于更新后的所述语音识别模型对所述用户语音进行语义识别, 生成所述目标用户对 应的所述语义信息 。 4.根据权利要求1所述的识别方法, 其特征在于, 所述将所述多个特征区域动态子图像 与所述多个特征区域对应的多个预设动态子图像进行匹配, 确定所述多个特征区域动态子 图像对应的多个表情识别结果, 根据预设权重将所述多个表情识别结果进 行融合确定所述 目标用户对应的情感标签, 包括: 对任一特征区域动态子图像进行归一 化处理, 生成同一尺寸的动态灰度子图像; 对所述灰度子图像进行识别, 以确定所述灰度子图像对应的所述特 征区域; 获取所述特征区域对应的所述多个预设动态子图像, 并将所述多个预设动态子图像与 所述灰度子图像进行匹配, 以确定所述多个预设动态子图像与所述灰度子图像之 间的相似 度, 其中, 每 个预设动态子图像对应一个预设表情识别结果; 确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识 别结果。 5.一种基于用户面部表情的语音识别装置, 其特 征在于, 包括: 第一生成模块, 用于通过红外采集装置对监控环境中的热图像进行采集, 并在基于 图 像识别模型确认所述监控环境中存在人脸的情况下, 根据特征识别算法确定所述人脸对应 的目标用户的面部特征点, 并基于所述面部特征点的预设分布规则, 循环执行以下步骤, 直 至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止: 按照预设目标时 长从初始动态图像中选取相应时长的帧图像, 以生成所述目标用户对应的面部动态特征图 像, 并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果, 根据所述比 较结果判断是否匹配成功, 若匹配成功, 判断相 应时长的帧图像中所述 目标用户未产生情 绪波动, 则延长已使用的目标时长, 重新获得相应时长的帧图像, 若匹配不成功, 提取所述 时长的帧图像, 生成所述 目标用户对应的面部动态特征图像, 并基于所述预设分布规则和 所述目标用户对应的多个特征区域, 对所述面部动态特征图像进行分割, 生成所述多个特 征区域对应的多个特征区域动态子图像; 其中所述多个特征区域至少包括眼部特征区域、 鼻子特征区域和嘴部特 征区域; 确定模块, 用于将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设 动态子图像进行匹配, 确定所述多个特征区域动态子图像对应的多个表情识别结果, 根据 预设权重将所述多个表情识别结果进行融合确定所述 目标用户对应的情感标签, 其中, 所 述表情识别结果用于表征所述目标用户对应的情感标签, 所述预设权重根据各个特征区域 表征所述情感标签的强弱关系进行设定;权 利 要 求 书 2/3 页 3 CN 115440196 A 3

.PDF文档 专利 基于用户面部表情的语音识别方法、装置、介质及设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于用户面部表情的语音识别方法、装置、介质及设备 第 1 页 专利 基于用户面部表情的语音识别方法、装置、介质及设备 第 2 页 专利 基于用户面部表情的语音识别方法、装置、介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:23:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。