专利语音交互方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210833826.0 (22)申请日 2022.07.15 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号申请人建信金融科技有限责任公司 (72)发明人炊向军　范会善　王炼　罗贤桂　赵新阳　董劲麟　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G10L 15/22(2006.01) G10L 15/02(2006.01) G10L 15/20(2006.01) G10L 25/30(2013.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称语音交互方法、装置、电子设备及存储介质 (57)摘要本公开提出了一种语音交互方法、装置、电子设备及存储介质，涉及人工智能语音识别技术领域，该方法包括：获取候选对象相对机器人的特征数据；基于特征数据确定候选对象的筛选权重；基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象；基于目标对象的数量，确定机器人的目标服务模式；控制机器人从当前服务模式切换至目标服务模式。通过对候选对象的特征数据进行分析确定候选对象的筛选权重，进而根据筛选权重从候选对象中确定目标对象，可以提升确认目标对象的准确率，并根据目标对象的数量选择不同的目标服务模式，提升了不同目标对象数量下目标对象与机器人的交互体验和交互效率。权利要求书2页说明书10页附图5页 CN 115240669 A 2022.10.25 CN 115240669 A 1.一种语音交互方法，其特征在于，包括：获取候选对象相对机器人的特征数据；基于所述特征数据确定所述候选对象的筛选权重；基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象；基于所述目标对象的数量，确定所述机器人的目标服务模式；控制所述机器人从当前服务模式切换至所述目标服务模式。 2.根据权利要求1所述的方法，其特征在于，所述特征数据包括所述候选对象与所述机器人之间的有效距离，所述基于所述特征数据确定所述候选对象的筛选权重，包括：从所述候选对象中，获取所述有效距离小于距离阈值的第一候选对象，并捕捉所述第一候选对象的人脸信息；响应于捕捉所述第一候选对象的人脸信息成功，将捕捉成功的所述第一候选对象确定为第二候选对象；采集所述第二候选对象的语音数据，并基于所述人脸信息、所述语音数据和所述第二候选对象的坐标确定所述第二候选对象的筛选权重。 3.根据权利要求2所述的方法，其特征在于，所述基于所述人脸信息、所述语音数据和所述第二候选对象的坐标确定所述第二候选对象的筛选权重，包括：对所述人脸信息、所述语音数据和所述第二候选对象的坐标各自的有效值进行加权；以及对所述人脸信息、所述语音数据和所述候选对象的坐标各自预设的偏移值进行加权；基于加权后的所述有效值和加权后的所述偏移值确定所述第二候选对象的筛选权重。 4.根据权利要求1 ‑3中任一项所述的方法，其特征在于，所述基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象，包括：确定所述筛选权重值大于目标阈值的所述第二候选对象为所述目标对象。 5.根据权利要求1所述的方法，其特征在于，所述控制所述机器人从当前服务模式切换至所述目标服务模式之后，还包括：基于所述目标服务模式调整麦克风阵列单元，以采集所述目标对象的实时语音；选取与所述目标服务模式匹配的语音处理模式，并基于所述语音处理模式对所述实时语音进行语义处理；基于语义处理结果生成所述目标对象的应答信息。 6.根据权利要求5所述的方法，其特征在于，所述基于所述目标对象的数量，确定所述机器人的目标服务模式，包括：响应于所述目标对象的数量为多个，选取第一服务模式作为所述目标服务模式；或者响应于所述目标对象的数量为一个，选取第二服务模式作为所述目标服务模式。 7.根据权利要求6所述的方法，其特征在于，所述目标服务模式为所述第一服务模式，所述方法还包括：根据所述目标对象的所述筛选权重，确定所述机器人为所述目标对象提供服务的服务顺序；增强朝向所述服务顺序最前的所述目标对象方向的所述麦克风阵列单元的采音功能，权　利　要　求　书 1/2 页 2 CN 115240669 A 2并采集实时语音；将所述语音处理模式切换至第一语音处理模式，其中，所述第一语义处理模式对应的语料数据小于或者等于第一语料数量；基于所述第一语音处理模式对所述实时语音进行语义处理；基于语义处理结果对所述服务顺序最前的所述目标对象进行应答。 8.根据权利要求6所述的方法，其特征在于，所述目标服务模式为所述第二服务模式，所述方法还包括：强化朝向所述目标对象方向的所述麦克风阵列单元的采音功能，并弱化其他方向的所述麦克风阵列单元的采音功能，并采集实时语音；将所述语音处理模式切换至第二语音处理模式，其中，所述第二语音处理模式对应的语料数据大于第二语料数量；基于所述第二语音处理模式对所述实时语音进行语义处理；基于语义处理结果对所述目标对象进行应答。 9.一种语音交互装置，其特征在于，包括：获取模块，用于获取候选对象相对机器人的特征数据；确定模块，用于基于所述特征数据确定所述候选对象的筛选权重；筛选模块，用于基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象；选取模块，用于基于所述目标对象的数量，确定所述机器人的目标服务模式；切换模块，用于控制所述机器人从当前服务模式切换至所述目标服务模式。 10.一种电子设备，其特征在于，包括存储器、处理器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1 ‑8中任一项所述的方法。 11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑8中任一项所述的方法。 12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1 ‑8中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115240669 A 3

专利 语音交互方法、装置、电子设备及存储介质

专利语音交互方法、装置、电子设备及存储介质