专利语音处理方法、系统、计算机可读存储介质及程序产品

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210585168.8 (22)申请日 2022.05.27 (65)同一申请的已公布的文献号申请公布号 CN 114678029 A (43)申请公布日 2022.06.28 (73)专利权人深圳市人马互动科技有限公司地址 518000 广东省深圳市南山区粤海街道高新区社区高新南环路46号留学生创业大厦二期20层 (72)发明人李进峰　高爱玲　 (74)专利代理机构深圳得本知识产权代理事务所(普通合伙) 44762 专利代理师袁江龙 (51)Int.Cl. G10L 15/26(2006.01)G06F 40/30(2020.01) H04L 51/02(2022.01) (56)对比文件 CN 110287297 A,2019.09.27 CN 110287297 A,2019.09.27 CN 111724766 A,2020.09.2 9 CN 112818107 A,2021.0 5.18 CN 1045984 45 A,2015.0 5.06 CN 103903613 A,2014.07.02 US 2019278846 A1,2019.09.12 CN 113469237 A,2021.10.01 US 2020349919 A1,2020.1 1.05 审查员千雪 (54)发明名称语音处理方法、系统、计算机可读存储介质及程序产品 (57)摘要本申请提供一种语音处理方法、系统、计算机可读存储介质及程序产品，该方法包括：获取输入音频；第一语音识别模型对输入音频进行识别生成第一识别文本；聊天机器人用于对识别文本进行语义理解，获取识别文本的语义信息，根据语义信息确定对输入音频的反馈；根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型；若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人调用第二语音识别模型对输入音频进行识别生成第二识别文本；聊天机器人根据第一识别文本和第二识别文本确定输入音频的语义信息，确定第二预设反馈，将第二预设反馈至用户。防止单一语音识别模型影响聊天机器人语义理解的准确率的问题且避免资源浪费。权利要求书2页说明书7页附图1页 CN 114678029 B 2022.09.02 CN 114678029 B 1.一种语音处理方法，用于对输入音频进行处理，其特征在于，包括：获取输入音频；第一语音识别模型对输入音频进行识别，生成第一识别文本；聊天机器人用于对识别文本进行语义理解，获取识别文本的语义信息，根据语义信息确定对输入音频的反馈；及根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型；若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人将调用第二语音识别模型对输入音频进行识别，生成第二识别文本；聊天机器人根据第一识别文本和第二识别文本确定输入音频的语义信息，进而确定第二预设反馈，并将第二预设反馈反馈至用户；若聊天机器人调用第二语音识别模型，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，并将第一回复反馈至用户。 2.如权利要求1所述的一种语音处理方法，其特征在于，聊天机器人还根据第一识别文本获取与第一识别文本相关联的第一回复，还包括：预设有若干第一回复，预设有若干语义类型，第一回复与语义类型有预设的关联关系；聊天机器人在对第一识别文本进行语义理解的过程中，获取第一识别文本的语义信息，并对第一识别文本中的语义信息进行分类，以获取第一识别文本中语义信息的语义类型；根据语义类型，获取语义类型与关联的第一回复。 3.如权利要求1或2所述的一种语音处理方法，其特征在于，第一回复或第二预设反馈中包括中继话术，以承接第一回复和第二预设反馈。 4.如权利要求1 ‑2任一所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，包括：聊天机器人判断第一识别文本是否满足预设形式条件，若第一识别文本不满足预设形式条件，聊天机器人将调用第二语音识别模型。 5.如权利要求4所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，还包括：聊天机器人可根据第一识别文本中的语义信息获得输入意图，若聊天机器人根据第一识别文本中的语义信息未获取到输入意图，聊天机器人将调用第二语音识别模型。 6.如权利要求5所述的一种语音处理方法，其特征在于，在根据对第一识别文本的语义理解程度，决定是否调用第二语音识别模型，还包括：聊天机器人可根据输入意图获取与输入意图相对应的第一预设反馈，若聊天机器人根据输入意图未能获取与输入意图相对应的第一预设反馈，聊天机器人将调用第二语音识别模型。 7.一种语音处理系统，包括第一语音识别模型、第二语音识别模型及聊天机器人；第一语音识别模型与聊天机器人连接，第二语音识别模型与聊天机器人连接；第一语音识别模型用于对输入的音频进行识别，生成第一识别文本，并将第一识别文本发送至聊天机器人；第二语音识别模型用于对输入的音频进行识别，生成第二识别文本，并将第二识别文权　利　要　求　书 1/2 页 2 CN 114678029 B 2本发送至聊天机器人；聊天机器人用于对识别文本进行语义理解，确定对输入音频的反馈；及根据对第一识别文本的理解程度，决定是否调用第二语音识别模型；若聊天机器人对第一识别文本的语义理解程度未满足预设条件，聊天机器人将调用第二语音识别模型对输入音频进行识别，生成第二识别文本；聊天机器人还用于根据第一识别文本和第二识别文本确定输入音频的语义信息，进而确定第二预设反馈，并将第二预设反馈反馈至用户；若聊天机器人调用第二语音识别模型，聊天机器人还用于根据第一识别文本获取与第一识别文本相关联的第一回复，并将第一回复反馈至用户。 8.一种计算机可读存储介质，用于存储计算机程序，其特征在于，计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现权利要求 1‑6 中任一项所述的语音处理方法。权　利　要　求　书 2/2 页 3 CN 114678029 B 3

专利 语音处理方法、系统、计算机可读存储介质及程序产品

专利语音处理方法、系统、计算机可读存储介质及程序产品