专利语音交互方法、装置、系统、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210807024.2 (22)申请日 2022.07.11 (65)同一申请的已公布的文献号申请公布号 CN 114863929 A (43)申请公布日 2022.08.05 (73)专利权人深圳市人马互动科技有限公司地址 518000 广东省深圳市粤海街道高新区社区高新南环路46号留学生创业大厦二期20层 (72)发明人李进峰　高爱玲　赖晓荣　杨雯绚　 (74)专利代理机构深圳市华盛智荟知识产权代理事务所(普通合伙) 44604 专利代理师王晓艳 (51)Int.Cl. G10L 15/22(2006.01)G10L 15/30(2013.01) G10L 13/02(2013.01) G06F 40/30(2020.01) (56)对比文件 CN 111508477 A,2020.08.07 CN 111508477 A,2020.08.07 CN 111508474 A,2020.08.07 CN 112818096 A,2021.0 5.18 CN 112637431 A,2021.04.09 CN 114724561 A,202 2.07.08 CN 111402881 A,2020.07.10 CN 113113013 A,2021.07.13 CN 111970409 A,2020.1 1.20 审查员孙筱逸 (54)发明名称语音交互方法、装置、系统、计算机设备和存储介质 (57)摘要本申请涉及一种语音交互方法、装置、系统、计算机设备和存储介质。语音交互方法包括：接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；对所述待播报语音信息进行语音播报；基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。上述方案能够针对性获取语音输入对应的响应语音信息，进而对响应语音信息进行播报，可以对语音输入进行可靠响应，实现与用户的智能语音交互。权利要求书7页说明书22页附图3页 CN 114863929 B 2022.10.21 CN 114863929 B 1.一种语音交互方法，其特征在于，所述方法包括：接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；对所述待播报语音信息进行语音播报；基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报；若所述控制指令包括输入反馈控制指令，所述方法还包括：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，所述方法还包括：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；若所述控制指令包括所述禁止打断指令且所述禁止打断指令包含追加内容指令，所述方法还包括：若用户语音输入能匹配到回答，将匹配到的回答添加到追加内容指令指定的文本位置之后进行播报；若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，所述方法还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，所述方法还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。 2.根据权利要求1所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：当所述控制指令为允许打断指令且在语音播报的允许打断时间段中监听到与至少一个语句对应的语音输入时，中断对所述待播报语音信息的语音播报，在语音输入结束时确定所述语音输入对应的语音输入信息。 3.根据权利要求2所述的方法，其特征在于，所述待播报语音信息包含至少一个交互节点；所述在语音输入结束时确定所述语音输入对应的语音输入信息，包括：获取语音输入对应的语音输入内容以及所述语音输入内容对应的输入时间，得到所述语音输入信息；相应的，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：基于所述输入时间在所述至少一个交互节点中确定所述语音输入内容对应的目标交互节点；权　利　要　求　书 1/7 页 2 CN 114863929 B 2基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息。 4.根据权利要求3所述的方法，其特征在于，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：若所述允许打断指令携带时间反馈指令，接收所述语音控制机器人获取的与所述语音输入内容和所述输入时间对应的响应语音信息。 5.根据权利要求3所述的方法，其特征在于，所述基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息，包括：将所述语音输入内容和所述目标交互节点发送至所述语音控制机器人；接收所述语音控制机器人获取的与所述语音输入内容和所述目标交互节点对应的响应语音信息；所述语音控制机器人用于基于所述语音输入内容进行语义理解，基于语义理解的结果和所述目标交互节点确定用户意图，确定与所述用户意图相匹配的响应语音信息。 6.根据权利要求3所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：若基于所述语音输入信息未从所述语音控制机器人中获取到响应语音信息，则判定响应失败；若所述待播报语音信息未播报完毕，则从中断位置继续对所述待播报语音信息进行语音播报。 7.根据权利要求2所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：若所述允许打断指令为任意打断指令，则在语音播报过程的任意时刻监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息；若所述允许打断指令为智能打断指令，确定所述待播报语音信息对应的允许打断时间段，当在所述允许打断时间段中监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息。 8.根据权利要求7所述的方法，其特征在于，所述待播报语音信息包含至少一个语音播报端点；所述确定所述待播报语音信息对应的允许打断时间段，包括：根据预先设置的允许打断时长、允许打断起始端点和允许打断终止端点中的至少两项确定所述待播报语音信息对应的允许打断时间段。 9.根据权利要求1至8任一项所述的方法，其特征在于，所述对所述待播报语音信息进行语音播报之后，还包括：在所述控制指令为禁止打断指令的情况下，当在语音播报的过程中监听到与至少一个语句对应的语音输入时，或者，在所述控制指令为允许打断指令的情况下，当在语音播报的禁止打断时间段中监听到与至少一个语句对应的语音输入时，继续对所述待播报语音信息进行语音播报，并在语音播报的过程中获取所述语音输入对应的语音输入信息；在所述待播报语音信息中的至少一个语句结束播报后，基于所述语音输入信息从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。权　利　要　求　书 2/7 页 3 CN 114863929 B 3

专利 语音交互方法、装置、系统、计算机设备和存储介质

专利语音交互方法、装置、系统、计算机设备和存储介质