说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210526270.0 (22)申请日 2022.05.16 (65)同一申请的已公布的文献号 申请公布号 CN 114639384 A (43)申请公布日 2022.06.17 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 李曼曼  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 朱佳 (51)Int.Cl. G10L 15/22(2006.01) G10L 15/26(2006.01)G06F 40/30(2020.01) B60R 16/037(2006.01) 审查员 兰天 (54)发明名称 语音控制方法、 装置、 计算机设备及计算机 存储介质 (57)摘要 本申请公开了一种语音控制方法、 装置、 计 算机设备及计算机存储介质, 涉及语音控制技术 领域, 该方法通过启动语音控制功能时, 则对目 标轻应用的原子能力进行注册, 即能够获知目标 轻应用能够实现哪些功能, 进而当接收到语音控 制数据时, 能够基于已注册的原子能力, 来对语 音控制数据的意图进行转换, 获得目标轻应用可 执行的语音控制事件, 从而实现通过语音控制的 方式实现对 轻应用的控制效果, 那么在进行驾驶 时, 则无需进行手动操作, 进而提升了车辆驾驶 的安全性。 权利要求书3页 说明书26页 附图14页 CN 114639384 B 2022.08.23 CN 114639384 B 1.一种语音控制方法, 其特征在于, 应用于语音控制系统中, 所述语音控制系统包括语 音组件、 接口组件和云端服务器, 所述接口组件封装了轻应用提供 的第三方服务接口和操 作系统提供的系统服 务接口; 所述方法包括: 基于系统语音通过所述系统服务接口发送的启动目标轻应用的请求, 触发所述接口组 件调用所述第三方服务接口, 从所述目标轻应用获取原子能力数据; 其中, 所述原子能力数 据包含: 所述 目标轻应用所能提供 的原子能力, 每个原子能力为所述 目标轻应用中相 应的 功能函数, 用于实现所述目标 轻应用的至少一个功能; 将所述原子能力数据发送给所述语音组件, 使得所述语音组件基于所述原子能力数 据, 在所述云端服 务器进行原子能力注 册; 通过所述语音组件将目标对象针对所述目标轻应用输入的所述第一语音数据发送给 所述云端服务器, 使得所述云端服务器根据自身针对所述第一语音数据的语义识别结果以 及所述系统语音的云端针对所述第一语音数据的语义识别结果, 确定相 应的目标意图, 并 基于已注册的各原子能力, 将所述 目标意图转换为相 应的语音控制事件, 所述语音控制事 件包含: 为实现所述目标意图, 所述目标 轻应用需要调用的至少一个原子能力; 通过所述语音组件接收所述语音控制事件, 并调用所述接口组件将所述语音控制事件 发送给所述目标轻应用, 以使得所述目标轻应用调用所述至少一个原子能力来实现所述目 标意图。 2.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 通过所述语音组件基于所述原子能力数据进行原子能力注册, 并基于已注册的原子能 力, 通过如下步骤, 将所述第一语音数据转换为相应的语音控制事 件: 对所述第一语音数据进行语音识别, 获取 所述第一语音数据中包 含的文本信息; 对所述文本信息进行语义识别, 确定所述文本信息对应的目标意图; 基于预设的事件配置信 息以及所述已注册的各原子能力, 将所述目标意图转换为所述 语音控制事件, 其中, 所述事件配置信息包含: 基于所述目标意图对 所述至少一个原子能力 进行参数配置的指导信息 。 3.如权利要求2所述的方法, 其特征在于, 所述对所述文本信息进行语义识别, 确定所 述文本信息对应的目标意图, 包括: 从所述目标轻应用获取应用描述信息, 所述应用描述信息包含: 所述目标轻应用的基 本描述信息和语音控制上 下文信息中的至少一种; 基于所述应用描述信息, 对所述文本信息进行语义识别, 确定所述目标意图。 4.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 通过所述接口组件调用所述第三方服务接口, 从所述目标轻应用获取应用描述信息, 并将所述应用描述信息发送给所述语音组件, 所述应用描述信息包含: 所述 目标轻应用的 基本描述信息和语音控制上 下文信息中的至少一种; 通过所述语音组件将所述应用描述信息以及所述第一语音数据发送给所述云端服务 器, 并接收所述云端服务器返回的所述语音控制事件, 其中, 所述语音控制事件为所述云端 服务器基于所述应用描述信息以及所述第一语音 数据确定所述目标意图后, 基于已注册的 原子能力对所述目标意图进行转换 得到的。 5.如权利要求1所述的方法, 其特征在于, 所述目标轻应用所在的终端设备包括音频采权 利 要 求 书 1/3 页 2 CN 114639384 B 2集装置, 所述接口组件封装有所述终端设备的操作系统提供的语音数据获取接口; 则在通过所述语音组件将目标对象针对所述目标轻应用输入的所述第一语音数据发 送给所述云端服 务器之前, 所述方法还 包括: 调用所述语音组件通过所述语音数据获取接口, 向所述操作系统申请所述音频采集装 置的使用权限; 调用所述语音组件通过所述语音数据获取接口, 接收所述音频采集装置采集的所述第 一语音数据。 6.如权利要求1~4任一所述的方法, 其特征在于, 在调用所述接口组件将所述语音控制 事件发送给 所述目标 轻应用之后, 所述方法还 包括: 接收所述目标 轻应用执 行所述语音控制事 件后返回的执 行结果; 若所述执行结果指示需要进行反馈控制, 则启动录音功能, 获取所述目标对象输入的 第二语音数据; 基于所述已注册 的各原子能力, 将所述第二语音数据转换为相应的语音控制事件, 并 将获得的语音控制事 件发送给 所述目标 轻应用执 行。 7.如权利要求6所述的方法, 其特征在于, 在接收所述目标轻应用执行所述语音控制事 件后返回的执 行结果之后, 所述方法还 包括: 若所述执 行结果指示 不需要进行反馈控制, 则清空所述已注 册的原子能力; 通知所述操作系统释放自身占用的音频采集装置的使用权限。 8.如权利要求1 ‑4任一所述的方法, 其特 征在于, 所述方法还 包括: 响应于目标对象针对目标应用输入的第 三语音数据, 对所述第 三语音数据进行语音端 点检测; 若检测到所述第三语音数据中的语音开始位置, 则从所述语音开始位置开始, 对所述 第三语音数据进行语音识别, 直至检测到所述第三语音数据中的语音结束位置; 基于获得的语音识别结果确定对所述目标应用进行唤醒时, 对所述目标应用进行唤醒 操作。 9.如权利要求8所述的方法, 其特征在于, 在 响应于目标对象针对目标应用输入的第 三 语音数据, 对所述第三语音数据进行语音 端点检测之前, 所述方法还 包括: 响应于所述目标应用的语音唤醒功能的启动, 获取所述目标应用中激活页面对应的唤 醒词集合, 并基于所述唤醒词集 合进行唤醒词注 册; 则基于获得的语音识别结果确定对所述目标应用进行唤醒时, 对所述目标应用进行唤 醒操作, 包括: 若所述语音识别结果包 含已注册的唤醒词, 则确定对所述目标应用进行唤醒; 对所述目标应用进行所述唤醒操作, 并将所述语音识别结果包含的文本信 息发送给所 述目标应用。 10.一种语音控制装置, 其特征在于, 应用于语音控制系统中, 所述语音控制系统包括 语音组件、 接口组件和云端服务器, 所述接口组件封装了轻应用提供 的第三方服务接口和 操作系统提供的系统服 务接口; 所述装置包括: 能力注册单元, 用于基于系统语音通过所述系统服务接口发送的启动目标轻应用的请 求, 触发所述接口组件调用所述第三方服务接口, 从所述目标轻应用获取原子能力数据, 并权 利 要 求 书 2/3 页 3 CN 114639384 B 3

.PDF文档 专利 语音控制方法、装置、计算机设备及计算机存储介质

文档预览
中文文档 44 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共44页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音控制方法、装置、计算机设备及计算机存储介质 第 1 页 专利 语音控制方法、装置、计算机设备及计算机存储介质 第 2 页 专利 语音控制方法、装置、计算机设备及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。