说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210565146.5 (22)申请日 2022.05.23 (71)申请人 浙江鼎帅科技有限公司 地址 311100 浙江省杭州市余杭区良渚街 道好运街152号1幢2层201室 (72)发明人 陈日清  (74)专利代理 机构 北京知果之信知识产权代理 有限公司 1 1541 专利代理师 高科 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/08(2013.01) G10L 13/10(2013.01) G10L 15/22(2006.01) G10L 15/26(2006.01)G10L 21/0208(2013.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06V 10/62(2022.01) G06V 10/94(2022.01) G06V 20/40(2022.01) G06V 40/10(2022.01) (54)发明名称 基于语音的智能视 觉交互方法及系统 (57)摘要 本发明公开了基于语音的智能视觉交互方 法及系统。 本发明中, 系统用到的人机对话模块 基于开发接口, 设计了语音识别模块、 语音合成 模块及人机对话模块, 最后对目标检测跟踪模块 进行了设计, 并使用目标跟踪运动策略使机器人 能达到实时跟随的目的, 从而提高了该智能视觉 交互系统在使用时的跟随性, 可以跟随着使用者 实时进行目标跟踪检测, 提高了该系统打准确性 与智能型, 同时通过训练暗光、 遮挡情况下目标 数据集及对除行人之外的其它物体检测框的去 除, 使目标检测模块能更好地服务于使用者。 最 后基于相关技术, 对人机交互系统进行了实现, 从而使得该系统具有更强的可靠性和实用性。 权利要求书2页 说明书6页 附图2页 CN 115019766 A 2022.09.06 CN 115019766 A 1.基于语音的智能视觉交互方法及系统, 包括启动模块(1)、 语音识别 模块(2)、 人机交 互模块(3)、 信息处理模块(4)、 人机对话模块(5)、 音频输出模块(6)、 扬声器模块(7)、 视觉 检测模块( 8)、 识别接口模块(9)、 语音去噪模块(10)、 语音合成模块(11)、 视觉采集模块 (12)、 初始化模块(13)、 预处理模块(14), 其特征在于: 所述启动模块(1)的输出端连接有所 述语音识别模块(2)的输入端, 所述语音识别模块(2)的输出端连接有所述人机交互模块 (3)的输入端, 所述人机交互模块(3)的输出端连接有所述信息处理模块(4)的输入端, 所述 信息处理模块(4)的输出端连接有所述人机对话模块(5)的输入端, 所述人机对话模块(5) 的输出端连接有 所述音频输出模块(6)的输入端, 所述音 频输出模块(6)的输出端连接有 所 述扬声器模块(7)的输入端, 所述人机交 互模块(3)的外 部固定连接有视 觉检测模块(8)。 2.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述语音识 别模块(2)的内部固定安装有识别接口模块(9)、 语音去噪模块(10)和语音合成模块(11), 所述识别接口模块(9)、 语音去噪模块(10)和语音合成模块(11)的输出端连接有所述语音 识别模块(2)的输入端。 3.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述视觉检 测模块(8)的内部固定安装有视觉采集模块(12)、 初始化模块(13)和预处理模块(14), 所述 视觉采集模块(12)、 初始化模块(13)和预 处理模块(14)的输出端 连接有所述视觉检测模块 (8)的输入端。 4.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述识别 接 口模块(9)的内部设置有waveIn模块, 该模块提供了语音应用程序和语音识别引擎之间的 高层接口, 完成了对语音引擎的实时操控; 使用该接口时一般的函数调用顺序如下: 启动模块(1)create_recorder创建录音对象; 语音识别模块(2)open_recorder打开录音机, 配置 录音格式; 人机交互模块(3)star t_record开始录音, 录音数据在注 册的回调函数中获取; 信息处理模块(4)stop_record停止 录音; 人机对话模块(5)cl ose_recorder关闭录音机, 对应open_recorder; 音频输出模块(6)dest roy_recorder销毁录音对象, 对应create_recorder; waveIn提供了IflyIatSession、 start、 stop、 writeAudio、 cancel等语音识别接口; IflyIatSession可以初始化 “语音听写会话 ”对象, 用于调用其它听写接口; 本接口应当在 应用程序中仅调用一次, 多次调用本函数时只有第一次调用此函数会进行实际的登录操 作; start函数是 “开始语音识别 ”接口, 通过传入调用参数, 进 行麦克风录音, 获得对应的识 别结果和音量回调; st op函数是“停止录音 ”接口, 可以停止麦克风录音, 向服务器发起请求 并返回语音识别结果; writeAudi o。 5.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述语音去 噪模块(10)的内部设置有 有限脉冲滤波响应 器和无线脉冲滤波响应 器。 6.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述语音合 成模块(11)的内部在用户输入文本信息后, 文本 分析和处理模块开始工作, 完成文本规整、 文本切分、 语法分析、 语义分析工作。 7.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述视觉检 测模块(8)可以分为以下两个阶段: 第一阶段: 搜索阶段由于摄像头搭载在机器人平台上,权 利 要 求 书 1/2 页 2 CN 115019766 A 2不能随时检测到目标, 所以需要机器人能自动旋转来搜索检测目标; 一、 点击开始目标跟随 按钮, 机器人开始向右旋转; 二、 如果机器人向右旋转360度仍为找到检测目标, 则停止搜索 并通知客户端未找到目标; 人机交互模块(3)如果机器人已经找到目标, 则进入下一阶段, 对机器人姿态进行调整; 第二阶段: 调整和移动阶段本阶段将检测到的目标图像的质心(u, v)通过小孔成像原 理转化为人机距离和角度(d, w), 其中若w为负值, 则表示目标在机器人左侧, 若为正值, 则 表示目标在机器人右侧; 机器人运动控制过程如下: 一、 若人机距离 d<1m,则机器人不执行 前进、 后退操作, 若d>1m,则机器人向前运动, 直到d<=1米时, 给机器人发送 运动停止命令; 二、 若偏转角度w<10则机器人不转动, 若w>10, 向右转动, 直到0<w<10为止; 若w为负, 则向左 旋转; 三、 若目标质心的横坐标为0时, 此时表示目标丢失, 机器人将回到上一 步搜索阶段。 8.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述视觉采 集模块 (12) 在采集 信息时 , 先建立视频捕捉程序 , 必须首先获取并 初始化 IcaptureGraphBuil der2接口, 然后选择一个适当的视频捕捉设备; 选择好设备后, 为该设 备创建Capture  filter, 然后调用Ad dFilter把Capture  filter添加到Fi lter Graph; DirectShow提供了一个捕捉图像的方法∶使用Samp le Grabber filter; 依次按照以下 三个步骤∶ 第一步, 定义一个类实现Sample  Grabber的回调接口IsampleGrab berCB ∶ class CSampleGrab berCB:publ ic ISampleGrab berCB { //在后面提供的类中具体完成 } CSampleGrab berCB mCB; 第二步, 调用RenderStream依次把Still  pin、 Sample  Grabber和系统默认Renderer   Filter连接起 来; 第三步, 配置Sample  Grabber以捕获数据。 9.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述初始化 模块(13)在初始化时已经记录了背景, 作为以后系统图像处理的初始参照图, 所以可以通 过剔除背景来得到人体。 10.如权利要求1所述的基于语音的智能视觉交互方法及系统, 其特征在于: 所述人机 对话模块(5)的内部设置有图灵 机器人语音模块。权 利 要 求 书 2/2 页 3 CN 115019766 A 3

.PDF文档 专利 基于语音的智能视觉交互方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语音的智能视觉交互方法及系统 第 1 页 专利 基于语音的智能视觉交互方法及系统 第 2 页 专利 基于语音的智能视觉交互方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。