专利基于语音的智能视觉交互方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210565146.5 (22)申请日 2022.05.23 (71)申请人浙江鼎帅科技有限公司地址 311100 浙江省杭州市余杭区良渚街道好运街152号1幢2层201室 (72)发明人陈日清　 (74)专利代理机构北京知果之信知识产权代理有限公司 1 1541 专利代理师高科 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/08(2013.01) G10L 13/10(2013.01) G10L 15/22(2006.01) G10L 15/26(2006.01)G10L 21/0208(2013.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06V 10/62(2022.01) G06V 10/94(2022.01) G06V 20/40(2022.01) G06V 40/10(2022.01) (54)发明名称基于语音的智能视觉交互方法及系统 (57)摘要本发明公开了基于语音的智能视觉交互方法及系统。本发明中，系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统具有更强的可靠性和实用性。权利要求书2页说明书6页附图2页 CN 115019766 A 2022.09.06 CN 115019766 A 1.基于语音的智能视觉交互方法及系统，包括启动模块(1)、语音识别模块(2)、人机交互模块(3)、信息处理模块(4)、人机对话模块(5)、音频输出模块(6)、扬声器模块(7)、视觉检测模块( 8)、识别接口模块(9)、语音去噪模块(10)、语音合成模块(11)、视觉采集模块 (12)、初始化模块(13)、预处理模块(14)，其特征在于：所述启动模块(1)的输出端连接有所述语音识别模块(2)的输入端，所述语音识别模块(2)的输出端连接有所述人机交互模块 (3)的输入端，所述人机交互模块(3)的输出端连接有所述信息处理模块(4)的输入端，所述信息处理模块(4)的输出端连接有所述人机对话模块(5)的输入端，所述人机对话模块(5) 的输出端连接有所述音频输出模块(6)的输入端，所述音频输出模块(6)的输出端连接有所述扬声器模块(7)的输入端，所述人机交互模块(3)的外部固定连接有视觉检测模块(8)。 2.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述语音识别模块(2)的内部固定安装有识别接口模块(9)、语音去噪模块(10)和语音合成模块(11)，所述识别接口模块(9)、语音去噪模块(10)和语音合成模块(11)的输出端连接有所述语音识别模块(2)的输入端。 3.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述视觉检测模块(8)的内部固定安装有视觉采集模块(12)、初始化模块(13)和预处理模块(14)，所述视觉采集模块(12)、初始化模块(13)和预处理模块(14)的输出端连接有所述视觉检测模块 (8)的输入端。 4.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述识别接口模块(9)的内部设置有waveIn模块，该模块提供了语音应用程序和语音识别引擎之间的高层接口，完成了对语音引擎的实时操控；使用该接口时一般的函数调用顺序如下：启动模块(1)create_recorder创建录音对象；语音识别模块(2)open_recorder打开录音机，配置录音格式；人机交互模块(3)star t_record开始录音，录音数据在注册的回调函数中获取；信息处理模块(4)stop_record停止录音；人机对话模块(5)cl ose_recorder关闭录音机，对应open_recorder；音频输出模块(6)dest roy_recorder销毁录音对象，对应create_recorder； waveIn提供了IflyIatSession、 start、 stop、 writeAudio、 cancel等语音识别接口； IflyIatSession可以初始化 “语音听写会话 ”对象，用于调用其它听写接口；本接口应当在应用程序中仅调用一次，多次调用本函数时只有第一次调用此函数会进行实际的登录操作； start函数是 “开始语音识别 ”接口，通过传入调用参数，进行麦克风录音，获得对应的识别结果和音量回调； st op函数是“停止录音 ”接口，可以停止麦克风录音，向服务器发起请求并返回语音识别结果； writeAudi o。 5.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述语音去噪模块(10)的内部设置有有限脉冲滤波响应器和无线脉冲滤波响应器。 6.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述语音合成模块(11)的内部在用户输入文本信息后，文本分析和处理模块开始工作，完成文本规整、文本切分、语法分析、语义分析工作。 7.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述视觉检测模块(8)可以分为以下两个阶段：第一阶段：搜索阶段由于摄像头搭载在机器人平台上，权　利　要　求　书 1/2 页 2 CN 115019766 A 2不能随时检测到目标，所以需要机器人能自动旋转来搜索检测目标；一、点击开始目标跟随按钮，机器人开始向右旋转；二、如果机器人向右旋转360度仍为找到检测目标，则停止搜索并通知客户端未找到目标；人机交互模块(3)如果机器人已经找到目标，则进入下一阶段，对机器人姿态进行调整；第二阶段：调整和移动阶段本阶段将检测到的目标图像的质心(u， v)通过小孔成像原理转化为人机距离和角度(d， w)，其中若w为负值，则表示目标在机器人左侧，若为正值，则表示目标在机器人右侧；机器人运动控制过程如下：一、若人机距离 d<1m,则机器人不执行前进、后退操作，若d>1m,则机器人向前运动，直到d<＝1米时，给机器人发送运动停止命令；二、若偏转角度w<10则机器人不转动，若w>10，向右转动，直到0<w<10为止；若w为负，则向左旋转；三、若目标质心的横坐标为0时，此时表示目标丢失，机器人将回到上一步搜索阶段。 8.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述视觉采集模块 (12) 在采集信息时，先建立视频捕捉程序，必须首先获取并初始化 IcaptureGraphBuil der2接口，然后选择一个适当的视频捕捉设备；选择好设备后，为该设备创建Capture filter，然后调用Ad dFilter把Capture filter添加到Fi lter Graph； DirectShow提供了一个捕捉图像的方法∶使用Samp le Grabber filter；依次按照以下三个步骤∶ 第一步，定义一个类实现Sample Grabber的回调接口IsampleGrab berCB ∶ class CSampleGrab berCB:publ ic ISampleGrab berCB { //在后面提供的类中具体完成 } CSampleGrab berCB mCB；第二步，调用RenderStream依次把Still pin、 Sample Grabber和系统默认Renderer Filter连接起来；第三步，配置Sample Grabber以捕获数据。 9.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述初始化模块(13)在初始化时已经记录了背景，作为以后系统图像处理的初始参照图，所以可以通过剔除背景来得到人体。 10.如权利要求1所述的基于语音的智能视觉交互方法及系统，其特征在于：所述人机对话模块(5)的内部设置有图灵机器人语音模块。权　利　要　求　书 2/2 页 3 CN 115019766 A 3

专利 基于语音的智能视觉交互方法及系统

专利基于语音的智能视觉交互方法及系统