说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210420351.2 (22)申请日 2022.04.21 (71)申请人 语联网 (武汉) 信息技 术有限公司 地址 430073 湖北省武汉市武汉东湖新 技 术开发区高新大道999号未来科技城 B2栋13楼13 02室 (72)发明人 何征宇  (51)Int.Cl. G06F 40/58(2020.01) G06F 3/04845(2022.01) G06F 9/451(2018.01) G10L 15/26(2006.01) (54)发明名称 一种多模态语音转译方法、 系统与终端设备 (57)摘要 本发明提出一种多模态语音转译 方法、 系统 与终端设备, 属于语音翻译 技术领域。 方法包括: 接收语音输入序列; 将语音输入序列通过第一模 态转译为中间文本序列; 判断中间文本序列是否 存在预定文本子序列; 若存在, 则将预定文本子 序列通过第二模态转译为目标文本序列后, 替换 中间文本序列中的预定文本子序列; 将中间文本 序列在所述显示界面上显示。 系统包括语音接收 单元、 文本模态转译单元、 中间结果识别单元、 数 字模态转译单元、 图片模态转译单元以及动态显 示单元。 本发明还提出实现所述方法的终端设 备。 本发明的技术方案可通过多模态的方式转译 语音序列, 并且能够以图文 方式重点突出语音序 列的目标序列, 提高语音沟通效率。 权利要求书2页 说明书9页 附图5页 CN 114781406 A 2022.07.22 CN 114781406 A 1.一种多模态语音转译方法, 所述方法应用于包括显示界面和语音接收通道的终端, 其特征在于, 所述方法包括如下步骤: 通过所述语音接收通道接收语音输入序列; 将所述语音输入序列通过第一模态转译为中间文本序列; 判断所述中间文本序列是否存在预定文本 子序列; 若存在, 则将所述预定文本子序列通过第二模态转译为目标文本序列后, 替换所述中 间文本序列中的所述预定文本 子序列; 将所述中间文本序列在所述显示界面上显示。 2.如权利要求1所述的一种多模态语音转译方法, 其特 征在于, 所述方法还 包括: 判断所述中间文本序列是否存在预定文本 子序列; 若不存在, 则返回通过 所述语音接收通道接收语音输入序列的步骤。 3.如权利要求1所述的一种多模态语音转译方法, 其特 征在于, 所述方法还 包括: 判断所述中间文本序列是否存在预定文本 子序列; 若存在, 则将所述预定文本子序列通过第二模态转译为目标文本序列, 将所述目标文 本序列在所述显示界面上显示; 所述目标文本序列在所述显示界面上的显示方式不同于所述中间文本序列在所述显 示界面上的显示方式。 4.如权利要求1所述的一种多模态语音转译方法, 其特 征在于, 所述方法还 包括: 判断所述中间文本序列是否存在预定文本 子序列; 若存在, 则判断所述预定文本 子序列是否符合图片转换 条件; 若符合, 则将所述预定文本子序列通过第三模态转译为图片序列, 并将所述图片序列 在所述显示界面上显示; 所述图片序列在所述显示界面上的显示区域不同于所述中间文本序列在所述显示界 面上的显示区域。 5.如权利要求 4所述的一种多模态语音转译方法, 其特 征在于: 由第一进程执行所述第一模态转译, 由第二进程执行所述第二模态转译, 由第三进程 执行所述第三模态转译; 所述第一进程 为系统常驻进程; 所述显示界面基于所述第二进程和所述第三进程的激活状态进行多个显示区域的动 态切分与合并。 6.如权利要求 4所述的一种多模态语音转译方法, 其特 征在于: 所述预定文本 子序列包括数字文本、 预定名词中的至少一个; 判断所述预定文本 子序列是否符合图片转换 条件, 具体包括: 判断所述预定文本 子序列是否包 含可以转换为预定格式显示的数字图片的数字文本; 和/或; 判断所述预定文本 子序列是否包 含可以转换为对应图片显示的预定名词。 7.一种多模态语音转译系统, 所述系统包括语音接收单元、 文本模态转译单元、 中间结 果识别单 元、 数字模态转译单 元、 图片模态转译单 元以及动态显示单 元, 其特征在于: 所述语音接收单 元用于接收语音输入序列;权 利 要 求 书 1/2 页 2 CN 114781406 A 2所述文本模态转译单 元将所述语音输入序列转译为中间文本序列; 所述中间结果识别单元用于识别所述中间文本序列是否存在预定文本子序列, 并基于 识别结果激活所述数字模态转译单 元和/或图片模态转译单 元; 所述数字模态转译单 元将所述预定文本 子序列包 含的数字文本转译为目标文本序列; 所述图片模态转译单元将所述目标文本序列或者所述预定文本子序列转译为图片序 列; 所述动态显示单元基于所述数字模态转译单元、 所述图片模态转译单元的激活状态, 调节所述多模态语音转译系统的显示界面的显示区域的数量, 并将所述中间文本序列、 目 标文本序列、 图片序列以不同的显示方式在不同的显示区域显示。 8.如权利要求7 所述的一种多模态语音转译系统, 其特 征在于: 所述预定文本 子序列包括 化学名词序列; 所述图片模态转译单 元将所述预定文本 子序列转译为图片序列, 具体包括: 所述图片模态转译单 元将所述 化学名词转 为化学式组合显示图片。 9.如权利要求7 所述的一种多模态语音转译系统, 其特 征在于: 所述目标文本序列包括数字文本串; 所述图片模态转译单 元将所述目标文本序列转译为图片序列, 具体包括: 所述图片模态转译单元将所述数字文本串转译为以科学计数法、 指数法、 N进制形式展 示的图片显示序列。 10.如权利要求7 ‑9任一项所述的一种多模态语音转译系统, 其特 征在于: 所述动态显示单 元连接所述中间结果识别单 元; 当所述中间结果识别单元识别出所述中间文本序列不存在预定文本子序列时, 恢 复所 述动态显示单 元的初始设置状态, 所述初始设置状态为所述系统的显示界面的默认状态。权 利 要 求 书 2/2 页 3 CN 114781406 A 3

.PDF文档 专利 一种多模态语音转译方法、系统与终端设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态语音转译方法、系统与终端设备 第 1 页 专利 一种多模态语音转译方法、系统与终端设备 第 2 页 专利 一种多模态语音转译方法、系统与终端设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:23:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。