说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210743820.4 (22)申请日 2022.06.27 (71)申请人 海信视像科技股份有限公司 地址 266555 山东省青岛市经济技 术开发 区前湾港路218号 (72)发明人 邢敏敏  (74)专利代理 机构 北京国之大铭知识产权代理 事务所(普通 合伙) 11565 专利代理师 张平 (51)Int.Cl. G10L 15/22(2006.01) G06F 40/30(2020.01) G06F 40/35(2020.01) G10L 13/02(2013.01) G10L 15/06(2013.01)G10L 15/26(2006.01) (54)发明名称 语音交互设备和语音交 互方法 (57)摘要 本申请实施例提供了一种语音交互设备和 语音交互方法, 涉及语音理解技术领域。 该语音 交互设备包括: 检测器, 被配置为接收目标用户 输入的语音指令; 控制器, 被配置为: 获取第一文 本和第二文本, 第一文本为对语音指令进行文本 转换得到的文本, 第二文本包括对目标用户的至 少一个历史语音指令进行文本转换得到的文本; 检测第一文本是否存在语义缺失, 以及第一文本 和第二文本是否相关; 在第一文本存在语义缺失 且第一文本和第二文本相关的情况下, 根据第二 文本对第一文本进行语义补全, 获取第三文本; 根据第三文本对语音指令进行语义理解。 本申请 实施例用于解决语音文本中的指代和省略会造 成语音交互设备无法准确理解用户的语音指令 的问题。 权利要求书3页 说明书17页 附图9页 CN 115273840 A 2022.11.01 CN 115273840 A 1.一种语音交 互设备, 其特 征在于, 包括: 检测器, 被 配置为接收目标用户输入的语音指令; 控制器, 被 配置为: 获取第一文本和第二文本, 所述第一文本为对所述语音指令进行文本转换得到的文 本, 所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文 本; 检测所述第一文本是否存在语义 缺失, 以及所述第一文本和所述第二文本是否相关; 在所述第一文本存在语义缺失且所述第 一文本和所述第 二文本相关的情况下, 根据 所 述第二文本对所述第一文本进行语义补全, 获取第三文本; 根据所述第三文本对所述语音指令进行语义理解。 2.根据权利要求1所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 将所述第一文本和所述第 二文本输入二分类模型, 以及在所述二分类模型输入第 一分 类时, 确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关; 在所述二分 类模型输入第二分类时, 确定所述第一文本不存在语义缺失和/或所述第一文本和所述第 二文本不相关; 其中, 所述二分类模型为基于第一样本数据集对知识增 强的语义表示ERNIE模型进行 训练获取的模型, 所述第一样本数据集包括多组第一样本数据, 任一组第一样本数据包括: 样本第一文本、 样本第二文本 以及所述样本第一文本和所述样本第二文本对应的分类标 签。 3.根据权利要求1所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标 签; 将所述第一文本、 所述第二文本、 所述至少一个关键词以及所述至少一个关键词的标 签输入第一语义补全 模型, 并根据所述第一语义补全 模型的输出获取 所述第三文本; 其中, 第一语义补全模型为根据补全策略建立的模型, 所述补全策略包括根据用户的 历史用户请求日志按照领域和 意图确定的规则和 根据标签搭配关系建立关键槽位的解析 规则构建的策略。 4.根据权利要求1所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标 签; 将所述第一文本、 所述第二文本、 所述至少一个关键词以及所述至少一个关键词的标 签输入第二语义补全 模型, 并根据所述第二语义补全 模型的输出获取 所述第三文本; 其中, 所述第 二语义补全模型为基于第 二样本数据集对预设深度 学习模型进行训练获 取的模型, 所述第二样本数据集包括多组第二样本数据, 任一组第二样本数据包括: 样 本第 一文本、 样本第二文本、 所述样本第一文本和所述样本第二文本中的至少一个关键词、 所述 样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对 应的补全文本 。 5.根据权利要求1所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标权 利 要 求 书 1/3 页 2 CN 115273840 A 2签; 将所述第一文本、 所述第二文本、 所述至少一个关键词以及所述至少一个关键词的标 签输入第一语义补全模型, 并获取所述第一语义补 全模型的输出; 其中, 第一语义补 全模型 为根据补全策略建立的模型, 所述补全策略包括根据用户的历史用户请求日志按照领域和 意图确定的规则和根据标签搭配关系建立关键 槽位的解析规则构建的策略; 将所述第一文本、 所述第二文本、 所述至少一个关键词以及所述至少一个关键词的标 签输入第二语义补全模型, 并获取所述第二语义补 全模型的输出; 其中, 所述第二语义补全 模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型, 所述第二样本数据 集包括多组第二样本数据, 任一组第二样本数据包括: 样本第一文本、 样本第二文本、 所述 样本第一文本和所述样本第二文本中的至少一个关键词、 所述样本第一文本和所述样本第 二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本; 根据所述第一语义补全模型的输出和所述第二语义补全模型的输出获取所述第三文 本。 6.根据权利要求5所述的语音交互设备, 其特征在于, 所述第 一语义补全模型的输出包 括至少一个召回结果, 所述第二语义补全模型 的输出包括至少一个召回结果; 所述控制器 还被配置为: 获取所述第一语义补全 模型和第二语义补全 模型的输出的各个召回结果的评分; 将所述第一语义补全模型和第二语义补全模型的输出的召回结果中所述评分最高的 召回结果确定为所述第三文本 。 7.根据权利要求6所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 将所述第一文本、 所述第 二文本以及所述第 一语义补全模型和第 二语义补全模型的输 出的各个召回结果输入评分模型, 并获取 所述评分模型的输出; 根据所述评分模型的输出获取所述第一语义补全模型和第二语义补全模型的输出的 各个召回结果的评分; 其中, 所述评分模型为基于第三样本数据集对预设机器学习模型进行训练获取的模 型, 所述第三样本数据集包括多组第三样本数据, 任一组第三样本数据包括: 样本第一文 本、 样本第二文本、 所述样本第一文本和所述样本第二文本对应的至少一个召回结果以及 所述至少一个召回结果的评分。 8.根据权利要求1 ‑7任一项所述的语音交互设备, 其特征在于, 所述控制器还被配置 为: 将所述第三文本存 储至预设存 储空间。 9.根据权利要求 4或5所述的语音交 互设备, 其特 征在于, 所述控制器还被 配置为: 将所述第一文本、 所述第 一文本的关键词以及所述第 一文本的关键词的标签输入所述 第二语义补全 模型的词嵌入层, 并根据所述词嵌入层获取 所述第一文本的嵌入特 征; 将所述第二文本、 所述第 二文本的关键词以及所述第 二文本的关键词的标签输入所述 词嵌入层, 并根据所述词嵌入层获取 所述第二文本的嵌入特 征; 通过所述第二语义补全模型的双向长短期记忆网络Bi ‑LSTM层, 获取所述第一文本的 编码特征和所述第二文本的编码特 征; 通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各权 利 要 求 书 2/3 页 3 CN 115273840 A 3

.PDF文档 专利 语音交互设备和语音交互方法

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音交互设备和语音交互方法 第 1 页 专利 语音交互设备和语音交互方法 第 2 页 专利 语音交互设备和语音交互方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。