专利 语音交互设备和语音交互方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210743820.4 (22)申请日 2022.06.27 (71)申请人海信视像科技股份有限公司地址 266555 山东省青岛市经济技术开发区前湾港路218号 (72)发明人邢敏敏　 (74)专利代理机构北京国之大铭知识产权代理事务所(普通合伙) 11565 专利代理师张平 (51)Int.Cl. G10L 15/22(2006.01) G06F 40/30(2020.01) G06F 40/35(2020.01) G10L 13/02(2013.01) G10L 15/06(2013.01)G10L 15/26(2006.01) (54)发明名称语音交互设备和语音交互方法 (57)摘要本申请实施例提供了一种语音交互设备和语音交互方法，涉及语音理解技术领域。该语音交互设备包括：检测器，被配置为接收目标用户输入的语音指令；控制器，被配置为：获取第一文本和第二文本，第一文本为对语音指令进行文本转换得到的文本，第二文本包括对目标用户的至少一个历史语音指令进行文本转换得到的文本；检测第一文本是否存在语义缺失，以及第一文本和第二文本是否相关；在第一文本存在语义缺失且第一文本和第二文本相关的情况下，根据第二文本对第一文本进行语义补全，获取第三文本；根据第三文本对语音指令进行语义理解。本申请实施例用于解决语音文本中的指代和省略会造成语音交互设备无法准确理解用户的语音指令的问题。权利要求书3页说明书17页附图9页 CN 115273840 A 2022.11.01 CN 115273840 A 1.一种语音交互设备，其特征在于，包括：检测器，被配置为接收目标用户输入的语音指令；控制器，被配置为：获取第一文本和第二文本，所述第一文本为对所述语音指令进行文本转换得到的文本，所述第二文本包括对所述目标用户的至少一个历史语音指令进行文本转换得到的文本；检测所述第一文本是否存在语义缺失，以及所述第一文本和所述第二文本是否相关；在所述第一文本存在语义缺失且所述第一文本和所述第二文本相关的情况下，根据所述第二文本对所述第一文本进行语义补全，获取第三文本；根据所述第三文本对所述语音指令进行语义理解。 2.根据权利要求1所述的语音交互设备，其特征在于，所述控制器还被配置为：将所述第一文本和所述第二文本输入二分类模型，以及在所述二分类模型输入第一分类时，确定所述第一文本存在语义缺失且所述第一文本和所述第二文本相关；在所述二分类模型输入第二分类时，确定所述第一文本不存在语义缺失和/或所述第一文本和所述第二文本不相关；其中，所述二分类模型为基于第一样本数据集对知识增强的语义表示ERNIE模型进行训练获取的模型，所述第一样本数据集包括多组第一样本数据，任一组第一样本数据包括：样本第一文本、样本第二文本以及所述样本第一文本和所述样本第二文本对应的分类标签。 3.根据权利要求1所述的语音交互设备，其特征在于，所述控制器还被配置为：获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签；将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型，并根据所述第一语义补全模型的输出获取所述第三文本；其中，第一语义补全模型为根据补全策略建立的模型，所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略。 4.根据权利要求1所述的语音交互设备，其特征在于，所述控制器还被配置为：获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标签；将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型，并根据所述第二语义补全模型的输出获取所述第三文本；其中，所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型，所述第二样本数据集包括多组第二样本数据，任一组第二样本数据包括：样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本。 5.根据权利要求1所述的语音交互设备，其特征在于，所述控制器还被配置为：获取所述第一文本和所述第二文本中的至少一个关键词和所述至少一个关键词的标权　利　要　求　书 1/3 页 2 CN 115273840 A 2签；将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第一语义补全模型，并获取所述第一语义补全模型的输出；其中，第一语义补全模型为根据补全策略建立的模型，所述补全策略包括根据用户的历史用户请求日志按照领域和意图确定的规则和根据标签搭配关系建立关键槽位的解析规则构建的策略；将所述第一文本、所述第二文本、所述至少一个关键词以及所述至少一个关键词的标签输入第二语义补全模型，并获取所述第二语义补全模型的输出；其中，所述第二语义补全模型为基于第二样本数据集对预设深度学习模型进行训练获取的模型，所述第二样本数据集包括多组第二样本数据，任一组第二样本数据包括：样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本中的至少一个关键词、所述样本第一文本和所述样本第二文本中的至少一个关键词的标签以及所述样本第一文本对应的补全文本；根据所述第一语义补全模型的输出和所述第二语义补全模型的输出获取所述第三文本。 6.根据权利要求5所述的语音交互设备，其特征在于，所述第一语义补全模型的输出包括至少一个召回结果，所述第二语义补全模型的输出包括至少一个召回结果；所述控制器还被配置为：获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分；将所述第一语义补全模型和第二语义补全模型的输出的召回结果中所述评分最高的召回结果确定为所述第三文本。 7.根据权利要求6所述的语音交互设备，其特征在于，所述控制器还被配置为：将所述第一文本、所述第二文本以及所述第一语义补全模型和第二语义补全模型的输出的各个召回结果输入评分模型，并获取所述评分模型的输出；根据所述评分模型的输出获取所述第一语义补全模型和第二语义补全模型的输出的各个召回结果的评分；其中，所述评分模型为基于第三样本数据集对预设机器学习模型进行训练获取的模型，所述第三样本数据集包括多组第三样本数据，任一组第三样本数据包括：样本第一文本、样本第二文本、所述样本第一文本和所述样本第二文本对应的至少一个召回结果以及所述至少一个召回结果的评分。 8.根据权利要求1 ‑7任一项所述的语音交互设备，其特征在于，所述控制器还被配置为：将所述第三文本存储至预设存储空间。 9.根据权利要求 4或5所述的语音交互设备，其特征在于，所述控制器还被配置为：将所述第一文本、所述第一文本的关键词以及所述第一文本的关键词的标签输入所述第二语义补全模型的词嵌入层，并根据所述词嵌入层获取所述第一文本的嵌入特征；将所述第二文本、所述第二文本的关键词以及所述第二文本的关键词的标签输入所述词嵌入层，并根据所述词嵌入层获取所述第二文本的嵌入特征；通过所述第二语义补全模型的双向长短期记忆网络Bi ‑LSTM层，获取所述第一文本的编码特征和所述第二文本的编码特征；通过所述第二语义补全模型的相似性计算模块计算所述第一文本的编码特征中的各权　利　要　求　书 2/3 页 3 CN 115273840 A 3

专利 语音交互设备和语音交互方法

专利语音交互设备和语音交互方法