专利语音识别与分类方法、装置、设备、冰箱及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210556181.0 (22)申请日 2022.05.20 (71)申请人青岛海尔电冰箱有限公司地址 266101 山东省青岛市崂山区海尔路1 号海尔工业园申请人海尔智家股份有限公司 (72)发明人曾谁飞　孔令磊　张景瑞　李敏　刘卫强　 (74)专利代理机构苏州威世朋知识产权代理事务所(普通合伙) 32235 专利代理师郜商羽 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/26(2006.01) (54)发明名称语音识别与分类方法、装置、设备、冰箱及存储介质 (57)摘要本发明提供一种语音识别与分类方法、装置、设备、冰箱及存储介质，涉及计算机技术领域，所述方法包括步骤：获取实时语音数据，获取历史文本数据；转写所述实时语音数据为语音文本数据；提取所述实时语音数据和所述历史文本数据的文本特征；将所述文本特征经全连接层组合后，输出至分类器计算得分得到分类结果信息；输出所述分类结果信息。通过获取历史文本数据，将历史文本数据作为预训练和预测模型的数据集的一部分，更全面地获取了文本语义特征信息，通过综合运用实时语音数据和历史文本数据，将历史文本数作为补充数据，弥补了语音数据文本语义信息较少的问题，有效提高了文本分类准确度。权利要求书3页说明书10页附图6页 CN 115062143 A 2022.09.16 CN 115062143 A 1.一种语音识别与分类方法，其特征在于，包括步骤：获取实时语音数据，获取历史文本数据；转写所述实时语音数据为语音文本数据；提取所述实时语音数据和所述历史文本数据的文本特征；将所述文本特征经全连接层组合后，输出至分类器计算得分得到分类结果信息；输出所述分类结果信息。 2.根据权利要求1所述的语音识别与分类方法，其特征在于，所述转写所述实时语音数据为语音文本数据，具体包括：提取所述实时语音数据特征，得到语音特征；将所述语音特征输入语音识别卷积神经网络得到输出文本数据；将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐；将所述输出文本数据经全连接层组合后，输出至分类函数计算得分得到语音文本数据。 3.根据权利要求2所述的语音识别与分类方法，其特征在于，所述转写所述实时语音数据为语音文本数据，还包括步骤：基于注意力机制，获取所述输出文本数据局部关键特征。 4.根据权利要求2所述的语音识别与分类方法，其特征在于，所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据，具体包括：将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据。 5.根据权利要求2所述的语音识别与分类方法，其特征在于，所述提取所述实时语音数据特征，具体包括：提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征。 6.根据权利要求1所述的语音识别与分类方法，其特征在于，所述提取所述实时语音数据和所述历史文本数据的文本特征，具体包括：将所述语音文本数据和所述历史文本数据转化为词向量；将所述词向量输入双向长短记忆网络模型，获取包含基于所述语音文本数据和所述历史文本数据上下文特征信息的上下文特征向量。 7.根据权利要求6所述的语音识别与分类方法，其特征在于，所述提取所述实时语音数据和所述历史文本数据的文本特征，还包括：将所述上下文特征向量输入注意力机制模型，获取包含权重信息的注意力特征向量。 8.根据权利要求7所述的语音识别与分类方法，其特征在于，所述将所述上下文特征向量输入注意力机制模型，获取包含权重信息的注意力特征向量，具体包括：将所述上下文特征向量输入自注意力机制模型，获取包含所述文本数据的文本语义自身权重信息的第一注意力特征向量；将所述第一注意力特征向量输入互注意力机制模型，获取包含所述文本数据不同词之间的关联权重信息的第二注意力特征向量。 9.根据权利要求7所述的语音识别与分类方法，其特征在于，所述将所述文本特征经全连接层组合后，输出至分类器计算得分得到分类结果信息，具体包括：权　利　要　求　书 1/3 页 2 CN 115062143 A 2将所述注意力特征向量经全连接层组合后，输出至Softmax函数，计算所述语音文本数据和所述历史文本数据文本语义的得分及其归一化得分结果，得到分类结果信息。 10.根据权利要求1所述的语音识别与分类方法，其特征在于，所述获取实时语音数据，具体包括：获取语音采集装置所采集的所述实时语音数据，和/或获取自客户终端传输的所述实时语音数据。 11.根据权利要求1所述的语音识别与分类方法，其特征在于，所述获取历史文本数据，具体包括：获取内部存储的历史文本作为历史文本数据，和/或获取外部存储的历史文本作为历史文本数据，和/或获取客户终端传输的历史文本作为历史文本数据。 12.根据权利要求1所述的语音识别与分类方法，其特征在于，还包括步骤：对所述实时语音数据进行预处理，包括：对所述实时语音数据进行分帧处理和加窗处理，对所述历史文本数据进行预处理，包括：对所述语音文本数据进行清洗处理、标注、分词、去停用词。 13.根据权利要求1所述的语音识别与分类方法，其特征在于，所述输出所述分类结果信息包括：将所述分类结果信息转换为语音进行输出，和/或将所述分类结果信息转换为语音传输至客户终端输出，和/或将所述分类结果信息转换为文本进行输出，和/或将所述分类结果信息转换为文本传输至客户终端输出。 14.根据权利要求1所述的语音识别与分类方法，其特征在于，所述获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息，具体包括：获取存储于外部缓存的配置数据，将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算，获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。 15.一种语音识别与分类装置，包括：数据获取模块，用于获取实时语音数据，和获取历史文本数据；转写模块，用于转写所述实时语音数据为语音文本数据；特征提取模块，用于提取所述实时语音数据和所述历史文本数据的文本特征；结果计算模块，用于将所述文本特征经全连接层组合后，输出至分类器计算得分得到分类结果信息；输出模块，用于输出所述分类结果信息。 16.一种电器设备，包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至14任一项所述的语音识别与分类方法。 17.一种冰箱，包括：权　利　要　求　书 2/3 页 3 CN 115062143 A 3

专利 语音识别与分类方法、装置、设备、冰箱及存储介质

专利语音识别与分类方法、装置、设备、冰箱及存储介质