专利结合语音信息的口语理解方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111641497.1 (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号申请公布号 CN 114021582 A (43)申请公布日 2022.02.08 (73)专利权人深圳市北科瑞声科技股份有限公司地址 518036 广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6 (72)发明人黄石磊　汪雪　蒋志燕　程刚　廖晨　 (74)专利代理机构深圳智汇远见知识产权代理有限公司 4 4481 代理人聂磊　牛悦涵 (51)Int.Cl. G06F 40/35(2020.01) G06F 40/289(2020.01)G06F 16/35(2019.01) G06K 9/62(2022.01) G10L 15/06(2013.01) G10L 15/08(2006.01) G10L 15/18(2013.01) G10L 15/26(2006.01) G10L 19/02(2013.01) G10L 19/26(2013.01) (56)对比文件 CN 110516253 A,2019.1 1.29 US 2019244603 A1,2019.08.08 CN 110795938 A,2020.02.14 CN 113486669 A,2021.10.08 WO 2021190259 A1,2021.09.3 0 CN 112183062 A,2021.01.0 5 侯晓龙等.基于知识蒸馏的口语理解模型研究与实现. 《电子技术与软件工程》 .2021,(第02 期),第180 -184页. 审查员黄长霞 (54)发明名称结合语音信息的口语理解方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露了一种结合语音信息的口语理解方法，包括：利用预设的分词器对口语语音数据对应的文本数据进行字符分词，得到字符序列，利用预设的N个分词器对所述文本数据进行分词，得到N个词语序列，利用投票机制，从所述N个词语序列中选取目标词语序列；利用训练得到的口语理解模型对所述字符序列、目标词语序列及口语语音数据进行编码、融合、并进行分类预测得到意图标签及槽位标签。本发明还提出一种结合语音信息的口语理解装置、电子设备以及存储介质。本发明可以提高口语理解的准确率。权利要求书3页说明书14页附图4页 CN 114021582 B 2022.04.01 CN 114021582 B 1.一种结合语音信息的口语理解方法，其特征在于，所述方法包括：获取口语语音数据及所述口语语音数据对应的文本数据；利用预设的分词器对所述文本数据进行字符分词，得到字符序列，利用预设的N个分词器对所述文本数据进行分词，得到N个词语序列，利用投票机制，从所述N个词语序列中选取目标词语序列，其中所述 N为大于等于2的自然数；获取训练得到的口语理解模型，其中所述口语理解模型包括编码层、融合层、意图识别任务层及语义槽填充任务层; 利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码，得到字符编码序列、词语编码序列、语音特征向量；利用所述融合层，基于注意力机制，对所述字符编码序列、词语编码序列及语音特征向量进行融合，得到融合向量；利用所述意图识别任务层对所述融合向量进行分类，得到意图标签；利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测，得到槽位标签。 2.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码，得到字符编码序列、词语编码序列、语音特征向量,包括：利用预设的字符编码器、预设的词语编码器、预设的语音编码器构建编码层；利用所述字符编码器对所述字符序列进行编码，得到字符编码序列；利用所述词语编码器对所述目标词语序列进行编码，得到词语编码序列；利用所述语音编码器对所述口语语音数据进行编码，得到语音特征向量。 3.如权利要求2所述的结合语音信息的口语理解方法，其特征在于，所述利用所述词语编码器对所述目标词语序列进行编码，得到词语编码序列，包括：利用预设的自注意力机制模块及预设的双向长短期记忆网络构建所述词语编码器；利用所述自注意力机制模块抽取所述目标词语序列的上下文信息；利用所述双向长短期记忆网络获取所述目标词语序列的顺序信息；对所述上下文信息及所述顺序信息进行全连接处理，得到词语编码序列。 4.如权利要求2所述的结合语音信息的口语理解方法，其特征在于，所述利用所述语音编码器对所述口语语音数据进行编码，得到语音特征向量，包括：在所述语音编码器中，对所述口语语音数据利用高通滤波器进行预加重处理；对所述预加重处理后的口语语音数据进行分帧加窗处理得到，得到加窗语音帧；对所述加窗语音帧进行快速傅立叶变换，得到对应的能量谱；利用三角带通滤波器对所述能量谱，进行频谱平滑及消除谐波，得到优化后的能量谱；计算所述优化后的能量谱的对数能量谱，对所述对数能量谱进行离散余弦变换，得到语音特征参数，并提取所述语音特征参数的一阶、二阶动态差分参数作为语音特征向量。 5.如权利要求1至4中任一项所述的结合语音信息的口语理解方法，其特征在于，所述利用所述融合层，基于注意力机制，对所述字符编码序列、词语编码序列及语音特征向量进行融合，得到融合向量，包括：利用注意力模块及神经网络构建所述融合层；权　利　要　求　书 1/3 页 2 CN 114021582 B 2利用所述注意力模块分别提取所述字符编码序列的字符综合表示向量，及所述词语编码序列的词语综合表示向量；利用所述神经网络中预设的融合函数对所述字符综合表示向量、所述词语综合表示向量及所述语音特征向量进行融合，得到融合向量。 6.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述意图识别任务层对所述融合向量进行分类，得到意图标签，包括：对所述融合向量进行横向等宽度切分成特征序列；利用所述意图识别任务层中的循环层对所述融合向量进行预测，得到所述特征序列的初步标签序列；利用所述意图识别任务层中的时间连接分类器对所述初步标签序列进行分类，得到所述文本数据及口语语音数据的意图标签。 7.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测，得到槽位标签，包括：利用所述语义槽填充任务层中预设的字符解码器对所述字符编码序列进行解码，得到每个槽位的字符隐状态；利用所述语义槽填充任务层中预设的词语解码器对所述词语编码序列进行解码，得到每个槽位的词语隐状态；利用预设的融合函数将所述字符隐状态及词语隐状态进行融合，得到槽位隐状态；利用所述语义槽填充任务层中预设的分类器对所述槽位隐状态进行分类，得到槽位标签。 8.如权利要求1所述的方法，其特征在于，所述获取训练得到的口语理解模型之前，所述方法还包括：联合所述意图标签及所述槽位标签的损失值来训练所述口语理解模型，利用如下公式计算所述损失值：其中，表示比例系数；取值在0到1之间；表示正确的意图标签；表示所述预测的意图标签；表示第i个槽位的正确的槽位标签；表示第i个槽位的预测的槽位标签。 9.一种结合语音信息的口语理解装置，其特征在于，所述装置包括：分词模块，用于获取文本数据及口语语音数据；利用预设的分词器对所述文本数据进行字符分词，得到字符序列，利用预设的N个分词器对所述文本数据进行分词，得到N个词语序列，利用投票机制，从所述N个词语序列中选取目标词语序列，其中所述N为大于等于2的权　利　要　求　书 2/3 页 3 CN 114021582 B 3

专利 结合语音信息的口语理解方法、装置、设备及存储介质

专利结合语音信息的口语理解方法、装置、设备及存储介质