(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111641497.1
(22)申请日 2021.12.3 0
(65)同一申请的已公布的文献号
申请公布号 CN 114021582 A
(43)申请公布日 2022.02.08
(73)专利权人 深圳市北 科瑞声科技股份有限公
司
地址 518036 广东省深圳市福田区梅林街
道梅都社区中康路136号深圳新一代
产业园3栋1201-6
(72)发明人 黄石磊 汪雪 蒋志燕 程刚
廖晨
(74)专利代理 机构 深圳智汇远见知识产权代理
有限公司 4 4481
代理人 聂磊 牛悦涵
(51)Int.Cl.
G06F 40/35(2020.01)
G06F 40/289(2020.01)G06F 16/35(2019.01)
G06K 9/62(2022.01)
G10L 15/06(2013.01)
G10L 15/08(2006.01)
G10L 15/18(2013.01)
G10L 15/26(2006.01)
G10L 19/02(2013.01)
G10L 19/26(2013.01)
(56)对比文件
CN 110516253 A,2019.1 1.29
US 2019244603 A1,2019.08.08
CN 110795938 A,2020.02.14
CN 113486669 A,2021.10.08
WO 2021190259 A1,2021.09.3 0
CN 112183062 A,2021.01.0 5
侯晓龙等.基 于知识蒸馏的 口语理解模型研
究与实现. 《电子技 术与软件工程》 .2021,(第02
期),第180 -184页.
审查员 黄长霞
(54)发明名称
结合语音信息的口语理解方法、 装置、 设备
及存储介质
(57)摘要
本发明涉及人工智能技术, 揭露了一种结合
语音信息的口语理解方法, 包括: 利用预设的分
词器对口语语音数据对应的文本数据进行字符
分词, 得到字符序列, 利用预设的N个分词器对所
述文本数据进行分词, 得到N个词语序列, 利用投
票机制, 从所述N个词语序列中选取目标词语序
列; 利用训练得到的口语理解模 型对所述字符序
列、 目标词语序列及口语语音数据进行编码、 融
合、 并进行分类预测得到意图标签及槽位标签。
本发明还提出一种结合语音信息的口语理解装
置、 电子设备 以及存储介质。 本发明可 以提高口
语理解的准确率。
权利要求书3页 说明书14页 附图4页
CN 114021582 B
2022.04.01
CN 114021582 B
1.一种结合语音信息的 口语理解方法, 其特 征在于, 所述方法包括:
获取口语 语音数据及所述口语 语音数据对应的文本数据;
利用预设的分词器对所述文本数据进行字符分词, 得到字符序列, 利用预设的N个分词
器对所述文本数据进 行分词, 得到N个词语序列, 利用投票机制, 从所述N个词语序列中选取
目标词语序列, 其中所述 N为大于等于2的自然数;
获取训练得到的口语理解模型, 其中所述口语理解模型包括编码层、 融合层、 意图识别
任务层及语义槽填充任务层;
利用所述编码层对所述字符序列、 所述目标词语序列及口语语音数据进行编码, 得到
字符编码序列、 词语编码序列、 语音特 征向量;
利用所述融合层, 基于注意力机制, 对所述字符编码序列、 词语编码序列及语音特征向
量进行融合, 得到融合向量;
利用所述 意图识别任务层对所述融合向量进行分类, 得到意图标签;
利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测, 得到
槽位标签。
2.如权利要求1所述的结合语音信 息的口语理解方法, 其特征在于, 所述利用所述编码
层对所述字符序列、 所述目标词语序列及口语语音 数据进行编 码, 得到字 符编码序列、 词语
编码序列、 语音特 征向量,包括:
利用预设的字符编码器、 预设的词语编码器、 预设的语音编码器构建编码层;
利用所述字符编码器对所述字符序列进行编码, 得到 字符编码序列;
利用所述词语编码器对所述目标词语序列进行编码, 得到词语编码序列;
利用所述语音编码器对所述口语 语音数据进行编码, 得到语音特 征向量。
3.如权利要求2所述的结合语音信 息的口语理解方法, 其特征在于, 所述利用所述词语
编码器对所述目标词语序列进行编码, 得到词语编码序列, 包括:
利用预设的自注意力机制模块及预设的双向长短期记 忆网络构建所述词语编码器;
利用所述自注意力机制模块抽取 所述目标词语序列的上 下文信息;
利用所述双向长短期记 忆网络获取 所述目标词语序列的顺序信息;
对所述上 下文信息及所述 顺序信息进行全连接处 理, 得到词语编码序列。
4.如权利要求2所述的结合语音信息的口语理解方法, 其特征在于, 所述利用所述语
音编码器对所述口语 语音数据进行编码, 得到语音特 征向量, 包括:
在所述语音编码器中, 对所述口语 语音数据利用高通滤波器进行 预加重处 理;
对所述预加重处 理后的口语语音数据进行分帧加窗处 理得到, 得到加窗语音帧;
对所述加窗语音帧进行 快速傅立叶变换, 得到对应的能量谱;
利用三角带通滤波器对所述能量谱, 进行 频谱平滑及消除谐波, 得到优化后的能量谱;
计算所述优化后的能量谱的对数能量谱, 对所述对数能量谱进行离散余弦变换, 得到
语音特征参数, 并提取 所述语音特 征参数的一阶、 二阶动态差分参数作为语音特 征向量。
5.如权利要求1至4中任一项所述的结合语音信息的口语理解方法, 其特征在于, 所述
利用所述融合层, 基于注意力机制, 对 所述字符编 码序列、 词语编码序列及语音 特征向量进
行融合, 得到融合向量, 包括:
利用注意力模块及神经网络构建所述融合层;权 利 要 求 书 1/3 页
2
CN 114021582 B
2利用所述注意力模块分别提取所述字符编码序列的字符综合表示向量, 及所述词语编
码序列的词语综合表示向量;
利用所述神经网络 中预设的融合函数对所述字符综合表示向量、 所述词语综合表示向
量及所述语音特 征向量进行融合, 得到融合向量。
6.如权利要求1所述的结合语音信息的口语理解方法, 其特征在于, 所述利用所述意
图识别任务层对所述融合向量进行分类, 得到意图标签, 包括:
对所述融合向量进行横向等宽度切分成特 征序列;
利用所述意图识别任务层中的循环层对所述融合向量进行预测, 得到所述特征序列的
初步标签序列;
利用所述意图识别任务层中的时间连接分类器对所述初步标签序列进行分类, 得到所
述文本数据及口语 语音数据的意图标签。
7.如权利要求1所述的结合语音信息的口语理解方法, 其特征在于, 所述利用所述语
义槽填充任务层对所述字符编码序列及所述词语编码序列进行 预测, 得到 槽位标签, 包括:
利用所述语义槽填充任务层中预设的字符解码器对所述字符编码序列进行解码, 得到
每个槽位的字符隐状态;
利用所述语义槽填充任务层中预设的词语解码器对所述词语编码序列进行解码, 得到
每个槽位的词语隐状态;
利用预设的融合 函数将所述字符隐状态及词语隐状态进行融合, 得到 槽位隐状态;
利用所述语义槽填充任务层中预设的分类器对所述槽位隐状态进行分类, 得到槽位标
签。
8.如权利要求1所述的方法, 其特征在于, 所述获取训练得到的口语理解模型之前, 所
述方法还 包括:
联合所述意图标签及所述槽位标签的损失值来训练所述口语理解模型, 利用如下公式
计算所述损失值:
其中,
表示比例系数;
取值在0到1之间;
表示正确的意图标签;
表示所述预测的意图标签;
表示第i个槽位的正确的槽位标签;
表示第i个槽位的预测的槽位标签。
9.一种结合语音信息的 口语理解装置, 其特 征在于, 所述装置包括:
分词模块, 用于获取文本数据及口语语音数据; 利用预设的分词器对所述文本数据进
行字符分词, 得到字符序列, 利用预设的N个分词器对所述文本数据进 行分词, 得到N个词语
序列, 利用投票机制, 从所述N个词语序列中选取目标词语序列, 其中所述N为大于等于2的权 利 要 求 书 2/3 页
3
CN 114021582 B
3
专利 结合语音信息的口语理解方法、装置、设备及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:44:07上传分享