专利意图识别模型训练及语音意图识别方法、装置和相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210517517.2 (22)申请日 2022.05.13 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人张旭龙　王健宗　程宁　 (74)专利代理机构深圳国新南方知识产权代理有限公司 4 4374 专利代理师艾青 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G10L 15/26(2006.01) (54)发明名称意图识别模型训练及语音意图识别方法、装置和相关设备 (57)摘要本申请涉及人工智能技术，提出一种意图识别模型训练及语音意图识别方法、装置和相关设备，该方法包括：获取标注有用户意图标签的样本语音作为数据集；将对样本语音进行语音识别得到的样本文本特征和从样本语音提取的样本语音特征输入至待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签；计算损失函数用以更新模型参数，直至模型收敛，得到已训练的意图识别模型。本申请通过从语音中以多维度获取意图相关信息进行融合识别到更完整和准确的用户意图。权利要求书3页说明书12页附图3页 CN 114997174 A 2022.09.02 CN 114997174 A 1.一种意图识别模型的训练方法，其特征在于，所述方法包括：获取数据集，其中，所述数据集所包含的每条样本语音标注有对应的用户意图标签；对所述样本语音进行语音识别，得到所述样本语音的样本识别文本对应的样本文本特征；提取所述样本语音对应的样本语音特征；将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签；计算整体损失函数，根据所述整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，所述整体损失函数包括分类损失函数，所述分类损失函数是根据所述预测意图标签和对应的用户意图标签计算得到的。 2.根据权利要求1所述的方法，其特征在于，所述将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签，包括：通过待训练意图识别模型对输入的所述样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对所述内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从所述重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据所述第一融合意图特征表示进行意图预测，得到预测意图标签。 3.根据权利要求2所述的方法，其特征在于，所述通过待训练意图识别模型对输入的所述样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对所述内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从所述重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据所述第一融合意图特征表示进行意图预测，得到预测意图标签，包括：通过待训练意图识别模型的第一内容编码器对所述样本文本特征进行编码，得到表征样本识别文本内容的第一内容隐变量；通过所述待训练意图识别模型的第一意图编码器对所述样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；通过所述待训练意图识别模型的第二内容编码器对所述样本语音特征进行编码，得到表征样本语音内容的第二内容隐变量；通过所述待训练意图识别模型的第二意图编码器对所述样本语音特征进行编码，得到表征样本语音意图的第二意图隐变量；将所述第一内容隐变量和第二意图隐变量输入至所述待训练意图识别模型的第一生成器，通过所述第一生成器生成重构文本特征；将所述第二内容隐变量和第一意图隐变量输入至所述待训练意图识别模型的第二生成器，通过所述第二生成器生成重构语音特征；通过所述待训练意图识别模型的第三意图编码器对所述重构文本特征进行编码，得到表征重构文本意图的第三意图隐变量；权　利　要　求　书 1/3 页 2 CN 114997174 A 2通过所述待训练意图识别模型的第四意图编码器对所述重构语音特征进行编码，得到表征重构语音意图的第四意图隐变量；通过所述待训练意图识别模型的融合层对所述第三意图隐变量和第四意图隐变量进行融合得到第一融合意图特征表示；将所述第一融合意图特征表示输入至所述待训练意图识别模型的预测层，通过所述预测层进行意图预测，得到预测意图标签。 4.根据权利要求3所述的方法，其特征在于，所述整体损失函数还包括第一重构损失函数、第二重构损失函数和分布损失函数中的至少一种；其中，所述第一重构损失函数是根据所述样本文本特征与重构文本特征计算得到的；所述第二重构损失函数是根据所述样本语音特征与重构语音特征计算得到的；所述分布损失函数是根据所述第五隐变量和第六隐变量计算得到的。 5.根据权利要求1所述的方法，其特征在于，所述将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签，包括：通过待训练意图识别模型的第一意图编码器对所述样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；通过所述待训练意图识别模型的第二意图编码器对所述样本语音特征进行编码，得到表征样本语音意图的第二意图隐变量；通过所述待训练意图识别模型的融合层对所述第一意图隐变量和第二意图隐变量进行融合得到第二融合意图特征表示；将所述第二融合意图特征表示输入至所述待训练意图识别模型的预测层，通过所述预测层进行意图预测，得到预测意图标签。 6.根据权利要求2 ‑4任一项所述的方法，其特征在于，所述样本语音特征和重构语音特征为同一类语音特征，且为梅尔频谱特征、 MFCC特征、 FBANK特征中的一种。 7.一种语音意图识别方法，其特征在于，所述方法包括：对目标语音进行语音识别，得到所述目标语音对应的目标文本特征；提取所述目标语音对应的目标语音特征；将所述目标文本特征和目标语音特征输入至已训练的语音意图识别模型，通过所述已训练的语音意图识别模型得到至少两个目标意图隐变量，对所有目标意图隐变量进行融合得到目标融合意图特征表示，对所述目标融合意图特征表示进行意图识别，得到目标意图识别结果，其中，所述已训练的语音意图识别模型是根据权利要求 1‑6任一项所述的意图识别模型的训练方法得到的。 8.一种意图识别模型的训练装置，其特征在于，所述装置包括：第一数据获取模块，用于获取数据集，其中，所述数据集所包含的每条样本语音标注有对应的用户意图标签；第一语音识别模块，用于对所述样本语音进行语音识别，得到所述样本语音的样本识别文本对应的样本文本特征；权　利　要　求　书 2/3 页 3 CN 114997174 A 3

专利 意图识别模型训练及语音意图识别方法、装置和相关设备

专利意图识别模型训练及语音意图识别方法、装置和相关设备