专利基于不确定性估计的多模态情感分析方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210560653.X (22)申请日 2022.05.20 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人邓丽珍　徐尚　朱虎　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师姜梦翔 (51)Int.Cl. G06V 40/70(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01) G06V 40/16(2022.01)G10L 25/63(2013.01) G06V 10/774(2022.01) G06N 3/04(2006.01) G06V 10/764(2022.01) (54)发明名称基于不确定性估计的多模态情感分析方法、装置及设备 (57)摘要本发明提供一种基于不确定性估计的多模态情感分析方法、装置及设备，通过获取多模态情感分析数据集，进行特征提取得到对应的音频特征、视频特征和文本特征；得到表征后的音频特征、视频特征；将得到的表征后的音频特征、视频特征和文本特征分别输入各自的基于迪利克雷分布的不确定性估计模型，得到对应音频、视频和文本模态的迪利克雷分布与不确定性估计；得到情感分类结果与总体不确定性估计；得到训练后的基于迪利克雷分布的不确定性估计模型；模型输出得到的预测结果；本发明识别精度更高，具有更强的鲁棒性和更优的可解释性，且对计算资源要求低，对多模态数据进行分析耗时更短，更符合实际场景的需要。权利要求书3页说明书9页附图2页 CN 114999006 A 2022.09.02 CN 114999006 A 1.一种基于不确定性估计的多模态情感分析方法，其特征在于：包括以下步骤， S1、获取多模态情感分析数据集，多模态情感分析数据集中的视频样本包括音频数据、图像数据、文本数据与样本标签，分别对视频样本中的音频数据、图像数据和文本数据进行特征提取，得到对应的音频特征、视频特征和文本特征； S2、将步骤S1所得音频特征和视频特征分别进行上下文表征，得到表征后的音频特征、视频特征； S3、将步骤S2得到的表征后的音频特征、视频特征和文本特征分别输入各自的基于迪利克雷分布的不确定性估计模型，分别得到音频模态的迪利克雷分布的参数、视频模态的迪利克雷分布的参数和文本模态的迪利克雷分布的参数与不确定性估计； S4、使用D ‑S证据理论对步骤S3得到的音频模态的迪利克雷分布的参数、视频模态的迪利克雷分布的参数和文本模态的迪利克雷分布的参数进行置信度的求解，再将各模态的置信度和不确定性利用邓普斯特组合规则进行融合，得到情感分类结果与总体不确定性估计； S5、将步骤S4中得到的情感分类结果与步骤S1中获得的多模态情感分析数据集中的样本标签为输入，以交叉熵函数作为损失函数对步骤S3中的基于迪利克雷分布的不确定性估计模型进行训练，得到训练后的基于迪利克雷分布的不确定性估计模型； S6、将需要进行情感分析的视频作为输入，经过步骤S5所得训练后的基于迪利克雷分布的不确定性估计模型，输出得到的预测结果。 2.如权利要求1所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤S1 中，分别对视频样本中的音频数据、图像数据和文本数据进行特征提取，具体为， S11、对数据集中的音频数据逐帧进行分段，输入预先训练好的音频特征提取网络，得到音频特征； S12、对数据集中的视频数据逐帧进行分段，输入预先训练好的图像特征提取网络，得到视频特征； S13、对数据集中的文本数据输入文本预训练模型BERT，得到表征后的文本特征。 3.如权利要求1所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤S2 中，将步骤S1所得音频特征和视频特征分别进行上下文表征，得到表征后的音频特征、视频特征，具体为， S21、将步骤S1所得音频特征输入一层双向长短时记忆网络，用于提取音频特征中的上下文关系，再将双向长短时记忆网络的输出输入至随机失活层，用于避免训练过程中出现的过拟合现象，最后将随机失活层的输出输入至一层全连接层，得到表征后的音频特征； S22、将步骤S1所得视频特征输入一层双向长短时记忆网络，用于提取视频特征中的上下文关系，再将双向长短时记忆网络的输出输入至随机失活层，用于避免训练过程中出现的过拟合现象，最后将随机失活层的输出输入至一层全连接层，得到表征后的视频特征。 4.如权利要求1 ‑3任一项所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤S 3中，将步骤S2得到的表征后的音频特征、视频特征和文本特征分别输入各自的基于迪利克雷分布的不确定性估计模型，得到对应音频、视频和文本模态的迪利克雷分布与不确定性估计，具体为， S31、将音频特征、视频特征和文本特征分别输入各自的基于迪利克雷分布的不确定性权　利　要　求　书 1/3 页 2 CN 114999006 A 2估计模型，该模型由一层全连接层和一层线性整流激活函数层构成，其中全连接层将步骤 S2得到的对应模态上下文表征后的特征映射成证据形式，并输出至线性整流激活函数层，用于保证输出结果为非负值，其输出维度与情感类别个数相等，模型输出即对应模态基于迪利克雷分布的证据表示：其中， a、 v、 t分别对应音频模态、视频模态和文本模态， K为情感类别的个数； S32、根据步骤S31所得对应模态基于迪利克雷分布的证据表示，求解出迪利克雷分布利用迪利克雷分布的参数，得到对应的不确定性估计ua、 uv、 ut。 5.如权利要求4所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤 S32中，求解出迪利克雷分布利用迪利克雷分布的参数，得到对应的不确定性估计ua、 uv、 ut，计算公式如下： αm＝em+1，其中， m∈{a， v， t}，为对应模态，表示迪利克雷强度， K为情感类别的个数。 6.如权利要求1 ‑3任一项所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤S4中，使用D ‑S证据理论对步骤S3得到的音频模态的迪利克雷分布的参数、视频模态的迪利克雷分布的参数和文本模态的迪利克雷分布的参数进行置信度的求解，再将各模态的置信度和不确定性利用邓普斯特组合规则进行融合，得到情感分类结果与总体不确定性估计，具体为， S41、对音频模态、视频模态和文本模态的迪利克雷分布，分别求解得到各模态基于D ‑S 证据理论的置信度计算公式如下：其中， m∈{a， v， t}，为对应模态，表示迪利克雷强度； S42、将音频模态和视频模态对应的置信度和不确定性使用邓普斯特组合规则进行初步融合，得到初步融合后的置信度β ′＝[β′1， ...， β′K]和不确定性u ′，再将β′＝[β′1， ...， β′K]和u′与文本模态的置信度和不确定性ut进行融合，得到最终的置信度 β″＝[β″1， ...， β″K]和不确定性u ″； S43、由置信度β ″求得最终预测的概率分布结果p＝[p1， ...， pK]。 7.如权利要求6所述的基于不确定性估计的多模态情感分析方法，其特征在于：步骤 S42中，将音频模态和视频模态对应的置信度和不确定性使用邓普斯特组合规则进行初步融合，得到初步融合后的置信度β ′＝[β′1， ...， β′K]和不确定性u ′，计算公式如下：权　利　要　求　书 2/3 页 3 CN 114999006 A 3

专利 基于不确定性估计的多模态情感分析方法、装置及设备

专利基于不确定性估计的多模态情感分析方法、装置及设备