说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210560653.X (22)申请日 2022.05.20 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 邓丽珍 徐尚 朱虎  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 姜梦翔 (51)Int.Cl. G06V 40/70(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01) G06V 40/16(2022.01)G10L 25/63(2013.01) G06V 10/774(2022.01) G06N 3/04(2006.01) G06V 10/764(2022.01) (54)发明名称 基于不确定性估计的多模态情感分析方法、 装置及设备 (57)摘要 本发明提供一种基于不确定性估计的多模 态情感分析方法、 装置及设备, 通过获取多模态 情感分析数据集, 进行特征提取得到对应的音 频 特征、 视频特征和文本特征; 得到表征后的音频 特征、 视频特征; 将得到的表征后的音频特征、 视 频特征和文本特征分别输入各自的基于迪利克 雷分布的不确定性估计模型, 得到对应音频、 视 频和文本模态的迪利克雷分布与不确定性估计; 得到情感分类结果与总体不确定性估计; 得到训 练后的基于迪利克雷分布的不确定性估计模型; 模型输出得到的预测结果; 本发明识别精度更 高, 具有更强的鲁棒性和更优的可解释性, 且对 计算资源要求低, 对多模态数据进行分析耗时更 短, 更符合实际场景的需要。 权利要求书3页 说明书9页 附图2页 CN 114999006 A 2022.09.02 CN 114999006 A 1.一种基于不确定性估计的多模态情感分析 方法, 其特 征在于: 包括以下步骤, S1、 获取多模态情 感分析数据集, 多模态情 感分析数据集中的视频样本包括音频数据、 图像数据、 文本数据与样本标签, 分别对视频样本中的音频数据、 图像数据和文本数据进 行 特征提取, 得到对应的音频 特征、 视频特征和文本特 征; S2、 将步骤S1所得音频特征和视频特征分别进行上下文表征, 得到表征后的音频特征、 视频特征; S3、 将步骤S2得到的表征后的音频特征、 视频特征和文本特征分别输入各自的基于迪 利克雷分布的不确定性估计模型, 分别得到音频模态的迪利克雷分布的参数、 视频模态的 迪利克雷分布的参数和文本模态的迪利克 雷分布的参数与不确定性估计; S4、 使用D ‑S证据理论对步骤S3得到的音频模态的迪利克雷分布的参数、 视频模态的迪 利克雷分布的参数和文本模态的迪利克雷分布的参数进行置信度的求解, 再将各模态的置 信度和不确定性利用邓普斯特组合规则进行融合, 得到情感分类结果与总体不确定性估 计; S5、 将步骤S4中得到的情 感分类结果与步骤S1中获得的多模态情感分析数据集中的样 本标签为输入, 以交叉熵函数作为损失函数对步骤S3中的基于迪利克雷分布的不确定性估 计模型进行训练, 得到训练后的基于 迪利克雷分布的不确定性估计模型; S6、 将需要进行情感分析的视频作为输入, 经过步骤S5所得训练后的基于迪利克雷分 布的不确定性估计模型, 输出 得到的预测结果。 2.如权利要求1所述的基于不确定性估计的多模态情 感分析方法, 其特征在于: 步骤S1 中, 分别对视频样本中的音频 数据、 图像数据和文本数据进行 特征提取, 具体为, S11、 对数据集中的音频数据逐帧进行分段, 输入预先训练好的音频特征提取网络, 得 到音频特征; S12、 对数据集中的视频数据逐帧进行分段, 输入预先训练好的图像特征提取网络, 得 到视频特征; S13、 对数据集中的文本数据输入文本预训练模型BERT, 得到表征后的文本特 征。 3.如权利要求1所述的基于不确定性估计的多模态情 感分析方法, 其特征在于: 步骤S2 中, 将步骤S1所得音频特征和视频特征分别进 行上下文表征, 得到表征后的音频特征、 视频 特征, 具体为, S21、 将步骤S1所得音频特征输入一层双向长短时记忆网络, 用于提取音频特征中的上 下文关系, 再将双向长短时记忆网络的输出输入至随机失活层, 用于避免训练过程中出现 的过拟合现象, 最后将随机失活层的输出输入至一层全连接层, 得到表征后的音频 特征; S22、 将步骤S1所得视频特征输入一层双向长短时记忆网络, 用于提取视频特征中的上 下文关系, 再将双向长短时记忆网络的输出输入至随机失活层, 用于避免训练过程中出现 的过拟合现象, 最后将随机失活层的输出输入至一层全连接层, 得到表征后的视频 特征。 4.如权利要求1 ‑3任一项所述的基于不确定性估计的多模态情感分析方法, 其特征在 于: 步骤S 3中, 将步骤S2得到的表征后的音 频特征、 视频特征和文本特征分别输入各自的基 于迪利克雷分布的不确定性估计模型, 得到对应音频、 视频和文本模态的迪利克雷分布与 不确定性估计, 具体为, S31、 将音频特征、 视频特征和文本特征分别输入各自的基于迪利克雷分布的不确定性权 利 要 求 书 1/3 页 2 CN 114999006 A 2估计模型, 该模型 由一层全连接层和一层线性整流激活函数层构成, 其中全连接层将步骤 S2得到的对应模态上下文表征后的特征映射成证据形式, 并输出至线性整流激活函数层, 用于保证输出结果为非负值, 其输出维度与情感类别个数相等, 模型输出即对应模态基于 迪利克雷分布的证据表示: 其中, a、 v、 t分别对应音频模态、 视频模态和文本模态, K为情感类别的个数; S32、 根据步骤S31所得对应模态基于迪利克雷分布的证据表示, 求解出迪利克雷分布 利用迪利克雷分布的参数, 得到对应 的不确定性估计ua、 uv、 ut。 5.如权利要求4所述的基于不确定性估计的多模态情感分析方法, 其特征在于: 步骤 S32中, 求解出迪利克雷分布 利用迪 利克雷分布的参数, 得到对应的不确定性估计ua、 uv、 ut, 计算公式如下: αm=em+1, 其中, m∈{a, v, t}, 为对应模态, 表示迪利克雷强度, K为 情感类别的个数。 6.如权利要求1 ‑3任一项所述的基于不确定性估计的多模态情感分析方法, 其特征在 于: 步骤S4中, 使用D ‑S证据理论对步骤S3得到的音频模态的迪利 克雷分布的参数、 视频模 态的迪利克雷分布的参数和文本模态的迪利克雷分布的参数进行置信度的求解, 再将各模 态的置信度和不确定性利用邓普斯特组合规则进 行融合, 得到情感分类结果与总体不确定 性估计, 具体为, S41、 对音频模态、 视频模态和文本模态的迪利克雷分布, 分别求解得到各模态基于D ‑S 证据理论的置信度 计算公式如下: 其中, m∈{a, v, t}, 为对应模态, 表示迪利克 雷强度; S42、 将音频模态和视频模态对应的置信度和不确定性使用邓普斯特组合规则进行初 步融合, 得到初步融合后的置信度β ′=[β′1, ..., β′K]和不确定性u ′, 再将β′=[β′1, ..., β′K]和u′与文本模态的置信度 和不确定性ut进行融合, 得到最终的置信度 β″=[β″1, ..., β″K]和不确定性u ″; S43、 由置信度β ″求得最终预测的概 率分布结果p=[p1, ..., pK]。 7.如权利要求6所述的基于不确定性估计的多模态情感分析方法, 其特征在于: 步骤 S42中, 将音频模态和视频模态对应的置信度和不确定性使用邓普斯特组合规则进行初步 融合, 得到初步融合后的置信度β ′=[β′1, ..., β′K]和不确定性u ′, 计算公式如下: 权 利 要 求 书 2/3 页 3 CN 114999006 A 3

.PDF文档 专利 基于不确定性估计的多模态情感分析方法、装置及设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于不确定性估计的多模态情感分析方法、装置及设备 第 1 页 专利 基于不确定性估计的多模态情感分析方法、装置及设备 第 2 页 专利 基于不确定性估计的多模态情感分析方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:48:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。