说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210493651.3 (22)申请日 2022.05.07 (71)申请人 湖北工业大 学 地址 430068 湖北省武汉市洪山区南李路 28号 申请人 武汉卓尔信息科技有限公司 (72)发明人 吴珺 朱天亮 郑欣丽 王春枝  董佳明 袁子健 周显敬 刘虎  李天意 朱嘉辉  (74)专利代理 机构 北京金智普华知识产权代理 有限公司 1 1401 专利代理师 张晓博 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于优化BERT模型的多模态深度特征抽取 方法及系统 (57)摘要 本发明属于多模态数据特征抽取技术领域, 公开了一种基于优化BERT模型的多模态深度特 征抽取方法及系统, 数据处理阶段, 多模态数据 特征选取, 以及数据的预处理工作; BERT模型优 化阶段, 对原始BERT模型中的多头自注意力机制 和前向传播层进行优化; 特征融合阶段; 结果输 出阶段。 本发明能够进行深层次的特征抽取, 使 用层次化多头注意力机制实现对特征的层次抽 取, 使用自定义的门机制结构替换BERT模型中的 中间层, 实现对信息的过滤, 最后通过基于自注 意力机制的张量融合模型进行多模态特征的融 合, 最后实现一种对多态情感信息准确分类的模 型, 本发明提高了BERT的特征抽取能力, 具有的 多模态特征抽取能力更强。 权利要求书2页 说明书7页 附图2页 CN 114821088 A 2022.07.29 CN 114821088 A 1.一种基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 所述基于优化 BERT模型的多模态深度特 征抽取方法包括: 步骤一, 数据处 理阶段: 多模态数据特 征选取, 以及数据的预处 理工作; 步骤二, BERT模型优化阶段: 对原始BERT模型中的多头自注意力机制和前向传播层进 行优化; 步骤三, 特征融合阶段: 对经过优化后的BERT模型处理后的文本特征和经过LSTM网络 处理后的音频 特征进行基于自注意力机制的张量融合, 得到文本和音频 特征的融合特 征; 步骤四, 结果输出阶段: 对融合后的特 征进行分类, 产生 最终结果。 2.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 所 述步骤一中的多模态数据为针对于 视频信息的数据, 将视频分解 为语音、 文本信息 。 3.如权利要求2所述的基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 在 将视频信息转化为文本和音频信息时, 将文本信息和音频信息分解成以单词为最小单位, 将已经分割文本和音频信息进行词水平的对齐工作, 一个词向量对应于一个音频向量。 4.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 所 述步骤二BERT模型优化阶段 具体包括: (1)在原始BERT中, 对于预训练后的词向量进行固定头数的多头自注意力机制过程; 在 优化后的结构中, 使用递进的层数进行 特征抽取, 实现信息的逐层 传递。 (2)使用自定义的门机制结构替代 原有的BERT前向传播层, 实现对信息的过 滤作用。 5.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 所 述步骤三特 征融合阶段 具体包括: 1)得到经 过优化后的BERT模型处 理后的文本特 征; 2)使用基于自注意力机制的双 层LSTM网络实现对音频 数据的处 理; 3)通过张量融合模型, 对文本和音频 数据进行融合。 6.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法, 其特征在于, 所 述步骤四结果输出阶段 具体包括: (1)将融合后的特 征添加残差模块和进行层正则化, 用与和全连接层相连; (2)通过全连接网络, 来实现由大特征维度到单一维度的过程, 其最后结果产生一个 值; (3)将值映射到一个与样本标签相对应的区间, 根据与标本标签的差值大小来实现进 一步通过反向传播过程优化网络 。 7.一种用于实施权利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征 抽取方法的基于优化BERT模型的多模态深度特征抽取系统, 其特征在于, 所述基于优化 BERT模型的多模态深度特 征抽取系统包括: 数据处理模块, 用于多模态数据特 征选取, 以及数据的预处 理工作; BERT模型优化模块, 用于对原始BERT模型中的多头自注意力机制和前向传播层进行优 化; 特征融合模块, 用于对经过优化后的BERT模型处理后的文本特征和经过LSTM 网络处理 后的音频 特征进行基于自注意力机制的张量融合, 得到多模态的融合特 征; 结果输出模块, 用于对融合后的特 征进行分类, 产生 最终结果。权 利 要 求 书 1/2 页 2 CN 114821088 A 28.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和处理器, 所述存储器存 储有计算机程序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行利要求1~6 任意一项所述的基于优化BERT模型的多模态深度特 征抽取方法。 9.一种计算机可读存储介质, 存储有计算机程序, 所述计算机程序被处理器执行时, 使 得所述处理器执行利要求1~6任意一项所述的基于优化BERT模型的多模态深度特征抽取 方法。 10.一种信息数据处理终端, 其特征在于, 所述信息数据处理终端用于实现权利要求1 ~6任意一项所述的基于优化BERT模型的多模态深度特 征抽取方法。权 利 要 求 书 2/2 页 3 CN 114821088 A 3

.PDF文档 专利 基于优化BERT模型的多模态深度特征抽取方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于优化BERT模型的多模态深度特征抽取方法及系统 第 1 页 专利 基于优化BERT模型的多模态深度特征抽取方法及系统 第 2 页 专利 基于优化BERT模型的多模态深度特征抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。