专利基于优化BERT模型的多模态深度特征抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210493651.3 (22)申请日 2022.05.07 (71)申请人湖北工业大学地址 430068 湖北省武汉市洪山区南李路 28号申请人武汉卓尔信息科技有限公司 (72)发明人吴珺　朱天亮　郑欣丽　王春枝　董佳明　袁子健　周显敬　刘虎　李天意　朱嘉辉　 (74)专利代理机构北京金智普华知识产权代理有限公司 1 1401 专利代理师张晓博 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于优化BERT模型的多模态深度特征抽取方法及系统 (57)摘要本发明属于多模态数据特征抽取技术领域，公开了一种基于优化BERT模型的多模态深度特征抽取方法及系统，数据处理阶段，多模态数据特征选取，以及数据的预处理工作； BERT模型优化阶段，对原始BERT模型中的多头自注意力机制和前向传播层进行优化；特征融合阶段；结果输出阶段。本发明能够进行深层次的特征抽取，使用层次化多头注意力机制实现对特征的层次抽取，使用自定义的门机制结构替换BERT模型中的中间层，实现对信息的过滤，最后通过基于自注意力机制的张量融合模型进行多模态特征的融合，最后实现一种对多态情感信息准确分类的模型，本发明提高了BERT的特征抽取能力，具有的多模态特征抽取能力更强。权利要求书2页说明书7页附图2页 CN 114821088 A 2022.07.29 CN 114821088 A 1.一种基于优化BERT模型的多模态深度特征抽取方法，其特征在于，所述基于优化 BERT模型的多模态深度特征抽取方法包括：步骤一，数据处理阶段：多模态数据特征选取，以及数据的预处理工作；步骤二， BERT模型优化阶段：对原始BERT模型中的多头自注意力机制和前向传播层进行优化；步骤三，特征融合阶段：对经过优化后的BERT模型处理后的文本特征和经过LSTM网络处理后的音频特征进行基于自注意力机制的张量融合，得到文本和音频特征的融合特征；步骤四，结果输出阶段：对融合后的特征进行分类，产生最终结果。 2.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法，其特征在于，所述步骤一中的多模态数据为针对于视频信息的数据，将视频分解为语音、文本信息。 3.如权利要求2所述的基于优化BERT模型的多模态深度特征抽取方法，其特征在于，在将视频信息转化为文本和音频信息时，将文本信息和音频信息分解成以单词为最小单位，将已经分割文本和音频信息进行词水平的对齐工作，一个词向量对应于一个音频向量。 4.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法，其特征在于，所述步骤二BERT模型优化阶段具体包括： (1)在原始BERT中，对于预训练后的词向量进行固定头数的多头自注意力机制过程；在优化后的结构中，使用递进的层数进行特征抽取，实现信息的逐层传递。 (2)使用自定义的门机制结构替代原有的BERT前向传播层，实现对信息的过滤作用。 5.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法，其特征在于，所述步骤三特征融合阶段具体包括： 1)得到经过优化后的BERT模型处理后的文本特征； 2)使用基于自注意力机制的双层LSTM网络实现对音频数据的处理； 3)通过张量融合模型，对文本和音频数据进行融合。 6.如权利要求1所述的基于优化BERT模型的多模态深度特征抽取方法，其特征在于，所述步骤四结果输出阶段具体包括： (1)将融合后的特征添加残差模块和进行层正则化，用与和全连接层相连； (2)通过全连接网络，来实现由大特征维度到单一维度的过程，其最后结果产生一个值； (3)将值映射到一个与样本标签相对应的区间，根据与标本标签的差值大小来实现进一步通过反向传播过程优化网络。 7.一种用于实施权利要求1～6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法的基于优化BERT模型的多模态深度特征抽取系统，其特征在于，所述基于优化 BERT模型的多模态深度特征抽取系统包括：数据处理模块，用于多模态数据特征选取，以及数据的预处理工作； BERT模型优化模块，用于对原始BERT模型中的多头自注意力机制和前向传播层进行优化；特征融合模块，用于对经过优化后的BERT模型处理后的文本特征和经过LSTM 网络处理后的音频特征进行基于自注意力机制的张量融合，得到多模态的融合特征；结果输出模块，用于对融合后的特征进行分类，产生最终结果。权　利　要　求　书 1/2 页 2 CN 114821088 A 28.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行利要求1～6 任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。 9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行利要求1～6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。 10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1 ～6任意一项所述的基于优化BERT模型的多模态深度特征抽取方法。权　利　要　求　书 2/2 页 3 CN 114821088 A 3

专利 基于优化BERT模型的多模态深度特征抽取方法及系统

专利基于优化BERT模型的多模态深度特征抽取方法及系统