说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210337218.0 (22)申请日 2022.03.31 (71)申请人 电子科技大 学 地址 610000 四川省成 都市高新区(西区) 西源大道 2006号 (72)发明人 庄岩 黄和金 洪峰 杨涵 王岩  张彦如  (74)专利代理 机构 四川雍和道知识产权代理事 务所(特殊普通 合伙) 51348 专利代理师 刘宇辉 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 30/18(2022.01) G06V 10/40(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于双向长短期记忆层和全连接层的多模 态分类模型 (57)摘要 本发明提供一种基于双向长短期记忆层和 全连接层的多模态分类模型, 包括S1:使用基于 预训练模型获得图像特征, 并将特征映射成一维 向量; S2: 使用多个全连接层以及丢弃率为0.1的 Dropout层对 步骤S1得到的特征进行处理; S3:将 步骤S2处理得到的特征进行归一化进而得到最 终的图像特征; 该基于双向长短期记忆层和全 连 接层的多模态分类模型具有的优点如下: (1)使 用预训练模 型作为特征提取器, 可以更换为具有 更好特征表现的预训练模型。 (2)使用简单的双 向长短期记忆层和全连接层来对文字和图片特 征进行处理和交互, 使 得模型可以完全利用图片 和文字之间的信息, 并对多模态信息进行深入的 交叉感知。 权利要求书1页 说明书3页 附图4页 CN 114782739 A 2022.07.22 CN 114782739 A 1.一种基于双向长短期记忆层和全连接层的多模态分类模型, 其特征在于, 包括如下 步骤: S1:使用基于预训练模型获得图像特 征, 并将特 征映射成一维向量; S2:使用多个全连接层以及丢弃率 为0.1的Dropout层对步骤S1得到的特 征进行处 理; S3:将步骤S2处 理得到的特 征进行归一 化进而得到最终的图像特 征; S4:使用预训练模型得到输入文本的特征矩阵, 并使用具有不同卷积核大小的多个一 维卷积层对特 征矩阵进行处 理; 步骤S5: 通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现能 力; S6: 通过全连接层增强所获得的文字特 征的整体表现能力; S7: 使用处 理图片特 征的归一 化方法对文本特 征进行处 理, 从而得到最终的文本特 征; S8: 将步骤S3和步骤S5得到的图像特 征和文本特 征进行拼接; S9: 将步骤S8拼接后的特征放入三个全连接层一个丢弃率为0.1的Dropout层来促进不 同模态的特 征的交互作用; S10: 把步骤S9得到的特征放入softmax层进行分类, 然后用学习率为0.00002的随机梯 度下降法作为优化器, 以类间交叉熵作为 Loss函数。权 利 要 求 书 1/1 页 2 CN 114782739 A 2基于双向长短期记忆层和全连接层的多模 态分类模型 技术领域 [0001]本发明具体涉及一种基于双向长短期记 忆层和全连接层的多模态分类模型。 背景技术 [0002]表情包一般源于创作者的经历、 现象级电视剧/动漫、 某种流行趋势和文化等, 天 然带有社交属 性和互联网属 性。 相对于纯文本而言, 表情包因其诙谐的图片内容以及应景 的文字描述深得互联网用户喜爱, 但表情包蕴含的一些仇恨信息很难被发现。 现在互联网 社交媒体缺乏对表情包以及图片的监控, 传统的方法是用户举报, 然后工作人员核实, 不仅 浪费人力还浪费时间。 现有的方法一般是基于文字的或者是基于图片的。 基于文字的方法 是通过提取图片或者表情包中的文字, 建立这些文字的词典或者用预训练模型进 行分词并 转化为句子向量, 然后将其输入到各种神经网络, 比如基于注意力机制的Tr ansformer, 进 行分类。 而基于图像的分类则是通过卷积神经网络等模型获取图片的高维特征然后放入全 连接层进 行分类。 而表情包中, 由于单独的文本或图片的语义是截断的, 即二者缺一所表达 的意思就可能改变。 基于图片的卷积神经网络无法识别图片 中的文字特征, 基于文本的模 型又缺乏 图片特征的补充, 使 得针对表情包的分析陷入了瓶颈。 此外, 也有一些研究分别用 基于文本和基于图片的模型进行分析预测之后再进行结果的融合, 然而, 若融合的模型较 少往往性能交较差, 模型多又耗时严重; 也有一些模型用不同的特征提取器来获 图片和文 本的特征然后进行拼接分类, 而这忽视了图片和文本特征之间的差异性以及交互性, 也没 有展示出良好的性能。 综上所述, 提出一种基于双向长短期记忆层和全连接层的多模态分 类模型以解决这 一问题。 发明内容 [0003]本发明的目的在于针对现有技术的不足, 提供一种基于双向长短期记忆层和全连 接层的多模态分类模型, 该基于双向长 短期记忆层和全连接层的多模态分类模型可以很好 地解决上述问题。 [0004]为达到上述要求, 本发明采取的技术方案是: 提供一种基于双向长短期记忆层和 全连接层的多模态分类模型, 该基于双向长短期记忆层和全连接层的多模态分类模型包括 如下步骤: [0005]S1:使用基于预训练模型获得图像特 征, 并将特 征映射成一维向量; [0006]S2:使用多个全连接层以及 丢弃率为0.1的Dropout层对步骤S1得到的特征进行处 理; [0007]S3:将步骤S2处 理得到的特 征进行归一 化进而得到最终的图像特 征; [0008]S4:使用预训练模型得到输入文本 的特征矩阵, 并使用具有不 同卷积核大小的多 个一维卷积层对特 征矩阵进行处 理; [0009]步骤S5: 通过双向长短期记忆层和层归一化层增加步骤S4获得的张量的句子表现 能力;说 明 书 1/3 页 3 CN 114782739 A 3

.PDF文档 专利 基于双向长短期记忆层和全连接层的多模态分类模型

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于双向长短期记忆层和全连接层的多模态分类模型 第 1 页 专利 基于双向长短期记忆层和全连接层的多模态分类模型 第 2 页 专利 基于双向长短期记忆层和全连接层的多模态分类模型 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。