专利基于多模态学习模型的分类方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210422050.3 (22)申请日 2022.04.21 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人唐小初　舒畅　陈又新　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多模态学习模型的分类方法、装置、设备及存储介质 (57)摘要本发明涉及人工智能技术，揭露了一种基于多模态学习模型的分类方法，包括：获取待处理图像，并提取所述待处理图像的图像特征；提取所述待处理图像的文本特征，得到文本特征集；将所述图像特征和文本特征集映射在预构建的特征融合模型的维度空间中，得到特征融合空间，并分别计算所述特征融合空间内图像特征与每个文本特征的融合特征向量；将所述融合特征向量输入预先训练完成的分类模型中执行分类操作，分类出所述待处理图像的目标类别。此外，本发明还涉及区块链技术，待处理图像可存储于区块链的节点。本发明还提出一种基于多模态学习模型的分类装置、设备以及存储介质。本发明可以提高进行图像分类时精确度。权利要求书2页说明书10页附图2页 CN 114708461 A 2022.07.05 CN 114708461 A 1.一种基于多模态学习模型的分类方法，其特征在于，所述方法包括：获取待处理图像，并提取所述待处理图像的图像特征；提取所述待处理图像的文本特征，得到文本特征集；将所述图像特征和文本特征集映射在预构建的特征融合模型的维度空间中，得到特征融合空间，并分别计算所述特征融合空间内图像特征与每个文本特征的融合特征向量；将所述融合特征向量输入预先训练完成的分类模型中执行分类操作，分类出所述待处理图像的目标类别。 2.如权利要求1所述的基于多模态学习模型的分类方法，其特征在于，所述提取所述待处理图像的图像特征，包括：将所述待处理图像进行图像标准化处理，得到标准化图像；利用预构建的基于DenseNet算法的卷积神经网络模型对所述标准化图像进行卷积池化操作，得到所述图像特征。 3.如权利要求2所述的基于多模态学习模型的分类方法，其特征在于，所述将所述待处理图像进行图像标准化处理，得到标准化图像，包括：根据所述待处理图像的像素矩阵大小，将所述待处理图像切分成多个像素块；提取每个所述像素块的灰度值，并计算每个所述像素块的灰度均值和灰度方差；利用每个所述像素块的所述灰度均值、所述灰度方差及预设的灰度初始值和灰度标准差，重新调整每个所述像素块的灰度值，整合每个所述像素块的灰度值得到标准化图像。 4.如权利要求1所述的基于多模态学习模型的分类方法，其特征在于，所述提取所述待处理图像中的文本特征，包括：提取所述待处理图像中的文本；利用预构建的分词器对所述文本进行分词处理，得到分词文本；利用预设的词向量转化模型将所述分词文本转化成词向量，得到所述文本特征。 5.如权利要求1所述的基于多模态学习模型的分类方法，其特征在于，所述将所述图像特征和文本特征集映射在预构建的特征融合模型的维度空间中，得到特征融合空间，包括：所述特征融合模型的维度空间确定所述图像特征的起始点以及终止点；依次将所述文本特征集的每个文本特征在所述维度空间中执行映射；汇总所述维度空间中的所述图像特征及每个所述文本特征，得到所述特征融合空间。 6.如权利要求1所述的基于多模态学习模型的分类方法，其特征在于，所述分别计算所述特征融合空间内图像特征与每个文本特征的融合特征向量，包括：可通过下述公式计算所述特征融合空间内图像特征与每个文本特征的融合特征向量： F＝D3(D1(FImage)+D2(FText))；其中D1、 D2、 D3为所述特征融合模型的全连接层， FImage为所述图像特征， FText为所述文本特征， F为融合特征向量。 7.如权利要求1所述的基于多模态学习模型的分类方法，其特征在于，所述通过所述融合特征向量输入预先训练完成的分类模型中执行分类操作，包括：计算所述融合特征向量命中预设的多个分类标签的概率值；将所述概率值进行排序，提取排名靠前的预设数量的概率值对应的分类标签；根据所述分类标签得到所述待处理图像的目标类别。权　利　要　求　书 1/2 页 2 CN 114708461 A 28.一种基于多模态学习模型的分类装置，其特征在于，所述装置包括：特征获取模块，用于获取待处理图像，并提取所述待处理图像的图像特征；提取所述待处理图像的文本特征，得到文本特征集；特征融合模块，用于将所述图像特征和文本特征集映射在预构建的特征融合模型的维度空间中，得到特征融合空间，并分别计算所述特征融合空间内图像特征与每个文本特征的融合特征向量；分类模块，用于将所述融合特征向量输入预先训练完成的分类模型中执行分类操作，分类出所述待处理图像的目标类别。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求 1至7中任意一项所述的基于多模态学习模型的分类方法。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于多模态学习模型的分类方法。权　利　要　求　书 2/2 页 3 CN 114708461 A 3

专利 基于多模态学习模型的分类方法、装置、设备及存储介质

专利基于多模态学习模型的分类方法、装置、设备及存储介质