专利图像的文本信息生成方法和深度学习模型的训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211068079.2 (22)申请日 2022.08.31 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李威　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师吕朝蕙 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06T 11/60(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称图像的文本信息生成方法和深度学习模型的训练方法 (57)摘要本公开提供了一种图像的文本信息生成方法和深度学习模型的训练方法，涉及人工智能领域，具体为深度学习、计算机视觉、自然语言处理等技术领域。图像的文本信息生成方法包括：对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征；对待处理图像进行目标检测，得到待处理图像的局部特征；利用全局特征对局部特征进行处理，得到经更新局部特征；基于全局特征和经更新局部特征，生成待处理图像的文本信息。权利要求书4页说明书13页附图7页 CN 115359323 A 2022.11.18 CN 115359323 A 1.一种图像的文本信息生成方法，包括：对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；利用所述全局特征对所述局部特征进行处理，得到经更新局部特征；以及基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息。 2.根据权利要求1所述的方法，其中，所述利用所述全局特征对所述局部特征进行处理，得到经更新局部特征包括：利用所述全局特征处理所述局部特征，得到目标特征权重；以及利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征。 3.根据权利要求2所述的方法，其中，所述全局特征包括全局特征矩阵，所述局部特征包括局部特征矩阵；所述利用所述全局特征处理所述局部特征，得到目标特征权重包括：利用所述全局特征矩阵乘以所述局部特征矩阵，得到目标矩阵；以及将所述目标矩阵，确定为所述目标特征权重。 4.根据权利要求3所述的方法，其中，所述利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征包括：利用所述目标矩阵乘以所述局部特征矩阵，得到所述经更新局部特征。 5.根据权利要求1所述的方法，其中，所述基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息包括：将所述全局特征和所述经更新局部特征进行融合，得到图像融合特征；以及利用自然语言理解方式对所述图像融合特征进行语义理解，生成所述待处理图像的所述文本信息。 6.根据权利要求5所述的方法，还包括，在利用所述全局特征对所述局部特征进行处理，得到经更新局部特征之前：确定与所述自然语言理解方式相关联的特征空间；将所述全局特征映射至所述特征空间，得到经映射全局特征，作为所述全局特征；以及将所述局部特征映射至所述特征空间，得到经映射局部特征，作为所述局部特征。 7.根据权利要求1所述的方法，其中，所述对所述待处理图像进行目标检测，得到所述待处理图像的局部特征包括：对所述待处理图像进行目标检测，得到候选图像区域；基于与所述候选图像区域相关联的概率数据，从所述候选图像区域中确定目标图像区域，其中，所述概率数据表征了所述候选图像区域存在目标对象的概率；以及将所述目标图像区域的区域特征，确定为所述局部特征。 8.根据权利要求1 ‑7中任意一项所述的方法，其中，所述文本信息包括以下至少一项：目标对象的标识信息、所述目标对象的特征信息、所述目标对象所处的场景信息。 9.根据权利要求1所述的方法，还包括：根据所述待处理图像的所述文本信息，生成所述待处理图像的语音信息。 10.一种深度学习模型的训练方法，包括：利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；权　利　要　求　书 1/4 页 2 CN 115359323 A 2利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征；利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息；基于所述文本信息和参考文本信息，确定损失值；以及基于所述损失值，调整所述待训练深度学习模型的模型参数。 11.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征包括：利用所述全局特征处理所述局部特征，得到目标特征权重；以及利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征。 12.根据权利要求11所述的方法，其中，所述全局特征包括全局特征矩阵，所述局部特征包括局部特征矩阵；所述利用所述全局特征处理所述局部特征，得到目标特征权重包括：利用所述全局特征矩阵乘以所述局部特征矩阵，得到目标矩阵；以及将所述目标矩阵，确定为所述目标特征权重。 13.根据权利要求12所述的方法，其中，所述利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征包括：利用所述目标矩阵乘以所述局部特征矩阵，得到所述经更新局部特征。 14.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息包括：对图像融合特征进行语义理解，生成所述待处理图像的所述文本信息，其中，所述图像融合特征是将所述全局特征和所述经更新局部特征进行融合得到的。 15.根据权利要求14所述的方法，还包括，在利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征之前，利用所述待训练深度学习模型的特征映射子模型执行以下操作：确定与所述自然语言理解子模型相关联的特征空间；将所述全局特征映射至所述特征空间，得到经映射全局特征，作为所述全局特征；以及将所述局部特征映射至所述特征空间，得到经映射局部特征，作为所述局部特征。 16.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征包括：对所述待处理图像进行目标检测，得到候选图像区域；基于与所述候选图像区域相关联的概率数据，从所述候选图像区域中确定目标图像区域，其中，所述概率数据表征了所述候选图像区域存在目标对象的概率；以及将所述目标图像区域的区域特征，确定为所述局部特征。 17.根据权利要求10所述的方法，其中，所述基于所述文本信息和参考文本信息，确定损失值包括：从字词集合中确定与所述参考文本信息相匹配的目标字词；权　利　要　求　书 2/4 页 3 CN 115359323 A 3

专利 图像的文本信息生成方法和深度学习模型的训练方法

专利图像的文本信息生成方法和深度学习模型的训练方法