专利文本生成图像方法、装置和计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210620986.7 (22)申请日 2022.06.01 (71)申请人重庆师范大学地址 400000 重庆市沙坪坝区大学城中路 37号 (72)发明人杨有　吴春燕　潘龙越　向若愚　 (74)专利代理机构北京康达联禾知识产权代理事务所(普通合伙) 11461 专利代理师刘莹 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/34(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称文本生成图像方法、装置和计算机设备 (57)摘要本申请涉及文字处理技术领域，特别涉及一种文本生成图像方法、装置和计算机设备。首先将多个所述初始图像特征与多个所述单词特征输入动态记忆注意模型中，以增强初始图像特征的视觉特征，再将初始图像特征得到的第一图像特征输入通道注意残差模型中，并将输出的第一细化图像特征与上一阶段生成的初始图像特征进行融合。使用二次记忆方法增强初始图像特征在空间维度的视觉特征表征能力，进一步增强单词级与特征图之间的语义一致性，同时使用通道注意残差块中的通道注意力来增强特征图在通道维度的通道特征表征能力，以便更好地指导图片生成，使得本申请不仅可以生成高质量图像，而且还可以生成更好的语义一致性图像。权利要求书3页说明书14页附图3页 CN 114937191 A 2022.08.23 CN 114937191 A 1.一种文本生成图像方法，其特征在于，包括：获取多个文本描述语句，并将多个所述文本描述语句输入文本编码器中进行编码，得到多个句子特征与多个单词特征；获取多个随机采样噪声，并将多个所述随机采样噪声与多个所述句子特征输入初始生成器中以进行融合，得到多个初始图像特征和多个初始图像；将多个所述初始图像特征与多个所述单词特征输入动态记忆注意模型中并输出多个第一图像特征，其中，所述动态记忆注意模块用于增强多个所述初始图像特征的视觉特征；将多个所述第一图像特征输入通道注意残差块模型中，并输出多个第一细化图像特征，对多个第一细化图像特征进行卷积，得到多个第一细化图像，其中，所述通道注意残差块模型用于增强所述第一图像特征的通道特征；将多个第一细化图像特征作为初始图像特征，并与多个所述单词特征输入动态记忆注意模型中，输出多个第二细化图像特征，其中，所述动态记忆注意模块用于增强多个所述第一细化图像特征的视觉特征；将多个所述第二细化图像特征输入通道注意残差块模型中，并输出多个第三细化图像特征，对多个所述第三细化图像特征进行卷积，得到多个第三细化图像，其中，所述通道注意残差块模型用于增强所述第二细化图像特征的通道特征。 2.根据权利要求1所述的文本生成图像方法，其特征在于，所述获取多个随机采样噪声，并将多个所述随机采样噪声与多个所述句子特征输入初始生成器中以进行融合，得到多个初始图像特征和多个初始图像的步骤，包括：将多个所述随机采样噪声与多个所述句子特征分别输入全连接层中以进行特征初步融合，输出多个第一融合图像特征；将多个所述初步融合图像分别输入第一上采样块中，以对多个所述初步融合图像特征进行批量归一化处理，输出多个第二融合图像特征，其中，所述第一上采样块至少包括连续设置的三块；将多个所述第二融合图像特征输入第二上采样块中，以对多个所述第二融合图像特征进行实例归一化处理，得到多个第三融合图像特征；将多个所述第三融合图像特征作为初始图像特征进行输出，并对多个所述初始图像特征进行卷积操作，得到多个初始图像。 3.根据权利要求2所述的文本生成图像方法，其特征在于，将多个所述初步融合图像特征输入第一上采样块中，以对多个所述初步融合图像特征进行批量归一化处理，输出多个第二融合图像特征的步骤，包括：获取批量归一化的批量值：获取每一个所述初步融合图像特征的第一高度值H与第一宽度值；获取所述第一上采样块在训练时自主学习获得的缩放因子与平移因子；获取当前进行归一化处理的初步融合图像特征的特征值；根据所述批量值、所述第一高度值与所述第一宽度值计算所有所述初步融合图像特征的均值，其中，计算公式为：权　利　要　求　书 1/3 页 2 CN 114937191 A 2其中， μc表示所有所述初步融合图像特征的均值， N表示批量值， H表示第一高度值， W表示第一宽度值， xnchw表示当前进行归一化处理的初步融合图像特征的特征值；根据所述批量值、所述第一高度值与所述第一宽度值计算所有所述初步融合图像特征的方差，其中，计算公式为：其中，表示所有所述初步融合图像特征的方差，根据所述方差与所述均值计算批量归一化后的所有初步融合图像特征的样本分布，其中，计算公式为：其中， x′表示批量归一化后的第x个初步融合图像特征的样本分布， xi表示第i个初步融合图像特征， ε表示非零常数；根据所述样本分布生成每一个所述第二融合图像特征，其中，生成函数为： BN(x)＝γ ×x'+β；其中， BN(x)表示第x个第二融合图像特征， γ表示缩放因子， β 表示平移因子。 4.根据权利要求1所述的文本生成图像方法，其特征在于，所述将多个所述初始图像特征与多个所述单词特征输入动态记忆注意模型中并输出多个第一图像特征的步骤，包括：根据多个所述初始图像特征与多个所述单词特征，计算多个权重矩阵；将多个所述权重矩阵作为多个动态记忆存入动态记忆槽中；将动态记忆槽中的多个动态记忆放入二次记忆特征增强单元中，以对多个所述动态记忆中的图像特征进行细化，得到多个记忆图像特征；将多个记忆图像特征输入记忆响应门控中，以增强多个所述记忆图像特征中的不显著区域，得到多个第一图像特征。 5.根据权利要求4所述的文本生成图像方法，其特征在于，所述将动态记忆槽中的多个动态记忆放入二次记忆特征增强单元中，以对多个所述动态记忆中的图像特征进行细化，得到多个记忆图像特征的步骤，包括：将所述动态记忆与所述初始图像特征作为二次记忆特征增强单元的输入，并进行首次记忆特征增强，得到第一记忆图像特征；对所述第一记忆图像特征进行二次记忆增强，得到记忆图像特征。 6.根据权利要求5所述的文本生成图像方法，其特征在于，所述将所述动态记忆与所述初始图像特征作为二次记忆特征增强单元的输入，并进行首次记忆特征增强，得到第一记忆图像特征的步骤包括：对所述动态记忆进行卷积处理，得到键向量和值向量；根据所述键向量和所述值向量对所述初始图像特征的维度进行变化，以使初始图像特权　利　要　求　书 2/3 页 3 CN 114937191 A 3

专利 文本生成图像方法、装置和计算机设备

专利文本生成图像方法、装置和计算机设备