说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210620986.7 (22)申请日 2022.06.01 (71)申请人 重庆师范大学 地址 400000 重庆市沙坪坝区大 学城中路 37号 (72)发明人 杨有 吴春燕 潘龙越 向若愚  (74)专利代理 机构 北京康达联禾知识产权代理 事务所(普通 合伙) 11461 专利代理师 刘莹 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/34(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本生成图像方法、 装置和计算机设备 (57)摘要 本申请涉及 文字处理技术领域, 特别涉及一 种文本生成图像方法、 装置和计算机设备。 首先 将多个所述初始 图像特征与多个所述单词特征 输入动态记忆注意模型中, 以增强初始图像特征 的视觉特征, 再将初始图像特征得到的第一图像 特征输入通道注意残差模型中, 并将输出的第一 细化图像特征与上一阶段生成的初始图像特征 进行融合。 使用二次记忆方法增强初始图像特征 在空间维度的视觉特征表征能力, 进一步增强单 词级与特征图之间的语义一致性, 同时使用通道 注意残差块中的通道注意力来增强特征图在通 道维度的通道特征表征能力, 以便更好地指导图 片生成, 使得本申请不仅可 以生成高质量图像, 而且还可以生成更好的语义 一致性图像。 权利要求书3页 说明书14页 附图3页 CN 114937191 A 2022.08.23 CN 114937191 A 1.一种文本生成图像方法, 其特 征在于, 包括: 获取多个文本描述语句, 并将多个所述文本描述语句输入文本编码器中进行编码, 得 到多个句子特 征与多个单词特 征; 获取多个随机采样噪声, 并将多个所述随机采样噪声与多个所述句子特征输入初始生 成器中以进行融合, 得到多个初始图像特 征和多个初始图像; 将多个所述初始图像特征与多个所述单词特征输入动态记忆注意模型中并输出多个 第一图像特 征, 其中, 所述动态 记忆注意模块用于增强多个所述初始图像特 征的视觉特征; 将多个所述第一图像特征输入通道注意残差块模型中, 并输出多个第一细化图像特 征, 对多个第一细化图像特征进行卷积, 得到多个第一细化图像, 其中, 所述通道注意残差 块模型用于增强所述第一图像特 征的通道特 征; 将多个第一细化图像特征作为初始图像特征, 并与多个所述单词特征输入动态记忆注 意模型中, 输出多个第二细化图像特征, 其中, 所述动态记忆注意模块用于增强多个所述第 一细化图像特 征的视觉特征; 将多个所述第 二细化图像特征输入通道注意残差块模型中, 并输出多个第 三细化图像 特征, 对多个所述第三细化图像特征进行卷积, 得到多个第三细化图像, 其中, 所述通道注 意残差块模型用于增强所述第二细化图像特 征的通道特 征。 2.根据权利要求1所述的文本生成图像方法, 其特征在于, 所述获取多个随机采样噪 声, 并将多个所述 随机采样噪声与多个所述句 子特征输入初始生成器中以进行融合, 得到 多个初始图像特 征和多个初始图像的步骤, 包括: 将多个所述随机采样噪声与多个所述句子特征分别输入全连接层中以进行特征初步 融合, 输出多个第一融合图像特 征; 将多个所述初步融合图像分别输入第 一上采样块中, 以对多个所述初步融合图像特征 进行批量归一化处理, 输出多个第二融合图像特征, 其中, 所述第一上采样块至少包括连续 设置的三 块; 将多个所述第 二融合图像特征输入第 二上采样块中, 以对多个所述第 二融合图像特征 进行实例归一 化处理, 得到多个第三融合图像特 征; 将多个所述第 三融合图像特征作为初始图像特征进行输出, 并对多个所述初始图像特 征进行卷积操作, 得到多个初始图像。 3.根据权利要求2所述的文本生成图像方法, 其特征在于, 将多个所述初步融合图像特 征输入第一上采样块中, 以对多个所述初步融合图像特征进行批量归一化处理, 输出多个 第二融合图像特 征的步骤, 包括: 获取批量归一 化的批量 值: 获取每一个所述初步融合图像特 征的第一高度值H与第一宽度值; 获取所述第一上采样块在训练时自主学习获得的缩放因子与平 移因子; 获取当前进行归一 化处理的初步融合图像特 征的特征值; 根据所述批量值、 所述第 一高度值与所述第 一宽度值计算所有所述初步融合图像特征 的均值, 其中, 计算公式为:权 利 要 求 书 1/3 页 2 CN 114937191 A 2其中, μc表示所有所述初步融合图像特征的均值, N表示批量值, H表示第一高度值, W表 示第一宽度值, xnchw表示当前进行归一 化处理的初步融合图像特 征的特征值; 根据所述批量值、 所述第 一高度值与所述第 一宽度值计算所有所述初步融合图像特征 的方差, 其中, 计算公式为: 其中, 表示所有所述初步融合图像特 征的方差, 根据所述方差与所述均值计算批量归一化后的所有初步融合图像特征的样本分布, 其 中, 计算公式为: 其中, x′表示批量归 一化后的第x个初步融合图像 特征的样本分布, xi表示第i个初步融 合图像特 征, ε表示非零常数; 根据所述样本分布生成每一个所述第二融合图像特 征, 其中, 生成函数为: BN(x)=γ ×x'+β; 其中, BN(x)表示第x个第二融合图像特 征, γ表示缩放因子, β 表示平 移因子。 4.根据权利要求1所述的文本生成图像方法, 其特征在于, 所述将多个所述初始图像特 征与多个所述单词特 征输入动态 记忆注意模型中并输出多个第一图像特 征的步骤, 包括: 根据多个所述初始图像特 征与多个所述单词特 征, 计算多个权 重矩阵; 将多个所述权 重矩阵作为多个动态 记忆存入动态记忆槽中; 将动态记忆槽 中的多个动态记忆放入二 次记忆特征增强单元中, 以对多个所述动态记 忆中的图像特 征进行细化, 得到多个记 忆图像特 征; 将多个记忆图像特征输入记忆响应门控中, 以增强多个所述记忆图像特征中的不显著 区域, 得到多个第一图像特 征。 5.根据权利要求4所述的文本生成图像方法, 其特征在于, 所述将动态记忆槽中的多个 动态记忆放入二次记忆特征增强单元中, 以对多个所述动态记忆中的图像特征进行细化, 得到多个记 忆图像特 征的步骤, 包括: 将所述动态记忆与 所述初始图像特征作为二 次记忆特征增强单元的输入, 并进行首次 记忆特征增强, 得到第一记 忆图像特 征; 对所述第一记 忆图像特 征进行二次记 忆增强, 得到记 忆图像特 征。 6.根据权利要求5所述的文本生成图像方法, 其特征在于, 所述将所述动态记忆与 所述 初始图像特征作为二次记忆特征增强单元 的输入, 并进行首次记忆特征增强, 得到第一记 忆图像特 征的步骤 包括: 对所述动态 记忆进行卷积处理, 得到键向量和值向量; 根据所述键向量和所述值向量对所述初始图像特征的维度进行变化, 以使初始图像特权 利 要 求 书 2/3 页 3 CN 114937191 A 3

.PDF文档 专利 文本生成图像方法、装置和计算机设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本生成图像方法、装置和计算机设备 第 1 页 专利 文本生成图像方法、装置和计算机设备 第 2 页 专利 文本生成图像方法、装置和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。