说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111635060.7 (22)申请日 2021.12.2 9 (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号 (72)发明人 连宙辉 刘亦天  (74)专利代理 机构 北京万象新悦知识产权代理 有限公司 1 1360 代理人 黄凤茹 (51)Int.Cl. G06T 9/00(2006.01) G06T 3/40(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/774(2022.01) (54)发明名称 基于分块编码与Tran sformer的中文字形字 库自动生成方法及系统 (57)摘要 本 发 明 公 布 了 一 种基 于 分 块 编 码 与 Transformer的中文字 形字库自动生成方法及系 统, 包括第一阶段模型和第二阶段模型; 基于分 块编码的字形图片编码方法和基于Tran sformer 的少样本高质量字形图片生 成方法; 通过设计用 于降低Transformer计算成本 的分块编码, 只需 要少量用户图片作为参考, 将 字形图片编码为适 用于Transformer生成的序列格式, 再使用 Transformer生成带有目标风格的高分辨率汉字 字形图片, 最后对字形图片进行矢量化, 得到完 整的中文字形和字库文件。 采用本发明技术方 案, 只需要少量用户图片作为参考, 能够生成用 户指定风格的高分辨 率的字形图片和中文字库。 权利要求书3页 说明书9页 附图2页 CN 114332260 A 2022.04.12 CN 114332260 A 1.一种基于分块编码与Transformer的中文字形字库自动生成方法, 包括: 基于分块编 码的字形图片编码方法和基于Tr ansformer的少样本高质量字形图片生成方法; 通过设计 用于降低Transformer计算 成本的分块编码, 只需要少量用户图片作为参考, 将 字形图片编 码为适用于Transformer生 成的序列格式, 再使用Transformer 生成带有目标风格的高分辨 率汉字字形图片, 最后对字形图片进行矢量 化, 得到完整的中文字形和字库文件; 包括以下步骤: 第一步, 获取用户输入汉字图片; 第二步, 选取已有字体, 渲染所需字符集GB2312中字符对应的字形图片, 得到预训练字 形图片; 渲染图片大小与用户输入汉字图片相同; 并选择一种字体作为源字体; 第三步, 采用基于分块编码的字形图片编码方法, 对第一步的用户输入汉字 图片与第 二步的预训练字形图片进行编码, 将待编码的汉字字形图片编码为适用于Transformer处 理的向量序列; 包括以下步骤: 31)根据待编码字形图片I的分辨率H ×W, 确定图片区B ×B、 图片块P ×P的大小, 以及图 片块长度、 风格长度、 内容长度、 五笔编码向量长度, 记为(Lc, Lstyle, Lchar, Lw); 其中, H为待编 码字形图片高度; W为待编码字形图片宽度; B为图片区边长; P为图片块边长; H、 W、 B、 P的单 位均为像素; 32)根据图片块大小、 字符种类数、 字体风格种类数与 步骤31)中的向量长度, 确定图片 块、 内容、 风格、 五笔编码表包含的向量个数与向量大小, 并在正态分布中随机选取向量初 始化编码表; 33)将待编码字形图片I划分为多个图片区, 对于每一个图片区, 进一步划分为多个图 片块; 34)将步骤33)中划分的每一个图片块展平为一个二进制数b; 在图片块编码表中获得 第b个图片块编码向量; 进一 步将得到的所有图片块编码向量组合 为图片区编码向量xt; 35)根据待生成的目标字体编号、 字符编号及其字符对应的五笔编码, 在对应的编码表 中获得相应的编码向量; 并将步骤34)得到的图片区编码向量xt与上述编码向量进行组合, 得到字形编码向量x; 36)将步骤35)得到的字形编码向量组合为一个序列, 即得到适合Transformer处理的 字形编码序列; 第四步, 使用编码后的预训练图片编码序列预训练模型参数, 并使用编码后的用户输 入图片编码序列微调并固定模型参数; 模型包括第一 阶段模型和第二阶段模型; 第一阶段 模型为“并行Transformer ”模块, 用于消除累计误差影响; 第二阶段为 “串行Transformer ” 模块, 用于提高生成字形图片质量; 预训练与微调模型参数 过程包括: 4A)使用预训练数据对 模型参数进行 预训练; 4Aa)预训练第一阶段模型, 其编码器输入为源字体字形图片编码序列Seqsource与参考 图片字形编码序列Seqref; 解码器输入为参考图片字形编码序列Seqref与空白图片 字形编码 序列Seqblank及其编码器输出。 其中参考图片为目标风格的任意字形图片, 空白图片为相同 大小全部填充为白色的字形图片。 第一阶段模型 得到输出图片ITp; 4Ab)通过式(1)计算 ITp与目标字形图片Itarget距离作为损失函数, 并更新模型参数;权 利 要 求 书 1/3 页 2 CN 114332260 A 24Ac)使用预训练的第一阶段模型, 生成预训练数据对应的目标字形图片, 并将其编码 为序列; 4Ad)预训练第二阶段模型, 其编码器输入为源字体字形图片编码序列Seqsource与第一 阶段生成图片字形编码序列SeqTp; 解码器输入为第一阶段生成图片字形编码序列SeqTp与 目标图片字形编码序列SeqTs及其编码器输出; 第二阶段模型 得到输出图片ITs; 4Ae)通过式(2)计算ITs与实际目标字形图片Itarget距离作为损失函数, 并更新模型参 数; 4B)使用用户数据对模型参数进行微调并固定参数, 方法同步骤4A), 区别在于使用用 户输入汉字图片对应的字形编码序列对 模型参数进行微调, 并在训练后固定模型参数; 第五步, 使用固定参数的模型生成所需的目标字形图片。 2.如权利 要求1所述基于分块编码与Transformer的中文字形字库自动生成方法, 其特 征是, 进一步将用户提供的汉字图片和生成的汉字图片组合得到完整的GB2312中文字库 6763个汉字图片, 并将汉字图片进行矢量 化, 即生成用户指定风格的字库文件。 3.如权利 要求1所述基于分块编码与Transformer的中文字形字库自动生成方法, 其特 征是, 第一步中, 用户设计或书写任意少量汉字, 拍照或扫描成汉字图片, 作为用户输入汉 字图片。 4.如权利 要求1所述基于分块编码与Transformer的中文字形字库自动生成方法, 其特 征是, 两阶段模型均采用Tr ansformer结构作为骨干网络; 在第一阶段模型中, 去除目标图 片自我注意力计算模块, 使得模 型结果不依赖于之前输出结果, 从而消除累计误差的影响; 在第二阶段模型中, 保持了串 行生成的结构, 循环生成每一个目标图片区, 保持生成图片区 上下文一致性, 在第一阶段生成结果的基础上进一 步生成更高质量的字形图片。 5.如权利 要求1所述基于分块编码与Transformer的中文字形字库自动生成方法, 其特 征是, 两个阶段模型的编码器中的注意力机制均采用掩码注意力机制, 表示为式(3), (4), (5): 其中, Q, K, V分别为根据特征计算得到的查询、 键值、 权重矩阵, dk为向量Q与向量K维 度。 6.如权利 要求1所述基于分块编码与Transformer的中文字形字库自动生成方法, 其特 征是, 在第二步中, 渲染汉字对应的字形图片, 具体是在空白画布上绘制300字号大小汉字, 将其切分、 填充为320px ×320px大小图片; 之后使用双 线性插值算法, 缩放图片大小与用户权 利 要 求 书 2/3 页 3 CN 114332260 A 3

.PDF文档 专利 基于分块编码与Transformer的中文字形字库自动生成方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分块编码与Transformer的中文字形字库自动生成方法及系统 第 1 页 专利 基于分块编码与Transformer的中文字形字库自动生成方法及系统 第 2 页 专利 基于分块编码与Transformer的中文字形字库自动生成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:43:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。