专利基于分块编码与Transformer的中文字形字库自动生成方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111635060.7 (22)申请日 2021.12.2 9 (71)申请人北京大学地址 100871 北京市海淀区颐和园路5号 (72)发明人连宙辉　刘亦天　 (74)专利代理机构北京万象新悦知识产权代理有限公司 1 1360 代理人黄凤茹 (51)Int.Cl. G06T 9/00(2006.01) G06T 3/40(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/774(2022.01) (54)发明名称基于分块编码与Tran sformer的中文字形字库自动生成方法及系统 (57)摘要本发明公布了一种基于分块编码与 Transformer的中文字形字库自动生成方法及系统，包括第一阶段模型和第二阶段模型；基于分块编码的字形图片编码方法和基于Tran sformer 的少样本高质量字形图片生成方法；通过设计用于降低Transformer计算成本的分块编码，只需要少量用户图片作为参考，将字形图片编码为适用于Transformer生成的序列格式，再使用 Transformer生成带有目标风格的高分辨率汉字字形图片，最后对字形图片进行矢量化，得到完整的中文字形和字库文件。采用本发明技术方案，只需要少量用户图片作为参考，能够生成用户指定风格的高分辨率的字形图片和中文字库。权利要求书3页说明书9页附图2页 CN 114332260 A 2022.04.12 CN 114332260 A 1.一种基于分块编码与Transformer的中文字形字库自动生成方法，包括：基于分块编码的字形图片编码方法和基于Tr ansformer的少样本高质量字形图片生成方法；通过设计用于降低Transformer计算成本的分块编码，只需要少量用户图片作为参考，将字形图片编码为适用于Transformer生成的序列格式，再使用Transformer 生成带有目标风格的高分辨率汉字字形图片，最后对字形图片进行矢量化，得到完整的中文字形和字库文件；包括以下步骤：第一步，获取用户输入汉字图片；第二步，选取已有字体，渲染所需字符集GB2312中字符对应的字形图片，得到预训练字形图片；渲染图片大小与用户输入汉字图片相同；并选择一种字体作为源字体；第三步，采用基于分块编码的字形图片编码方法，对第一步的用户输入汉字图片与第二步的预训练字形图片进行编码，将待编码的汉字字形图片编码为适用于Transformer处理的向量序列；包括以下步骤： 31)根据待编码字形图片I的分辨率H ×W，确定图片区B ×B、图片块P ×P的大小，以及图片块长度、风格长度、内容长度、五笔编码向量长度，记为(Lc， Lstyle， Lchar， Lw)；其中， H为待编码字形图片高度； W为待编码字形图片宽度； B为图片区边长； P为图片块边长； H、 W、 B、 P的单位均为像素； 32)根据图片块大小、字符种类数、字体风格种类数与步骤31)中的向量长度，确定图片块、内容、风格、五笔编码表包含的向量个数与向量大小，并在正态分布中随机选取向量初始化编码表； 33)将待编码字形图片I划分为多个图片区，对于每一个图片区，进一步划分为多个图片块； 34)将步骤33)中划分的每一个图片块展平为一个二进制数b；在图片块编码表中获得第b个图片块编码向量；进一步将得到的所有图片块编码向量组合为图片区编码向量xt； 35)根据待生成的目标字体编号、字符编号及其字符对应的五笔编码，在对应的编码表中获得相应的编码向量；并将步骤34)得到的图片区编码向量xt与上述编码向量进行组合，得到字形编码向量x； 36)将步骤35)得到的字形编码向量组合为一个序列，即得到适合Transformer处理的字形编码序列；第四步，使用编码后的预训练图片编码序列预训练模型参数，并使用编码后的用户输入图片编码序列微调并固定模型参数；模型包括第一阶段模型和第二阶段模型；第一阶段模型为“并行Transformer ”模块，用于消除累计误差影响；第二阶段为 “串行Transformer ” 模块，用于提高生成字形图片质量；预训练与微调模型参数过程包括： 4A)使用预训练数据对模型参数进行预训练； 4Aa)预训练第一阶段模型，其编码器输入为源字体字形图片编码序列Seqsource与参考图片字形编码序列Seqref；解码器输入为参考图片字形编码序列Seqref与空白图片字形编码序列Seqblank及其编码器输出。其中参考图片为目标风格的任意字形图片，空白图片为相同大小全部填充为白色的字形图片。第一阶段模型得到输出图片ITp； 4Ab)通过式(1)计算 ITp与目标字形图片Itarget距离作为损失函数，并更新模型参数；权　利　要　求　书 1/3 页 2 CN 114332260 A 24Ac)使用预训练的第一阶段模型，生成预训练数据对应的目标字形图片，并将其编码为序列； 4Ad)预训练第二阶段模型，其编码器输入为源字体字形图片编码序列Seqsource与第一阶段生成图片字形编码序列SeqTp；解码器输入为第一阶段生成图片字形编码序列SeqTp与目标图片字形编码序列SeqTs及其编码器输出；第二阶段模型得到输出图片ITs； 4Ae)通过式(2)计算ITs与实际目标字形图片Itarget距离作为损失函数，并更新模型参数； 4B)使用用户数据对模型参数进行微调并固定参数，方法同步骤4A)，区别在于使用用户输入汉字图片对应的字形编码序列对模型参数进行微调，并在训练后固定模型参数；第五步，使用固定参数的模型生成所需的目标字形图片。 2.如权利要求1所述基于分块编码与Transformer的中文字形字库自动生成方法，其特征是，进一步将用户提供的汉字图片和生成的汉字图片组合得到完整的GB2312中文字库 6763个汉字图片，并将汉字图片进行矢量化，即生成用户指定风格的字库文件。 3.如权利要求1所述基于分块编码与Transformer的中文字形字库自动生成方法，其特征是，第一步中，用户设计或书写任意少量汉字，拍照或扫描成汉字图片，作为用户输入汉字图片。 4.如权利要求1所述基于分块编码与Transformer的中文字形字库自动生成方法，其特征是，两阶段模型均采用Tr ansformer结构作为骨干网络；在第一阶段模型中，去除目标图片自我注意力计算模块，使得模型结果不依赖于之前输出结果，从而消除累计误差的影响；在第二阶段模型中，保持了串行生成的结构，循环生成每一个目标图片区，保持生成图片区上下文一致性，在第一阶段生成结果的基础上进一步生成更高质量的字形图片。 5.如权利要求1所述基于分块编码与Transformer的中文字形字库自动生成方法，其特征是，两个阶段模型的编码器中的注意力机制均采用掩码注意力机制，表示为式(3)， (4)， (5)：其中， Q， K， V分别为根据特征计算得到的查询、键值、权重矩阵， dk为向量Q与向量K维度。 6.如权利要求1所述基于分块编码与Transformer的中文字形字库自动生成方法，其特征是，在第二步中，渲染汉字对应的字形图片，具体是在空白画布上绘制300字号大小汉字，将其切分、填充为320px ×320px大小图片；之后使用双线性插值算法，缩放图片大小与用户权　利　要　求　书 2/3 页 3 CN 114332260 A 3

专利 基于分块编码与Transformer的中文字形字库自动生成方法及系统

专利基于分块编码与Transformer的中文字形字库自动生成方法及系统