汉字字体生成模型的生成方法、汉字字体生成方法及装置转让专利

申请号 : CN202110467098.1

文献号 : CN113962192B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曾锦山汪叶飞陈琪王明文

申请人 : 江西师范大学

摘要 :

本申请公开了一种汉字字体生成模型的生成方法、汉字字体生成方法及装置,属于人工智能技术领域。所述方法包括:获取汉字图像;对汉字图像进行几何变换处理,生成汉字变换图像;将汉字变换图像输入至汉字鉴别模型,通过汉字鉴别模型对汉字变换图像进行鉴别处理,输出汉字变换图像的真伪性信息;基于真伪性信息,调整字体生成模型的模型参数,得到训练后的字体生成模型。本申请实施例提供的技术方案中,通过对汉字图像进行几何变换以指导模型提取高质量汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断的结果,调整模型参数以使模型效果最优,有效解决深度学习模型训练中的模式坍塌的问题,提升特征提取的指导与针对性,显著提升汉字生成效果。

权利要求 :

1.一种汉字字体生成模型的生成方法,其特征在于,所述方法包括:

获取汉字图像,所述汉字图像包括源风格汉字图像与目标风格汉字图像;

通过横中线与竖中线,将所述汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像,所述第一区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的上边线所包围区域内的图像,所述第二区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的上边线所包围区域内的图像,所述第三区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的下边线所包围区域内的图像,所述第四区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的下边线所包围区域内的图像;

确定几何变换方式;

在所述几何变换方式为第一几何变换方式的情况下,保持所述第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成所述汉字图像的单位变换图像;

在所述几何变换方式为第二几何变换方式的情况下,将所述第一区域图像与所述第二区域图像进行互换,以及将所述第三区域图像与所述第四区域图像进行互换,生成所述汉字图像的第二变换图像;

在所述几何变换方式为第三几何变换方式的情况下,将所述第一区域图像与所述第三区域图像进行互换,以及将所述第二区域图像与所述第四区域图像进行互换,生成所述汉字图像的第三变换图像;

在所述几何变换方式为第四几何变换方式的情况下,将所述第二区域图像与所述第三区域图像进行互换,以及保持所述第一区域图像与所述第四区域图像的位置不变,生成所述汉字图像的第四变换图像;

将汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以及所述汉字变换图像的几何变换方式,所述汉字变换图像包括所述单位变换图像、所述第二变换图像、所述第三变换图像、所述第四变换图像中至少一种;

基于所述真伪性信息,得到字体生成模型与所述汉字鉴别模型的对抗损失信息;

基于所述几何变换方式,得到几何变换重构损失信息;

将所述目标风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像;

基于所述重构源风格汉字图像与所述源风格汉字图像,得到循环一致性损失信息;

基于所述对抗损失信息、所述几何变换重构损失信息以及所述循环一致性损失信息,调整所述字体生成模型的模型参数,得到训练后的字体生成模型,所述字体生成模型用于将所述源风格汉字图像转换为所述目标风格汉字图像。

2.根据权利要求1所述的方法,其特征在于,所述获取汉字图像,包括:

获取所述源风格汉字图像;

将所述源风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成所述目标风格汉字图像。

3.一种汉字字体生成方法,其特征在于,所述方法包括:

获取源风格汉字图像;

将所述源风格汉字图像输入至训练后的字体生成模型,通过所述训练后的字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像;

其中,所述训练后的字体生成模型的训练过程如下:

获取汉字图像,所述汉字图像包括所述源风格汉字图像与所述目标风格汉字图像;

通过横中线与竖中线,将所述汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像,所述第一区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的上边线所包围区域内的图像,所述第二区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的上边线所包围区域内的图像,所述第三区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的下边线所包围区域内的图像,所述第四区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的下边线所包围区域内的图像;

确定几何变换方式;

在所述几何变换方式为第一几何变换方式的情况下,保持所述第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成所述汉字图像的单位变换图像;

在所述几何变换方式为第二几何变换方式的情况下,将所述第一区域图像与所述第二区域图像进行互换,以及将所述第三区域图像与所述第四区域图像进行互换,生成所述汉字图像的第二变换图像;

在所述几何变换方式为第三几何变换方式的情况下,将所述第一区域图像与所述第三区域图像进行互换,以及将所述第二区域图像与所述第四区域图像进行互换,生成所述汉字图像的第三变换图像;

在所述几何变换方式为第四几何变换方式的情况下,将所述第二区域图像与所述第三区域图像进行互换,以及保持所述第一区域图像与所述第四区域图像的位置不变,生成所述汉字图像的第四变换图像;

将汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以及所述汉字变换图像的几何变换方式,所述汉字变换图像包括所述单位变换图像、所述第二变换图像、所述第三变换图像、所述第四变换图像中至少一种;

基于所述真伪性信息,得到字体生成模型与所述汉字鉴别模型的对抗损失信息;

基于所述几何变换方式,得到几何变换重构损失信息;

将所述目标风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像;

基于所述重构源风格汉字图像与所述源风格汉字图像,得到循环一致性损失信息;

基于所述对抗损失信息、所述几何变换重构损失信息以及所述循环一致性损失信息,调整所述字体生成模型的模型参数,得到所述训练后的字体生成模型。

4.一种汉字字体生成模型的生成装置,其特征在于,所述装置包括:

汉字图像获取模块,用于获取汉字图像,所述汉字图像包括源风格汉字图像与目标风格汉字图像;

几何变换处理模块,用于:通过横中线与竖中线,将所述汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像,所述第一区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的上边线所包围区域内的图像,所述第二区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的上边线所包围区域内的图像,所述第三区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的下边线所包围区域内的图像,所述第四区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的下边线所包围区域内的图像;确定几何变换方式;在所述几何变换方式为第一几何变换方式的情况下,保持所述第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成所述汉字图像的单位变换图像;在所述几何变换方式为第二几何变换方式的情况下,将所述第一区域图像与所述第二区域图像进行互换,以及将所述第三区域图像与所述第四区域图像进行互换,生成所述汉字图像的第二变换图像; 在所述几何变换方式为第三几何变换方式的情况下,将所述第一区域图像与所述第三区域图像进行互换,以及将所述第二区域图像与所述第四区域图像进行互换,生成所述汉字图像的第三变换图像; 在所述几何变换方式为第四几何变换方式的情况下,将所述第二区域图像与所述第三区域图像进行互换,以及保持所述第一区域图像与所述第四区域图像的位置不变,生成所述汉字图像的第四变换图像;

汉字鉴别模块,用于将汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以及所述汉字变换图像的几何变换方式,所述汉字变换图像包括所述单位变换图像、所述第二变换图像、所述第三变换图像、所述第四变换图像中至少一种;

模型参数调整模块,用于:基于所述真伪性信息,得到字体生成模型与所述汉字鉴别模型的对抗损失信息;基于所述几何变换方式,得到几何变换重构损失信息;将所述目标风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像;基于所述重构源风格汉字图像与所述源风格汉字图像,得到循环一致性损失信息;基于所述对抗损失信息、所述几何变换重构损失信息以及所述循环一致性损失信息,调整所述字体生成模型的模型参数,得到训练后的字体生成模型,所述字体生成模型用于将所述源风格汉字图像转换为所述目标风格汉字图像。

5.一种汉字字体生成装置,其特征在于,所述装置包括:

源风格汉字图像获取模块,用于获取源风格汉字图像;

汉字风格转换模块,用于将所述源风格汉字图像输入至训练后的字体生成模型,通过所述训练后的字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像;

其中,所述训练后的字体生成模型的训练过程如下:

获取汉字图像,所述汉字图像包括所述源风格汉字图像与所述目标风格汉字图像;

通过横中线与竖中线,将所述汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像,所述第一区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的上边线所包围区域内的图像,所述第二区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的上边线所包围区域内的图像,所述第三区域图像是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的下边线所包围区域内的图像,所述第四区域图像是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的下边线所包围区域内的图像;

确定几何变换方式;

在所述几何变换方式为第一几何变换方式的情况下,保持所述第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成所述汉字图像的单位变换图像;

在所述几何变换方式为第二几何变换方式的情况下,将所述第一区域图像与所述第二区域图像进行互换,以及将所述第三区域图像与所述第四区域图像进行互换,生成所述汉字图像的第二变换图像;

在所述几何变换方式为第三几何变换方式的情况下,将所述第一区域图像与所述第三区域图像进行互换,以及将所述第二区域图像与所述第四区域图像进行互换,生成所述汉字图像的第三变换图像;

在所述几何变换方式为第四几何变换方式的情况下,将所述第二区域图像与所述第三区域图像进行互换,以及保持所述第一区域图像与所述第四区域图像的位置不变,生成所述汉字图像的第四变换图像;

将汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以及所述汉字变换图像的几何变换方式,所述汉字变换图像包括所述单位变换图像、所述第二变换图像、所述第三变换图像、所述第四变换图像中至少一种;

基于所述真伪性信息,得到字体生成模型与所述汉字鉴别模型的对抗损失信息;

基于所述几何变换方式,得到几何变换重构损失信息;

将所述目标风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像;

基于所述重构源风格汉字图像与所述源风格汉字图像,得到循环一致性损失信息;

基于所述对抗损失信息、所述几何变换重构损失信息以及所述循环一致性损失信息,调整所述字体生成模型的模型参数,得到所述训练后的字体生成模型。

6.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1或2所述的汉字字体生成模型的生成方法,或者实现如权利要求3所述的汉字字体生成方法。

7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1或2所述的汉字字体生成模型的生成方法,或者实现如权利要求3所述的汉字字体生成方法。

说明书 :

汉字字体生成模型的生成方法、汉字字体生成方法及装置

技术领域

[0001] 本申请涉及人工智能技术领域,特别涉及一种汉字字体生成模型的生成方法、汉字字体生成方法及装置。

背景技术

[0002] 近年来,汉字自动生成因其在艺术字体生成、个性化字体设计以及书法作品生成等方面中的广泛应用而引起了大量关注。
[0003] 目前汉字字体生成方法大体可分为两大类。第一类方法主要是基于汉字的显式特征如汉字的结构、偏旁部首和笔画等,以及利用传统的机器学习方法。这类方法的核心思想是“分解再重组”,即首先将汉字进行拆分并提取汉字的层次结构、笔画和部首等局部显式特征,之后通过传统机器学习算法进行重组从而形成新的汉字。第二类方法主要基于深度学习,该类方法的核心思想是把汉字看成图像,从而把汉字字体生成任务视为某种图像风格转换任务,进而可有效利用在图像风格转换领域中发展出来的新技术来处理汉字字体生成任务。然而,深度学习模型在训练中经常存在模式坍塌的问题,并且忽略了汉字一些独有的特征,从而在特征提取时缺乏指导与针对性,生成的汉字存在质量问题。

发明内容

[0004] 本申请实施例提供了一种汉字字体生成模型的生成方法、汉字字体生成方法、装置及设备,基于田字格变换的自监督方法来指导模型网络提取更高质量的汉字特征,从而显著提升汉字生成效果,降低人工成本。
[0005] 根据本申请实施例的一个方面,提供了一种汉字字体生成模型的生成方法,所述方法包括:
[0006] 获取汉字图像,所述汉字图像包括源风格汉字图像与目标风格汉字图像;
[0007] 对所述汉字图像进行几何变换处理,生成汉字变换图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式,所述汉字变换图像是指所述各区域经过位置调整后得到的图像;
[0008] 将所述汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息;
[0009] 基于所述真伪性信息,调整字体生成模型的模型参数,得到训练后的字体生成模型,所述字体生成模型用于将所述源风格汉字图像转换为所述目标风格汉字图像。
[0010] 根据本申请实施例的一个方面,提供了一种汉字字体生成方法,所述方法包括:
[0011] 获取源风格汉字图像;
[0012] 将所述源风格汉字图像输入至训练后的字体生成模型,通过所述训练后的字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像;
[0013] 其中,所述训练后的字体生成模型是与汉字鉴别模型进行对抗训练得到的机器学习模型,所述汉字鉴别模型通过对汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以调整所述字体生成模型的模型参数,所述汉字变换图像是汉字图像经过几何变换处理生成的图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式。
[0014] 根据本申请实施例的一个方面,提供了一种汉字字体生成模型的生成装置,所述装置包括:
[0015] 汉字图像获取模块,用于获取汉字图像,所述汉字图像包括源风格汉字图像与目标风格汉字图像;
[0016] 几何变换处理模块,用于对所述汉字图像进行几何变换处理,生成汉字变换图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式,所述汉字变换图像是指所述各区域经过位置调整后得到的图像;
[0017] 汉字鉴别模块,用于将所述汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息;
[0018] 模型参数调整模块,用于基于所述真伪性信息,调整字体生成模型的模型参数,得到训练后的字体生成模型,所述字体生成模型用于将所述源风格汉字图像转换为所述目标风格汉字图像。
[0019] 根据本申请实施例的一个方面,提供了一种汉字字体生成装置,所述装置包括:
[0020] 源风格汉字图像获取模块,用于获取源风格汉字图像;
[0021] 汉字风格转换模块,用于将所述源风格汉字图像输入至训练后的字体生成模型,通过所述训练后的字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像;
[0022] 其中,所述训练后的字体生成模型是与汉字鉴别模型进行对抗训练得到的机器学习模型,所述汉字鉴别模型通过对汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以调整所述字体生成模型的模型参数,所述汉字变换图像是汉字图像经过几何变换处理生成的图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式。
[0023] 根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述汉字字体生成模型的生成方法。
[0024] 根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述汉字字体生成方法。
[0025] 根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述汉字字体生成模型的生成方法。
[0026] 根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述汉字字体生成方法。
[0027] 本申请实施例提供的技术方案可以带来如下有益效果:
[0028] 通过对汉字图像进行几何变换,以指导模型网络提取更高质量的汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断,最终根据输出汉字鉴别模型的输出结果与图像真实属性,调整字体生成模型的参数,得到效果最优的字体生成模型。有效解决深度学习模型在训练中经常存在模式坍塌的问题,提升了特征提取时的指导与针对性,显著提升了汉字生成效果。

附图说明

[0029] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030] 图1是本申请一个实施例提供的应用程序运行环境的示意图;
[0031] 图2是本申请一个实施例提供的汉字字体生成模型的生成方法的流程图;
[0032] 图3是本申请另一个实施例提供的汉字字体生成模型的生成方法的流程图;
[0033] 图4(a)示例性示出了一种汉字图像的几何变换方式示意图一;
[0034] 图4(b)示例性示出了一种汉字图像的几何变换方式示意图二;
[0035] 图4(c)示例性示出了一种汉字图像的几何变换方式示意图三;
[0036] 图4(d)示例性示出了一种汉字图像的几何变换方式示意图四;
[0037] 图5示例性示出了一种基于田字格变换的汉字字体生成网络的技术架构示意图;
[0038] 图6示例性示出了一种生成汉字对比图;
[0039] 图7示例性示出了一种降低模式坍塌现象的示意图;
[0040] 图8(a)示例性示出一种表征模型训练损失的示意图一;
[0041] 图8(b)示例性示出一种表征模型训练损失的示意图二;
[0042] 图9示例性示出了嵌入不同图像变换方案训练的字体生成模型生成的汉字示意图;
[0043] 图10是本申请一个实施例提供的汉字字体生成方法的流程图;
[0044] 图11是本申请一个实施例提供的汉字字体生成模型的生成装置的框图;
[0045] 图12是本申请一个实施例提供的汉字字体生成装置的框图;
[0046] 图13是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

[0047] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0048] 请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
[0049] 终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、PC(Personal Computer,个人计算机)等电子设备。终端10中可以运行上述汉字字体生成模型的生成方法,或者上述汉字字体生成方法。
[0050] 服务器20用于为终端10提供网络后台服务。例如,服务器20可以是为终端10提供网络服务的后台服务器。服务器20可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。可选地,服务器20同时为多个终端10提供网络后台服务。服务器20中也可以运行上述汉字字体生成模型的生成方法,或者上述汉字字体生成方法。
[0051] 可选地,终端10和服务器20之间可通过网络30进行互相通信。
[0052] 在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
[0053] 生成对抗网络是当前最为流行的深度生成模型之一。生成对抗网络由两个部分组成:生成器和判别器,其中生成器的主要任务是生成尽可能逼真的假样本,而判别器的主要任务是判定生成样本与真实样本之间的真伪,并将输出的结果反馈给生成器。在训练过程中,二者通过不断交互最终达到某种均衡。具体地,生成对抗网络可通过如下数学形式来表达:
[0054]
[0055] 其中,Pdata和Pz分别是真实数据x和输入随机噪声z的分布,G和D分别为生成器和判别器,二者均采用深度神经网络模型来表示。虽然生成对抗网络能够生成较高质量的样本,但是由于其无监督的特性,导致生成对抗网络在训练过程随机性较强,无法生成满足指定条件的样本。此外,生成对抗网络在训练中常出现模式坍塌的现象,导致生成样本的质量和多样性显著下降。
[0056] 自监督学习:在深度学习中,无监督学习因其缺乏数据标注导致在训练过程中生成样本的内容随机性较高。虽然监督学习能够通过带有标注的训练样本来有效控制生成样本的内容并学习到泛化性能较好的模型,但是数据标注的成本相对较高。为了解决标注数据集获取困难的问题,自监督学习(Self‑supervised Learning)便应运而生并在近年来引起了大家的广泛关注。自监督学习的基本思想是通过设计辅助任务来帮助模型网络提取一些更有用的特征,从而提高模型网络在下游任务中的性能。
[0057] 请参考图2,其示出了本申请一个实施例提供的汉字字体生成模型的生成方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或者服务器20。该方法可以包括以下几个步骤(201~204)。
[0058] 步骤210,获取汉字图像。
[0059] 汉字图像包括源风格汉字图像与目标风格汉字图像。上述源风格汉字图像是指源字体汉字的图像,上述目标风格汉字图像是指目标字体汉字的图像。上述目标字体可以是除源字体之外的任一种字体。
[0060] 在示例性实施例中,上述步骤210包括如下子步骤(211‑212)。
[0061] 步骤211,获取源风格汉字图像。
[0062] 步骤212,将源风格汉字图像输入至字体生成模型,通过字体生成模型对源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像。
[0063] 上述字体生成模型用于将源风格汉字图像转换为目标风格汉字图像。上述字体生成模型是基于循环生成网络中的生成网络构建的深度学习模型。在一种可能的实施方式中,上述字体生成模型包括输入层、下采样层、至少一个残差模块、上采样层以及输出层。
[0064] 在示例性实施例中,表1示出了一种字体生成模型的网络结构。
[0065] 表1
[0066]
[0067]
[0068] 其中,BN表示批量归一化,CONV是卷积结构,RELU为激活函数,h和w表示输入图片的尺寸,N为网络层神经元的个数,K表示卷积核的大小,S表示步长,P表示padding的大小。
[0069] 步骤220,对汉字图像进行几何变换处理,生成汉字变换图像。
[0070] 上述几何变换处理是指将汉字图像划分为不同区域后调整各区域在汉字图像中位置的图像处理方式,相应的,上述汉字变换图像是指上述各区域经过位置调整后得到的图像。
[0071] 在示例性实施例中,上述步骤220包括如下子步骤(221‑222)。
[0072] 步骤221,将汉字图像划分为至少两个区域。
[0073] 可选地,基于田字格的区域划分方式,划分汉字图像。可选地,基于米字格的区域划分方式,划分汉字图像。可选地,基于九宫格的区域划分方式,划分汉字图像。本申请实施例对汉字图像的划分方式不作限定,可根据具体的图像处理任务进行设置,并选择效果最优的划分方式。
[0074] 步骤222,对至少两个区域进行几何变换处理,生成汉字变换图像。
[0075] 确定几何变换方式;根据几何变换方式,对至少两个区域进行几何变换处理,生成汉字变换图像。
[0076] 可选地,根据几何变换方式确定的区域位置调整规则,对至少两个区域的位置进行调整,生成汉字变换图像。
[0077] 步骤230,将汉字变换图像输入至汉字鉴别模型,通过汉字鉴别模型对汉字变换图像进行鉴别处理,输出汉字变换图像的真伪性信息。
[0078] 在示例性实施例中,上述汉字鉴别模型还输出汉字变换图像的几何变换方式。
[0079] 上述汉字鉴别模型是基于循环生成网络中的判别网络构建的深度学习模型。在一种可能的实施方式中,上述汉字鉴别模型包括输入层、至少一层隐藏层、真伪性信息输出层(Dsrc)以及几何变换方式输出层(Dt)。
[0080] 在示例性实施例中,表2示出了一种汉字鉴别模型的网络结构。
[0081] 表2
[0082]
[0083] 步骤240,基于真伪性信息,调整字体生成模型的模型参数,得到训练后的字体生成模型。
[0084] 基于真伪性信息,得到字体生成模型与汉字鉴别模型的对抗损失信息;基于几何变换方式,得到几何变换重构损失信息。
[0085] 上述对抗损失信息可通过对抗损失函数生成。本实施例提供的字体生成模型相应的对抗损失函数可表达如下:
[0086]
[0087] 其中,x为输入的源风格域汉字,G(x)为生成器生成的目标风格域汉字,为对抗损失值。
[0088] 可选地,上述几何变换重构损失信息可由田字格几何变换重构损失函数生成。本申请实施例通过引入田字格几何变换重构的辅助任务来指导字体生成模型的模型网络更好的提取特征。具体地,田字格几何变换重构损失可定义如下:
[0089]
[0090] 其中,Tc(x)和Tc(G(x))分别为源风格汉字x和生成的目标风格汉字G(x)经过编码为c的田字格变换之后的结果,Dtian(Tc(x),Tc(G(x)))为判别器对田字格变换编码的估计,c为真实的田字格变换编码, 为。
[0091] 基于对抗损失信息与几何变换重构损失信息,调整字体生成模型的模型参数,得到训练后的字体生成模型。
[0092] 可选地,通过调整字体生成模型的模型参数,以降低上述对抗损失值以及上述田字格几何变换重构损失值,最终得到训练后的字体生成模型。
[0093] 综上所述,本申请实施例提供的技术方案,通过对汉字图像进行几何变换,以指导模型网络提取更高质量的汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断,最终根据输出汉字鉴别模型的输出结果与图像真实属性,调整字体生成模型的参数,得到效果最优的字体生成模型。有效解决深度学习模型在训练中经常存在模式坍塌的问题,提升了特征提取时的指导与针对性,显著提升了汉字生成效果。
[0094] 请参考图3,其示出了本申请另一个实施例提供的汉字字体生成模型的生成方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或者服务器20。该方法可以包括以下几个步骤(301~304)。
[0095] 步骤301,获取源风格汉字图像。
[0096] 步骤302,将源风格汉字图像输入至字体生成模型,通过字体生成模型对源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像。
[0097] 步骤303,通过横中线与竖中线,将汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像。
[0098] 其中,第一图像区域是横中线、竖中线、汉字图像的左边线与汉字图像的上边线所包围区域内的图像,第二图像区域是横中线、竖中线、汉字图像的右边线与汉字图像的上边线所包围区域内的图像,第三图像区域是横中线、竖中线、汉字图像的左边线与汉字图像的下边线所包围区域内的图像,第四图像区域是横中线、竖中线、汉字图像的右边线与汉字图像的下边线所包围区域内的图像。
[0099] 在一种可能的实施方式中,将源风格汉字图像分别划分为源风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像。
[0100] 在一种可能的实施方式中,将目标风格汉字图像分别划分为目标风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像。
[0101] 步骤304,确定几何变换方式。
[0102] 可选地,随机选择几何变换方式。
[0103] 根据几何变换方式,对第一区域图像、第二区域图像、第三区域图像以及第四区域图像进行几何变换处理,生成汉字变换图像。
[0104] 可选地,根据几何变换方式对应的区域位置调整规则,调整第一区域图像、第二区域图像、第三区域图像以及第四区域图像的图像位置,按照调整后的位置,将第一区域图像、第二区域图像、第三区域图像以及第四区域图像进行拼接,得到汉字变换图像。
[0105] 在一种可能的实施方式中,根据几何变换方式,对源风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像进行几何变换处理,生成源风格汉字变换图像。
[0106] 在一种可能的实施方式中,根据几何变换方式,对目标风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像进行几何变换处理,生成目标风格汉字变换图像。
[0107] 步骤305,在几何变换方式为第一几何变换方式的情况下,保持第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成汉字图像的单位变换图像。
[0108] 第一几何变换方式,也可称为单位变换,即汉字图像各区域位置保持不变。第一几何变换方式主要受独体字这类具有不可分结构汉字的启发,如“日”、“月”等。
[0109] 在一种可能的实施方式中,在几何变换方式为第一几何变换方式的情况下,保持源风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成源风格汉字的单位变换图像。
[0110] 在一种可能的实施方式中,在几何变换方式为第一几何变换方式的情况下,保持目标风格汉字图像对应的第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成目标风格汉字的单位变换图像。
[0111] 步骤306,在几何变换方式为第二几何变换方式的情况下,将第一区域图像与第二区域图像进行互换,以及将第三区域图像与第四区域图像进行互换,生成汉字图像的第二变换图像。
[0112] 第二几何变换方式主要受具有左右结构汉字的启发,如“汉”、“别”等。
[0113] 在一种可能的实施方式中,在几何变换方式为第二几何变换方式的情况下,将源风格汉字图像对应的第一区域图像与第二区域图像进行互换,以及将源风格汉字图像对应的第三区域图像与第四区域图像进行互换,生成源风格汉字的第二变换图像。
[0114] 在一种可能的实施方式中,在几何变换方式为第二几何变换方式的情况下,将目标风格汉字图像对应的第一区域图像与第二区域图像进行互换,以及将目标风格汉字图像对应的第三区域图像与第四区域图像进行互换,生成目标风格汉字的第二变换图像。
[0115] 步骤307,在几何变换方式为第三几何变换方式的情况下,将第一区域图像与第三区域图像进行互换,以及将第二区域图像与第四区域图像进行互换,生成汉字图像的第三变换图像。
[0116] 第三几何变换方式主要受具有上下结构汉字的启发,如“志”、“苗”等。
[0117] 在一种可能的实施方式中,在几何变换方式为第三几何变换方式的情况下,将源风格汉字图像对应的第一区域图像与第三区域图像进行互换,以及将源风格汉字图像对应的第二区域图像与第四区域图像进行互换,生成源风格汉字的第三变换图像。
[0118] 在一种可能的实施方式中,在几何变换方式为第三几何变换方式的情况下,将目标风格汉字图像对应的第一区域图像与第三区域图像进行互换,以及将目标风格汉字图像对应的第二区域图像与第四区域图像进行互换,生成目标风格汉字的第三变换图像。
[0119] 步骤308,在几何变换方式为第四几何变换方式的情况下,将第二区域图像与第三区域图像进行互换,以及保持第一区域图像与第四区域图像的位置不变,生成汉字图像的第四变换图像。
[0120] 第四几何变换方式主要受具有右上包围和左下包围结构汉字的启发,如“句”、“可”、“建”、“连”等。
[0121] 在一种可能的实施方式中,在几何变换方式为第四几何变换方式的情况下,将源风格汉字图像对应的第二区域图像与第三区域图像进行互换,以及保持源风格汉字图像对应的第一区域图像与第四区域图像的位置不变,生成源风格汉字的第四变换图像。
[0122] 在一种可能的实施方式中,在几何变换方式为第四几何变换方式的情况下,将目标风格汉字图像对应的第二区域图像与第三区域图像进行互换,以及保持目标风格汉字图像对应的第一区域图像与第四区域图像的位置不变,生成目标风格汉字的第四变换图像。
[0123] 上述四种几何变换方式都从一定程度上体现了汉字中存在的自然结构。除了上述定义的四种田字格几何变换,还有其他的几何变换,如区域1、4互换,2、3保持不变等,该几何变换主要受具有左上包围和右下包围结构汉字启发。此外,还有区域1、2互换和区域3、4互换等几何变换,这种变换方式可以对应上下结构中上部或下部还可以进一步拆分的汉字,如“哭”,“晶”等。
[0124] 可选地,采用独热编码(one‑hotencoding)方式对上述几种几何变换方式进行编码,如第一几何变换方式的编码为(1,0,0,0)。需要特别指出的是上述田字格区域编号、四种几何变换方式和对应编码均可通过简单的计算机程序自动实现,而无需任何人工标注。
[0125] 在一个示例中,如图4(a)至图4(d)所示,图4(a)示例性示出了一种汉字图像的几何变换方式示意图一,图4(b)示例性示出了一种汉字图像的几何变换方式示意图二;图4(c)示例性示出了一种汉字图像的几何变换方式示意图三;图4(d)示例性示出了一种汉字图像的几何变换方式示意图四。给定一个汉字,首先把该汉字图片按“田字格”等分为四个区域,其中分别编号为1、2、3、4。图4(a)是根据第一几何变换方式,保持汉字图像各区域位置不变,得到的单位变换图像。图4(b)是根据第二几何变换方式,对区域1、2进行互换,对区域3、4进行互换,得到的第二变换图像。图4(c)是根据第三几何变换方式,对区域1、3进行互换,对区域2、4进行互换,得到的第三变换图像。图4(d)是根据第四几何变换方式,保持区域1、4不变,对区域2、3进行互换,得到的第四变换图像。
[0126] 步骤309,将汉字变换图像输入至汉字鉴别模型,通过汉字鉴别模型对汉字变换图像进行鉴别处理,输出汉字变换图像的真伪性信息,以及汉字变换图像的几何变换方式。
[0127] 在示例性实施例中,汉字鉴别模型还输出汉字变换图像的几何变换方式。例如,汉字鉴别模型输出汉字变换图像的几何变换方式对应的编码,以确定为得到上述汉字变换图像所采用的几何变换方式。
[0128] 在一种可能的实施方式中,将源风格汉字变换图像输入至汉字鉴别模型,通过汉字鉴别模型对源风格汉字变换图像进行鉴别处理,输出源风格汉字变换图像的真伪性信息,以及源风格汉字变换图像的几何变换方式。
[0129] 在一种可能的实施方式中,将目标风格汉字变换图像输入至汉字鉴别模型,通过汉字鉴别模型对目标风格汉字变换图像进行鉴别处理,输出目标风格汉字变换图像的真伪性信息,以及目标风格汉字变换图像的几何变换方式。
[0130] 步骤310,将目标风格汉字图像输入至字体生成模型,通过字体生成模型对目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像。
[0131] 上述重构源风格汉字图像可以与源风格汉字图像进行配对,生成配对样本,用于上述字体生成模型的训练。
[0132] 步骤311,基于真伪性信息,得到字体生成模型与汉字鉴别模型的对抗损失信息。
[0133] 在一种可能的实施方式中,基于源风格汉字变换图像以及目标风格变换图像的真伪性信息,得到字体生成模型与汉字鉴别模型的对抗损失信息。
[0134] 步骤312,基于几何变换方式,得到几何变换重构损失信息。
[0135] 在一种可能的实施方式中,基于源风格汉字变换图像与目标风格变换图像各自对应的真实几何变换方式,以及汉字鉴别模型输出的源风格汉字变换图像与目标风格变换图像的几何变换方式,得到字体生成模型与汉字鉴别模型的对抗损失信息。
[0136] 步骤313,基于重构源风格汉字图像与源风格汉字图像,得到循环一致性损失信息。
[0137] 循环一致性损失:为了克服难以获取配对数据集的问题,引入循环一致性损失来产生“伪配对样本”,具体定义如下:
[0138]
[0139] 其中x为输入的源风格汉字,G(x)为生成器生成的目标风格汉字,G(G(x))为通过生成的目标风格汉字来重构具有源风格的汉字,||·||1为L1范数。
[0140] 步骤314,基于对抗损失信息、几何变换重构损失信息以及循环一致性损失信息,调整字体生成模型的模型参数,得到训练后的字体生成模型。
[0141] 结合上述对抗损失、循环一致性损失和变换重构损失,上述字体生成模型的总损失如下所示:
[0142]
[0143] 其中,λcyc和λtian为参数, 为总损失值。
[0144] 基于上述损失,生成器希望通过极小化损失来生成尽可能逼真的假样本,而判别器希望通过极大化损失来尽可能地鉴别生成样本的真伪。因此,上述字体生成模型可表达如下:
[0145]
[0146] 在一个示例中,如图5所示,其示例性示出了一种基于田字格变换的汉字字体生成网络的技术架构示意图。图5所示的汉字字体生成网络主要分为三个模块,即生成器、判别器和田字格几何变换模块。第一个模块是生成器,即上述字体生成模型,其主要承担两个功能:(1)以源风格汉字为输入生成目标风格的汉字和(2)以生成的目标风格汉字为输入重构源风格汉字,其中功能(2)主要是为了生成“伪配对样本”,从而解决对配对数据的需求。第二个模块是田字格几何变换模块Tc,其中c是上述基于田字格的几何变换方式对应的独热编码。在该模块中,对源风格汉字图像和相应生成的目标风格汉字图像进行相同的四种田字格几何变换,并把它们作为判别器的输入。第三个模块是判别器,即上述汉字鉴别模型,汉字鉴别模型不仅需要判断生成汉字的真伪,同时还需要输出相应的几何变换方式的编码。基于此,汉字鉴别模型具有两部分(Dsrc,Dtian),其中Dsrc负责判断生成汉字的真伪,而Dtian重构田字格几何变换方式对应的编码。
[0147] 综上所述,本申请实施例提供的技术方案,通过字体生成模型将源风格汉字转换为目标风格汉字,同时进一步将生成的源风格汉字逆转为重构源风格汉字,作为源风格汉字的配对样本;其次对真实的源风格汉字图像和生成的目标风格汉字图片分别进行相应的田字格几何变换,并自动标记变换的种类;最后由汉字鉴别模型对生成汉字和真实汉字进行真伪判断,同时还需判定经过田字格几何变换后输入汉字的变换方式,最终以输出汉字鉴别模型的输出结果以及配对样本之间的差异,调整字体生成模型的参数,得到效果最优的字体生成模型。有效解决深度学习模型在训练中经常存在模式坍塌的问题,并且基于田字格变换的自监督方法来指导模型网络提取更高质量的汉字特征,提升特征提取时的指导与针对性,显著提升汉字生成效果,并且降低制作配对样本的人工成本。
[0148] 下面对本申请实施例作进一步的总结说明。在学习汉字的书写过程中,“田字格”起到了辅助作用,帮助学习者了解汉字的框架结构。受此启发,本申请针对现有深度汉字生成模型在提取特征时缺乏指导性的问题提出一种基于“田字格”变换的自监督汉字字体自动生成方法。本申请实施例的基本思想是通过引入一个“田字格”几何变换重构的辅助任务来引导网络自动提取一些重要的汉字特征,从而显著提升汉字字体生成的效果。
[0149] 具体地,在汉字书写采用田字格的启发下,设计四种简单的田字格几何变换,之后把这些几何变换重构的任务嵌入到深度生成模型的训练中,从而引导深度神经网络更有针对性的提取特征。通过嵌入该辅助任务,所提方法在不改变模型网络及增加人工成本的情况下能同时关注汉字的整体风格和局部结构信息。
[0150] 在示例性实施例中,本申请实施例提供一种模型验证方法,下面对模型验证过程进行介绍说明。上述模型验证方法通过设计一系列的实验来验证本申请实施例提供的字体生成模型的有效性。模型验证方法通过设计一系列的实验来说明嵌入的田字格几何变换重构任务的有效性。
[0151] 一、实验设置
[0152] A、数据集。在模型验证过程中,主要使用十种不同字体的数据,其中包含一个手写体,三个印刷体(即仿宋体、楷体和黑体),以及六个伪手写体(即舒体、华文琥珀体、汉仪凌波体、汉仪娃娃体、汉仪细圆体和方正经黑手写简体)。第一类手写体数据集是由300个人参与构建。针对3755个常见汉字,每人分别写一遍作为数据采集。因此,该手写数据集大小总共为300×3755。为了构建本实验中所使用的手写数据集,针对每个汉字,从相应的300种样本中随机选一个样本作为该汉字的样本,从而本实施例所构建的手写汉字数据集大小为3755。对于其他字体数据集的构建,可以先从互联网上爬取,之后通过TTF(TrueTypeFont,字库文件)工具自动生成。各字体数据集相应大小可参见下表3。每个汉字图片的大小为256×256×3,单位:像素。在实验中,针对每个字体数据集,采用80%数据用于训练,剩余20%用于测试。
[0153] 表3数据集的大小
[0154]
[0155] B、网络结构和优化器。本申请所述字体生成模型包含1个下采样模块,9个残差模块和一个上采样模块,其中下采样模块包含2个卷积层,每个残差模块包含2个卷积层,以及上采样模块包含2个去卷积层。汉字鉴别模型包含6个隐层卷积层以及输出模块中的2个卷积层。
[0156] 在本实施例中,采用Adam(Adaptive moment estimation,适应性矩估计)算法作为优化器,其中算法参数设置为(0.50,0.999),学习率固定为0.0002,批量样本大小设置为2,参数λcyc和λtian是通过经验调整得到最优参数。
[0157] C、评价指标。为了评价所提方法的有效性,采用如下四种常用的评价指标:
[0158] (1)生成内容的准确率。该指标主要用于度量生成汉字内容的准确度,利用汉字识别模型的识别率作为模型生成样本的准确率,准确率越高则代表生成样本的质量越好。可选地,上述汉字识别模型是基于OCR(Optical Character Recognition,光学字符识别)技术的训练好的机器学习模型。
[0159] (2)Frechet Inception Distance(FID)。该指标主要用于度量生成样本分布与真实样本分布之间的距离,FID值越小则表示生成样本分布与真实样本分布更接近,生成的样本更具有多样性。
[0160] (3)L1损失。该指标主要来衡量生成样本与真实样本在像素意义下的L1损失,L1损失越小则说明生成样本与真实样本越接近。L1损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)。总的说来,它是把目标值(Yi)与估计值(f(xi))的绝对差值的总和(S)最小化
[0161] (4)Intersection over Union(IOU,交并比)。该指标计算的是生成样本与真实样本之间的之间交集与并集的比值,主要是用于度量它们之间的重合度,当IOU越大表示生成样本与真实样本越接近。
[0162] 二、田字格变换重构的有效性
[0163] 在本实施例中,通过设计一系列的实验来验证基于田字格变换重构任务的有效性,其中包括提高生成效果、降低模式坍塌和提高训练稳定性等。为此,选择一种现有的模型作为基准模型进行对比。
[0164] A、提高生成效果。本申请实施例设计了多个一对一字体风格转换的实验并与基准模型进行对比,相应的实验结果如下表4所示。由下表4可以看出,较之于基准模型,本申请所提的模型在内容准确率和FID指标上都有一定的提升。这表明本文通过把田字格变换重构的辅助任务嵌入到循环生成网络中确实能够帮助上述字体生成模型以及上述汉字鉴别模型更好的提取汉字特征,从而提高字体生成模型的生成性能。
[0165] 表4
[0166]
[0167]
[0168] 此外,在一个示例中,如图6所示,其示例性示出了一种生成汉字对比图。由图6中文字(仅是生成的文字中一部分)可以看出,本申请提供的字体生成模型生成的汉字质量更高,特别是在生成内容准确率以及笔画完整度等方面有显著优势。
[0169] B.降低模式坍塌。模式坍塌是困扰现有基于生成式对抗网络(GAN,Generative Adversarial Networks)的深度生成模型的一个重要问题。模式坍塌是指对于不同的输入,生成模型生成相同的模式(或比输入数量更少的模式),从而显著降低深度生成模型的性能及多样性。
[0170] 在一个示例中,如图7所示,其示例性示出了一种降低模式坍塌现象的示意图。基准模型在实现从仿宋体到黑体转换时会发生模式坍塌现象,见图7中方框71所圈出的位于第二行的输出汉字图像。具体地,针对不同输入,如“沈”字和“污”字,基准模型输出相同的模式。由图7中方框72所圈出的第三行可以看出,本申请实施例在嵌入田字格几何变换重构的自监督任务后,字体生成模型的模式坍塌现象得到显著改善,该实验结果表明本申请所提出的基于田字格变换重构的自监督任务确实能够帮助网络提取到一些更重要的特征,从而可以更好地保持汉字的模式信息。
[0171] C.提高训练稳定性。在一个示例中,如图8(a)至图8(b)所示,8(a)示例性示出一种表征模型训练损失的示意图一,图8(b)示例性示出一种表征模型训练损失的示意图二。由图8(a)所示,基准模型的损失值随迭代次数增加会突然变高,并不稳定。由图8(b)所示,通过在字体生成模型训练过程中嵌入田字格几何变换编码重构的自监督任务,可有效提高字体生成模型训练的稳定性,字体生成模型的损失值随迭代次数的增加,稳定下降。
[0172] 三、田字格几何变换类型的影响
[0173] 本实施例的验证实验探究田字格几何变换数目的影响。除了上文实施例中提出的图像变换方案(包含基于田字格的四种几何变换方式,这里简称为Tian4),本申请还考虑如下三种不同的田字格几何变换组作为对照:
[0174] 第一种对照的图像变换方案包含三种几何变换方式,即(1)单位变换,(2)区域1、2互换,3、4互换和(3)区域1,3互换,2,4互换。为了方便描述,称之为Tian3。
[0175] 第二种对照的图像变换方案包含五种几何变换方式,即在第一种对照的图像变换方案基础上增加如下两种几何变换方式:(1)区域1、4不变,2、3互换和(2)区域1、4互换,2、3不变。为了方便描述,称之为Tian5。
[0176] 第三种对照的图像变换方案包含七种几何变换方式,即在第二种对照的图像变换方案基础上增加如下两种几何变换方式:(1)区域1、2互换,3、4不变和(2)区域1、2不变,3、4互换。为了方便描述,称之为Tian7。
[0177] 针对上述四种图像变换方案,在方正经黑手写简体数据集上进行训练,相应的实验结果如表5和图9所示。从表3可以看出,本申请实施例所建议的田字格几何变换类型(Tian4)具有最高的内容准确率和最低的FID值,表明该田字格几何变换方案具有较好的性能。
[0178] 表5
[0179]
[0180] 此外,在一个示例中,如图9所示,其示例性示出了嵌入不同图像变换方案训练的字体生成模型生成的汉字示意图。由图9可以看出,在字体生成模型训练过程中嵌入采用Tian4图像变换方案,能够生成更高质量的汉字,比如在汉字细节及笔画完整性方面都具有最好的表现。
[0181] 综上所述,本申请实施例所提方法的有效性在十种不同汉字字体数据集上得到验证。这十种字体包括手写体、简舒体、华文琥珀体、汉仪凌波体、仿宋体、汉仪娃娃体、汉仪细圆体、方正经黑手写简体、楷体和黑体。实验结果表明,通过引入该田字格变换重构的辅助任务,基于循环生成网络的字体生成模型在内容准确率及风格多样性等方面都有显著提升。此外,基于循环生成网络的字体生成模型训练中存在的模式坍塌现象也得到极大改善。此外,本申请设计的田字格几何变换重构任务可无缝嵌入至其他的深度生成模型及汉字生成任务中,如基于小样本的汉字生成。
[0182] 请参考图10,其示出了本申请一个实施例提供的汉字字体生成方法的流程图。该方法可应用于图1所示的应用程序运行环境中。该方法可以包括以下几个步骤(1010‑1020)。
[0183] 步骤1010,获取源风格汉字图像。
[0184] 步骤1020,将源风格汉字图像输入至训练后的字体生成模型,通过训练后的字体生成模型对源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像。
[0185] 其中,训练后的字体生成模型是与汉字鉴别模型进行对抗训练得到的机器学习模型,汉字鉴别模型通过对汉字变换图像进行鉴别处理,输出汉字变换图像的真伪性信息以调整字体生成模型的模型参数,汉字变换图像是汉字图像经过几何变换处理生成的图像,上述几何变换处理是指将汉字图像划分为不同区域后调整各区域在汉字图像中位置的图像处理方式。相应的,上述汉字变换图像是指上述各区域经过位置调整后得到的图像。
[0186] 综上所述,本申请实施例提供的技术方案,通过对汉字图像进行几何变换,以指导模型网络提取更高质量的汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断,最终根据输出汉字鉴别模型的输出结果与图像真实属性,调整字体生成模型的参数,得到效果最优的字体生成模型,进而能够将源风格汉字转换为目标风格汉字,有效解决深度学习模型在训练中经常存在模式坍塌的问题,提升了特征提取时的指导与针对性,显著提升了汉字生成效果。
[0187] 本申请实施例针对现有基于无配对数据集的深度汉字字体生成模型在自动提取特征时缺乏指导性的问题,通过设计一种基于田字格变换的辅助任务并嵌入至现有深度生成模型中,从而提高模型网络提取特征的质量,进而显著提升现有模型在汉字字体生成任务中的效果。所设计的基于田字格变换辅助任务的有效性在一系列的实验中得到验证。在嵌入所设计的辅助任务后,新模型在生成汉字质量、改善模式坍塌现象以及训练稳定性等方面都有显著提升。本文所提的方法在生成内容准确率、FID、L1损失和IOU等指标上也都有显著提升,同时生成的汉字在笔画保持完整度和逼真度上也具有更好的表现。本文所提的田字格辅助任务无需增加任何人工成本且无需改变现有模型的网络结构,所提基于田字格变换的辅助任务亦可有效移植到其他深度汉字字体生成模型中。
[0188] 下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
[0189] 请参考图11,其示出了本申请一个实施例提供的汉字字体生成模型的生成装置的框图。该装置具有实现上述汉字字体生成模型的生成方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1100可以包括:汉字图像获取模块1110、几何变换处理模块1120、汉字鉴别模块1130以及模型参数调整模块1140。
[0190] 汉字图像获取模块1110,用于获取汉字图像,所述汉字图像包括源风格汉字图像与目标风格汉字图像。
[0191] 几何变换处理模块1120,用于对所述汉字图像进行几何变换处理,生成汉字变换图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式,所述汉字变换图像是指所述各区域经过位置调整后得到的图像。
[0192] 汉字鉴别模块1130,用于将所述汉字变换图像输入至汉字鉴别模型,通过所述汉字鉴别模型对所述汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息。
[0193] 模型参数调整模块1140,用于基于所述真伪性信息,调整字体生成模型的模型参数,得到训练后的字体生成模型,所述字体生成模型用于将所述源风格汉字图像转换为所述目标风格汉字图像。
[0194] 在示例性实施例中,所述汉字图像获取模块1110,包括:
[0195] 源风格汉字图像获取单元,用于获取所述源风格汉字图像。
[0196] 目标风格汉字图像生成单元,用于将所述源风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成所述目标风格汉字图像。
[0197] 在示例性实施例中,所述几何变换处理模块1120,包括:
[0198] 图像分割单元,用于将所述汉字图像划分为至少两个区域。
[0199] 几何变换单元,用于对所述至少两个区域进行所述几何变换处理,生成所述汉字变换图像。
[0200] 在示例性实施例中,所述几何变换单元,包括:
[0201] 变换方式确定子单元,用于确定几何变换方式。
[0202] 区域几何变换子单元,用于根据所述几何变换方式,对所述至少两个区域进行所述几何变换处理,生成所述汉字变换图像。
[0203] 在示例性实施例中,所述图像分割单元,还用于:
[0204] 通过横中线与竖中线,将所述汉字图像分别划分为第一区域图像、第二区域图像、第三区域图像以及第四区域图像。
[0205] 其中,所述第一图像区域是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的上边线所包围区域内的图像,所述第二图像区域是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的上边线所包围区域内的图像,所述第三图像区域是所述横中线、所述竖中线、所述汉字图像的左边线与所述汉字图像的下边线所包围区域内的图像,所述第四图像区域是所述横中线、所述竖中线、所述汉字图像的右边线与所述汉字图像的下边线所包围区域内的图像。
[0206] 在示例性实施例中,所述几何变换方式包括第一几何变换方式,所述汉字变换图像包括单位变换图像。
[0207] 所述区域几何变换子单元,还用于:
[0208] 在所述几何变换方式为所述第一几何变换方式的情况下,保持所述第一区域图像、第二区域图像、第三区域图像以及第四区域图像的位置不变,生成所述汉字图像的单位变换图像。
[0209] 在示例性实施例中,所述几何变换方式包括第二几何变换方式,所述汉字变换图像包括第二变换图像。
[0210] 所述区域几何变换子单元,还用于:
[0211] 在所述几何变换方式为所述第二几何变换方式的情况下,将所述第一区域图像与所述第二区域图像进行互换,以及将所述第三区域图像与所述第四区域图像进行互换,生成所述汉字图像的第二变换图像。
[0212] 在示例性实施例中,所述几何变换方式包括第三几何变换方式,所述汉字变换图像包括第三变换图像。
[0213] 所述区域几何变换子单元,还用于:
[0214] 在所述几何变换方式为所述第三几何变换方式的情况下,将所述第一区域图像与所述第三区域图像进行互换,以及将所述第二区域图像与所述第四区域图像进行互换,生成所述汉字图像的第三变换图像。
[0215] 在示例性实施例中,所述几何变换方式包括第四几何变换方式,汉字变换图像包括第四变换图像。
[0216] 所述区域几何变换子单元,还用于:
[0217] 在所述几何变换方式为所述第四几何变换方式的情况下,将所述第二区域图像与所述第三区域图像进行互换,以及保持所述第一区域图像与所述第四区域图像的位置不变,生成所述汉字图像的第四变换图像。
[0218] 在示例性实施例中,所述汉字鉴别模型还输出所述汉字变换图像的几何变换方式,所述模型参数调整模块1140,包括:
[0219] 对抗损失获取单元,用于基于所述真伪性信息,得到所述字体生成模型与所述汉字鉴别模型的对抗损失信息。
[0220] 几何变换重构损失获取单元,用于基于所述几何变换方式,得到几何变换重构损失信息。
[0221] 参数调整单元,用于基于所述对抗损失信息与所述几何变换重构损失信息,调整所述字体生成模型的模型参数,得到所述训练后的字体生成模型。
[0222] 在示例性实施例中,所述装置1100还包括:
[0223] 重构源风格汉字图像生成模块,用于将所述目标风格汉字图像输入至所述字体生成模型,通过所述字体生成模型对所述目标风格汉字图像进行汉字风格转换逆处理,生成重构源风格汉字图像。
[0224] 在示例性实施例中,所述模型参数调整模块1140还包括:
[0225] 循环一致性损失获取单元,用于基于所述重构源风格汉字图像与所述源风格汉字图像,得到循环一致性损失信息。
[0226] 所述参数调整单元,还用于:
[0227] 基于所述对抗损失信息、所述几何变换重构损失信息以及所述循环一致性损失信息,调整所述字体生成模型的模型参数,得到所述训练后的字体生成模型。
[0228] 综上所述,本申请实施例提供的技术方案,通过对汉字图像进行几何变换,以指导模型网络提取更高质量的汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断,最终根据输出汉字鉴别模型的输出结果与图像真实属性,调整字体生成模型的参数,得到效果最优的字体生成模型。有效解决深度学习模型在训练中经常存在模式坍塌的问题,提升了特征提取时的指导与针对性,显著提升了汉字生成效果。
[0229] 请参考图12,其示出了本申请一个实施例提供的汉字字体生成装置的框图。该装置具有实现上述汉字字体生成方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1200可以包括:源风格汉字图像获取模块1210以及汉字风格转换模块1220。
[0230] 源风格汉字图像获取模块1210,用于获取源风格汉字图像。
[0231] 汉字风格转换模块1220,用于将所述源风格汉字图像输入至训练后的字体生成模型,通过所述训练后的字体生成模型对所述源风格汉字图像进行汉字风格转换处理,生成目标风格汉字图像。
[0232] 其中,所述训练后的字体生成模型是与汉字鉴别模型进行对抗训练得到的机器学习模型,所述汉字鉴别模型通过对汉字变换图像进行鉴别处理,输出所述汉字变换图像的真伪性信息以调整所述字体生成模型的模型参数,所述汉字变换图像是汉字图像经过几何变换处理生成的图像,所述几何变换处理是指将所述汉字图像划分为不同区域后调整各区域在所述汉字图像中位置的图像处理方式。
[0233] 综上所述,本申请实施例提供的技术方案,通过对汉字图像进行几何变换,以指导模型网络提取更高质量的汉字特征;并通过汉字鉴别模型对汉字转换图像进行真伪判断,最终根据输出汉字鉴别模型的输出结果与图像真实属性,调整字体生成模型的参数,得到效果最优的字体生成模型,进而能够将源风格汉字转换为目标风格汉字,有效解决深度学习模型在训练中经常存在模式坍塌的问题,提升了特征提取时的指导与针对性,显著提升了汉字生成效果。
[0234] 需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0235] 请参考图13,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是终端,也可以是服务器。该计算机设备用于实施上述实施例中提供的汉字字体生成模型的生成方法,或者用于实施上述实施例提供的汉字字体生成方法。具体来讲:
[0236] 通常,计算机设备1300包括有:处理器1301和存储器1302。
[0237] 处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
[0238] 存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令,至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集,且经配置以由一个或者一个以上处理器执行,以实现上述实施例中提供的汉字字体生成模型的生成方法,或者用于实施上述实施例提供的汉字字体生成方法。
[0239] 在一些实施例中,计算机设备1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:射频电路1304、触摸显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。
[0240] 本领域技术人员可以理解,图13中示出的结构并不构成对计算机设备1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0241] 在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述汉字字体生成模型的生成方法。
[0242] 在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述汉字字体生成方法。
[0243] 可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
[0244] 应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
[0245] 以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。