一种文本擦除方法及模型的训练方法、装置、存储介质转让专利

申请号 : CN202111023930.5

文献号 : CN113469148B

文献日 : 2021-11-12

本公开提供一种文本擦除方法及其模型的训练方法、装置、存储介质。本公开实施例中提供的一个或多个技术方案，获取第一训练样本的集合；根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模型根据所述第一训练样本的集合预先训练得到；根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；串联所述第一训练样本和空白图像，生成第二训练样本的集合；根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型,实现图像的精确擦除。

1.一种文本擦除模型的训练方法，包括：获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不包含所述手写文字区域的第二图像为标签，所述第一图像和第二图像中的字符位置通过矩形框标注，所述矩形框的外接圆的半径为R1，内切圆半径为R2；

根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模型根据所述第一训练样本的集合预先训练得到，所述中心点预测模型是针对每个字符的中心点预测模型；

根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；

串联所述第一训练样本和空白图像，生成第二训练样本的集合；

根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。

2.如权利要求1所述的方法，其中，根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，包括：针对任一第一训练样本，采用所述初始的中心点预测模型生成该第一训练样本的文字中心点得分图；

根据所述文字中心点得分图确定该第一训练样本的预测中心点；

根据预测中心点的像素值S0，对该第一训练样本中距离所述预测中心点的距离不超过R1的其它像素点的像素值进行调整，生成第一文字区域得分图；

将所述第一文字区域得分图串联该第一训练样本，对所述原始擦除模型进行阶段训练。

3.如权利要求2所述的方法，其中，对该第一训练样本中距离所述预测中心点的距离不超过R2的其它像素点的像素值进行调整，包括：确定所述其它像素点距离所述预测中心点的距离D，根据所述S0和D，采用高斯分布函数确定所述其它像素点的像素值Si，其中，D越小，Si和S0的差越小。

4.如权利要求1所述的方法，根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，包括：针对任一第一训练样本，采用所述初始的中心点预测模型确定该第一训练样本的预测中心点；

根据预测中心点的像素值S0，对该第一训练样本中距离所述预测中心点的距离不超过R1的其它像素点的像素值进行调整，生成第一文字区域得分图；

根据预测中心点的像素值S0，对该训练样本中距离所述预测中心点的距离不超过R2的其它像素点的像素值进行调整，生成第二文字区域得分图；

将所述第一文字区域得分图串联该第一训练样本，作为所述第一擦除模型的输入，生成第一特征映射；

将所述第一特征映射与所述第二文字区域得分图进行逐点相乘，生成第二特征映射，根据所述第二特征映射对所述第一擦除模型进行训练。

5.如权利要求1所述的方法，其中，根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，包括：针对任一第二训练样本，采用所述初始的中心点预测模型和所述R2生成该第二训练样本的第二文字区域得分图；

采用所述第二擦除模型生成该第二训练样本的第三特征映射；

将所述第三特征映射与所述第二文字区域得分图逐点相乘，根据相乘的结果对所述第二擦除模型和所述初始的中心点预测模型进行训练。

6.如权利要求1所述的方法，所述方法还包括：获取待擦除的图像；

将所述待擦除的图像串联相同大小的空白图像，作为所述目标擦除模型的输入，生成擦除后的图像。

7.如权利要求6所述的方法，其中，获取待擦除的图像，包括：获取切分后的待擦除的子图像；

相应的，将所述待擦除的图像串联相同大小的空白图像，作为所述目标擦除模型的输入，包括：将所述待擦除的子图像串联相同大小的空白图像，作为所述目标擦除模型的输入；

相应的，生成擦除后的图像，包括：将生成的擦除后的子图像拼接，生成擦除后的图像。

8.如权利要求1所述的方法，其中，所述原始擦除模型为包含N层卷积神经网络的编码器和N层反卷积神经网络的解码器构成，所述解码器对所述解码器中所产生的特征映射跨层串联。

9.如权利要求1所述的方法，其中，所述初始的中心点预测模型采用如下方式预先训练得到：

针对任一第一训练样本，采用包含多个串联的块的检测模型获取对应的多个图像中心点子特征，串联所述多个图像中心点子特征生成中心点特征映射；

对所述中心点特征映射进行等宽卷积，生成与第一训练样本的像素点存在对应关系的中心点得分预测图，其中，所述中心点得分预测图中的每个分值表征了第一训练样本中对应的像素点是中心点的概率；

根据所述中心点得分预测图与所述第一训练样本中的矩形框标注对所述检测模型进行训练，生成初始的中心点预测模型。

10.一种文本擦除方法，包括：确定图像上要擦除的目标文本；

根据权利要求1‑9任一项所述方法训练得到的文本擦除模型，从所述图像上擦除所述目标文本，得到擦除了所述目标文本的图像。

11.一种文本擦除模型的训练装置，包括：第一样本获取模块，获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不包含所述手写文字区域的第二图像为标签，所述第一图像和第二图像中的字符位置通过矩形框标注，所述矩形框的外接圆的半径为R1，内切圆半径为R2；

第一阶段训练模块，根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模型根据所述第一训练样本的集合预先训练得到，所述中心点预测模型是针对每个字符的中心点预测模型；

第二阶段训练模块，根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；

第二样本获取模块，串联所述第一训练样本和空白图像，生成第二训练样本的集合；

第三阶段训练模块，根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。

12.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1‑9中任一项所述的方法。

一种文本擦除方法及模型的训练方法、装置、存储介质

技术领域

[0001] 本发明涉及计算机技术领域，尤其涉及一种文本擦除方法及其模型的训练方法、装置、存储介质。

背景技术

[0002] 文本擦除技术从原理上来讲是对指定位置的像素点值进行修改，从而达到所谓“擦除”的目的。例如智能教育场景下，经常需要对学生的错误回答进行擦除后搜集，以及对
一些手写的试卷进行拍照回收等等，具有广泛的应用前景。常规的文本擦除模型中较为重
视整体文本区域信息，而较少关注书写的笔画信息，从而使得擦除不够精确。

[0003] 基于此，需要一种更为精确的文本擦除方案。

发明内容

[0004] 有鉴于此，本公开实施例提供一种更为精确的文本擦除方案，以至少部分的解决上述问题。

[0005] 根据本公开的一方面，提供了一种文本擦除模型的训练方法，包括：获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不
包含所述手写文字区域的第二图像为标签，所述第一图像和第二图像中的字符位置通过矩
形框标注，所述矩形框的外接圆的半径为R1，内切圆半径为R2；根据所述第一训练样本的集
合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述
初始的中心点预测模型根据所述第一训练样本的集合预先训练得到；根据所述第一训练样
本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模
型；串联所述第一训练样本和空白图像，生成第二训练样本的集合；根据所述第二训练样本
的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模
型。

[0006] 根据本公开的第二方面，提供了一种文本擦除方法，包括：

[0007] 确定图像上要擦除的目标文本；

[0008] 根据如第一方面方法得到的文本擦除模型，从所述图像上擦除所述目标文本，得到擦除了所述目标文本的图像。

[0009] 根据本公开的第三方面，提供了一种文本擦除模型的训练装置，包括：第一样本获取模块，获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图
像，第一训练样本以不包含所述手写文字区域的第二图像为标签，所述第一图像和第二图
像中的字符位置通过矩形框标注，所述矩形框的外接圆的半径为R1，内切圆半径为R2；第一
阶段训练模块，根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模
型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模型根据所述第一训练样本
的集合预先训练得到；第二阶段训练模块，根据所述第一训练样本的集合、R1、R2和初始的
中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；第二样本获取模块，串
联所述第一训练样本和空白图像，生成第二训练样本的集合；第三阶段训练模块，根据所述
第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生
成目标擦除模型。

[0010] 根据本公开的第四方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行如第一
方面所述的方法。

[0011] 根据本公开的第五方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面所述的方法。

[0012] 本公开实施例中提供的一个或多个技术方案，获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不包含所述手写文字区
域的第二图像为标签，所述第一图像和第二图像中的字符位置通过矩形框标注，所述矩形
框的外接圆的半径为R1，内切圆半径为R2；根据所述第一训练样本的集合、R1和初始的中心
点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模
型根据所述第一训练样本的集合预先训练得到；根据所述第一训练样本的集合、R1、R2和初
始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；串联所述第一训
练样本和空白图像，生成第二训练样本的集合；根据所述第二训练样本的集合和R2对所述
第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。由于矩形框的
外接圆的半径为R1，内切圆半径为R2均是基于字符的笔画信息所产生的矩形框所决定的，
因此，在模型训练中可以基于R1和R2而更多的提取得到文字的笔画信息，由于笔画信息相
对于整体的文字区域更加精确，从而实现图像的精确擦除。

附图说明

[0013] 在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

[0014] 图1为本公开实施例所提供的一种文本擦除模型的训练方法的流程示意图；

[0015] 图2为本公开实施例所提供的一种第一训练样本的示意图；

[0016] 图3为本公开实施例所提供的一种中心点特征映射生成方式的示意图；

[0017] 图4为本公开实施例所提供的一种文本擦除模型的训练装置的结构示意图；

[0018] 图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图；

[0019] 图6为本公开实施例所提供的一种文本擦除方法的流程示意图。

具体实施方式

[0020] 下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这
里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

[0021] 应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公
开的范围在此方面不受限制。

[0022] 本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示
“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。

[0023] 需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。本公开实
施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用
于对这些消息或信息的范围进行限制。

[0024] 在本公开实施例的第一方面，提供了一种文本擦除模型的训练方法，如图1所述，图1为本公开实施例所提供的一种文本擦除模型的训练方法的流程示意图，包括：

[0025] S101，获取第一训练样本的集合。

[0026] 第一训练样本是为包含手写文字区域的第一图像构成，同时，第一训练样本以不包含所述手写文字区域的第二图像为标签。

[0027] 例如，可以收集大量未作答的文本图像数据的高清大图作为第二图像，接着将未作答的第二图像进行进行作答，得到随机作答过的文本图像（即第一图像），然后将每张图
像调整至同样大小，同时简单统计每张图像中文字（包括手写文字和印刷文字）的大小范围
（即宽和高，一般来说，手写文字的大小跟所在页的印刷文字的差距不大），最后对所有数据
取加权平均值，而得到一矩形框，对于这个宽高的长方形，求出其内切圆和外接圆的半径，
分别记为外接圆的半径为R1，内切圆半径为R2。

[0028] 在一种实施例中，还可以对得到的作答后的原始图像进行等大小的裁剪，例如，按照3*4的格子进行裁剪，即每张原始图像被均匀的裁剪为12份第一图像（相应的，将未作答
的原始图像也等大小的进行裁剪，从而生成对应大小的作为标签的第二图像），从而得到的
第一训练样本的集合。

[0029] 进一步地，还可以对第一图像中的和第二图像中的字符位置通过矩形框标注，并确定各矩形框的中心点，从而在训练样本的集合中得到关系中心点位置信息的标注。如图2
所示，图2为本公开实施例所提供的一种第一训练样本的示意图。在该示意图中，以为作答
的对应的第二图像作为了其对应的标签（即训练目标），对于第一图像中的字符均通过矩形
字符框给出了相应的字符位置的标注，从该图上可以容易看出，矩形框的中心点位置以及
大小（即可以由R1和R2所表征）可以表征一个字符的相关笔画信息。

[0030] S103，根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型。

[0031] 采用所述初始的中心点预测模型可以基于第一训练样本的集合预先训练得到的可用模型，也可以是基于其它方式所已经训练好的中心点预测模型。中心点预测模型以第
一训练样本输入，可以输出与第一训练模型等大小的中心点得分图。中心点得分图上的值
为0到1之间的概率值，每个概率值表征了对应的第一训练样本中的像素点是中心点的概
率，通常可以认为若概率值大于某个阈值（例如，0.8），则认为该值对应的像素点为某个字
符的中心点。

[0032] 这个阶段可以称为第一训练阶段。原始擦除模型可以采用诸如编解码结构，例如可以是包含N层卷积神经网络的编码器和N层反卷积神经网络的解码器构成（例如，N=8），所
述解码器对所述解码器中所产生的特征映射跨层串联（例如，解码器前7层每一层均对编码
器中同样大小的特征映射做跨层串联），通过解码器最终输出擦除了部分区域的第一预测
图像，从而可以以第二图像为标签，根据第一预测图像和第二图像的差异计算损失值，对原
始擦除模型进行即模型训练。在这个阶段可以使用L1损失函数进行训练。

[0033] 具体而言，针对任一的第一训练样本，可以通过解码器初始的中心点预测模型得到对应的一个中心点得分图，并找出每个字符的中心点，进而即可以基于中心点和矩形框
的外接圆的半径R1对中心点周围的字符的像素值进行调整（对距离中心点距离在R1之外的
则不做调整），从而得到调整后的训练样本。显然，调整后的训练样本中就包含了字符的笔
画信息，因此，通过该方式可以完成第一阶段的模型训练，此时得到的第一擦除模型已经可
以基于笔画信息以及R1进行部分的擦除。

[0034] S105，根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型。

[0035] 这个阶段可以称为第二训练阶段。第二训练阶段即需要对第一训练阶段所产生的第一擦除模型进行再次的训练。具体而言，即针对任一的第一训练样本，仍然采用前述的中
心点预测模型得到字符中心点，并根据以及R1对对应的中心点附近的像素点的像素值进行
调整，从而得到第一文字区域得分图，以及根据R2对对应的中心点附近的像素点的像素值
进行调整，而得到第二文字区域得分图。第一文字区域得分图和第二文字区域得分图中仍
然是以0至1之间的概率值一一对应的表征了对应的像素点的概率值。

[0036] 进而即可以根据第一文字区域得分图和第一训练样本生成第一擦除模型的输入，在经过第一擦除模型的编码器进行特征提取之后，即可以得到相应的特征映射，并将提取
得到的特征映射和第二文字区域得分图进行特征融合，从而生成融合了字符中心点、以及
字符中心点附近的R1和R2的特征，并将将特征输入第一擦除模型的解码器，从而生成第二
预测擦除图像，并仍以第二图像为标签，进行第二阶段的模型训练，而生成第二擦除模型。
在这个阶段可以采用L1损失函数和内容一致性损失函数（统计第二预测擦除图像和第二图
像有多少个像素点的值不一样）进行训练。

[0037] S107, 串联所述第一训练样本和空白图像，生成第二训练样本的集合。

[0038] S109，根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。

[0039] 这个阶段即可以认为是第三训练阶段。在该阶段中，第二训练样本同时经过二擦除模型和所述初始的中心点预测模型络。初始的中心点预测模型络仍然可以得到对应于第
二训练样本的中心点得分图，并基于内切圆半径R2调整第二训练样本中各点的像素值而得
到第二文字区域得分图。第二擦除模型的编码器则提取第二训练样本的特征，并将提取得
到的特征与第二文字区域得分图相乘，然后进入第二擦除模型的解码器，解码器通过对编
码器中的特征进行跨层串联以及对应的融合，并解码生成对应的第三擦除图像。

[0040] 基于生成的第三擦除图像与第二图像的差异对第二擦除模型和所述初始的中心点预测模型进行训练，从而同时调整初始的中心点预测模型和第二擦除模型中的参数，而
生成最终的中心点预测模型和第三擦除模型，此时最终的中心点预测模型和第三擦除模型
即构成了目标擦除模型。在这个阶段中，损失函数可以使用L1损失函数、内容一致性损失函
数以及（1‑感受野损失函数函数），感受野函数的计算方式为：对于输入的第二训练样本图
像，经过每个块得到一组预测特征映射，同时对应的第二图像，经过每个块得到一组标签特
征映射，然后每个对应块得到的预测特征映射和标签特征映射逐通道逐点求差，并整体加
和表示感受野损失，感受野损失越小，说明输入越接近。而在本公开中取反，则表明需要让
感受野损失不断变大，因为作为标签的第二图像并没有文字需要预测中心点，所以中心点
预测的越准，两者差距越大。

[0041] 在这个阶段中，由于在第二阶段中训练得到的第二擦除模型已经可以较为准确的提取得到文字中与R1和R2相关的信息，因此，通过基于R2所提取得到的笔画信息同时调整
初始的中心点预测模型和第二擦除模型，可以优化训练得到的目标整体模型对于文字的中
心点、以及中心点的R1和R2信息的识别，相当于在识别得到手写字符的中心点的同时，还可
以准确识别得到手写字符的笔画大小的范围。

[0042] 本公开实施例中提供的一个或多个技术方案，获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不包含所述手写文字区
域的第二图像为标签，所述第一图像和第二图像中的字符位置通过矩形框标注，所述矩形
框的外接圆的半径为R1，内切圆半径为R2；根据所述第一训练样本的集合、R1和初始的中心
点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模
型根据所述第一训练样本的集合预先训练得到；根据所述第一训练样本的集合、R1、R2和初
始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；串联所述第一训
练样本和空白图像，生成第二训练样本的集合；根据所述第二训练样本的集合和R2对所述
第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。由于矩形框的
外接圆的半径为R1，内切圆半径为R2均是基于字符的笔画信息所产生的矩形框所决定的，
因此，在模型训练中可以基于R1和R2而更多的提取得到文字的笔画信息，由于笔画信息相
对于整体的文字区域更加精确，从而实现图像的精确擦除。

[0043] 在一种实施例中，第一阶段中根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练时，可以采用如下方式：针对任一第一训练样本，采用所
述初始的中心点预测模型生成该第一训练样本的文字中心点得分图；根据所述文字中心点
得分图确定该第一训练样本的预测中心点；根据预测中心点的像素值S0，对该第一训练样
本中距离所述预测中心点的距离不超过R1的其它像素点的像素值进行调整，生成第一文字
区域得分图；将所述第一文字区域得分图串联该第一训练样本，对所述原始擦除模型进行
阶段训练。通过该方式可以在训练样本中融合进字符中心点的字符的外接圆的信息，从而
可以使得将一个字符的中心点的外接圆内的其它像素调整与中心点相关，从而可以使得秀
徐的训练和擦除更为准确。

[0044] 在一种实施例中，对于对该第一训练样本中距离所述预测中心点的距离不超过R2的其它像素点的像素值进行调整，可以采用如下方式：确定所述其它像素点距离所述预测
中心点的距离D，根据所述S0和D，采用高斯分布函数确定所述其它像素点的像素值Si，其
中，D越小，Si和S0的差越小，i为自然数。即越靠近中心点的像素点，其像素值也越靠近中心
点的像素值。而对于外接圆以外的像素点的像素值则不作调整。通过该方式，可以使得在同
一个字符框的外接圆内的像素点的像素值调整为较接近，从而有利于后续的字符识别和擦
除。

[0045] 在一种实施例中，在第二阶段中根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练时，可以采用如下方式：

[0046] 针对任一第一训练样本，采用所述初始的中心点预测模型确定该第一训练样本的预测中心点；根据预测中心点的像素值S0，对该第一训练样本中距离所述预测中心点的距
离不超过R1的其它像素点的像素值进行调整，生成第一文字区域得分图；根据预测中心点
的像素值S0，对该训练样本中距离所述预测中心点的距离不超过R2的其它像素点的像素值
进行调整，生成第二文字区域得分图；将所述第一文字区域得分图串联该第一训练样本，作
为所述第一擦除模型的输入，生成第一特征映射；将所述第一特征映射与所述第二文字区
域得分图进行逐点相乘，生成第二特征映射，根据所述第二特征映射对所述第一擦除模型
进行训练。

[0047] 即首先如第一阶段类似的，采用所述初始的中心点预测模型对预测得到的中心点的外接圆内的像素点的像素值进行调整，生成第一文字区域得分图；并采用类似的方式，对
预测得到的中心点的内切圆内的像素点的像素值进行调整，生成第二文字区域得分图。从
而第一文字区域得分图串联该第一训练样本输入解码器，将得到的第一特征映射与第二文
字区域得分图进行逐通道逐点相乘，生成第二特征映射，并将第二特征映射输入解码器，基
于解码器而生成第二预测擦除图像，从而基于第二预测擦除图像和第二图像的差异进行第
二阶段的模型训练。通过该方式，在模型训练的过程中进一步的加入了字符中心点的内切
圆范围内的笔画信息，从而可以实现更精确的范围预测和擦除。

[0048] 在这个过程中，根据预测中心点的像素值S0，对该训练样本中距离所述预测中心点的距离不超过R2的其它像素点的像素值进行调整，生成第二文字区域得分图时，可以类
似于生成第二文字区域得分图时的方式，即基于预测中心点的像素值S0以及其它点相对于
中心点的距离，采用高斯分布函数确定其它点的像素值，从而生成对应于第一训练样本的
第二文字区域得分图。

[0049] 在一种实施例中，在第三阶段的训练过程中，根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，可以采用如下方式：针对任
一第二训练样本，采用所述初始的中心点预测模型和所述R2生成该第二训练样本的第二文
字区域得分图；采用所述第二擦除模型生成该第二训练样本的第三特征映射；将所述第三
特征映射与所述第二文字区域得分图逐点相乘，根据相乘的结果对所述第二擦除模型和所
述初始的中心点预测模型进行训练。

[0050] 不同于第一阶段和第二阶段的输入均为第一训练样本叠加了第一区域得分图，即在过程中，输入为第一训练样本叠加了一份空白图像，即通过空白图像模拟了第一区域得
分图，以保持输入的一致性。进而基于已经训练好的第二擦除模型的编码器提取第三特征
映射，并将提取得到的第三映射与中心点预测模型所得到的第二文字区域得分图（得到的
方式参考前述说明）逐点相乘，然后进入解码器而生成第三预测图像，并基于第三预测图像
和第二图像的差异计算损失值，对第二擦除模型和所述初始的中心点预测模型同步进行参
数调整，以使得训练得到的中心点预测模型可以更准确的预测得到中心点，同时训练得到
的第三擦除模型可以更准确的提取得到中心点周围R1和R2范围内的字符笔画信息，从而实
现可以基于中心点、R1和R2所表征的笔画信息进行精确的擦除。

[0051] 需要说明的是，在本公开实施例中，第一阶段、第二阶段和第三阶段的三个训练阶段是相互独立的，即在进行第一阶段训练时，第二阶段和第三阶段不会发生。只有在前一阶
段的训练完成后，才会进行后续的阶段模型训练。

[0052] 在经过第三阶段的训练得到目标擦除模型之后，即可以获取待擦除的图像，并将所述待擦除的图像串联相同大小的空白图像，作为所述目标擦除模型的输入，从而直接生
成擦除后的图像。在这个过程中，模型处理的过程即如前述的第三阶段所示（即目标擦除模
型的输入需要叠加空白图像，以保持和第三阶段的输入一致），而与第一阶段和第二阶段的
模型训练无关。

[0053] 进一步地，还可以对于输入的图像进行等大小的切分，而得到切分后的多份和第二训练样本相同大小的待擦除的子图像。进一步地，将所述待擦除的子图像串联相同大小
的空白图像，作为所述目标擦除模型的输入，从而可以生成多份擦除后的子图像，并对生成
的擦除后的子图像拼接，生成擦除后的图像。通过该方式，将待擦除的图像进行切分，可以
按块擦除之后重新拼接的方式实现更精细化的文本擦除，即更加重视局部信息（即基于中
心点和R1、R2所表征的文字笔画信息），而忽略全局信息，实现更精确的擦除。

[0054] 在一种实施例中，对于初始的中心点预测模型采用如下方式预先训练得到：针对任一第一训练样本，采用包含多个串联的块的检测模型获取对应的多个图像中心点子特
征，串联所述多个图像中心点子特征生成中心点特征映射；对所述中心点特征映射进行等
宽卷积，生成与第一训练样本的像素点存在对应关系的中心点得分预测图，其中，所述中心
点得分预测图中的每个分值表征了第一训练样本中对应的像素点是中心点的概率；根据所
述中心点得分预测图与所述第一训练样本中的矩形框标注对所述检测模型进行训练，生成
初始的中心点预测模型。

[0055] 例如，可以采用Resnet18网络模型作为基础结构，Resnet18网络由N（N为自然数，例如，N=4）个块（block）串联构建，每个块包括若干层卷积操作，第一个块输出的特征映射
大小为第一训练样本的1/4，第二个为第一训练样本的1/8，第三个为第一训练样本的1/16,
第四个为第一训练样本1/32,以此类推，每一个块的输出是后一块的输入，将得到的4组128
通道特征映射全部通过插值的方式缩放至第一训练样本的1/4大小，然后进行两次卷积和
三次反卷积操作，得到与第一训练样本的大小一致的1通道的中心点特征映射，并对所述中
心点特征映射进行等宽卷积，生成与第一训练样本的像素点存在对应关系的中心点得分预
测图，其实中心点得分预测图的值表示这个像素点是否是中心点的概率；根据所述中心点
得分预测图与所述第一训练样本中的矩形框标注对所述检测模型进行训练，从而生成初始
的中心点预测模型，在这个过程中，可以使用Focal Loss作为损失函数。通过该方式，可以
通过多个块提取得到更为丰富的初始的图像信息，实现准确的中心点的预测。如图3所示，
图3为本公开实施例所提供的一种中心点特征映射生成方式的示意图。

[0056] 在本公开实施例的第二方面，还提供了一种文本擦除模型的训练装置，如图4所示，图4为本公开实施例所提供的一种文本擦除模型的训练装置的结构示意图，包括：

[0057] 第一样本获取模块401，获取第一训练样本的集合，其中，所述第一训练样本为包含手写文字区域的第一图像，第一训练样本以不包含所述手写文字区域的第二图像为标
签，所述第一图像和第二图像中的字符位置通过矩形框标注，所述矩形框的外接圆的半径
为R1，内切圆半径为R2；

[0058] 第一阶段训练模块403，根据所述第一训练样本的集合、R1和初始的中心点预测模型对原始擦除模型进行训练，生成第一擦除模型，其中，所述初始的中心点预测模型根据所
述第一训练样本的集合预先训练得到；

[0059] 第二阶段训练模块405，根据所述第一训练样本的集合、R1、R2和初始的中心点预测模型对所述第一擦除模型进行训练，生成第二擦除模型；

[0060] 第二样本获取模块407，串联所述第一训练样本和空白图像，生成第二训练样本的集合；

[0061] 第三阶段训练模块409，根据所述第二训练样本的集合和R2对所述第二擦除模型和所述初始的中心点预测模型进行训练，生成目标擦除模型。

[0062] 在本公开实施例的第三方面，本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述
至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于
使所述电子设备执行根据本公开实施例的方法。

[0063] 本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开
实施例的方法。

[0064] 本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

[0065] 参考图5，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数
字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述
的和/或者要求的本公开的实现。

[0066] 如图5所示，电子设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，
来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数
据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也
连接至总线804。

[0067] 电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型
的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。

[0068] 计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工
智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及
任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。
例如，在一些实施例中，如第一方面的文本擦除模型的训练方法可被实现为计算机软件程
序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部
分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在
一些实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为
执行如第一方面的文本擦除模型的训练方法。

[0069] 如图6所示，图6为本公开实施例所提供的一种文本擦除方法的流程示意图，其包括：

[0070] S601、确定图像上要擦除的目标文本；

[0071] S603、根据如第一方面方法得到的文本擦除模型，从所述图像上擦除所述目标文本，得到擦除了所述目标文本的图像。

[0072] 本实施例中，所述图像可以为任意试卷或者可供用户作答的打印体题目图像，目标文本可以为打印体题目图像上用户作答的文本，通过将用户作答过的文本抹去，第一遍
答题之后，可以找出错题，重点学习之后，去除其上的手写体，将试卷复原，针对错误问题重
新练习，以巩固学习效果；而对于拍照判题应用的提供者来说，用户需要批改的题目，题库
中如果没有，那么便可以去除用户作答痕迹，将这道题收录，同时引入人工答案，从而有效
扩充题库。

[0073] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0074] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM
或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD‑ROM）、光学储存设备、磁储存设备、或
上述内容的任何合适组合。

[0075] 如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。

[0076] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视
器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用
任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

[0077] 可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算
系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网
（LAN）、广域网（WAN）和互联网。

[0078] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。

一种文本擦除方法及模型的训练方法、装置、存储介质转让专利

申请号 : CN202111023930.5

文献号 : CN113469148B

文献日 : 2021-11-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 秦勇

申请人 : 北京世纪好未来教育科技有限公司

摘要 :

权利要求 :

说明书 :