用于文字识别的数据处理方法及装置转让专利

申请号 : CN201811272127.3

文献号 : CN109508757B

文献日 : 2020-10-09

本申请公开了一种用于文字识别的数据处理方法及装置。该方法包括：依照获取的训练数据构建待识别字符的字符频次表；根据所述字符频次表确定所述训练数据中图像的字频指标；判断所述字频指标是否大于预设指标；将判断结果为大于的图像列入冗余图像列表；以及，删除所述冗余图像列表中的图像。该装置包括：构建单元、确定单元、判断单元、列表单元及删除单元。本申请解决了由于训练数据中的高频字图像占用过多模型训练阶段的计算资源造成的训练效率低下的技术问题。

1.一种用于文字识别的数据处理方法，其特征在于，包括：依照获取的训练数据构建待识别字符的字符频次表；

根据所述字符频次表确定所述训练数据中图像的字频指标；

判断所述字频指标是否大于预设指标；

将判断结果为大于的图像列入冗余图像列表；

删除所述冗余图像列表中的图像；

判断删除后的图像数目是否小于预设数目阈值；

如果是，则将删除后得到的训练数据输入深度学习网络模型；

如果不是，则根据配置的多轮循环模式对所述预设指标执行调低操作；

判断删除后的训练数据中图像的字频指标是否大于调低后的指标；

将判断结果为大于的图像列入所述冗余图像列表；

删除所述冗余图像列表中的图像。

2.根据权利要求1所述的数据处理方法，其特征在于，依照获取的训练数据构建待识别字符的字符频次表包括：获取包含一个文本序列和文本序列标注的多个图像；

统计多个所述图像中的待识别字符的出现频次；

将统计结果存储为所述字符频次表。

3.根据权利要求1所述的数据处理方法，其特征在于，根据所述字符频次表确定所述训练数据中图像的字频指标包括：从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、Xn}；

根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果：{F(X1)、F(X2)、…、F(Xn)}；

根据第一查找结果确定第一字频指标：min({F(X1)，F(X2)，…，F(Xn)})。

4.根据权利要求1所述的数据处理方法，其特征在于，判断所述字频指标是否大于预设指标包括：判断第一图像的第一字频指标是否大于预设频次阈值；

将判断结果为大于的图像列入冗余图像列表包括：如果是，则将所述第一图像列入冗余图像列表。

5.根据权利要求4所述的数据处理方法，其特征在于，将所述第一图像列入冗余图像列表还包括：对所述字符频次表中与所述第一图像中的字符对应的条目依次执行更新操作；

根据更新后的字符频次表确定所述训练数据中第二图像的第二字频指标；

判断所述第二字频指标是否大于预设指标；

如果是，则将所述第二图像列入冗余图像列表。

6.根据权利要求1所述的数据处理方法，其特征在于，删除所述冗余图像列表中的图像之后还包括：判断删除后的图像数目是否小于预设数目阈值；

如果是，则将删除后得到的训练数据输入深度学习网络模型；

如果不是，则根据配置的单轮循环模式将删除后得到的训练数据输入深度学习网络模型。

7.一种用于文字识别的数据处理装置，其特征在于，包括：构建单元，用于依照获取的训练数据构建待识别字符的字符频次表；

确定单元，用于根据所述字符频次表确定所述训练数据中图像的字频指标；

判断单元，用于判断所述字频指标是否大于预设指标；

列表单元，用于将判断结果为大于的图像列入冗余图像列表；

删除单元，用于删除所述冗余图像列表中的图像；

还包括：判断删除后的图像数目是否小于预设数目阈值；

如果是，则将删除后得到的训练数据输入深度学习网络模型；

如果不是，则根据配置的多轮循环模式对所述预设指标执行调低操作；

判断删除后的训练数据中图像的字频指标是否大于调低后的指标；

将判断结果为大于的图像列入所述冗余图像列表；

删除所述冗余图像列表中的图像。

8.根据权利要求7所述的数据处理装置，其特征在于，所述构建单元包括：获取模块，用于获取包含一个文本序列和文本序列标注的多个图像；

统计模块，用于统计多个所述图像中的待识别字符的出现频次；

存储模块，用于将统计结果存储为所述字符频次表。

9.根据权利要求7所述的数据处理装置，其特征在于，确定单元包括：调取模块，用于从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、Xn}；

查找模块，用于根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果：{F(X1)、F(X2)、…、F(Xn)}；

确定模块，用于根据第一查找结果确定第一字频指标：min({F(X1)，F(X2)，…，F(Xn)})。

用于文字识别的数据处理方法及装置

技术领域

[0001] 本申请涉及图像识别技术领域，具体而言，涉及一种用于文字识别的数据处理方法及装置。

背景技术

[0002] 在当前的科技发展潮流下，借助图像识别文字的技术较为常见。主要可以分为光学文字识别、自然场景中的文字识别等。

[0003] 传统光学字符识别(OCR)主要面向高清的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐。在符合此前提要求的情况下，训练好的网络模型能够达到
很高的识别准确率，并且训练过程较快。

[0004] 自然场景中的文字识别(STR)主要面向包含文字的自然场景图像，此类技术假设图像背景复杂、字体多样、并存在文字扭曲变形等。为了从此类图像中识别文字，通常需要
使用基于深度学习网络的技术方法，并且训练数据集中需要出现各种背景、各种字体、各种
扭曲变形下的文字图像。为了让深度学习网络能够去识别自然场景图像中的数千个常用汉
字，需要大规模的文本图像数据集来训练网络模型，并且训练过程较慢。

[0005] 为了减少标注训练数据集的工作量，通常将自然场景图像中出现的字符序列作为期望识别结果的标注单位，并且采用支持字符序列做识别结果的深度学习网络模型结构。
为了在真实应用中取得良好的识别效果，这些训练数据集中的字符序列最好采集于真实场
景图像(例如视频字幕、网络图文、街景图文)中的字符序列。

[0006] 为了在各种复杂的自然场景图像中准确识别出每个字符，必须让每个字符拥有足够数量的训练图像。来源于真实应用场景的字符序列中，不同字符出现的频率往往差别较
大。例如视频字幕中汉字‘有’、‘是’的出现频率远远高于汉字‘苞’、‘倔’。为了保证那些低频字也拥有足够数量的训练图像，通常的做法是随机采集和标注非常大量的字符序列图
像。这样，就导致训练数据集中高频字对应的图像数量超出训练所需数量，并且在深度学习
网络模型训练阶段占用过多的计算资源，降低了模型训练效率。用这样的数据集训练出的
深度学习网络模型中，低频字的识别准确率通常低于高频字的识别准确率。

[0007] 针对相关技术中训练数据中的高频字图像占用过多模型训练阶段的计算资源造成的训练效率低下的问题，目前尚未提出有效的解决方案。

发明内容

[0008] 本申请的主要目的在于提供一种用于文字识别的数据处理方法及装置，以解决训练数据中的高频字图像占用过多模型训练阶段的计算资源造成的训练效率低下的问题。

[0009] 为了实现上述目的，根据本申请的一个方面，提供了一种用于文字识别的数据处理方法。

[0010] 根据本申请的用于文字识别的数据处理方法包括：依照获取的训练数据构建待识别字符的字符频次表；根据所述字符频次表确定所述训练数据中图像的字频指标；判断所
述字频指标是否大于预设指标；将判断结果为大于的图像列入冗余图像列表；以及，删除所
述冗余图像列表中的图像。

[0011] 进一步的，依照获取的训练数据构建待识别字符的字符频次表包括：获取包含一个文本序列和文本序列标注的多个图像；统计多个所述图像中的待识别字符的出现频次；
将统计结果存储为所述字符频次表。

[0012] 进一步的，根据所述字符频次表确定所述训练数据中图像的字频指标包括：从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、 Xn}；根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果： {F(X1)、F(X2)、…、F(Xn)}；根据第一查找结果确定第一字频指标：min ({F(X1)，F(X2)，…，F(Xn)})。

[0013] 进一步的，判断所述字频指标是否大于预设指标包括：判断第一图像的第一字频指标是否大于预设频次阈值；将判断结果为大于的图像列入冗余图像列表包括：如果是，则
将所述第一图像列入冗余图像列表。

[0014] 进一步的，将判断结果为大于的图像列入冗余图像列表还包括：对所述字符频次表中与所述第一图像中的字符对应的条目依次执行更新操作；根据更新后的字符频次表确
定所述训练数据中第二图像的第二字频指标；判断所述第二字频指标是否大于预设指标；
如果是，则将所述第二图像列入冗余图像列表。

[0015] 进一步的，删除所述冗余图像列表中的图像之后还包括：判断删除后的图像数目是否小于预设数目阈值；如果是，则将删除后得到的训练数据输入深度学习网络模型；如果
不是，则根据配置的单轮循环模式将删除后得到的训练数据输入深度学习网络模型。

[0016] 进一步的，判断删除后的图像数目是否小于预设数目阈值之后还包括：如果不是，则根据配置的多轮循环模式对所述预设指标执行调低操作；判断删除后的训练数据中图像
的字频指标是否大于调低后的指标；将判断结果为大于的图像列入所述冗余图像列表；删
除所述冗余图像列表中的图像。

[0017] 为了实现上述目的，根据本申请的另一方面，提供了一种用于文字识别的数据处理装置。

[0018] 根据本申请的用于文字识别的数据处理装置包括：构建单元，用于依照获取的训练数据构建待识别字符的字符频次表；确定单元，用于根据所述字符频次表确定所述训练
数据中图像的字频指标；判断单元，用于判断所述字频指标是否大于预设指标；列表单元，
用于将判断结果为大于的图像列入冗余图像列表；以及，删除单元，用于删除所述冗余图像
列表中的图像。

[0019] 进一步的，所述构建单元包括：获取模块，用于获取包含一个文本序列和文本序列标注的多个图像；统计模块，用于统计多个所述图像中的待识别字符的出现频次；存储模
块，用于将统计结果存储为所述字符频次表。

[0020] 进一步的，确定单元包括：调取模块，用于从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、Xn}；查找模块，用于根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果：{F(X1)、F(X2)、…、 F(Xn)}；确定模块，用于根据第一查找结果确定第一字频指标：min({F(X1)， F(X2)，…，F(Xn)})。

[0021] 在本申请实施例中，采用筛选并删除训练数据中多余高频图像的方式，通过训练数据构建待识别字符的字符频次表，再根据字符频次表确定训练数据中图像的字频指标，
然后通过对字频指标的判断筛选出包含高频字的冗余图像列表，最后将冗余图像列表中的
图像删除，达到了大幅降低训练数据中的高频字图像数量的目的，从而实现了高频字图像
不会过多占用模型训练阶段的计算资源的技术效果，进而解决了由于训练数据中的高频字
图像占用过多模型训练阶段的计算资源造成的训练效率低下的技术问题。

附图说明

[0022] 构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不
构成对本申请的不当限定。在附图中：

[0023] 图1是根据本申请实施例的用于文字识别的数据处理方法示意图；

[0024] 图2是根据本申请实施例的用于文字识别的数据处理装置示意图；

[0025] 图3是根据本申请优选实施例的用于文字识别的数据处理方法示意图；

[0026] 图4(A)-图4(C)是根据本申请实施例的训练数据中图像示意图。

具体实施方式

[0027] 为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是
本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范
围。

[0028] 需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的
过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0029] 在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

[0030] 并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领
域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

[0031] 此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。
对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

[0032] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

[0033] 根据本发明实施例，提供了一种用于文字识别的数据处理方法，如图1 所示，该方法包括如下的步骤S100至步骤S108：

[0034] 步骤S100、依照获取的训练数据构建待识别字符的字符频次表；

[0035] 具体的，依照获取的训练数据构建待识别字符的字符频次表包括：

[0036] 获取包含一个文本序列和文本序列标注的多个图像；

[0037] 统计多个所述图像中的待识别字符的出现频次；

[0038] 将统计结果存储为所述字符频次表。

[0039] 训练数据为包含一个文本序列和文本序列标注的多个图像；图像的来源可以多种多样，例如来源于街景文字图像、网络文字图像、电影字幕图像等。为了让网络模型对常用
字符都有很高识别准确率，训练数据中往往要采集数百万张文本序列和文本序列的图像。

[0040] 本实施例中，以视频滚动字幕文字识别应用场景为示例：假设训练数据中包含如图4(A)-4(C)所示的三个图像；

[0041] 图4(A)对应的一个文本序列标注为：‘大家没必要这么认真吧？台词很逗啊’；

[0042] 图4(B)对应的一个文本序列标注为：怎么还这么多斑呢’；

[0043] 图4(C)对应的一个文本序列标注为：怎么还这么多斑呢’；

[0044] 通过统计后，可以得到三个图像中所有待识别字符的字符频次表：

[0045] F{‘怎’：2，‘么’：5，‘还’：2，‘这’：3，……}。

[0046] 步骤S102、根据所述字符频次表确定所述训练数据中图像的字频指标；

[0047] 具体的，根据所述字符频次表确定所述训练数据中图像的字频指标包括：

[0048] 从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、 Xn}；

[0049] 根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果： {F(X1)、F(X2)、…、F(Xn)}；

[0050] 根据第一查找结果确定第一字频指标：min({F(X1)，F(X2)，…，F(Xn)})。

[0051] 通过计算可以得到：

[0052] 图4(A)的字频指标＝min({F(‘大’)，F(‘家’)，…})＝1

[0053] 图4(B)的字频指标＝min({F(‘怎’)，F(‘么’)，…})＝2

[0054] 图4(C)的字频指标＝min({F(‘怎’)，F(‘么’)，…})＝2

[0055] 可以将上述的任意一个字频指标作为第一字频指标，再按照顺序一次或者随机择一进行判断。

[0056] 步骤S104、判断所述字频指标是否大于预设指标；

[0057] 具体的，判断所述字频指标是否大于预设指标包括：

[0058] 判断第一图像的第一字频指标是否大于预设频次阈值；

[0059] 根据真实的训练数据的图像，预设频次阈值t2至少要设置为几十；在本实施例中，为便于说明，将t2预设为1。判断训练数据中的每个图像是否大于 t2。

[0060] 步骤S106、将判断结果为大于的图像列入冗余图像列表；

[0061] 具体的，将判断结果为大于的图像列入冗余图像列表包括：

[0062] 如果是，则将所述第一图像列入冗余图像列表；

[0063] 表明当计算出的某图像的字频指标大于t2(t2＝1)时，该图像被作为冗余图像列入冗余图像列表中；按照上述的示例，可以得出：

[0064] 图4(A)的字频指标＝min({F(‘大’)，F(‘家’)，…})＝1＝t2；

[0065] 图4(B)的字频指标＝min({F(‘怎’)，F(‘么’)，…})＝2>t2；

[0066] 图4(C)的字频指标＝min({F(‘怎’)，F(‘么’)，…})＝2>t2；

[0067] 由上可知，图4(A)的字频指标的判断结果为等于，图4(B)的字频指标和图4(C)的字频指标的判断结果为大于，则将图4(B)、图4(C)分别确定为冗余图像，并分别列入冗余图
像列表；从而实现训练数据中所有图像的字频指标判断，进而可以实现被判断为冗余图像
的删除，达到了减少训练数据的高频字图像数量的目的，如此可以提升训练效率。

[0068] 本实施例中，优选的，将所述第一图像列入冗余图像列表还包括：

[0069] 对所述字符频次表中与所述第一图像中的字符对应的条目依次执行更新操作；

[0070] 根据更新后的字符频次表确定所述训练数据中第二图像的第二字频指标；

[0071] 判断所述第二字频指标是否大于预设指标；

[0072] 如果是，则将所述第二图像列入冗余图像列表；

[0073] 再循环执行以上步骤，直至训练数据中的图像全部被判断结束后终止程序。

[0074] 仍然以图4(A)-4(C)所示的三个图像为例，本实施例中，将图4(B) 作为第一图像，图4(C)作为第二图像，

[0075] 图4(B)的字频指标＝min({F(‘怎’)，F(‘么’)，…})＝2>t2；

[0076] 则表明图4(B)为冗余图像，列入冗余图像列表；

[0077] 原字符频次表：F{‘怎’：2，‘么’：5，‘还’：2，‘这’：3，……}；

[0078] 图4(B)对应的一个文本序列标注为：怎么还这么多斑呢’；

[0079] 通过更新【在该表中与图4(B)中的字符对应的条目依次执行减1操作，即将图4(B)中出现的字符的频次执行减1操作】；

[0080] 可以得到新的字符频次表：F{‘怎’：1，‘么’：3，‘还’：1，‘这’：2，……}；

[0081] 首先，按照新的字符频次表确定图4(A)的字频指标＝min({F(‘大’)， F(‘家’)，…})＝1＝t2；不是冗余图像，不需要列入冗余图像列表，新的字符频次表无需再更新；

[0082] 然后，按照新的字符频次表还可以确定图4(C)的字频指标＝min({F (‘怎’)，F(‘么’)，…})＝1＝t2；不是冗余图像，不需要列入冗余图像列表，新的字符频次表无需再更新；确定该示例中仅需要删除图4(B)。

[0083] 在其他示例中，如果判断第二字频指标大于t2，则将所述第二图像列入冗余图像列表；

[0084] 再执行对新的字符频次表中与所述第二图像中的字符对应的条目依次执行更新操作；

[0085] 根据更新后的字符频次表确定所述训练数据中第三图像的第三字频指标；

[0086] 判断所述第三字频指标是否大于预设指标；

[0087] 如果是，则将所述第三图像列入冗余图像列表；

[0088] 如此循环，直至训练数据中的所有图像被判断结束，则终止程序。可以得到一个包含第一图像、第二图像……等多个图像的冗余图像列表；即在计算下一张图像的字频指标
时，将依据实时更新过的最新字符频次表。通过这种策略，保证瘦身后数据集中留存适当数
量的高频字图像。

[0089] 步骤S108、删除所述冗余图像列表中的图像。

[0090] 通过判断被归为冗余图像列表中的图像，将被从训练数据中作为多余的部分全部删除；新的训练数据比原始的训练数据的规模大大减少，其中高频字图像和低频字图像的
数量将相差无几；标注中包含低频字符的图像全部被保留在新数据集中；从而可以在保证
训练模型的对高频字、低频字的识别准确率的同时，还可以保证高频字图像不过多占用模
型训练阶段的计算资源，大大提升了训练效率。

[0091] 优选的，删除所述冗余图像列表中的图像之后还包括：

[0092] 判断删除后的图像数目是否小于预设数目阈值；

[0093] 如果是，则将删除后得到的训练数据输入深度学习网络模型；

[0094] 如果不是，则根据配置的单轮循环模式将删除后得到的训练数据输入深度学习网络模型。

[0095] 这类支持字符序列作为识别结果的深度学习网络模型，其网络框架可以有多种实施形式，例如流行的CNN+LSTM+CTC、Encoder+Attention+Decoder 等形式。从预设配置信息
中可以读入预设数目阈值t1,以及预设指标t2。这两个值都是后续过程的循环控制变量，用
于判断是否已经完成数据集整理任务的既定衡量指标。根据真实训练数据集图像，t1至少
要设置为几十万。

[0096] 仍以图4(A)-4(C)所示的三个图像为例：

[0097] 可以设置预设数目阈值t1为3；

[0098] 删除图4(B)的图像后，剩余2个图像，小于t1(t1＝3)，则终止程序并将删除后得到的训练数据输入深度学习网络模型；

[0099] 可以设置预设数目阈值t1为2；

[0100] 删除图4(B)的图像后，剩余2个图像，等于t1(t1＝3)，如果判断出配置的为单轮循环模式，则将删除后得到的训练数据输入深度学习网络模型；

[0101] 进一步的，判断删除后的图像数目是否小于预设数目阈值之后还包括：

[0102] 如果不是，则根据配置的多轮循环模式对所述预设指标执行调低操作；

[0103] 判断删除后的训练数据中图像的字频指标是否大于调低后的指标；

[0104] 将判断结果为大于的图像列入所述冗余图像列表；

[0105] 删除所述冗余图像列表中的图像。

[0106] 删除图4(B)的图像后，剩余2个图像，等于t1(t1＝3)，如果判断出配置的为多循环模式，则对所述预设指标执行调低操作；

[0107] 通过调低后的预设指标再执行步骤S104-步骤S108，直至达到设置的循环模式的次数，终止程序。采用这种执行策略后，字频指标最高的那些图像在首轮循环中就将被删除
掉，而字频指标稍微高些的那些图像在后续几轮循环中才有机会被删除掉。

[0108] 显然，在真实文字识别的场景中，训练数据通常规模很大，这种情况下优选地配置成多轮循环实施数据集瘦身。

[0109] 每执行一轮，字符频次阈值t2将被降低一次。在文字识别的真实场景中，训练数据中高频、中频、低频字符在图像标注中出现的次数往往有数个数量级上的差别。因此，优选
的，字符频次阈值t2将按照等比数列方式下降。反之，如果按照等差数列下降方式调整阈值
t2，将比上述优选方案经过更多轮循环才能达到任务完成的退出条件。

[0110] 在一些实施例中，如图3所示，提供一种方法，包括：

[0111] 步骤S11中，为自然场景文字识别应用中的深度学习网络模型采集原始图像数据集；

[0112] 进一步地，步骤S11中还统计出每个待识别字符在全体图像文本序列标注中出现的次数，并把统计结果存储成字符频次表F，以供后续步骤使用；

[0113] 步骤S12中，从系统配置信息中读入图像总数目阈值t1,以及字符频次阈值t2；

[0114] 步骤S13中，对数据集中的每一张图像执行检查任务，以便找到所有冗余图像。针对每张图像，执行下面三项操作：

[0115] 首先，计算该图像的字频指标；

[0116] 接着，如果该图像的字频指标大于字符频次阈值t2,则判定该图像为冗余图像，将其放入冗余图像列表中；

[0117] 然后，如果该图像被判定为冗余图像，还将实时更新字符频次表；特别地，在计算下一张图像的字频指标时，将依据实时更新过的最新字符频次表；

[0118] 步骤S14中，将上一步找出的所有冗余图像及其标注数据从当前数据集中删除；

[0119] 步骤S15中，如果更新后数据集中图像总数目已经小于预定阈值t1，则文字识别的数据集整理任务就此完成；

[0120] 步骤S16中，如果配置了单轮方式实现数据库瘦身，则文字识别的数据集整理任务就此完成。否则，进入下一步操作；

[0121] 步骤S17中，调低字符频次阈值t2，并转入下一轮循环继续进行数据集瘦身工作。

[0122] 从以上的描述中，可以看出，本发明实现了如下技术效果：

[0123] 在本申请实施例中，采用筛选并删除训练数据中多余高频图像的方式，通过训练数据构建待识别字符的字符频次表，再根据字符频次表确定训练数据中图像的字频指标，
然后通过对字频指标的判断筛选出包含高频字的冗余图像列表，最后将冗余图像列表中的
图像删除，达到了大幅降低训练数据中的高频字图像数量的目的，从而实现了高频字图像
不会过多占用模型训练阶段的计算资源的技术效果，进而解决了由于训练数据中的高频字
图像占用过多模型训练阶段的计算资源造成的训练效率低下的技术问题。

[0124] 需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不
同于此处的顺序执行所示出或描述的步骤。

[0125] 根据本发明实施例，还提供了一种用于实施上述用于文字识别的数据处理方法的装置，如图2所示，该装置包括：构建单元10，用于依照获取的训练数据构建待识别字符的字符频次表；确定单元20，用于根据所述字符频次表确定所述训练数据中图像的字频指标；判
断单元30，用于判断所述字频指标是否大于预设指标；列表单元40，用于将判断结果为大于
的图像列入冗余图像列表；以及，删除单元50，用于删除所述冗余图像列表中的图像。作为
本实施例中优选，所述构建单元10包括：获取模块，用于获取包含一个文本序列和文本序列
标注的多个图像；统计模块，用于统计多个所述图像中的待识别字符的出现频次；存储模
块，用于将统计结果存储为所述字符频次表。作为本实施例中优选，确定单元20包括：调取
模块，用于从所述训练数据中调取第一图像的第一文字序列标注：{X1、X2、…、Xn}；查找模块，用于根据所述第一文字序列标注查找所述字符频次表，得到第一查找结果：{F(X1)、 F
(X2)、…、F(Xn)}；确定模块，用于根据第一查找结果确定第一字频指标： min({F(X1)，F
(X2)，…，F(Xn)})。

[0126] 从以上的描述中，可以看出，本发明实现了如下技术效果：

[0127] 在本申请实施例中，采用筛选并删除训练数据中多余高频图像的方式，通过训练数据构建待识别字符的字符频次表，再根据字符频次表确定训练数据中图像的字频指标，
然后通过对字频指标的判断筛选出包含高频字的冗余图像列表，最后将冗余图像列表中的
图像删除，达到了大幅降低训练数据中的高频字图像数量的目的，从而实现了高频字图像
不会过多占用模型训练阶段的计算资源的技术效果，进而解决了由于训练数据中的高频字
图像占用过多模型训练阶段的计算资源造成的训练效率低下的技术问题。

[0128] 显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成
的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储
在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们
中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的
硬件和软件结合。

[0129] 以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修
改、等同替换、改进等，均应包含在本申请的保护范围之内。

用于文字识别的数据处理方法及装置转让专利

申请号 : CN201811272127.3

文献号 : CN109508757B

文献日 : 2020-10-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 鞠海玲 , 张默

申请人 : 北京陌上花科技有限公司

摘要 :

权利要求 :

说明书 :

用于文字识别的数据处理方法及装置

技术领域

背景技术

发明内容

附图说明

具体实施方式