文字识别、编改的系统转让专利

申请号 : CN201010253559.7

文献号 : CN101908147B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 瞿洋袁仁慧梁洵张振海

申请人 : 同方知网(北京)技术有限公司

摘要 :

本发明公开了一种文字识别、编改的系统,所述系统包括:双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。

权利要求 :

1.文字识别、编改的系统,其特征在于,所述系统包括:

双路识别单元,调用汉王OCR识别软件和文通OCR识别软件并采用外挂的方式对文档中的文字进行识别;所述外挂识别就是不改变原来的OCR识别软件,编写新程序模拟人工操作OCR识别软件的过程,以便完成图像识别工作;

流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;所述流控处理单元包括:包括切图模块、纵编模块、横编模块及质检模块,所述切图模块,用于对待识别的文档图像进行段落切图,该段落切图是保证双路OCR识别软件具有相同的版面分析结果;纵编模块,将同一批次的需要纵编的文字以字为单位重新组合进行编改,该编改是用以对双路识别有矛盾且重复出现两次以上的字先交给人工进行纵向编改校对;横编模块,对需要编改的文字以文档的自然顺序进行图文对照编改,横向编改是在纵编的基础上对需要编改的文字以文档的自然顺序进行图文对照编改;

后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。

2.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述双路识别单元包括识别机器人及机器人智能监控程序,所述识别机器人,采用汉王OCR识别软件和文通OCR识别软件通过外挂的方式对待识别的文档图像进行识别;

机器人智能监控程序,监控识别机器人的运行状态。

3.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述后续加工处理单元包括改错返工模块及管理与监控模块,所述改错返工模块,对其双路识别单元和流控处理模块单元中发现的错误进行改正并返回给发现错误的执行者;

管理与监控模块,包括系统人工岗位员工的工资结算、在线任务加工情况的统计分析、在线任务优先级调整、加工任务的临时暂停和恢复加工功能。

4.根据权利要求1~3任一项所述的文字识别、编改的系统,其特征在于,所述系统的识别还包括对英文及其他字符的识别。

说明书 :

文字识别、编改的系统

技术领域

[0001] 本发明涉及涉及文档电子化过程中文字识别及编改的系统,尤其涉及中文印刷体识别与编改的系统。

背景技术

[0002] 在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是:用普通OCR软件进行图像识别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常也会超过1/1000。

发明内容

[0003] 为解决现有的人工编改效率低,错误率高的现状,本发明提供了一种文字识别、编改的系统。该系统可以极大地提高人工编改的效率,降低成本,所述技术方案如下:
[0004] 文字识别、编改的系统,包括:
[0005] 双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;
[0006] 流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行编改校对并进行质检;
[0007] 后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。
[0008] 本发明提供的技术方案的有益效果是:
[0009] 通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。

附图说明

[0010] 图1是本发明基于网络和数据库的流程化加工系统图。

具体实施方式

[0011] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
[0012] 本实施例提供了一种文字识别、编改的系统,该系统包括:该系统包括双路识别单元、流控处理单元及后续加工处理单元,其中双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。上述外挂识别就是不改变原来的OCR识别软件,编写新程序模
拟人工操作OCR识别软件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独
立运行的软件。外挂程序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进
行图像识别。
[0013] 上述双路识别单元包括:识别机器人与机器人智能监控程序,其中,识别机器人采用汉王OCR识别软件和文通OCR识别软件通过外挂的方式对待识别的文档图像进行识别,对其识别的结果进行比较,并将二者不一致的字抛出编改。
[0014] 机器人智能监控程序,监控识别机器人的运行状态,如果有异常则重启机器人,严重问题则重启操作系统并启动机器人,以保证识别机器人持续、稳定运行。
[0015] 本系统采用的汉王OCR识别软件和文通OCR识别软件具有很强的互补性,我们利用其识别结果并进行单行逐字比对,过滤出具有相同的识别结果的字,不交给人工进行编
改,将识别不同的字交给人工进行编改校对。
[0016] 上述流控处理单元包括:切图模块、纵编模块、横编模块及质检模块,其中,切图模块,对待识别的文档图像进行段落切图,以保证双路OCR识别软件具有相同的版面分析结果。其切图顺序遵照文章段落的自然顺序,并提供倾斜校正、去噪、二值化等图像处理功能。
纵编模块,以每人每天的编改效率(例如70万字)为参考标准组织编改任务批次,将同一
批次的需要纵编的文字以字为单位重新组合进行编改。对双路识别有矛盾且重复出现两次
以上的字先交给人工进行纵向编改校对。所有需纵编的字都在段落中标红,编过的字标蓝,且图文对照。按70万字一批形成任务批次,基本保证该批次在一天内完成。正常情况下,
该过程的编改量只占全部应编改工作量的5%。纵编有效地提高了编改效率,减轻编改劳
动强度。为了提高系统整体的正确率,我们还主动加入了一些易混字和易错字,对他们全部进行纵编。如“人”、“入”、“一”、“二”、“卜”、“白”、“.”、“儿”等二十个字。横编模块,在纵编的基础上对需要编改的文字以文档的自然顺序进行图文对照编改。所有需横编的文字都在
段落中标红,已纵编的字都在段落中标绿,编过的字标蓝,且图文对照,在正常情况下,该过程的编改量小于全部应编改工作量的1%,在编改的过程中,要求编改者同时检查段落的正确。质检模块,按人按批按设定的比例进行抽检,对抽取的编改结果进行质量检查,并下质检结论。
[0017] 上述后续加工处理单元包括改错返工模块及管理与监控模块,所述改错返工模块,对其双路识别单元和流控处理模块单元中的每个工作岗位发现的错误以及质检结果为
返工的任务,流程将任务分派给出现错误的员工,错误被改正后再将任务返回给发现错误
的员。管理与监控模块,包括工资的结算、任务统计分析、任务优先级调整、暂停加工及恢复加工的功能。
[0018] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。