文字识别、编改的系统转让专利
申请号 : CN201010253559.7
文献号 : CN101908147B
文献日 : 2012-08-15
发明人 : 瞿洋 , 袁仁慧 , 梁洵 , 张振海
申请人 : 同方知网(北京)技术有限公司
摘要 :
权利要求 :
1.文字识别、编改的系统,其特征在于,所述系统包括:
双路识别单元,调用汉王OCR识别软件和文通OCR识别软件并采用外挂的方式对文档中的文字进行识别;所述外挂识别就是不改变原来的OCR识别软件,编写新程序模拟人工操作OCR识别软件的过程,以便完成图像识别工作;
流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;所述流控处理单元包括:包括切图模块、纵编模块、横编模块及质检模块,所述切图模块,用于对待识别的文档图像进行段落切图,该段落切图是保证双路OCR识别软件具有相同的版面分析结果;纵编模块,将同一批次的需要纵编的文字以字为单位重新组合进行编改,该编改是用以对双路识别有矛盾且重复出现两次以上的字先交给人工进行纵向编改校对;横编模块,对需要编改的文字以文档的自然顺序进行图文对照编改,横向编改是在纵编的基础上对需要编改的文字以文档的自然顺序进行图文对照编改;
后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。
2.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述双路识别单元包括识别机器人及机器人智能监控程序,所述识别机器人,采用汉王OCR识别软件和文通OCR识别软件通过外挂的方式对待识别的文档图像进行识别;
机器人智能监控程序,监控识别机器人的运行状态。
3.根据权利要求1所述的文字识别、编改的系统,其特征在于,所述后续加工处理单元包括改错返工模块及管理与监控模块,所述改错返工模块,对其双路识别单元和流控处理模块单元中发现的错误进行改正并返回给发现错误的执行者;
管理与监控模块,包括系统人工岗位员工的工资结算、在线任务加工情况的统计分析、在线任务优先级调整、加工任务的临时暂停和恢复加工功能。
4.根据权利要求1~3任一项所述的文字识别、编改的系统,其特征在于,所述系统的识别还包括对英文及其他字符的识别。
说明书 :
文字识别、编改的系统
技术领域
背景技术
发明内容
附图说明
具体实施方式
拟人工操作OCR识别软件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独
立运行的软件。外挂程序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进
行图像识别。
改,将识别不同的字交给人工进行编改校对。
纵编模块,以每人每天的编改效率(例如70万字)为参考标准组织编改任务批次,将同一
批次的需要纵编的文字以字为单位重新组合进行编改。对双路识别有矛盾且重复出现两次
以上的字先交给人工进行纵向编改校对。所有需纵编的字都在段落中标红,编过的字标蓝,且图文对照。按70万字一批形成任务批次,基本保证该批次在一天内完成。正常情况下,
该过程的编改量只占全部应编改工作量的5%。纵编有效地提高了编改效率,减轻编改劳
动强度。为了提高系统整体的正确率,我们还主动加入了一些易混字和易错字,对他们全部进行纵编。如“人”、“入”、“一”、“二”、“卜”、“白”、“.”、“儿”等二十个字。横编模块,在纵编的基础上对需要编改的文字以文档的自然顺序进行图文对照编改。所有需横编的文字都在
段落中标红,已纵编的字都在段落中标绿,编过的字标蓝,且图文对照,在正常情况下,该过程的编改量小于全部应编改工作量的1%,在编改的过程中,要求编改者同时检查段落的正确。质检模块,按人按批按设定的比例进行抽检,对抽取的编改结果进行质量检查,并下质检结论。
返工的任务,流程将任务分派给出现错误的员工,错误被改正后再将任务返回给发现错误
的员。管理与监控模块,包括工资的结算、任务统计分析、任务优先级调整、暂停加工及恢复加工的功能。