信息处理设备和信息处理方法转让专利

申请号 : CN201310287019.4

文献号 : CN103870800B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 田中瑛一

申请人 : 富士施乐株式会社

摘要 :

本发明公开了信息处理设备和信息处理方法。信息处理设备包括形态分析单元、特征值矢量生成单元和确定度计算单元。所述形态分析单元对字符识别结果执行形态分析。所述特征值矢量生成单元针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量。所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度。所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成。所述确定度计算单元根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。

权利要求 :

1.一种信息处理设备,包括:

形态分析单元,其对字符识别结果中的文本串执行形态分析;

特征值矢量生成单元,其针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成;和确定度计算单元,其根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。

2.根据权利要求1所述的信息处理设备,其中以以下方式来设置所述词性可能性:将包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的词性可能性设置为1,并且将其他词性可能性设置为0。

3.根据权利要求1所述的信息处理设备,其中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前N个字符的字符相似度来对所述形态分析单元将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的标准化后的字符相似度作为生成的所述特征值矢量所包括的字符相似度。

4.根据权利要求2所述的信息处理设备,其中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前N个字符的字符相似度来对所述形态分析单元将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的标准化后的字符相似度作为生成的所述特征值矢量所包括的字符相似度。

5.根据权利要求1至4中任一项所述的信息处理设备,还包括:判定单元,其通过将所述确定度与预定阈值进行比较来判定所述字符识别结果是正确还是错误。

6.根据权利要求1至4中任一项所述的信息处理设备,还包括:分配单元,其将所述确定度分配给所述字符识别结果;和

显示器,其以根据所述确定度是高还是低来强调所述字符识别结果的方式来显示由所述分配单元分配了所述确定度的所述字符识别结果。

7.根据权利要求5所述的信息处理设备,还包括:

删除单元,其从所述字符识别结果中删除由所述判定单元判定为错误的字符。

8.根据权利要求5所述的信息处理设备,还包括:

替换单元,其用其他字符来替换由所述判定单元判定为错误的字符。

9.根据权利要求5所述的信息处理设备,还包括:

搜索单元,其使用其中用通配符替换由所述判定单元判定为错误的字符的搜索关键字来执行搜索。

10.一种信息处理方法,包括:

对字符识别结果中的文本串执行形态分析;

针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析的结果的单词的词性的概率而被生成;以及根据由所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。

说明书 :

信息处理设备和信息处理方法

技术领域

[0001] 本发明涉及信息处理设备和信息处理方法。

背景技术

[0002] 在日本未审查专利申请公开第63-24381中,公开了一种在字符识别之后执行、并使用形态分析以检测并改正被误读字符的后处理方法。通过使用字符识别中所确定的距离来预先针对所有第一候选字符检测误读。使用所检测到的误读来检测在形态分析中还未检测到的被误读字符。
[0003] 在日本未审查专利申请公开第05-89281中,公开了一种方法以便能够以高误读检出率来检测误读,并简化改正误读的操作,从而实现操作所需时间的减少。在该方法中,通过执行包括对从字符识别设备获得的识别结果检测出的未登记单词的误读的改正来获得数据。通过参考字符形状类似且单汉字字符无变形的词典、包括形状彼此类似的字符的词典、低频相邻的片假名字符、和用于括号的字符形状类似的字符数据等,误读检测单元使用所获得的数据以高准确度地检测可能被误读或可能包括误读的分段。
[0004] 在日本未检查专利申请公开第09-134410中,公开了一种方法以便以高准确度地评估有多大可能识别结果字符是正确的。在该方法中,语言处理确定度计算单元使用从语言处理单元获得的信息以从语言处理确定度表检索确定度。当检索到的确定度为高时,将检索到的确定度输出为针对识别结果字符的确定度。当检索到的确定度为低时,针对处理器的确定度计算单元使用从处理器提供的参数以获得针对处理器的确定度。通过控制各确定度的权重来合并这些确定度和通过语言处理获得的确定度,并确定最终确定度。将最终确定度输出为针对识别结果字符的确定度。
[0005] 在Taku kudo、Kaoru Yamamoto和Yuji Matsumoto所写的“Applying Conditional Random Fields to Japanese Morphological Analysis”(Proc.Of EMNLP,第230-237页,2004)(以下称为非专利文献1)中,公开了基于条件随机场(CRF)的日文形态分析。
[0006] 在Hideki Shimomura、Mitaro Namiki、Masaki Nakagawa和Nobumasa Tahahashi所写的“Saisho-kosutopasu-tansaku-moderu–no–ketaisokaiseki–nimotozuku–nihonbun–ayamari–kenshutsu–no–ichi-hoshiki(基于使用最小成本路径搜索的形态分析的用于在日语句子中检测错误的方法)”(Trans.IPS Japan,第33卷,第4期,1992年4月)(以下称为非专利文献2)中,公开了成本比较方法,其中利用了当分析包括错误的句子时分析结果的成本较大的事实,并且其中通过将分析结果中各单词的成本与阈值进行比较来检测错误。
[0007] 在Masahiro Ishiba、Tetsuo Takeyaman、Tsuneo Aoki、Yasuaki Hyodo和Takashi Ikeda所写的“Hinshi-N–gram–tokeijoho–wo–mochiita–nihongo–bunsho–niokeru–ayamari–kenshutsuho-nitsuite(对日文文本中的词性使用N-gram统计数据的错误检测方法)”(IPSJ SIG Notes(Onsei Gengo Jyoho Shori),19-15,第95-100页,1997年12月12日)(以下称为非专利文献3)中,公开了一种方法以检测在日文文献中的拼写错误之中的假名到汉字的转换中的选择错误、印刷错误、缺失字母和多余字母。在该方法中,将通过正确句子的形态分析而获得的词性n-gram统计信息和启发式规则用于检测日文文献中的拼写错误。

发明内容

[0008] 本发明的目的是提供一种通过使用包括词性可能性信息和字符相似度信息两者的特征值矢量来针对字符识别结果中的各字符计算确定度的信息处理设备和方法。
[0009] 本发明的主旨构思如下。根据本发明的第一方面,提供了一种信息处理设备,该信息处理设备包括形态分析单元、特征值矢量生成单元和确定度计算单元。所述形态分析单元对字符识别结果执行形态分析。所述特征值矢量生成单元针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量。所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度。所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成。所述确定度计算单元根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。
[0010] 根据本发明的第二方面,在根据第一方面所述的信息处理设备中,以以下方式来设置所述词性可能性:将包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的词性可能性设置为1,并且将其他词性可能性设置为0。
[0011] 根据本发明的第三方面,在根据第一或第二方面的信息处理设备中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前N个字符的字符相似度来对所述形态分析单元将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的字符相似度作为所述字符相似度。
[0012] 根据本发明的第四方面,根据所述第一至第三方面中任一方面所述的信息处理设备还包括判定单元,其通过将所述确定度与预定阈值进行比较来判定所述字符识别结果是正确还是错误。
[0013] 根据本发明的第五方面,根据所述第一至第三方面中任一方面所述的信息处理设备还包括分配单元和显示器。所述分配单元将所述确定度分配给所述字符识别结果。所述显示器以根据所述确定度是高还是低来强调所述字符识别结果的方式来显示由所述分配单元分配了所述确定度的所述字符识别结果。
[0014] 根据本发明的第六方面,根据所述第四方面的信息处理设备还包括删除单元,其从所述字符识别结果中删除由所述判定单元判定为错误的字符。
[0015] 根据本发明的第七方面,根据所述第四方面的信息处理设备还包括替换单元,其用其他字符来替换由所述判定单元判定为错误的字符。
[0016] 根据本发明的第八方面,根据所述第四方面的信息处理设备还包括搜索单元,其使用其中用通配符替换由所述判定单元判定为错误的字符的搜索关键字来执行搜索。
[0017] 根据本发明的第九方面,提供了一种信息处理方法,其包括以下步骤:对字符识别结果执行形态分析的步骤;针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量的步骤,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析的结果的单词的词性的概率而被生成;以及根据由所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度的步骤。
[0018] 根据第一方面的信息处理设备能够通过使用包括词性可能性信息和字符相似度信息两者的特征值矢量来计算针对字符识别结果中的各字符的确定度。
[0019] 根据第二方面的信息处理设备能够生成如下的特征值矢量,在该特征值矢量中,将针对包括目标字符的单词的词性的词性可能性设置为1,并且将其他词性的词性可能性设置为0。
[0020] 根据第三方面的信息处理设备能够使用标准化的字符相似度来生成特征值矢量。
[0021] 根据第四方面的信息处理设备能够通过使用确定度来判定字符识别结果是正确还是错误。
[0022] 根据第五方面的信息处理设备能够根据确定度的程度来执行被强调的显示。
[0023] 根据第六方面的信息处理设备能够从字符识别结果中删除被判定为错误的字符。
[0024] 根据第七方面的信息处理设备能够用其他字符来替换被判定为错误的字符。
[0025] 根据第八方面的信息处理设备能够使用通配符来代替被判定为错误的字符来进行检索。
[0026] 根据第九方面的信息处理方法能够通过使用包括词性可能性信息和字符相似度信息两者的特征值矢量来计算针对字符识别结果中的各字符的确定度。

附图说明

[0027] 基于以下附图,将对本发明的示例实施例进行详细说明,其中:
[0028] 图1是示出了第一示例实施例的示例模块配置的示意图;
[0029] 图2是用于描述关于字符识别结果的正误/字符相似度/词性表的示例数据结构的示图;
[0030] 图3是用于描述参考词性表的示例数据结构的示图;
[0031] 图4是用于描述特征值矢量的示例数据结构的示图;
[0032] 图5是用于描述特征值矢量的示例数据结构的示图;
[0033] 图6是用于描述特征值矢量的示例数据结构的示图;
[0034] 图7是根据第一示例实施例的示例处理的流程图;
[0035] 图8是根据第一示例实施例的示例处理的流程图;
[0036] 图9是示出了第二示例实施例的示例模块配置的示意图;
[0037] 图10是示出了第三示例实施例的示例模块配置的示意图;以及
[0038] 图11是示出了用于实现各示例实施例的计算机的示例硬件配置的框图。

具体实施方式

[0039] 在对本示例实施例进行说明之前,将对实现各示例实施例所基于的技术进行说明。为了便于理解各示例实施例而将做出这些说明。
[0040] 该技术属于这样的技术领域,其中针对字符识别结果来计算确定度,或者其中对字符识别结果执行正误判定。特别地,该技术是使用字符相似度和词性的一种技术。
[0041] 字符识别是将输入为图像或笔画的字形转换为文本编码的处理。
[0042] 确定度表示作为字符识别结果的文本代码有多大可能是正确的。
[0043] 以这样的方式操作一些字符识别系统,其中用户检查并接着因为已从字符识别处理输出不正确结果而修改字符识别结果。在这种操作中,通过给输出结果分配确定度将有望提高检查和修改结果的任务的效率。例如,以根据确定度是高还是低来进行强调的方式来显示字符的前景或背景,从而实现上述在效率上的提高的效果。另外,删除或者用不同的本文来替换具有低确定度的分段,从而有望给用户提供更好的字符识别结果。
[0044] 在针对字符识别结果的确定度计算中或在字符识别结果的正误判定中,通常使用以下特征值:
[0045] (1)单字符的特征值
[0046] 字符相似度
[0047] 字符n-gram
[0048] 字符类别
[0049] 字符准确率表
[0050] (2)单词的特征值
[0051] 单词n-gram
[0052] 单词长度
[0053] 未知单词
[0054] 词性
[0055] 相关领域的许多技术使用“(1)单字符的特征值”和“(2)单词的特征值”中的特征值或这些特征值的组合以实现确定度的计算或正误判定。下面将对各特征值进行简要地说明。
[0056] 将对“(1)单字符的特征值”中的特征值进行说明。字符相似度表示待识别字形和针对字符识别结果中的文本编码的代表性字形(例如,识别字典中的字形;然而,此代表性字形取决于使用什么字符识别方法)之间的相似度,或者表示单字符的识别(其中将待识别字形视为单字符的字符识别)中的确定度。字符n-gram表示数目为n而且相继出现的文本编码的出现概率。字符类别表示关于文本代码的大的类别系统,其中将文本代码分类成,例如,汉字字符、平假名字符、片假名字符、字母字符、或数字字符。字符准确率表表示这样的表,其中预先总结针对从目标字符识别系统输出的文本代码的准确率。还将判定特定文本编码为不正确的(即,列入黑名单)的情况分类为这类特征值。
[0057] 将对“(2)单词的特征值”中的特征值进行说明。单词n-gram表示数目为n而且相继出现的单词的出现概率。单词长度表示单词中的字符的数目。未知单词表示还未在词典中登记的单词。词性表示在形态分析结果中附属于单词并基于单词的语法功能的分类,比如,名词或动词。形态分析是其中基于语法将文本编码序列划分为单词的处理。已知技术的一个示例是非专利文献1中所述的技术。
[0058] 该示例实施例特别地属于通过使用字符相似度和词性针对字符识别结果来计算确定度的技术。
[0059] 例如,在日本未审查专利申请公开第63-24381中所述的方法使用字符相似度和未知单词。具体地,将具有低字符相似度的分段或被判定为未知单词的分段视为具有低确定度。
[0060] 在非专利文献2中,对使用词性成本的方法进行了说明。具体地,将其中形态分析中所参考的各个词性的成本(即,在语法方面的错误度)为高的分段视为具有低确定度。
[0061] 在非专利文献3中,对使用词性4-gram的方法进行了说明。具体地,基于概括自正确的文献数据库的词性4-gram信息,对字符识别结果中的词性序列进行评估。将具有由评估获得的低值的分段视为具有低确定度。另外,将一个字符的名词(即,这与单词长度和词性的使用相对应)的分段或未知单词视为具有低确定度。
[0062] 在日本未审查专利申请公开第05-89281中所述的方法使用未知单词和词性。具体地,将尽管是未知单词但仍可能是专有名词的分段视为具有低确定度。另外,通过组合与例如单汉字字符无变形词、与很难被误读的字符的字符形状的相似度、单片假名字符、以及连续的标点符号或误用的括号相关的各项信息来限定用于正误判定的复杂的规则。
[0063] 在日本未审查专利申请公开第09-134410中所述的方法使用单词长度、词性、单词{1,2}-gram和字符相似度。具体地,由单词的特征值计算确定度。当确定度等于或小于预定阈值时,通过使用字符相似度进一步地修改确定度。
[0064] 相关领域的文献中所述的方法不同时使用字符相似度和词性。因此,妨碍了计算出正确的确定度。以下将以图2作为示例来进行说明。
[0065] 假设针对“输入”图案(输入栏210)的识别结果被获取为如“输出”数据中所示(输出栏220)。在“正误”数据(正误栏240)中示出识别结果是正确还是错误,其中,日文字符“生”(输出ID 12)和日文字符“は”(输出ID=13)错误,而其他字符正确。当断定针对字符的确定度越高,该字符正确的概率也越高时,输出最小值作为错误识别中的计算结果,并输出最大值作为正确识别中的计算结果是可取的。输出ID(输出ID栏230)是识别结果的文本串的索引。词性ID(词性ID栏270)是形态分析系统中所登记的词性的索引。
[0066] 很难仅由字符相似度(相似度栏250)计算出正确的确定度。例如,在图2中,作为正确字符的日文字符“す”(输出ID=3)具有字符相似度1.00,而作为错误字符的日文字符“生”(输出ID=12)具有字符相似度0.13。相反,作为正确字符的日文字符“努”(输出ID=1)具有字符相似度0.30,而作为错误字符的日文字符“は”(输出ID=13)具有字符相似度0.60。因此,在输入图案和字符识别系统的一些组合中,字符相似度和确定度并非彼此相关。相应地,在其中将具有低字符相似度的分段视为具有低确定度的日本未审查专利申请公开第63-24381中所述的方法中,并不是总能计算出正确的确定度。
[0067] 类似地,很难仅由词性(词性栏260)计算出确定度。例如,口语体的文档中可能没使用正确的语法规则,并且词性序列可能错误。相反,不顾字符识别中出现的错误,而可能遵循了语法规则,并且词性序列可能正确。因此,如非专利文献2或非专利文献3中所述的基于与语法规则背离的方法不是总能计算出正确的确定度。另外,特定词性并非总是具有低确定度。因此,如日本未审查专利申请公开第05-89281中所述的基于特定词性的方法并不是总能计算出正确的确定度。
[0068] 字符识别系统和形态分析系统具有各自特定的倾向。另外,系统的行为很大程度上取决于目标输入图案(图像或笔画、或文档中的语言图案)。因此,为了实现确定度的高准确的计算,需要针对各个组合进行优化的设计。在日本未审查专利申请公开第05-89281中所述的方法从大量的特征建立了复杂的规则。相应地,上述优化需要大量的努力。
[0069] 如上所述,仅基于字符相似度或仅基于词性的方法并不是总能计算出正确的确定度。因此,在日本未审查专利申请公开第09-134410中所述的方法使用了字符相似度和词性。
[0070] 然而,首先仅由单词的特征值计算确定度。因此,在此阶段可能错误地计算出高确定度。即,在日本未审查专利申请公开第09-134410中所述的方法没有通过同时使用字符相似度和词性来计算确定度,从而存在不是总能计算出正确的确定度的不足。另外,为了计算确定度,预先生成用于通过将词性、单词长度和单词{1,2}-gram这些要素的组合用作搜索关键字来计算确定度的语言处理确定度表。当使用大量的要素以取得高准确率时,用于搜索关键字的组合的数目较大,从而导致该表的尺寸较大。
[0071] 以下将基于附图对实现本发明的各种示例实施例进行说明。
[0072] 图1是示出了第一示例实施例的示例模块配置的示意图。
[0073] 通常,模块指诸如逻辑上可分离的软件(计算机程序)或硬件之类的组件。因此,示例实施例中的模块不仅指就计算机程序而言的模块,还指就硬件配置而言的模块。因此,针对示例实施例的说明作为系统、方法和使硬件配置用作模块的计算机程序(使计算机执行步骤的程序、使计算机用作单元的程序或使计算机实施功能的程序)的说明。为了便于解释,使用术语“存储某物”和“使某物存储某物”和其他等同术语。当在示例实施例中使用计算机程序时,这些术语意味着存储设备存储某物或者控制存储设备以存储某物。一个模块可以对应一个功能。然而,在实施中,一个模块可以构成一个程序,或者多个模块可以构成一个程序。备选地,多个程序可以构成一个模块。另外,可以由一台计算机执行多个模块,或者可以由分布式或并行处理环境中的多台计算机执行一个模块。一个模块可以包括另一个模块。以下,术语“连接”指诸如数据、指令的传送/接收或各个数据之间的引用关系之类的逻辑连接,和物理连接。术语“预定”指其中在目标处理前已做出判定的状态。该术语还包括这样的意思,其中不仅在根据示例实施例的处理开始之前,而且还在目标处理即使在根据示例实施例的处理已开始之后开始之前,根据当时或当时之前的情况或状态已经做出判定。当出现多个“预定值”时,这些预定值可以彼此不同,或者这些值中的两个或更多个(当然包括所有值)可以相同。具有“当满足A时,执行B”的意思的描述用作这样的意思,其中判定是否满足A,并且当判定满足A时,执行B。然而,该表述不包括这样的情况,其中是否满足A的判定是不需要的。
[0074] 系统或设备指这样的系统或设备,其中多台计算机、硬件项、装置等通过使用诸如包括一一对应的通信连接的网络之类的通信单元互联,还指通过使用计算机、硬件、装置等实施的系统或设备。术语“系统”和术语“设备”用作彼此等同的术语。自然地,术语“系统”不包括仅仅是由人为协议构成的社会“机制”(社会系统)。
[0075] 在与模块对应的各处理中,或者在模块中包括的各处理中,从存储设备读出目标信息。在执行处理之后,将处理结果写入存储设备中。因此,可以没有关于在处理之前从存储设备中的读出和在处理之后到存储设备中的写入的说明。存储设备的示例可包括硬盘、随机存取存储器(RAM)、外部存储介质、经由通信线路的存储设备和中央处理单元(CPU)内的寄存器。
[0076] 根据第一示例实施例的信息处理设备针对字符识别结果中的各字符计算确定度,并如图1中的示例所示,包括字符识别模块110、形态分析模块120、参考词性表存储模块130、特征值矢量生成模块140、确定度计算参数存储模块150和确定度计算模块160。具体地,信息处理设备同时使用字符相似度和词性以计算确定度。术语“同时使用某物”意味着同等处理字符相似度和词性,而不包括分开评估(比如,在两个阶段中评估)字符相似度和词性的情况。
[0077] 将字符识别模块110连接至形态分析模块120和特征值矢量生成模块140。字符识别模块110对已输入的字形执行字符识别。字符识别模块110可以使用已知的字符识别技术。字符识别模块110针对各待识别字符计算字符相似度。接着字符识别模块110输出文本串和针对各字符的字符相似度作为字符识别结果115。例如,字符识别结果115的数据结构是由图2中的示例所示的针对字符识别结果的正误/字符相似度/词性表200中的输出栏220、输出ID栏230和相似度栏250构成的表。这一阶段的字符识别可以是脱机字符识别以对图像执行识别,或者可以是联机字符识别以对笔画执行识别。
[0078] 将形态分析模块120连接至字符识别模块110和特征值矢量生成模块140。形态分析模块120对从字符识别模块110输出的字符识别结果115中的文本串执行形态分析。例如,形态分析的结果(即,单词数据125)是由图2中的示例所示的针对字符识别结果的正误/字符相似度/词性表200中的输出栏220、输出ID栏230、词性栏260和词性ID栏270构成的表。
[0079] 将参考词性表存储模块130连接至特征值矢量生成模块140。参考词性表存储模块130存储参考词性表。参考词性表是表示词性的索引(即,词性ID)与为了生成特征值矢量所参考的特征值矢量中的索引(以下称为特征值ID)之间的对应关系的表。图3是用于描述参考词性表300的示例数据结构的示图。参考词性表300包括相互对应的特征值ID行310和词性ID行320。形态分析模块120可以输出Pmax(≥P)种词性。将1至P中的任一数字设置为特征值ID。
[0080] 将特征值矢量生成模块140连接至字符识别模块110、形态分析模块120、参考词性表存储模块130和确定度计算模块160。特征值矢量生成模块140从一个字符相似度和数目为P的词性可能性生成具有长度P+1的特征值矢量。数字P是预定整数(将在形态分析模块120中使用的词性的数目)。即,针对字符识别结果115中的各字符,特征值矢量生成模块140生成特征值矢量145,该特征矢量145具有数目为P+1的元素,并由以下元素构成:与P种词性相对应并且从单词数据125中的单词的词性的概率产生的词性可能性,其中单词数据125包括目标字符并且是形态分析模块120所执行的形态分析的结果;和针对目标字符的字符相似度。此时,特征值矢量生成模块140参考存储在参考词性表存储模块130中的参考词性表
300。
[0081] 下面将基于参考词性表300对如何针对目标字符生成特征值矢量进行说明。首先,将特征值矢量的所有元素初始化为零。接着,通过使用包括目标字符的单词的词性的词性ID作为关键字从参考词性表300中检索特征值ID。在特征值矢量中由检索出的特征值大ID表示的位置处写入词性可能性。词性可能性表示类似于非专利文献2中所使用的词性的成本或概率。将字符相似度写入为第(P+1)个特征值。图4示出了针对图2中的日文字符“ha”(字符ID=6)生成的特征值矢量的示例。特征值矢量400包括相互对应的ID行410和特征值行420。特征值矢量400具有数目为P+1的元素,并且其中P个元素描述词性可能性,一个元素描述字符相似度。
[0082] 如图5中的示例所示,可以量化词性可能性。特征值矢量500具有与特征值矢量400相同的数据结构。在特征值矢量500中,将包括目标字符并且是形态分析模块120所执行的形态分析的结果的单词的词性的词性可能性设置为1,并且将其他词性的词性可能性设置为0。具体地,针对特征值ID为2的特征值ID,将词性可能性(特征值)设置为1,并且针对特征值ID为除2以外的1至P的特征值ID(当然,不包括第(P+1)个元素),将各元素的词性可能性(特征值)设置为0。
[0083] 如图6中的示例所示,作为字符特征值,多个词性可能性中的每一个都可以具有等于或者大于零的值。特征值矢量600具有与特征值矢量400相同的数据结构。当包括目标字符的单词具有针对各词性的多个词性可能性时,或者当形态分析模块120所执行的形态分析输出多个结果,并且目标字符属于多个单词时,生成类似于特征值矢量600的特征值矢量。
[0084] 使用特征值矢量400、500和600中的任一作为特征值矢量生成模块140所输出的特征值矢量145的数据结构。
[0085] 字符相似度可以是通过使用除字符识别模块110所输出的字符之外的备选字符的字符相似度来标准化的值。备选地,可以使用标准化之前的值和标准化之后的值两者。例如,对于在针对单个字符的字符识别结果中具有较高的字符相似度的前N个字符的各字符相似度,特征值矢量生成模块140可以使用由通过使用前N个字符的字符相似度来对形态分析模块120将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的字符相似度作为字符相似度。更具体地,通过使用表达式3或4来执行标准化。这里,Ci是将要通过使用包括Ci的N个字符相似度来进行标准化的标准化目标的字符相似度。符号N代表等于或者大于2的预定整数。
[0086]   表达式3
[0087]   表达式4
[0088] 可以将“(1)单字符的特征值”或“(2)单词的特征值”中描述的其他特征值加入到特征值矢量中。
[0089] 将确定度计算模块160连接至特征值矢量生成模块140和确定度计算参数存储模块150。确定度计算模块160针对字符识别结果115中的各字符,根据特征值矢量生成模块140所生成的特征值矢量145来计算确定度165。例如,确定度计算模块160通过使用机器学习来计算确定度165。可以使用通过机器学习而存储在确定度计算参数存储模块150中的确定度计算参数。
[0090] 将确定度计算参数存储模块150连接至确定度计算模块160。确定度计算参数存储模块150存储确定度计算模块160所执行的机器学习中所使用的确定度计算参数。
[0091] 具体地,确定度计算模块160通过使用表达式1来计算确定度。在表达式1中,x代表具有长度P+1的特征值矢量,并且Xp代表第p个元素。另外,w(1)代表(P+1)行和H列的矩阵,并(1) (2) (2)且w ph代表第p行第h列的元素。符号w 代表具有长度H的矢量,并且w h代表第h个元素。
符号b(1)代表具有长度H的矢量,并且b(1)h代表第h个元素。符号b(2)代表数值。在表达式1中,H、w(1)、w(2)、b(1)和b(2)是待优化的确定度计算参数。符号σ代表逻辑函数。
[0092] 另外,例如,可以通过使用表达式2计算确定度。符号V代表针对代表性特征值矢量Xv∈V的索引集。符号a代表具有长度#{V}的矢量,并且av代表第v个元素。符号t代表具有长度#{V}的矢量,tv代表第v个元素并且表示xv是正确还是错误。例如,当tv表示xv正确时,tv等于1。当tv表示xv错误时,tv等于-1。符号K代表计算各矢量之间的距离的函数。在表达式2中,V和a是待优化的确定度计算参数。
[0093]   表达式1
[0094]   表达式2
[0095] 如上所述,通过生成特征值矢量,在确定度的计算中同时使用了字符相似度和词性。通过使用机器学习的方法来对与输入图案的倾向、字符识别模块110和形态分析模块120相结合的确定度计算参数设计进行优化。另外,防止了如日本未审查专利申请公开第
09-134410中所述方法中的那样优化参数的数目增加的情况。
[0096] 图7是根据第一示例实施例(特征值矢量生成模块140)的示例处理的流程图。根据该流程图的处理导致针对目标字符生成图4中的示例所示的特征值矢量400。
[0097] 矢量x是具有长度P+1(元素的数目)的特征值矢量,并且xp代表第p个元素。
[0098] 符号c代表针对目标字符的字符相似度。
[0099] 符号w代表形态分析结果,该形态分析结果是包括目标字符的单词。
[0100] 符号POS_ID是返回词性w的词性ID的函数。
[0101] 符号FEATURE_ID是基于参考词性表300返回与词性ID相对应的特征值ID的函数。
[0102] 符号f是返回针对词性w的词性可能性的函数。
[0103] 如上所示,f可以是返回1的函数。此时,生成图5中的示例所示的特征值矢量500。
[0104] 在步骤S702中,将1分配给p。
[0105] 在步骤S704中,将0分配给xp。
[0106] 在步骤S706中,判定是否p
[0107] 在步骤S708中,p加1。接着,处理返回至步骤S704。
[0108] 在步骤S710中,根据表达式5将从f(w)获得的值分配给xFEATURE_ID(POS_ID(w))。
[0109] xFEATURE_ID(POS_ID(w))←f(w)  表达式5
[0110] 在步骤S712中,将c分配给xp+1。
[0111] 图8是根据第一示例实施例(特征值矢量生成模块140)的示例处理的流程图。这是生成具有等于或大于零的多个词性可能性的特征值矢量的处理。根据该流程图的处理导致针对目标字符生成图6中的示例所示的特征值矢量600。
[0112] 符号W代表目标字符所属并且具有数目为#{W}的元素的一组单词。为简单起见,当一个单词具有多个词性可能性时,将各词性可能性视为属于不同的单词。符号wm代表W的元素。
[0113] 在步骤S802中,将1分配给p。
[0114] 在步骤S804中,将0分配给xp。
[0115] 在步骤S806中,判定是否p
[0116] 在步骤S808中,p加1。接着,处理返回至步骤S804。
[0117] 在步骤S810中,将1分配给m。
[0118] 在步骤S812中,根据表达式6将由xFEATURE_ID(POS_ID(wm)+f(wm)获得的值分配给xFEATURE_ID(POS_ID(wm))。
[0119] xFEATURE_ID(POS_ID(wm))←xFEATURE_ID(POS_ID(wm))+f(wm)  表达式6
[0120] 在步骤S814中,判定是否m≤#{W}。如果m≤#{W},则处理进行至步骤S816。否则,处理进行至步骤S818。
[0121] 在步骤S816中,m加1。接着处理返回至步骤S812。
[0122] 在步骤S818中,将c分配给xp+1。
[0123] 图9是示出了第二示例实施例的示例模块配置的示意图。与第一示例实施例中相同类型的组件用相同的参考编号标示,并且将不再进行说明(对于其他示例实施例也是这样)。在第二示例实施例中,执行正误判定。如图9中的示例所示,信息处理设备包括字符识别模块110、形态分析模块120、参考词性表存储模块130、特征值矢量生成模块140、确定度计算参数存储模块150、确定度计算模块160、阈值存储模块970和阈值处理模块980。
[0124] 将字符识别模块110连接至形态分析模块120和特征值矢量生成模块140。
[0125] 将形态分析模块120连接至字符识别模块110和特征值矢量生成模块140。
[0126] 将参考词性表存储模块130连接至特征值矢量生成模块140。
[0127] 将特征值矢量生成模块140连接至字符识别模块110、形态分析模块120、参考词性表存储模块130和确定度计算模块160。
[0128] 将确定度计算参数存储模块150连接至确定度计算模块160。
[0129] 将确定度计算模块160连接至特征值矢量生成模块140、确定度计算参数存储模块150和阈值处理模块980。
[0130] 将阈值存储模块970连接至阈值处理模块980。阈值存储模块970存储阈值处理模块980所使用的阈值。
[0131] 将阈值处理模块980连接至确定度计算模块160和阈值存储模块970。阈值处理模块980通过将确定度165与存储在阈值存储模块970中的阈值进行比较来判定针对字符识别结果的正/误数据985。此时,当确定度具有较高值时,将确定度视为正确结果。因此,输出具有大于(或大于等于)阈值的值的确定度作为正确结果,以及输出小于等于(或小于)阈值的确定度作为错误结果。
[0132] 在阈值处理模块980执行的处理之后,可以执行下述的下列处理。
[0133] (A)可以从将要根据第二实施例输出为结果的字符识别结果中删除由阈值处理模块980判定为错误的字符(字符识别结果)。
[0134] (B)可以用其他字符替换由阈值处理模块980判定为错误的字符。其他字符是表示字符识别的结果错误的那些字符,例如,为黑色方块字符。
[0135] (C)信息处理设备还可以包括搜索字符识别结果115的搜索模块。可以使用这样的搜索关键字来执行搜索,其中将通配符设置至由阈值处理模块980判定为错误的字符出现的位置。即,以被判定为错误的字符被视为任意字符串(具有等于或大于零的长度的字符串)来执行搜索。
[0136] 图10是示出了第三示例实施例的示例模块配置的示意图。
[0137] 在第三示例实施例中,根据确定度切换结果的显示。如图10所示,信息处理设备包括字符识别模块110、形态分析模块120、参考词性表存储模块130、特征值矢量生成模块140、确定度计算参数存储模块150、确定度计算模块160、确定度分配模块1070和显示模块
1080。
[0138] 将字符识别模块110连接至形态分析模块120、特征值矢量生成模块140和确定度分配模块1070。
[0139] 将形态分析模块120连接至字符识别模块110和特征值矢量生成模块140。
[0140] 将参考词性表存储模块130连接至特征值矢量生成模块140。
[0141] 将特征值矢量生成模块140连接至字符识别模块110、形态分析模块120、参考词性表存储模块130和确定度计算模块160。
[0142] 将确定度计算参数存储模块150连接至确定度计算模块160。
[0143] 将确定度计算模块160连接至特征值矢量生成模块140、确定度计算参数存储模块150和确定度分配模块1070。
[0144] 将确定度分配模块1070连接至字符识别模块110、确定度计算模块160和显示模块1080。确定度分配模块1070将确定度165分配给字符识别结果115中各被识别字符。
[0145] 将显示模块1080连接至确定度分配模块1070。显示模块1080以这样的方式在诸如液晶显示器之类的显示设备上显示由确定度分配模块1070分配的具有确定度的字符识别结果1075,使得根据确定度是高还是低来强调字符识别结果1075。例如,y代表针对根据该示例实施例的目标字符的确定度。在RGB显示系统中,将目标字符的字符颜色和背景颜色分别设置为(0,0,0)和(255,255*(1-g(y)),255*(1-g(y)))。函数g的输出范围为[0,1]。
[0146] 参考图11,将对根据各示例实施例的信息处理设备的示例硬件配置进行说明。图11所示的配置由例如,个人电脑(PC)构成,并且包括诸如扫描仪之类的数据读出单元1117和诸如打印机之类的数据输出单元1118。
[0147] CPU 1101是根据上述各示例实施例中所述的各种模块即字符识别模块110、形态分析模块120、特征值矢量生成模块140、确定度计算模块160、阈值处理模块980、确定度分配模块1070和显示模块1080中描述执行顺序的计算机程序来执行处理的控制器。
[0148] 只读存储器(ROM)1102存储例如CPU 1101所使用的程序和计算参数。RAM 1103,存储例如CPU 1101执行的运行中所使用的程序和在运行中适当改变的参数。经由例如由CPU总线构成的主机总线1104来互相连接这些组件。
[0149] 经由桥接器1105将主机总线1104连接至诸如周边元件互联/接口(PCI)总线之类的外部总线1106。
[0150] 键盘1108和诸如鼠标之类的指示装置1109是输入装置,操作者使用输入装置进行操作。显示器1110是,例如液晶显示装置或阴极射线管(CRT),并将各类信息显示为文本信息或图像信息。
[0151] 硬盘驱动器(HDD)1111中包括硬盘,并驱动硬盘记录或再现由CPU 1101执行的程序和信息。在硬盘中存储例如字符识别结果115、单词数据125、特征值矢量145、确定度165、针对字符识别结果的正误/字符相似度/词性表200、参考词性表300、特征值矢量400、正/误数据985和具有确定度的字符识别结果1075。此外,还存储诸如各种其他数据处理程序之类的各种计算机程序。
[0152] 驱动器1112读出其中安装的诸如磁盘、光盘、磁光盘或半导体存储器之类的可移动记录介质1113中存储的数据或程序,并经由接口1107、外部总线1106、桥接器1105和主机总线1104将数据或程序提供给RAM1103。与硬盘相似,可移动记录介质1113也可用作数据记录区。
[0153] 连接端口1114是用于连接外部连接设备1115的端口,并具有支持例如通用串行总线(USB)或IEEE1394的连接部分。经由接口1107、外部总线1106、桥接器1105、主机总线1104等将连接端口1114连接至例如,CPU 1101。将通信单元1116连接至通信线路,并执行与外部的数据通信。数据读出单元1117是例如扫描仪,并读出文档。数据输出单元1118是例如打印机,并输出文档数据。
[0154] 图11所示的信息处理设备的硬件配置是一个示例配置。根据各示例实施例的硬件配置不限于图11所示的硬件配置,而且可以是任意配置,只要该配置能使各示例实施例中所述的各模块被执行即可。例如,可以通过使用诸如特定用途集成电路(ASIC)之类的专用硬件来实现一些模块;一些模块可以存在于经由通信线路连接的外部系统中;或者可以经由通信线路使多个如图11所示的系统彼此互连以互相协作。另外,可以将各模块并入例如复印机、传真机、扫描仪、打印机、多功能装置(具有扫描仪、打印机、复印机、传真机等中的任何两项或更多项功能的图像处理设备)。
[0155] 上述程序可以通过存储程序的记录介质来提供,或者可以通过通信单元来提供。在这些情况下,例如,上述程序可以解释为“存储程序的计算机可读记录介质”的发明。
[0156] 术语“存储程序的计算机可读记录介质”指这样的计算机可读记录介质,其存储程序,并用于例如程序的安装和执行以及程序的分发。
[0157] 记录介质的示例包括:具有作为DVD论坛制定的标准的“DVD-可记录(DVD-R)、DVD-可重写(DVD-RW)或DVD-随机存取存储器(DVD-RAM)等”的格式,或者具有作为DVD+RW联盟制定的标准的“DVD+可记录(DVD+R)、DVD+可重写(DVD+RW)等”的格式的数字多功能盘(DVD);具有CD只读存储器(CD-ROM)、可记录CD(CD-R)、可重写CD(CD-RW)等的格式的紧凑盘(CD);
;磁光盘(MO);软盘(FD);磁带;硬盘;ROM;电可擦除可编程只读存储器
;闪存;RAM和安全数字(SD)存储卡。
[0158] 上述程序或上述程序中的一部分可以通过将其记录于记录介质上来保存或分发。另外,可通过通信,例如,通过使用例如,用于局域网(LAN)、城域网(MAN)、广域网(WAN)、因特网、内联网、外联网等的有线网络、无线通信网络或者其组合的传输介质来传输程序。可替换地,可在载波上传递程序。
[0159] 上述程序可以包括于其他程序中,或者可以与其他程序一起记录于记录介质上。可替换地,可以通过分割程序将程序记录在多个记录介质上。可以以诸如压缩或加密之类的任何格式记录程序,只要可以复原程序即可。
[0160] 已经出于例示和说明的目的提供了对本发明的各示例实施例的前述说明。该描述并非穷举的或者将本发明限制为所公开的精确形式。显然,许多修改和变型对于本领域技术人员来说是显而易见的。这些实施例的选择和描述是为了对本发明的原理及其实际应用进行最佳的阐述,以使得本领域的其他技术人员能够理解本发明的各种实施例以及适用于具体应用场合的各种变型。本发明的范围应当由所附权利要求及其等价物限定。