统计学在线字符识别转让专利

申请号 : CN201010256637.9

文献号 : CN101968847B

文献日 : 2014-04-16

一种用于生成模式以及基于那些模式执行在线手写识别的统计学系统和方法。通过使用Gabor滤波对一个或多个字符样本执行特征提取操作，生成多个预定模式。获取在线手写字符。预处理该在线手写字符。可以使用Gabor滤波对在线手写字符执行一个或多个特征提取操作以产生特征向量。基于该特征向量，使用统计学算法为该在线手写字符生成一个或多个模式。基于为该在线手写字符生成的一个或多个模式和该多个预定模式之间的比较，可以统计地分类该在线手写字符。

1.一种产生用于在线字符识别的模式的方法，该方法包括：对字符样本执行一个或多个预处理操作；

对该字符样本执行一个或多个特征提取操作，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波，其中所述一个或多个特征提取操作包括：确定每个字符样本点的方向；

基于每个字符样本点的方向提取方向特征；

基于所述方向特征生成方向模式图像；

使用Gabor滤波对所述方向模式图像进行滤波；以及基于滤波后的方向模式图像形成所述特征向量；

基于所述字符样本的特征向量执行统计学训练以生成模式；

在存储器中存储所述模式，其中所述模式被配置成用于识别手写字符。

2.如权利要求1所述的方法，其中所述一个或多个预处理操作包括加入虚构笔划和加入虚构点。

3.如权利要求1所述的方法，其中所述一个或多个预处理操作包括以下中的三个或更多个：噪声点去除，线性尺寸规范化，非线性形态规范化，加入虚构笔划，和加入虚构点。

4.如权利要求1所述的方法，其中所述一个或多个预处理操作包括噪声点去除，线性尺寸规范化，非线性形态规范化，加入虚构笔划，加入虚构点，重新采样，和平滑。

5.如权利要求1所述的方法，其中所述统计学训练包括k-means聚类算法。

6.如权利要求1所述的方法，其中所述统计学训练包括聚类算法。

7.如权利要求6所述的方法，其中所述特征向量包括多个方向向量，其中所述方向向量中的至少两个被不同地加权。

8.一种产生用于在线字符识别的模式的系统，该系统包括：用于对字符样本执行一个或多个预处理操作的装置；

用于对该字符样本执行一个或多个特征提取操作的装置，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波，其中所述一个或多个特征提取操作包括：确定每个字符样本点的方向；

基于每个字符样本点的方向提取方向特征；

基于所述方向特征生成方向模式图像；

使用Gabor滤波对所述方向模式图像进行滤波；以及基于滤波后的方向模式图像形成所述特征向量；

用于基于所述字符样本的特征向量执行统计学训练以生成模式的装置；

用于在存储器中存储所述模式的装置，其中所述模式被配置成用于识别手写字符。

9.如权利要求8所述的系统，其中所述用于执行一个或多个预处理操作的装置包括用于加入虚构笔划的装置和用于加入虚构点的装置。

10.如权利要求8所述的系统，其中所述用于执行一个或多个预处理操作的装置包括以下中的三个或更多个：用于执行噪声点去除的装置，用于执行线性尺寸规范化的装置，用于执行非线性形态规范化的装置，用于加入虚构笔划的装置，和用于加入虚构点的装置。

11.一种使用预定模式识别手写字符的方法，包括：生成多个预定模式，其中通过使用Gabor滤波对字符样本执行一个或多个特征提取操作来生成所述多个预定模式，其中在存储器中存储所述多个预定模式，并且，其中所述一个或多个特征提取操作包括：确定每个字符样本点的方向；

基于每个字符样本点的方向提取方向特征；

基于所述方向特征生成方向模式图像；

使用Gabor滤波对所述方向模式图像进行滤波；以及基于滤波后的方向模式图像形成所述特征向量；

获取在线手写字符；

预处理该在线手写字符；

提取该在线手写字符的特征，从而确定特征向量；

使用统计学算法，基于该特征向量为该在线手写字符生成一个或多个模式；

分类该在线手写字符，包括基于所生成的一个或多个模式和所述多个预定模式确定对应于该在线手写字符的字符。

12.如权利要求11所述的方法，其中所述多个预定模式是基于统计学字符识别方法而生成的。

13.如权利要求11所述的方法，其中所述生成该多个预定模式包括：对字符样本执行一个或多个预处理操作；

对该字符样本执行一个或多个特征提取操作，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波；

基于该字符样本的特征向量执行统计学训练以生成模式；

在存储器中存储所述多个预定模式，其中所述多个预定模式被配置成用于识别手写字符。

14.如权利要求11所述的方法，其中所述获取在线手写字符包括接收从在笔输入装置中输入的至少一个输入笔划收集的输入数据。

15.如权利要求11所述的方法，其中所述在线手写字符包括一个或多个笔划。

16.如权利要求11所述的方法，其中所述在线手写字符包括关于所述在线手写字符的点被输入的顺序的信息。

17.一种使用预定模式识别手写字符的系统，包括：用于生成多个预定模式的装置，其中通过使用Gabor滤波对字符样本执行一个或多个特征提取操作来生成所述多个预定模式，其中在存储器中存储所述多个预定模式，并且，其中所述一个或多个特征提取操作包括：确定每个字符样本点的方向；

基于每个字符样本点的方向提取方向特征；

基于所述方向特征生成方向模式图像；

使用Gabor滤波对所述方向模式图像进行滤波；以及基于滤波后的方向模式图像形成所述特征向量；

用于获取在线手写字符的装置；

用于预处理该在线手写字符的装置；

用于提取该在线手写字符的特征，从而确定特征向量的装置；

用于使用统计学算法，基于该特征向量为该在线手写字符生成一个或多个模式的装置；

用于分类该在线手写字符的装置，包括用于基于所生成的一个或多个模式和所述多个预定模式确定对应于该在线手写字符的字符的装置。

18.如权利要求17所述的系统，其中所述多个预定模式是基于统计学字符识别方法而生成的。

19.如权利要求17所述的系统，其中所述用于生成该多个预定模式的装置包括：用于对字符样本执行一个或多个预处理操作的装置；

用于对该字符样本执行一个或多个特征提取操作的装置，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波；

用于基于该字符样本的特征向量执行统计学训练以生成模式的装置；

用于在存储器中存储所述多个预定模式的装置，其中所述多个预定模式被配置成用于识别手写字符。

20.如权利要求17所述的系统，其中所述用于获取在线手写字符的装置包括用于接收从在笔输入装置中输入的至少一个输入笔划收集的输入数据的装置。

21.如权利要求17所述的系统，其中所述在线手写字符包括一个或多个笔划。

22.如权利要求17所述的系统，其中所述在线手写字符包括关于所述在线手写字符的点被输入的顺序的信息。

统计学在线字符识别

技术领域

[0001] 本发明涉及在线字符识别(OLCR)。

背景技术

[0002] 当今的许多电子设备和计算应用包括手写输入(或者笔输入)作为其功能的一部分。基于笔的输入例如，在缺少全键盘的装置中可以是特别有用的。一个可能的应用包括用手写即时信息(IM)。这为某些用户提供了一种更加舒适的人初接口。为了将手写字符准确翻译成数字字符，经常使用某种形式的手写识别。手写识别是个难题，尤其对于那些包含了巨大字符集的语言，例如一些东方语言。

[0003] 手写识别方法典型地可以细分为两类。离线字符识别包括将手写的静态表示转换为数字数据。在线字符识别(OLCR)包括在被写时感应手写字符，并将其转化为数字字符。在OLCR中，可得到有关手写笔划方向的信息以用在识别方法中，而在离线字符识别中，系统一般只接收手写的静态图像，不包括这些方向信息。由于在OLCR中比离线字符识别有着更多的可用信息，因此OLCR提供了更多的可能性去准确识别和将手写字符转换为数字字符。因此，虽然每类都可以使用笔输入装置，OLCR在这样的背景下通常被给予更多关注。

[0004] OLCR的一种形式利用了结构识别，包括基于这些字符的结构描述或表示进行分析。更具体的，结构识别包括检查该手写中多个符号的结构，例如，将该手写作为复合二维结构的空间布置进行检查。因此结构分析可以包括检查例如字母和数字这样的基本符号，以及绑定、分隔和操作符号、它们的分组标准、在表达式中符号间显型或隐性的关系、基于上下文符号的不同含义等。结构分析方法可以采用边界框方法来检查该边界框中的符号信息和子表达式，来计算符号间的距离和方向。

[0005] 统计学结构模型也受到了不断的关注。统计学结构模型的大部分步骤与结构识别相同，但是这些结构元的关系被概率性地测量。具体来说，隐性马可夫模型(HMM)被广泛地应用于统计学结构识别中。由于结构方法和统计学结构识别方法都是基于目标语言的特定字符集的复合分析，所以这些方法不是很适用。例如，韩语字符的结构或统计学结构识别方法不能轻易地被适用于日语字符。

[0006] 因此，需要改进OLCR。

发明内容

[0007] 统计学OLCR方法利用统计学识别，也就是说，字符被统计地表示。不同于将分类与特征表示法绑定的结构识别方法，统计学识别可以使用标准统计学技术生成特征模式。也就是说，统计学识别方法可以尝试新的分类技术(例如，对于一个新字符集，比如对一种新语言)而不需要全部重新设计。一些统计学识别技术将字符映射为2D图像，然后利用图片模式识别技术。额外地，当今一些离线识别方法可以适用于在线识别(例如，使用字符点的方向特征)。统计学识别方法相对于结构识别方法带来了更大灵活度，具有优秀的识别准确度，而不需要字符集的结构化分析。

[0008] 本发明的实施例涉及统计学手写识别系统和方法。一个实施例涉及产生用于在线字符识别中的模式的方法。也就是说，基于预先识别的字符样本集，统计学算法可以训练自身来找到或者产生存在字符样本的每类字符的模式。这些模式因而在以后可被用于实际的字符识别。因此，另一个实施例涉及利用预定模式来识别手写字符的方法。根据不同的实施例，每种方法可以由执行存储在存储介质上的程序指令的处理器来实现。

[0009] 一种产生用于在线字符识别的模式的方法可以包括：对第一字符样本执行各种操作。可以对第一字符样本执行一个或多个预处理操作。例如，可以从该第一字符样本中去除噪声点。对该第一字符样本执行线性尺寸规范化。可以对该第一字符样本执行非线性形态规范化。也可在该第一字符样本中加入虚构笔划和/或虚构点。该第一字符样本可以被重新采样。该第一字符样本可以被平滑。根据不同的实施例，可以对该第一字符样本执行这些操作中的任何一个或全部或其他操作，并且每个操作能以多种方式实现。

[0010] 对该第一字符样本也可以执行一个或多个特征提取操作。例如，可以基于该第一字符样本中每个点的方向提取方向特征。可以基于该方向特征而生成方向模式图像。该方向模式图像可以采用Gabor滤波器进行滤波。特征向量可以基于该滤波后的方向模式图像来形成。该特征向量可以包括多个方向向量。在某些实施例中，这样的方向向量中的至少两个可以不同地被加权；例如，具有第一方向的第一方向向量可以不同于具有第二方向的第二方向向量而被加权。根据不同的实施例，可以对该第一在线手写字符执行这些特征提取操作中的一些或全部，或者其他特征提取操作，并且每个特征提取操作能以多种方式实现。

[0011] 可以基于该第一字符样本的特征向量执行统计学训练以生成模式。在某些实施例中，该统计学训练可以基于多个字符样本的特征向量。例如，可以在某些情况下要求有效的统计学字符样本集以生成将有效地分类在线手写字符的模式。因此，以上描述的执行一个或多个预处理操作和一个或多个特征提取操作的步骤在某些实施例中可以对多个字符样本执行，并且该统计学训练因而可以基于多个特征向量，例如，包括从该第一字符样本生成的特征向量。统计学训练可以包括采用聚类算法，比如k-means聚类算法。

[0012] 所生成的模式可被存储在存储器中，例如在任何种类的存储介质上。这些模式可以存储为简单的或复杂的数据结构；例如，在一个实施例中，所生成的模式可以存储在模式数据库中。

[0013] 一种采用预定模式识别手写字符的方法可以包括，首先生成预定模式，例如前述中依据不同的实施例的用于生成用于在线手写识别的模式的方法。因此，可以存在模式集，例如模式数据库，用来识别手写字符。

[0014] 第一在线手写字符可以，例如直接通过笔输入装置，或者间接地通过耦合到笔输入装置的装置来获取。获取在线手写字符可以包括接收从在笔输入装置中输入的至少一个笔划(例如一个手写笔划)收集的输入数据。在线手写字符因而可以包括一个或者多个笔划，和/或包括输入到该笔输入装置的在线手写字符的点被输入的顺序的信息。然后可以对该第一在线手写字符执行各种操作。

[0015] 可以对该第一在线手写字符执行一个或多个预处理操作。例如，从该第一在线手写字符中去除噪声点。对该第一手写字符执行线性尺寸规范化。可以对该第一在线手写字符执行非线性形态规范化。也可在该第一在线手写字符中加入虚构笔划和/或虚构点。该第一在线手写字符可以被重新采样。该第一在线手写字符可以被平滑。根据不同的实施例，可以对该第一在线手写字符执行这些预处理操作中的一些或全部，或其他预处理操作，并且每个预处理操作能以多种方式实现。

[0016] 对该第一在线手写字符执行的这些预处理操作可以与对任何用于生成预定模式的字符样本执行的预处理操作相同；因此，任何从该在线手写字符中生成的模式可以以与这些预定模式相同的方式被处理。因此，从该在线手写字符中生成的任何模式与该预定模式间的比较可以在线手写字符的分类方面更有效。

[0017] 也可以对该第一在线手写字符执行一个或多个特征提取操作。例如，可以基于该第一在线手写字符的每个点的方向提取方向特征。方向模式图像可以基于该方向特征而生成。可以使用Gabor滤波对该方向模式图像进行滤波。可以基于滤波后的方向模式图像形成特征向量。该特征向量可以包括多个方向向量。在某些实施例中，方向向量中的至少两个可以不同地被加权；例如，具有第一方向的第一方向向量可以不同于具有第二方向的第二方向向量被加权。根据不同的实施例，可以对该第一在线手写字符执行这些特征提取操作中的一些或全部，或者其他特征提取操作，并且每个特征提取操作能以多种方式实现。

[0018] 对该第一在线手写字符执行的特征提取操作可以与对任何用于生成预定模式的字符样本执行的特征提取操作相同；因此，任何从该在线手写字符中生成的模式可以基于与该预定模式所基于的特征向量相同的方式产生的特征向量。与可能的要求类似，用于生成预定模式和要识别的在线手写字符的字符样本的预处理步骤是相同的，为了准确分类在线手写字符，用于字符样本和在线手写字符的特征提取步骤也可需要是相同的。

[0019] 在线手写字符的一个或多个模式可以利用统计学算法生成。例如，比如k-means聚类算法的聚类算法可以用于生成在线手写字符的模式。用于生成在线手写字符的模式的统计学算法可以与用于生成预定模式的统计学算法相同。

[0020] 可以基于为在线手写字符生成的模式和预定模式对在线手写字符进行分类。例如，基于对在线手写字符的模式和预定模式的统计学比较，可以利用统计学分类器来确定该在线手写字符属于哪一类，预定模式例如在模式数据库中可包括给定字符集(例如一种语言的字符集)中的每个字符类的模式。因此，在线手写字符的分类可以包括确定对应该在线手写字符的字符。确定为对应于在线手写字符的该字符(或该字符的数字图像)随后可替换该在线手写字符，例如，在获取该在线手写字符的笔输入装置的显示屏上。

附图说明

[0021] 结合以下附图，阅读以下的实施例详述，将获得对本发明的更好理解，其中：

[0022] 图1A和1B描述了示例装置，其可操作以接收基于笔的输入，并且可包含根据本发明一个实施例的手写识别实现方式。

[0023] 图2是一个装置的结构图，该装置可操作以接收基于笔的输入，并且包括根据本发明一个实施例的手写识别实现方式。

[0024] 图3是一个流程图，描述了一种方法，用于开发识别在线手写字符时所使用的统计学识别模式。

[0025] 图4是一个流程图，描述了根据本发明的一个实施例对字符样本进行预处理。

[0026] 图5是一个流程图，描述了根据本发明的一个实施例提取字符样本的特征。

[0027] 图6是一个流程图，描述了根据本发明的一个实施例统计地训练字符识别方法。

[0028] 图7是一个流程图，描述了一种用来识别在线手写字符的方法。

[0029] 图8A-8F描述了根据一个实施例，在一系列连续的预处理步骤中的每个步骤之后的在线手写字符示例。

[0030] 由于本发明容许各种修改和替换形式，其中的特定实施例通过附图中的例子表示，在此详细描述。然而可以理解的是，这里的附图和详细描述并不是为了将本发明限制在这些特定形式中，而是相反，意图涵盖所有落入通过所附权利要求所定义的本发明的精神和范围内的修改、等价物和替代物。

具体实施方式

[0031] 以下是在此使用的术语表：

[0032] “在线手写字符”可以包括通过电子笔、指示笔、鼠标或其他这样的装置输入的图像中的点或像素。在线手写字符可以进一步包括关于记录下的点被输入的顺序的数据，以及某些情况下，例如取决于输入设备，包括其他的信息，比如书写速度和/或压力。

[0033] “字符样本”可以包括从笔输入装置收集的在线手写字符的数据。字符样本也可以包括对应于在线手写字符的相关联的数字字符。这些信息(在线手写字符和相关联的(期望的)字符的数字表示)的组合可以允许训练统计学算法。

[0034] “存储介质”可以包括任意种类的内存装置或存储装置。术语“存储介质”旨在包括安装介质，例如CD-ROM、软盘、或磁带装置；计算机系统存储器或随机存取存储器，比如DRAM，DDR RAM，SRAM，EDO RAM，Rambus RAM等；或者非易失存储器，比如PROM、EPROM、EEPROM、闪存，或磁性介质，例如硬盘，或光存储器。这些存储介质也可以包括其他种类的存储器，或这些的组合。除此以外，存储介质可以位于执行程序的第一计算机上，和/或可以位于第二不同的计算机上，其通过网络，比如因特网，连接至该第一计算机。在后者的情况下，该第二计算机可以提供程序指令供第一台计算机执行。术语“存储介质”可以包括两种或多种存储介质，其分布在不同的位置，例如在经由网络连接到不同的计算机上。

[0035] “计算机系统”可以包括任何各种类的计算或处理系统，包括个人计算机系统(PC)、大型计算机系统、工作站、网络装置、因特网装置、个人数字助理(PDA)、电视系统、网格计算系统、或其他设备，或设备的组合。一般地，术语“计算机系统”能被广泛地定义为包括任何具有至少一个处理器的装置(或装置的组合)，该处理器执行来自存储介质的指令。

[0036] 图1A和1B-示例性的笔输入装置

[0037] 图1A和1B示出了可操作以从用户处接收手写输入的示例性装置。“笔输入装置”可以是任何可操作以从用户处接收基于笔的输入的装置。一些实例可以包括个人数字助理(PDA)、移动或蜂窝电话、智能手机、手提计算系统(例如，“平板电脑”或“掌上型电脑”)，以及其他通信装置。其他笔输入装置可以是任何包括显示器并允许用户使用电子笔或指示笔输入信息，并能处理所述输入的装置或系统。一个能处理通过电子笔或指示笔输入信息的装置，即使该装置不能直接地接收笔输入，虽然不是严格意义上的笔输入装置，也能够执行在比描述的某些或所有的方法。

[0038] 图2-执行手写识别的装置的结构图

[0039] 图2是依据一个实施例，执行手写识别的装置的系统图。该装置可以包括屏幕或监视器，例如屏幕200，其被配置为接收笔输入250，例如，在线手写字符。通过位于屏幕200上的笔输入250接收的在线手写字符可以被输入到手写识别程序204，根据图7中描述的用于识别在线手写字符的方法的一个实施例，该手写识别程序204可以对该在线手写字符执行OLCR。该手写识别程序204可以在处理器206上运行例如来自存储在存储介质208上的程序指令。该写识别程序204也可以利用模式数据库210，比如可以使用图3中描述的用于开发统计学识别模式的方法的一个实施例而开发的模式数据库。该手写识别程序204可以为在线手写字符返回结果212，比如对应于该在线手写字符的数字字符。该结果212(例如，该数字字符)随后可以显示在屏幕200上；例如，产生的数字字符的图像可以代替该数字字符所基于的在线手写字符的图像。

[0040] 虽然图2表示出执行手写识别的装置的一个示例性实施例，应该注意到，许多其它的实施例也是可行的。例如，执行手写识别的装置(例如，包含手写识别程序)可以是与接收笔输入的装置不同的装置。因此，第一装置可以接收在线手写字符，并提供该在线手写字符给第二装置，该第二装置执行OLCR并返回结果，该第二装置然后可将该结果返回第一装置。上述两个设备可以通过网络或其他各种方式通信。因此，在此描述的方法的实施方式可以部分或全部地由不同的装置实现。

[0041] 图3-开发在识别在线手写字符时使用的统计学识别模式的方法

[0042] 图3依据一个实施例，描述了用于开发在识别在线手写字符时使用的统计学识别模式的方法的流程图。

[0043] 在302中，对字符样本执行一个或多个预处理步骤。一般地，预处理字符样本可以减少或去除可能发生在同类的字符样本之间的某些变化。减少这些变化可以在识别准确度上提供改进。根据不同的实施例，预处理步骤可以包括以下中的一个或多个：去除噪声点、规范化字符样本至特定的尺度、在字符样本上执行非线性形态规范化、对字符样本加入虚构笔划和/或虚构点、对该字符样本重新采样、和/或对该字符样本执行平滑。参照这些预处理步骤中每个步骤，以下结合图4，呈现更多细节。

[0044] 302的预处理之后，在304中，对该字符样本执行一个或多个特征提取操作。从字符样本中提取特征可允许模式得以生成。被提取的特征的质量可显著影响生成的模式，因此影响使用该模式的在线手写字符识别方法的准确度。根据不同的实施例，特征提取操作可以包括以下中的一个或多个：确定每个字符样本点的方向、基于所确定的方向提取方向特征、生成方向模式图像、在方向模式图像上应用Gabor滤波，和/或产生特征向量。结合图5，以下对这些特征提取步骤中每个步骤的更多细节进行描述。

[0045] 在306中，可以基于特征向量执行统计学训练以产生模式。产生的模式可以是可用于执行在线手写识别的。根据不同的实施例，统计学训练可以包括确定训练的一些类，生成用于聚类(clustering)的种子，和利用聚类技术训练统计学识别模型。训练之后可以生成模式数据库用于识别。结合附图6，以下对这些统计学训练步骤中每个步骤的更多细节进行描述。

[0046] 图4-预处理

[0047] 依据某些实施例，可以对字符样本或在线手写字符(术语“字符”在本节中用来指代字符样本或在线手写字符)执行一个或多个预处理步骤。图4所示和以下的描述的步骤依所示的顺序执行，但另外的顺序也是可以的。

[0048] 在402中，从原始字符中去除噪声点。噪声点可包括具有一个、两个或少量点的笔划，例如，那些点可能不旨在成为用户输入的一部分。移除噪声笔划和噪声点可以减少来自用户的疏忽或意外输入的干扰。

[0049] 在404中，字符可以被规范化到特定的尺度。这种规范化可以利用保留纵横比的线性映射。也就是说，字符的尺寸可以被重新调整为标准的图片尺寸，而不改变原始的纵横比。字符映射到的特定尺度可以例如是64×64的位图。别的尺度也是可以的。

[0050] 在406中，可以对字符执行非线性形态规范化(NSN)。NSN可进一步减少例如由于字符的手写特性引起的字符变形。NSN用来处理线性规范化预处理所不负责的字符形态；例如，一个非常长的笔划，或具有非常大的宽/高比的字符。NSN可被划分为两类，点密度和线密度。点密度NSN根据字符的点密度，用X/Y轴调整点的位置。线密度NSN利用线密度，在两个方向上确定新点的位置。在一个优选实施例中，采用的NSN方法可以是点密度NSN。
而在某些可选实施例中，线密度NSN可以用来替代或补充点密度NSN。

[0051] 在408中，虚构笔划和虚构点可以加入到字符中。虚构笔划是当处于抬笔状态时，例如，当笔没有接触笔输入感应平面的时的任意笔移动轨迹。虚构笔划可以加入到字符中，作为落笔笔划的终点和接下来落笔笔划的起点之间的方向线。虚构笔划的其他形式(例如曲线)在某些实施例中可以用来代替或补充方向线。虚构点可以减少笔划数量变化的影响，这种影响会由于例如不同用户的书写习惯而发生。例如，非常流畅或草写的风格会减少字符的笔划数。在某些字符中添加虚构点以达到多个字符之间更统一的笔划可以提高字符识别的准确度。

[0052] 在410中，字符可以被重新采样。重新采样可以平衡任意两个给定的在线点之间的距离变化，以便减少笔划中点数量的差异和点密度变化的影响，这可能由于例如不同的样本收集装置而发生。换句话说，不同的笔输入装置会产生具有不同点密度的字符图像。重新采样也可以减少字符中的总点数，从而减少计算开销。重新采样可以包括如果点密度很高则以特定的间隔去除点，和/或在两个相邻点之间的距离大于特定阈值的情况下加入附加点。重新采样可以对原始和虚构笔划二者执行。

[0053] 在412，可以对字符执行平滑。平滑可以在位图中小的局部区域内减少笔划形态变化。它可以包括对所有原始和虚构的笔划，根据两个方向上的相邻点调整原始点的坐标。尤其是，样条(spline)方法在为了OLCR目的的平滑时会特别有效，它潜在地提供更多准确的字符识别。插值的样条函数通常会根据任何插值约束被确定为最小化粗糙度的某些合适的测量(例如曲率平方积分)。然后，平滑样条可以被视为插值样条的一般化，样条函数会以观察数据的均方近似误差和该粗糙度测量的加权组合被最小化的方式被确定。

[0054] 图5-特征提取

[0055] 根据某些实施例，特征可以从字符样本或在线手写字符(术语“字符”在本节中可用于指代字符样本或在线手写字符)中提取。字符可以是例如使用图4中涉及的以上描述的方法的实施例，或者以其他方式进行过预处理的。特征提取步骤可以包括几个步骤；图5描述了依据一个实施例的特征提取过程的示例性步骤组。图5所示和以下描述的步骤会以所示顺序执行，但另外的顺序也是可以的。

[0056] 在502中，会确定每个字符点的方向。字符中每个点的方向信息可基于收集给定字符的笔输入装置所收集的输入来确定。例如，如果该笔输入装置记录了给定笔划的点输入的顺序，则通过构建指示从在先输入的点到随后输入的点的向量，可以确定字符中给定点的方向。确定方向的其他方式也是可以的；例如，不同于构建从在先输入的点到给定点之后输入的点的向量，还可以构建在先输入的点和给定点本身之间的向量。也可以对给定笔划的第一和最后点使用其它替代方法。

[0057] 在504中，基于字符中每个点的所确定的方向获取方向特征。方向特征可以是给定方向空间中的向量，该向量具有该方向空间的一个或多个方向的分量。该方向空间可以是8方向的。也就是说，对于该方向特征向量可以有8种可能的方向分量。例如，该8个方向可以对应于指南针的方向：北，东北，东，东南，南，西南，西，和西北。因此，一个点的方向特征可以是包括例如西北和北的分量的两个方向。其他方向空间也是可以的，例如，4方向空间，利用，继续比喻成指南针的指向，北，东，南和西。其它的方向空间也是可以的。

[0058] 在506中，生成已提取的特征的方向模式图像。在该步骤，每个点可基于它的方向特征被分配给一个或多个方向模式图像。例如，方向特征为西北和北的点被分配给西北模式图像和西模式图像。一般地，如果使用n方向空间，则可以生成n方向模式图像；因此，如果使用8方向空间，可以生成8方向模式图像。每个方向模式图像可以包括基于点的方向特征被分配给它的点。也就是说，西北模式图像可以包括所有包含西北方向特征的点，而南模式图像可以包括所有包含南方向特征的点。应注意，每个点可以包含于两个方向模式图像中，例如，每介方向模式图像对应于给定点的方向特征。

[0059] 在508中，将Gabor滤波应用于该方向模式图像。Gabor滤波是线性滤波，该滤波的脉冲响应由谐波函数乘以高斯函数确定。每个图像(例如，每个在线手写字符或字符样本)可以被划分成网格，例如8×8像素网格。通过对每个网格应用Gabor滤波，可以产生更统一的特征，因此缩小向量空间。Gabor滤波相比于例如高斯滤波可以提供更多的控制参数。这可以加强所调整的模型的容量，潜在地产生改进的总体方法。

[0060] 在510中，可生成一个特征向量。该特征向量可以基于以上描述的步骤。例如，基于原始的8方向64×64像素图像，可以产生8方向模式图像，接着图像可被划分成为64(8×8)个8×8像素网格，每个都用Gabor滤波器进行滤波。因而，可以产生8×8×8＝
512尺寸的特征向量。换句话说，64×64的像素中的64(8×8)个网格中的每个可以具有8方向的模式图像。在一个实施例中，这些方向模式图像可以表示为浮点数，因而每个网格可以具有一个或多个浮点，并且因此特征向量可以由这些浮点组成，从而这可利用分类(例如统计学分类)方法处理。在某些实施例中，非线性处理，例如演化，可以与特征向量一起使用以放大较小的特征和缩小较大的特征。应注意的是，其他类型的特征向量(例如，具有其他尺度)也是可以的。

[0061] 图6-统计学训练

[0062] 图6是根据一个实施例，为了生成用于在线手写识别的模式而执行统计学训练的方法的流程图。该统计学训练可以基于给定字符类中的字符样本的特征向量(例如，根据以上关于图5描述的方法的参照实施例所提取的)。也就是说，统计学方法可以用于为给定字符集(例如，给定语言)中的每个类型的字符生成代表模式。这些生成的模式接着会被用来划分在线手写字符，例如以识别在线手写字符本来是什么字符。图6所示和以下描述的步骤会以所示顺序执行，但另外的顺序也是可以的。

[0063] 在602中，可以生成一个或多个种子以用于聚类算法。在一个实施例中，可以使用谱聚类确定这些种子。在谱聚类中，可以利用相似性的某些度量构建相似性矩阵；相似性矩阵随后可用于生成种子以使用比如k-means聚类算法的聚类算法进行聚类。

[0064] 在604中，聚类算法可以用于确定一个或多个模式。在一个实施例中，可以使用k-means聚类算法。K-means聚类包括将特征向量中的每个点分配给k个聚类中最近的一个(即，按照某些距离量度，例如欧氏距离)。最初，k个聚类中的每个可以以步骤602中生成的种子之一为中心。在所有的点都被分配至聚类后，可确定新的聚类中心，并且重新分配一个或多个点，例如，如果一个点到它的聚类中心的距离大于该点到另一个聚类中心的距离。重复这个处理直到满足一个或多个收敛标准。因此，产生k个聚类(或模式)。K-means聚类可以是简单和快速的，并且可以尤其适合手写数据，特别是当它与谱聚类结合使用产生初始种子时。对于许多语言来说，对于每个字符类，3或4个模式(例如k是3或4)对于手写识别可以是足够的。然而，需要注意的是，其他数量的模式(例如，k值)也是可以的，并且在某些情况下适用。

[0065] 在某些实施例中，出于聚类目的，特征向量中的点之间的距离被加权。例如，每个不同的方向模式图像可对字符识别具有不同的影响；例如，西北方向可以是相对重要的。因此，特征向量中的两个或更多个不同方向向量可被给予不同的权重，例如，基于那些向量的方向。如果方向加权用于生成模式，为获取最好的效果，也可以需要相同的方向加权用于分类(例如，识别)在线手写字符。

[0066] 图7-用于识别在线手写字符的方法

[0067] 图7依据一个实施例，描述了用于识别在线手写字符的方法。

[0068] 在702中，获取一个在线手写字符。可以从比如图1中装置的笔输入装置中的电子笔或指示笔的输入获取该在线手写字符。作为替代地，可以从其他装置获取在线手写字符，例如，通过网络或因特网，并且可以在不同装置中输入。一旦获取，该在线手写字符可被存储(例如存储在存储器介质上)以用于处理和/或识别，或立刻被处理和/或识别。

[0069] 在704中，预处理该在线手写字符。这个处理可以与图4及上文中描述的处理相似或相同。重要的是，(例如，为了获得高准确率)在704中采用的预处理步骤和生成用于识别字符的模式所采用的预处理步骤(例如，在步骤708和710)是相同的。

[0070] 在706中，从在线手写字符中提取特征。这个处理与在图5及上文中描述的处理相似或相同。再次，重要的是，例如，为了获得高准确率)在706中采用的特征提取步骤和生成用于识别字符的模式所采用的特征提取步骤(例如，在步骤708和710)是相同的。

[0071] 在708中，提取的特征被匹配至模式。模式可以是例如通过图3和上文中描述的方法事先生成的。模式可以在执行在线手写字符识别的装置上生成，或可选地，可在其他装置上生成。在这种情况下，模式可以引入到执行在线手写字符的装置上，或可选地，可以通过执行在线手写字符识别的装置在其他装置上存取。例如，模式可以存储在一个或多个模式数据库中、本地和/或远程地到存储到执行在线手写字符识别的装置。

[0072] 在710中，对应于在线手写字符的字符基于提取的特征到模式的匹配而确定。被确定的字符可以从字符集中选取，例如对应于比如汉语、日语、韩语等的语言的字符集。作为替代地，该字符集可以包含多种语言的字符集，或来自一种或多种语言的部分字符集。所确定的字符可以被选为由提取的特征到模式的匹配所确定的“最适合”的字符，例如在模式数据库中，其中“最适合”可以通过许多方式被确定，例如采用任何类型的统计学分类算法。

[0073] 在712中，在线手写字符识别可以用被确定为对应于在线手写字符的数字字符来取代。正如上面提到的，在线手写字符在获取后被存储。一旦对应于在线手写字符的数字字符被确定，就不再需要存储在线手写字符本身了。因此，在某些实施例中，在线手写字符可以在存储器中由所确定的对应的数字字符来取代，或简单地丢弃。作为替代地，在线手写字符可以继续被存储，例如，作为字符样本与所确定的对应的数字字符一起存储。

[0074] 在线手写字符被输入的时候，笔输入装置能够显示在线手写字符的图像。在对应于在线手写字符的数字字符被确定后，在某些实施例中，笔输入装置可以用该对应的数字字符的图像替换该在线手写字符的图像。作为替代地，该笔输入装置可以当在线手写字符被输入时不显示它的图像，但是会在对应的数字字符被确定后显示对应的数字字符的图像。

[0075] 图8A-8F-预处理

[0076] 图8A-8F示出了比如关于图4所述的连续的预处理步骤序列中每个步骤后的在线手写字符示例。手写字符既可以是字符样本(例如，对应于已知字符类别的在线手写字符)也可以是简单的在线手写字符(例如，作为字符的特定类别没有进行分类的)。因此，在线手写字符在图8A中示出为初始输入。在图8B中，在线手写字符作为规范化后的示出。图8C示出在执行了非线性规范化的连续步骤后的在线手写字符。加入虚构笔划和点的连续步骤之后，在线手写字符随后在图8D中示出；在图8E中，示出了在附加的重新采样操作后的图8D的在线手写字符。最后，图8F示出了8E中经过最后平滑操作的在线手写字符(即，经过每个在前的预处理操作)。在各个预处理步骤后，在线手写字符可以最佳地适应以后的步骤，例如，特征提取和模式生成或字符识别。需要注意的是，图8A-8F所示的预处理步骤只是示例性的；在某些实施例中，一个或多个所示的步骤可被省略、重复或以不同顺序执行，和/或可以额外执行一个或多个其他步骤(未示出)。

[0077] 虽然以上实施例进行了相当详细的描述，一旦以上公开被充分理解，许多变化和修改对本领域技术人员而言是显而易见的。其后的权利要求应被解释为包含了所有这样的变化和修改。

[0078] 在本发明的一方面，公开了包含用于生成用于在线字符识别的模式的程序指令的存储介质，其中，该程序指令可执行为：对字符样本执行一个或多个预处理操作；对该字符样本执行一个或多个特征提取操作，其中该一个或多个特征提取操作为字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波；基于字符样本的特征向量执行统计学训练以生成模式；在存储器中存储该模式，其中该模式被配置为用于识别手写字符。

[0079] 优选地，在执行一个或多个特征提取操作时，该程序指令可执行为利用Gabor滤波对方向模式图像进行滤波，其中滤波后的方向模式图像用于形成特征向量。

[0080] 优选地，在执行一个或多个特征提取操作时，该程序指令可执行为：基于字符样本点的方向提取方向特征；基于方向特征生成方向模式图像；利用Gabor滤波对方向模式图像进行滤波；和基于滤波后的方向模式图像形成特征向量。

[0081] 优选地，该一个或多个预处理操作包括加入虚构笔划和加入虚构点。

[0082] 优选地，该一个或多个预处理操作包括以下中的三个或更多个：噪声点去除，线性尺寸规范化，非线性形态规范化，加入虚构笔划，和加入虚构点。

[0083] 本发明的另一方面公开了一种产生用于在线字符识别的模式的系统，该系统包括：用于对字符样本执行一个或多个预处理操作的装置；用于对该字符样本执行一个或多个特征提取操作的装置，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波；用于基于所述字符样本的特征向量执行统计学训练以生成模式的装置；用于在存储器中存储所述模式的装置，其中所述模式被配置成用于识别手写字符。

[0084] 优选地，用于执行一个或多个特征提取操作的装置包括用于使用Gabor滤波对方向模式图像进行滤波的装置，其中滤波后的方向模式图像用于形成所述特征向量。

[0085] 优选地，用于执行一个或多个特征提取操作的装置包括：用于基于字符样本点的方向提取方向特征的装置；用于基于所述方向特征生成方向模式图像的装置；用于使用Gabor滤波对所述方向模式图像进行滤波的装置；以及用于基于滤波后的方向模式图像形成所述特征向量的装置。

[0086] 优选地，用于执行一个或多个预处理操作的装置包括用于加入虚构笔划的装置和用于加入虚构点的装置。

[0087] 优选地，用于执行一个或多个预处理操作的装置包括以下中的三个或更多个：用于执行噪声点去除的装置，用于执行线性尺寸规范化的装置，用于执行非线性形态规范化的装置，用于加入虚构笔划的装置，和用于加入虚构点的装置。

[0088] 在本发明的另一方面中，公开了一种使用预定模式识别手写字符的系统，包括：用于生成多个预定模式的装置，其中通过使用Gabor滤波对字符样本执行一个或多个特征提取操作来生成所述多个预定模式，其中在存储器中存储所述多个预定模式；用于获取在线手写字符的装置；用于预处理该在线手写字符的装置；用于提取该在线手写字符的特征，从而确定特征向量的装置；用于使用统计学算法，基于该特征向量为该在线手写字符生成一个或多个模式的装置；用于分类该在线手写字符的装置，包括用于基于所生成的一个或多个模式和所述多个预定模式确定对应于该在线手写字符的字符的装置。

[0089] 优选地，多个预定模式是基于统计学字符识别方法而生成的。

[0090] 优选地，用于生成该多个预定模式的装置包括：用于对字符样本执行一个或多个预处理操作的装置；用于对该字符样本执行一个或多个特征提取操作的装置，其中该一个或多个特征提取操作为该字符样本产生特征向量，其中所述执行一个或多个特征提取操作利用Gabor滤波；用于基于该字符样本的特征向量执行统计学训练以生成模式的装置；用于在存储器中存储所述多个预定模式的装置，其中所述多个预定模式波配置成用于识别手写字符。

[0091] 优选地，用于获取在线手写字符的装置包括用于接收从在笔输入装置中输入的至少一个输入笔划收集的输入数据的装置。

[0092] 优选地，该在线手写字符包括一个或多个笔划。

[0093] 优选地，该在线手写字符包括关于所述在线手写字符的点被输入的顺序的信息。

统计学在线字符识别转让专利

申请号 : CN201010256637.9

文献号 : CN101968847B

文献日 : 2014-04-16

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 冯·德雷克·朱

申请人 : 甲骨文美国公司

摘要 :

权利要求 :

说明书 :

统计学在线字符识别

技术领域

背景技术

发明内容

附图说明

具体实施方式