一种基于用户反馈信息的在线手写公式识别方法及装置转让专利

申请号 : CN202110225996.6

文献号 : CN112926567B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 田丰康文惠李俊峰魏培强刘杰戴国忠

申请人 : 中国科学院软件研究所鸿合科技股份有限公司

摘要 :

本发明公开了一种基于用户反馈信息的在线手写公式识别方法及装置,在现有的识别方法中引入删除操作、补笔操作和/或结构性移动操作等用户参与。借助人机混合智能的思想,在“字符分割—字符识别—结构分析”识别方法的不同阶段融合了用户反馈信息,并设计了适用于用户书写和错误纠正的交互技术。本发明设计出适用于草图识别的交互手段,避免了以图像处理为主的公式识别方法会遇到的各种问题,为用户修改存在笔误或歧义的笔划,公式的结构错误等提供基本保障,提高了公式识别率的效果,满足了用户的需求。

权利要求 :

1.一种基于用户反馈信息的在线手写公式识别方法,其步骤包括:

1)将待识别的在线手写公式中的字符进行笔划分割,得到若干可允许分割集合P1;

2)对可允许分割集合进行数学符号分类,得到最大置信度数学符号;

3)根据最大置信度数学符号及组成最大置信度数学符号笔划的包围盒间的空间关系,构造解析树集合T1,获取识别结果A1;

4)若识别结果Ai正确,则将识别结果Ai作为正确识别结果An,其中1≤i≤n;若识别结果Ai不正确,则用户使用删除操作获取可允许分割集合Pi+1和/或解析树集合Ti+1、使用补笔操作获取可允许分割集合Pi+1或解析树集合Ti+1、和/或使用结构性移动操作获取可允许分割集合Pi+1和/或解析树集合Ti+1,得到识别结果Ai+1,并对识别结果Ai+1进行正确性判断,直到获取正确识别结果An;

其中,

所述删除操作包括:删除已存在的笔划、删除某一笔划的部分点和/或调整笔迹粗细;

通过以下步骤使用删除操作获取可允许分割集合Pi+1:

4.1.1)用户根据识别结果,获取错误笔划S;

4.1.2)在若干可允许分割集合Pi中删除包含错误笔划S的可允许分割集合,得到可允许分割集合Pi+1;

通过以下步骤使用删除操作获取解析树集合Ti+1:

4.2.1)用户根据识别结果,获取错误笔划S;

4.2.2)在解析树集合Ti中删除包含错误笔划S的解析树结点,构造解析树集合Ti+1;

所述补笔操作的类别包括:符号补笔和结构性补笔;所述结构性补笔包括:分式补笔和根式补笔;

通过以下步骤使用补笔操作获取可允许分割集合Pi+1或解析树集合Ti+1:

4.3.1)基于上下文中的语义信息判定补笔操作的类别;

4.3.2)若为符号补笔,则合并补笔笔划和错误笔划为一笔,并更新可允许分割集,得到若干可允许分割集合Pi+1;若为分式补笔或根式补笔,则合并已识别的分式与补笔笔划或根式符号与补笔笔划,并依据设定结构类型,获取解析树集合Ti+1,其中设定结构类型包括:上下空间关系、内部空间关系和根式空间关系;

通过以下步骤使用结构性移动操作获取可允许分割集合Pi+1:

4.4.1)获取需要移动的笔划Sb;

4.4.2)删除未移动笔划中包含Sb笔划的可允许分割集Pi;

4.4.3)将需要移动的笔划移动到正确位置,计算移动笔划的区域,对笔划重新进行笔划分割,得到可允许分割集合Pi+1;

通过以下步骤使用结构性移动操作获取解析树集合Ti+1:

4.5.1)依据可允许分割集合Pi+1,通过空间关系模型计算结构性移动后笔划块间的空间关系,其中空间关系模型r(A,B)=[ra,rb,dx,dy,dir],A为未移动的笔划区域,B为结构性移动的笔划区域,ra为未移动的笔划区域中移动前移动笔划与原始笔划之间的空间关系,rb为结构性移动的笔划区域中移动前移动笔划与原始笔划之间的空间关系,dx与dy分别是x轴与y轴的移动距离,dir为移动方向;

4.5.2)更新笔划块间的空间关系,得到解析树集合Ti+1。

2.如权利要求1所述的方法,其特征在于,通过以下步骤得到可允许分割集合P1:

1)将任意两个笔划组成一笔划对;

2)通过笔划对之间的欧式距离,判断组成笔划对的两个笔划是否组成一个字符;

3)若是,根据笔划对间的距离与最大距离的关系及单个字符包含最大笔划数阈值,得到可允许分割集合P1。

3.如权利要求1所述的方法,其特征在于,对可允许分割集合进行数学符号分类的方法包括:机器识别方法;机器识别方法包括:利用一训练后的双向长短时记忆递归神经网络。

4.如权利要求1所述的方法,其特征在于,构造解析树集合T1的方法包括:依据上下文无关文法模型的二维扩展方法。

5.如权利要求1所述的方法,其特征在于,若识别结果Ai不正确,在用户通过删除操作、补笔操作和/或结构性移动操作获取识别结果Ai+1之前,先判断修改时间是否大于重写时间;若修改时间大于重写时间,则删除所有笔划、可允许分割集合Pi及解析树集合Ti,且重新输入笔划;若修改时间不大于重写时间,则通过删除操作、补笔操作和/或结构性移动操作获取识别结果Ai+1。

6.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1‑5中任一所述方法。

7.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1‑5中任一所述方法。

说明书 :

一种基于用户反馈信息的在线手写公式识别方法及装置

技术领域

[0001] 本发明属于软件技术领域,尤其涉及一种基于用户反馈信息的在线手写公式识别方法及装置。

背景技术

[0002] 自20世纪50年代以来,手写数学识别作为物理学,几何定理证明以及代数智能教学系统等众多基于笔的软件接口的关键组成部分,一直是草图识别方面比较活跃的研究领域。近年来,随着触摸屏和笔式设备的普及,手写数学表达式识别(HMER)在教育,办公自动化和会议系统等许多领域具有广泛的潜在应用,因此逐年稳步吸引着越来越多的社区关注,也促进了具有手写识别和手绘交互界面的软件研发。
[0003] 在线手写数学表达式识别包含两个主要处理过程,分别是字符识别和结构分析。主要解决方法可以大致划分为基于结构化的“符号分割—符号识别—结构分析”方法和基于端到端的深度学习方法。对于字符分割任务,常用的方法有基于生成树的方法、贝叶斯模型和基于图的方法等;符号识别算法包括最近邻算法(KNN)、隐马尔可夫模型(HMMs)、支持向量机(SVM)和递归神经网络(RNN)等;对于结构解析,提出的特征包括符号边界框、相对大小和位置,和极性直方图等。
[0004] 基于端到端的深度学习识别方法融合字符识别和结构分析为一体,采用端到端编码解码的方式来识别手写数学公式,像基于残差双向递归神经网络(BiRNN)的Seq2Seq模型,基于树的双向长短时记忆网络(BLSTM),笔划限制注意力网络,模糊神经网络等方法。
[0005] 但不管是基于结构化的“符号分割—符号识别—结构分析”方法还是基于端到端的深度学习方法,都很难满足用户对手写数学公式识别的需求(识别率高于91%‑97%),且没有很好地利用用户在书写过程中的交互信息。基于结构化的方法在识别过程中,前一级的错误会对下一级任务产生严重的影响,错误会逐级传播下去,比如来自符号分割和识别的错误会传播到结构分析中。而端的深度学习方法严重依赖于数据集的数量和质量,且难以对模型进行解释。同时,两种方法都不能解决用户在手写过程中的偶然性错误,难以处理水平/上下标结构的混淆,和相似外观的字符识别,不能充分利用用户在纠错过程中的反馈信息。
[0006] 现有技术中的基于用户界面识别方法,通过约束和规范用户输入来提高手写数学公式识别,像上下标结构中利用数学框来限制上下标字符的书写位置,在一定程度上虽然能够提高识别的准确率,但是这种方法限制了用户的输入自由度,对用户的书写习惯提出了挑战,且增加了用户的认知负荷。中国专利申请CN111401353A公开了一种数学公式的识别方法、装置及设备,其采用神经网络识别每个数学字符图片的种类,利用基线识别方法识别出单个数学字符之间的相对位置,形成待识别数学公式图片的语义树。中国专利申请CN111368750A公开了一种基于深度学习的手写体数学公式识别方法,其以二叉树形的确认结构对初步识别公式进行确认和调整。但上述专利申请主要从数学公式图像处理的角度来进行公式识别,且公式识别准确率完全依赖于识别算法的识别能力,但是以图像处理为主的公式识别方法会遇到模糊,噪音,缺少笔触,背景复杂等问题,且难以结合用户在公式识别过程中的反馈信息,如对存在歧义的字符笔划进行修改的反馈信息,对用户书写过程中笔误的反馈信息等。尤其是在数学公式书写中出现偶然性错误和包含复杂结构的情况下,现有的仅依赖机器的识别算法不能完全正确识别手写数学公式。

发明内容

[0007] 针对现有方法存在的问题,本发明设计了一种基于用户反馈信息的在线手写公式识别方法及装置,通过一组交互手段来主动引入人的参与,来弥补算法无法满足用户需求的鸿沟,同时借助人机混合智能的思想,在识别算法的不同阶段(字符分割,字符识别和结构解析),融合用户反馈信息,在交互技术和融合算法的共同作用下,设计适用于用户书写和错误纠正的交互技术,提高手写数学公式识别的准确率。
[0008] 本发明的技术内容包括:
[0009] 一种基于用户反馈信息的在线手写公式识别方法,其步骤包括:
[0010] 1)将待识别的在线手写公式中的字符进行笔划分割,得到若干可允许分割集合P1;
[0011] 2)对可允许分割集合进行数学符号分类,得到最大置信度数学符号;
[0012] 3)根据最大置信度数学符号及组成最大置信度数学符号笔划的包围盒间的空间关系,构造解析树集合T1,获取识别结果A1;
[0013] 4)若识别结果Ai正确,则将识别结果Ai作为正确识别结果An,其中1≤i≤n;若识别结果Ai不正确,则用户使用删除操作获取可允许分割集合Pi+1和/或解析树集合Ti+1、使用补笔操作获取可允许分割集合Pi+1或解析树集合Ti+1、和/或使用结构性移动操作获取可允许分割集合Pi+1和/或解析树集合Ti+1,得到识别结果Ai+1,并对识别结果Ai+1进行正确性判断,直到获取正确识别结果An;
[0014] 进一步地,通过以下步骤得到可允许分割集合P1:
[0015] 1)将任意两个笔划组成一笔划对;
[0016] 2)通过笔划对之间的欧式距离,判断组成笔划对的两个笔划是否组成一个字符;
[0017] 3)若是,根据笔划对间的距离与最大距离的关系及单个字符包含最大笔划数阈值,得到可允许分割集合P1。
[0018] 进一步地,对可允许分割集合进行数学符号分类的方法包括:机器识别方法。
[0019] 进一步地,机器识别方法包括:利用一训练后的双向长短时记忆递归神经网络。
[0020] 进一步地,构造解析树集合T1的方法包括:依据上下文无关文法模型的二维扩展方法。
[0021] 进一步地,删除操作包括:删除已存在的笔划、删除某一笔划的部分点和/或调整笔迹粗细。
[0022] 进一步地,通过以下步骤使用删除操作获取可允许分割集合Pi+1:
[0023] 1)用户根据识别结果,获取错误笔划S;
[0024] 2)在若干可允许分割集合Pi中删除包含错误笔划S的可允许分割集合,得到可允许分割集合Pi+1。
[0025] 进一步地,通过以下步骤使用删除操作获取解析树集合Ti+1:
[0026] 1)用户根据识别结果,获取错误笔划S;
[0027] 2)在解析树集合Ti中删除包含错误笔划S的解析树结点,构造解析树集合Ti+1。
[0028] 进一步地,补笔操作的类别包括:符号补笔和结构性补笔;所述结构性补笔包括:分式补笔和根式补笔。
[0029] 进一步地,通过以下步骤使用补笔操作获取可允许分割集合Pi+1或解析树集合Ti+1:
[0030] 1)基于上下文中的语义信息判定补笔操作的类别;
[0031] 2)若为符号补笔,则合并补笔笔划和错误笔划为一笔,并更新可允许分割集,得到若干可允许分割集合Pi+1;若为分式补笔或根式补笔,则合并已识别的分式与补笔笔划或根式符号与补笔笔划,并依据设定结构类型,获取解析树集合Ti+1,其中设定结构类型包括:上下空间关系、内部空间关系和根式空间关系。
[0032] 进一步地,通过以下步骤使用结构性移动操作获取可允许分割集合Pi+1:
[0033] 1)获取需要移动的笔划Sb;
[0034] 2)删除未移动笔划中包含Sb笔划的可允许分割集Pi;
[0035] 3)将需要移动的笔划移动到正确位置,计算移动笔划的区域,对笔划重新进行笔划分割,得到可允许分割集合Pi+1。
[0036] 进一步地,通过以下步骤使用结构性移动操作获取解析树集合Ti+1:
[0037] 1)依据可允许分割集合Pi+1,通过空间关系模型计算结构性移动后笔划块间的空间关系,其中空间关系模型r(A,B)=[ra,rb,dx,dy,dir],A为未移动的笔划区域,B为结构性移动的笔划区域,ra为未移动的笔划区域中移动前移动笔划与原始笔划之间的空间关系,rb为结构性移动的笔划区域中移动前移动笔划与原始笔划之间的空间关系,dx与dy分别是x轴与y轴的移动距离,dir为移动方向;
[0038] 2)更新笔划块间的空间关系,得到解析树集合Ti+1。
[0039] 进一步地,若识别结果Ai不正确,在用户通过删除操作、补笔操作和/或结构性移动操作获取识别结果Ai+1之前,先判断修改时间是否大于重写时间;若修改时间大于重写时间,则删除所有笔划、可允许分割集合Pi及解析树集合Ti,且重新输入笔划;若修改时间不大于重写时间,则通过删除操作、补笔操作和/或结构性移动操作获取识别结果Ai+1。
[0040] 一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
[0041] 一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
[0042] 与现有技术相比,本发明的积极效果为:
[0043] 1)采用以笔划序列为公式识别的数据输入,避免以图像处理为主的公式识别方法会遇到模糊,噪音,缺少笔触,背景复杂等问题,且为用户修改存在笔误或歧义的笔划提供基本保障;
[0044] 2)本发明设计出了能够适用于草图识别(特别是手写数学公式)的交互手段,通过删除,补笔,结构性移动和清空等交互手段,使用户参与到手写数学公式识别当中去,在人和机器的共同作用下,提高公式识别率;
[0045] 3)在手写数学公式识别的字符分割,字符识别和结构分析三个阶段中,对用户反馈信息(通过提出的交互技术获得)进行建模,并在公式识别的三个阶段融合识别算法和用户反馈模型,从而达到提高公式识别率的效果,满足用户的需求,其中用户反馈信息主要包括对错误信息的人工检索,对错误分割、错误识别和错误结构的纠正;
[0046] 4)形成“机器识别—用户参与—机器识别模型与用户反馈模型融合—机器识别”的完整识别回路,充分利用机器的运算能力和人的认知推理能力。

附图说明

[0047] 图1是本发明的在线手写公式识别方法流程图。
[0048] 图2是本发明的删除操作流程图。
[0049] 图3是本发明的补笔操作流程图。
[0050] 图4是移动后笔划块间变化关系的示意图。
[0051] 图5是本发明的结构性移动流程图。
[0052] 图6是本发明的清空流程图。

具体实施方式

[0053] 为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0054] 本发明的基于用户反馈信息的在线手写公式识别方法,特别是基于结构化的三阶段识别算法,如图1所示,提出了删除、补笔、结构性移动和清空四个交互技术。
[0055] 一、获取最大置信度的解析树
[0056] 为了避免以图像处理为主的公式识别方法会遇到模糊,噪音,缺少笔触,背景复杂等问题,我们在手写数学公式识别中采用以笔划序列为识别的数据输入,以“符号分割—符号识别—结构解析”的传统框架来完成手写数学表达式识别,其目的在于识别一组笔划序列为O=o1o2...on所包含的字符S=s1s2...sn,并根据字符间的空间关系和数学规则构造解析树,并计算所构造解析树的置信度,其中最大置信度的解析树为识别结果。具体步骤如下:
[0057] 1)笔划分割
[0058] 手写公式的符号由一个或一个以上的笔划组成,且这些笔划在空间上非常接近(通常情况下设定一个最大距离,来表示单个公式符号内笔划间的最大距离)。例如“÷”由三个笔划组成。通过分析数学公式中包含的字符发现,数学公式的字符包含笔画数大多数不超过4笔。为此,在笔划分割阶段主要采用笔划对(两个笔划构成一个笔划对)间的欧式距离来判断这两个笔划是否组成一个字符。根据笔划对间的距离与最大距离的关系,以及单个字符最大包含笔划数不超过4为约束条件,可以将所有公式笔划划分为不同的“可允许分割集合”,可允许分割集合表示该划分出的笔划可能被识别为一个公式符号。
[0059] 2)字符识别
[0060] 对于笔划分割阶段得到的可允许分割集合,采用机器识别方法(例如双向长短时记忆递归神经网络(BLSTM‑RNN))进行数学符号分类,并得到最大置信度的数学符号。
[0061] 3)结构解析
[0062] 根据字符识别阶段识别后的符号,及组成符号笔划的包围盒间的空间关系,通过上下文无关文法模型的二维扩展方法(PCFG)构造解析树,并获得解析树的置信度,识别结果为最大置信度的解析树。其中包围盒间的空间关系包括左右,上下,上标,下标,内部和根式6种空间关系。
[0063] 二、提出的交互技术及其融合方法
[0064] 1.删除操作
[0065] 通过“删除”的笔手势触发删除操作,用户使用笔来删除已存在的笔划或某一笔划的部分点,能够根据实际需求来调整笔迹粗细。主要解决两方面问题,一是方便用户在书写错误或书写不合心意时进行修改;一是根据对已有笔划的识别反馈,用户可以使用该方式删除引起识别错误的笔划或修改某一笔划的局部区域,比如因为连笔引起的识别错误,通过删除连笔笔划的连接点来更新识别结果。如图2所示,删除操作的交互过程如下:
[0066] 1)用户根据识别结果删除识别错误的笔划,并获取删除笔划S;
[0067] 2)删除包含笔划S的可允许分割集,和/或删除包含笔划S的解析树结点,并重新根据PCFG方法构造解析树;
[0068] 3)计算解析树的置信度,并获得最大置信度的解析树(识别结果);
[0069] 2、补笔操作
[0070] 补笔操作主要包含符号补笔、分式补笔和根式补笔,其中符号补笔主要解决用户书写时由于个人书写习惯或书写速度过快而引起的符号信息缺失问题,如“a”由于书写速度过快后形成的笔划被识别为“u”,用户通过简单地在“u”符号中补笔来完成“a”符号的正确识别。而分式和根式补笔主要解分式符号和根式符号不能完全包含分子分母和根式内容的问题,其中结构性补笔为分式补笔和根式补笔的统称。
[0071] 在补笔操作时,一方面是设计用户介入算法的方式,一方面是融合算法和用户交互数据。对于算法和用户交互数据的融合,需要结合手写数学表达式E的上下文信息和用户意图,来完成算法的调整和融合。而如何融合算法和用户交互数据是人在回路中识别方法最具挑战的问题,如根式补笔中补笔笔划是根式符号的补充笔划,还是根式外符号的上横线。
[0072] 如图3所示,补笔操作过程如下:
[0073] 1)基于上下文中的语义信息判定补笔类别,主要根据补笔笔划与识别错误笔划间的距离、是否存在重叠,及覆盖区域的包含关系来判定补笔操作的性质;
[0074] 具体来说,
[0075] 2)如果是分式和根式补笔,合并已识别分式根式符号笔划和补笔笔划,并设定结构类型(主要为上下,内部,和根式三种空间关系),而后更新解析树,反馈于识别算法;
[0076] 3)针对符号补笔,则合并补笔笔划和错误笔划为一笔,并更新可允许分割集。其中,删除操作主要针对无法修改的笔划或笔误,对错误字符的补笔,主要针对能够通过添加笔划来修改错误字符的操作,如“a”由于书写速度过快后形成的笔划被识别为“u”,用户通过简单地在“u”符号中补笔来完成“a”符号的正确识别。
[0077] 其中本发明通过下述来判定补笔类型:
[0078] 经过补笔操作后,手写数学表达式笔划分为识别正确的笔划OT、错误识别笔划OF和补笔笔划oN。在融合算法中,引入了相应假设:
[0079] 1)与补笔笔划间距离超过最大距离阈值外的笔划,被认定为已被识别正确,表示为:
[0080]
[0081] OF={oi|oi∈O,d(oi,oN)>MaxDist}
[0082] 其中t'表示已经识别正确的子表达式解析树,p(t'|OT)根据识别正确的笔划OT生成解析树t'的概率,O=o1o2...on表示一组笔划序列;
[0083] 2)结合上下文信息,被认定为分式根式补笔的补笔笔划,除分式根式外,其结构内的字符已被识别正确,其表示为:
[0084] p(S|O)=1,O∈{oi|oi≠orand oi≠of},
[0085] 其中of表示已识别分式的笔划,or为已识别根式的笔划,S为在识别阶段根据可允许分割集识别的字符;
[0086] 3)补笔操作过程中,除了能够改变分式根式结构外(与之对应的算法内结构为上下below、内部inside和根式mroot),其余结构不发生改变。
[0087] 由于补笔笔划改变了已有算法的部分可接受笔划分割集合和非终结符编码区域的空间关系,为此,我们根据补笔时的相应假设和上下文语义来实现算法的融合。
[0088] 定义1:补笔笔划的区域表示为RN,补笔笔划宽度为W,错误识别笔划的区域为RF,以及标准化字符的宽度和高度分别为W0和H0。
[0089] 定义2:错误识别笔划oi和补笔笔划oN存在重叠笔划点,则认为它们是可合并笔划。
[0090] 定义3:如果 W0<W,WF≤W,表示该补笔操作为结构补笔,其中RN+F表示补笔笔划和错误笔划的合并区域,WF是错误笔划区域的宽度。
[0091] 我们需要判定模型来区别补笔操作的性质,通常是基于上下文中的语义信息来实现的。本文根据补笔笔划与识别错误笔划间的距离、是否存在重叠,及覆盖区域的包含关系来判定补笔操作的性质。如果补笔操纵为结构补笔,则根据错误识别中的表示结构的笔划合并,并修正空间关系概率和解析树概率,其表示为:
[0092]
[0093]
[0094] 其中pi为笔划中的点,oc为结合结构笔划和补笔笔划的合并笔划,ost是错误识别中表示结构的笔划, 表示错误识别笔划中结构笔划识别的字符,‘\sqrt’和‘\frac’是Latex下根式和分式字符的表示,R、T、M、F和Z分别表示根式、根式内容、分母、分号和分子所对应的非终结符。由于补笔后其分式和根式空间关系已知,所以错误笔划构造解析树概率计算方式与基础算法的有所不同。
[0095] 分式补笔解析树概率计算如下,非终结符Af'和Af”分别根据分母和分号,分子和分号所表示的非终结符推导而成。
[0096]
[0097] where p(r|MF)p(r|FZ)=1
[0098] 根式补笔解析树概率计算如下,Ar'根据根式内容和根号所表示的非终结符推导而成的非终结符。
[0099]
[0100]
[0101] 其中,p(r|RT)=1,A、B、C为根式内容、分母和分子内包含的非终结符,α为终结符,p(r|BC)表示非终结符B和C编码区域的空间关系概率。
[0102] 如果补笔操作是针对错误字符的,则合并补笔笔划和错误笔划为集合O′,重新计算错误识别笔划的可分割集合bE,并反馈于基础识别算法,根据可分割集合bE进行字符识别和表达式识别。其中,
[0103] O′=OF+oN
[0104] bE={bi|oi,oj∈O',d(oi,oj)<MaxDistand|bi|≤Lmax}
[0105] 3、结构性移动
[0106] 主要解决手写公式识别中的控件关系问题,特别是上下标结构中,由于表示上下标内容的笔划在空间位置中不能被完全识别正确的问题。结构性移动主要包括选择和移动,选择是为了选择需要移动的笔划,移动是指将所选笔划移动到用户认为合适的位置。我们基于上下文理解用户的意图来判断用户采用结构性移动后空间结构的变化,上下文包含:结构化移动前移动笔划块与原始笔划块间的空间关系ra和rb(移动笔划块将公式分割未三块,分别为移动笔划块,移动笔划块前的笔划块,移动笔划块后的笔划块),移动距离dx和dy,移动方向dir。移动后笔划块间的变化关系如图4所示,其中A表示未移动的笔划区域,B表示结构性移动的笔划区域。
[0107] 结构性移动后的空间关系模型为r(A,B)=[ra,rb,dx,dy,dir]
[0108] 如图5所示,结构性移动操作过程如下:
[0109] 1)获取结构性移动操作的笔划(块)Sb;
[0110] 2)删除未移动笔划中包含Sb笔划的可允许分割集;
[0111] 3)将结构性移动操作的笔划(块)区域内的笔划重新进行笔划分割,并得到该笔划区域内的可允许分割集合和字符识别结果;
[0112] 4)更新结构性移动后公式的可允许分割集合;
[0113] 5)通过空间关系模型计算结构性移动后笔划块间的空间关系;
[0114] 6)更新笔划块间的空间关系及解析树,并反馈于识别算法。
[0115] 4、清空操作
[0116] 如图6所示,本发明的清空操作主要解决无法通过局部修正已有笔划来完成识别任务,或局部修正时间远远超出重写时间等导致的需要清除全部笔划问题。主要操作为删除所有笔划,可允许分割集合及其相关解析树。
[0117] 以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明专利范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应当以所附权利要求为准。