公式识别方法、装置、电子设备及存储介质转让专利
申请号 : CN202111212601.5
文献号 : CN113657353B
文献日 : 2022-03-11
发明人 : 袁野 , 刘辉 , 刘霄
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种公式识别方法,包括:获取包含公式的待识别图像;
基于解码器网络,对所述公式的树结构进行识别,得到所述公式包括的字符,其中,所述树结构包括的节点与所述公式包括的字符相对应;
基于所述解码器网络的关系分支,确定所述树结构中的节点之间的空间位置关系,其中,所述空间位置关系包括,以所述树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系;
其中,所述解码器网络包括注意力网络,所述基于解码器网络,对所述公式的树结构进行识别,包括:
利用所述注意力网络,基于所述父节点的语义信息以及提取的图像特征,确定注意力热图,其中,所述注意力热图用于表征所述提取的图像特征对所述父节点的语义信息的响应;
所述解码器网络包括第二门控神经网络,并且其中,所述基于解码器网络,对所述公式的树结构进行识别,包括:
对所述注意力热图以及所述提取的图像特征进行加权处理,得到加权的视觉特征;以及
利用所述第二门控神经网络,基于所述父节点的语义信息以及所述加权的视觉特征,得到下一节点的隐状态信息,其中,所述下一节点为所述父节点的子节点。
2.根据权利要求1所述的方法,其中,所述解码器网络包括第一门控神经网络,并且其中,所述基于解码器网络,对所述公式的树结构进行识别,包括:对所述待识别图像进行特征提取,得到所述提取的图像特征;
以所述树结构中的当前已知节点为父节点的情况下,利用所述第一门控神经网络,基于所述父节点的隐状态信息、所述父节点的字符信息以及所述提取的图像特征,确定所述父节点的语义信息。
3.根据权利要求1所述的方法,还包括:基于所述加权的视觉特征、所述下一节点的隐状态信息以及所述父节点的字符信息,确定所述下一节点的状态信息;以及基于所述下一节点的状态信息,确定所述下一节点的字符。
4.根据权利要求3所述的方法,其中,所述基于所述下一节点的状态信息,确定所述下一节点的字符,包括:
基于所述下一节点的状态信息,利用所述解码器网络的第一全连接层,确定所述公式包括的字符的概率值;
将具有最大概率的字符确定为所述下一节点的字符。
5.根据权利要求3或4所述的方法,在所述基于所述加权的视觉特征、所述下一节点的隐状态信息以及所述父节点的字符信息,确定所述下一节点的状态信息之后,还包括:基于所述下一节点的状态信息,预测所述下一节点与其子节点空间位置关系。
6.根据权利要求5所述的方法,其中,所述基于所述下一节点的状态信息,预测所述下一节点与其子节点空间位置关系,包括:基于所述下一节点的状态信息,利用所述解码器网络的第二全连接层,确定多个预设空间位置关系中每个预设空间位置关系的概率值;
将其概率值大于概率值阈值的预设空间位置关系,确定为所述下一节点与其子节点的空间位置关系。
7.一种公式识别装置,包括:获取模块,配置为获取包含公式的待识别图像;
识别模块,配置为基于解码器网络,对所述公式的树结构进行识别,得到所述公式包括的字符,其中,所述树结构包括的节点与所述公式包括的字符相对应;
确定模块,配置为基于所述解码器网络的关系分支,确定所述树结构中的节点之间的空间位置关系,其中,所述空间位置关系包括,以所述树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系;
其中,所述识别模块,配置为利用所述解码器网络所包括的注意力网络,基于所述父节点的语义信息以及提取的图像特征,确定注意力热图,其中,所述注意力热图用于表征所述提取的图像特征对所述父节点的语义信息的响应;
所述识别模块,配置为基于所述解码器网络所包括的第二门控神经网络,对所述注意力热图以及所述提取的图像特征进行加权处理,得到加权的视觉特征;以及利用所述第二门控神经网络,基于所述父节点的语义信息以及所述加权的视觉特征,得到下一节点的隐状态信息,其中,下一节点为所述父节点的子节点。
8.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1‑6中任一项所述的方法。
说明书 :
公式识别方法、装置、电子设备及存储介质
技术领域
背景技术
式识别的应用程序获取到待识别图像之后,采用模式识别算法识别图像中的公式。然而,采
用现有的模式识别算法计算复杂度较高,而且识别精度低,有待改进。
发明内容
节点之间的位置关系。
节点与其对应的子节点之间的位置关系。
于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系
包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的
位置关系。从而,通过解码器网络对公式的识别处理,可以得到公式中的各个字符及公式中
各个字符之间的空间位置关系,以便根据公式中的各个字符及公式中各个字符之间的空间
位置关系得到目标公式。由此,可以提高对公式识别的精度。
附图说明
具体实施方式
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中
的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术
语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,
或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征
可以为一个或多个,第二特征也可以为一个或多个。
本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
输入到解码器进行解密。针对手写的公式图片识别场景而言,该公式图片与普通文本不同,
公式具有二维结构,各个字符之间存在不同的空间位置关系,相对普通文本的识别,识别难
度更高,可以根据公式中字符之间位置关系的不同,将公式进行树结构的展开,以针对该公
式树的展开形式进行识别。
型的效率也不高。鉴于此,本公开提供一种公式识别方案,可以有效降低计算复杂度,避免
模块的冗余,提高了模型运行速度,以及提高模型识别准确率。
服务器或其它处理设备执行的情况下,可以执行公式识别等处理。其中,终端可以为用户设
备(UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal
Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方
式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1
所示,方法可以包括如下步骤。
器网络的信息包括:针对该父节点的第一状态信息(如父节点隐状态信息)、针对该父节点
的编码信息(如父节点字符的编码表示)、由编码器提取的图像特征及历史注意力信息。
到的运算结果进行归一化处理,比如基于归一化指数函数进行运算,将运算得到的概率最
大的字符作为从该公式中识别出的各个字符。
与其对应的子节点之间的位置关系。
从该公式中识别出各目标字符之间的空间位置关系。
的识别结果。
器网络的关系分支,确定树结构中的节点之间的空间位置关系,空间位置关系包括,以树结
构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。从
而,通过解码器网络对公式的识别处理,可以得到公式中的各个字符及公式中各个字符之
间的空间位置关系,以便根据公式中的各个字符及公式中各个字符之间的空间位置关系得
到目标公式,由此,可以提高对公式识别的精度。
中各个待识别节点的所有子节点的位置关系信息进行了明确,进而获得公式中各节点之间
更全面的位置关系,减少了计算复杂度,从而提高了对公式的识别速度,而且识别精度高。
第一门控神经网络,基于父节点的隐状态信息、父节点的字符信息以及提取的图像特征,确
定父节点的语义信息。采用本实施方式,通过第一门控神经网络的处理,可以将提取的图像
特征作为新的状态信息(即:有别于第一状态信息的第二状态信息)输出,最终输出针对该
父节点的第二状态信息,以便基于该第二状态信息的运算来提高识别精度。
取的图像特征对父节点的语义信息的响应。采用本实施方式,通过注意力网络的处理,可以
输出注意力热图,以便基于该注意力热图的运算来提高识别精度。
于父节点的语义信息以及加权的视觉特征,得到下一节点的隐状态信息,其中,下一节点为
父节点的子节点。采用本实施方式,可以将注意力热图与该提取的图像特征相乘,得到加权
的视觉特征,以便基于该加权的视觉特征进行运算,可以提高识别精度。
字符。采用本实施方式,通过第二门控神经网络的处理,可以基于该加权的视觉特征、下一
节点的隐状态信息以及该父节点的字符信息,确定下一节点的状态信息,进而基于该下一
节点的状态信息确定下一节点的字符,可以提高识别精度。
有最大概率的字符确定为下一节点的字符。采用本实施方式,将具有最大概率的字符确定
为下一节点的字符,识别精度更高。
构中各个节点与其对应的子节点之间的位置关系,以便根据公式中的各个字符及公式中各
个字符之间的空间位置关系得到目标公式,由此,可以提高对公式识别的精度。
间位置关系中每个预设空间位置关系的概率值;将其概率值大于概率值阈值的预设空间位
置关系,确定为下一节点与其子节点的空间位置关系。采用本实施方式,可以通过解码器网
络的第二全连接层识别得到最终预测的各字符的空间位置,即从公式中识别出的目标字符
间的空间位置关系,以便基于从公式中所识别出的该目标字符间的空间位置关系进行运
算,可以提高识别精度。
父节点字符的编码表示;提取的图像特征为从待识别图像中提取的图像信息。
~
概率大小,概率值越大代表模型更关注该区域。将注意力热图与编码器提取的特征相乘,得
到加权后的视觉特征。
回。
骤205输出的结果。
位置关系)。
及sigmoid模块;其中,由第二全连接层及softmax模块构成字符分支,由第一全连接层及
sigmoid模块构成关系分支。将父节点隐状态信息及父节点字符信息输入该第一门控神经
网络并进行信息提取处理,输出得到父节点新的状态信息。将该父节点新的状态信息以及
历史注意力信息输入该注意力网络并进行注意机制处理,得到注意力热图。将该注意力热
图及提取的图像特征(即对待识别图像提取特征所得到的该图像特征)进行加权处理,得到
加权后的视觉特征。将该父节点新的状态信息、该加权后的视觉特征输入该第二门控神经
网络并进行信息提取处理,输出得到最终的隐状态信息。将该加权后的视觉特征输入一全
连接层并运算,得到第一运算结果,将该最终的隐状态信息输入另一全连接层并运算,得到
第二运算结果,将该父节点字符向量输入又一全连接层并运算,得到第三运算结果,根据该
第一运算结果、该第二运算结果及该第三运算结果进行求和处理,得到第四运算结果。在该
字符分支中将该第四运算结果通过该第二全连接层运算,并经softmax模块的归一化运算,
将得到的概率最大的字符为从公式中识别出来,并作为最终的各个目标字符。在该关系分
支中将该第四运算结果通过该第一全连接层运算后经sigmoid模块进行逻辑回归运算,根
据大于阈值“0.5”的运算结果,从公式中识别出该各目标字符之间的空间位置关系。
而大大降低了网络参数量,使得解码器迭代速度更快,有效降低了解码器设计的计算复杂
度,从而提高了识别速度,而且,识别出公式中的各个目标字符,以及该各目标字符之间的
空间位置关系后,既锁定了各个目标字符,又锁定了各目标字符之间的空间位置关系,可以
提高识别精度。
待识别图像;识别模块402,配置为基于解码器网络,对公式的树结构进行识别,得到公式包
括的字符,其中,树结构包括的节点与公式包括的字符相对应;确定模块403,配置为基于解
码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包
括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位
置关系。
点的情况下,利用第一门控神经网络,基于父节点的隐状态信息、父节点的字符信息以及提
取的图像特征,确定父节点的语义信息。
的图像特征对父节点的语义信息的响应。
门控神经网络,基于父节点的语义信息以及加权的视觉特征,得到下一节点的隐状态信息,
其中,下一节点为父节点的子节点。
下一节点的字符。
的字符。
概率值大于概率值阈值的预设空间位置关系,确定为下一节点与其子节点的空间位置关
系。
程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
实施例的方法。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
来执行各种适当的动作和处理。在RAM 503中,还可存储设备800操作所需的各种程序和数
据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也
连接至总线504。
的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。
智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及
任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。
例如,在一些实施例中,本公开实施例的方法可被实现为计算机软件程序,其被有形地包含
于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经
由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算
单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例
的方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。