马赫带效应模拟的点光源金属钢印文字检测方法转让专利

申请号 : CN201910951390.3

文献号 : CN110688999B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘玲杨静

申请人 : 合肥海诺恒信息科技有限公司

摘要 :

本发明涉及一种马赫带效应模拟的点光源金属钢印文字检测方法,含有以下步骤:1、在点光源下使用面阵相机对待检测金属钢印进行拍照,得到一帧输入图像数据;2、对输入图像数据进行预处理操作;3、建立基于马赫带的自求商模拟图像;4、根据整型或浮点型量化形式使用映射函数将自求商模拟图像的值域进行归一化;5、将归一化后的图像输入基于深度神经网络的文字检测器,得到文字包络区域;6、将文字包络区域进行透视变换,求解透视变换矩阵;7、将透视变换后的图像输入光字符识别网络,得到金属钢印文字的识别结果;本发明使用点光源对金属钢印文字进行检测,降低了检测装置的复杂度、限定程度及装置规模,检测准确度高,速度快,成本低。

权利要求 :

1.一种马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:含有以下步骤:步骤一、使面阵相机面向待检测金属钢印,待检测金属钢印区域位于面阵相机视野内,在点光源下用面阵相机进行拍照,捕捉到一帧待检测金属钢印的输入图像数据;

步骤二、对面阵相机的输入图像数据进行预处理操作,经过预处理操作后得到图像S;

步骤三、基于马赫带效应建模,使用图像S建立基于马赫带的自求商模拟图像R,基于马赫带的自求商模拟图像R的表达式如下:其中,Si,j是图像S在位置(i,j)处的像素亮度值,Bi,j是图像B在位置(i,j)处的像素亮度值,mean(S)和mean(B)分别是对图像S和图像B整体求得的均值;

B是一种通过处理后的图像,使用带有抖动的扩张均值卷积窗K对图像S做卷积,得到图像B;

步骤四、根据整型或浮点型量化形式使用映射函数将自求商模拟图像R的值域进行归一化,得到待输入深度神经网络的图像U;

步骤五、将图像U输入基于深度神经网络的文字检测器,得到文字包络区域;

步骤六、将文字包络区域进行透视变换,通过文字包络区域的四个角点求解透视变换矩阵,得到透视变换后的图像;

步骤七、将透视变换后的图像输入光字符识别网络,得到金属钢印文字的识别结果。

2.根据权利要求1所述的马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:所述步骤二中的预处理操作分两种情况:当面阵相机为RGB彩色相机时,使用最暗通道原则提取输入图像的亮度值,得到图像S;

当面阵相机为灰度相机时,直接将输入图像作为图像S;

最暗通道原则的表达式如下:

Pi,j=min(Ri,j,Gi,j,Bi,j)其中(i,j)是指输入图像的像素位于输入图像某通道的第i行第j列,Ri,j,Gi,j,Bi,j分别代表输入图像在位置(i,j)处的像素中R,G,B通道分量值,Pi,j是指位置(i,j)处的输入图像的R,G,B通道中最小亮度值。

3.根据权利要求1所述的马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:所述卷积窗K如下:

其中,p为均值权重,W为普通的均值窗。

4.根据权利要求3所述的马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:使用积分图I对所述均值窗W进行加速,对于图像S,积分图I通过加和公式表示如下:I(i,j)=∑x

I(i,j)=I(i-1,j)+I(i,j-1)-I(i-1,j-1)+S(i,j)。

5.根据权利要求1所述的马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:所述步骤四中,当深度神经网络的输入量化格式为INT8时,有映射函数 根据函数映射特性计算位深为8bit的图像查找表T:Tx(x∈[0,255])=M(x)*255对自求商模拟图像R进行查表转换,得到待输入深度神经网络的图像U:Ui,j=T(Si,j*255);

当深度神经网络的输入量化格式为浮点型时,使用映射函数 计算,得到待输入深度神经网络的图像U。

6.根据权利要求1所述的马赫带效应模拟的点光源金属钢印文字检测方法,其特征是:所述步骤六中,文字包络区域由四边形代替,透视变换关系如下:该关系式中,等号的左侧为目标位置,等号的右侧为转移矩阵A和像素原始位置齐次项,求解矩阵A,每个点有:

4点组成适定方程,求得矩阵A;4点的目标位置确定下一级网络输入(h*w)的图像大小构成,4点的目标位置为:P(0,0),P(0,h-1),P(w-1,0),P(w-1,h-1);

至此,得到(h*w)区域内透视变换后的图像。

说明书 :

马赫带效应模拟的点光源金属钢印文字检测方法

技术领域:

[0001] 本发明涉及一种文字检测方法,特别涉及一种马赫带效应模拟的点光源金属钢印文字检测方法。背景技术:
[0002] 金属零件(如变速箱)的箱体外侧面上或者电机、内燃机外壳的侧面上的铭牌上通常都会打上钢印,所打的钢印文字或凸起或凹陷,在工业化生产中或其它自动化过程中,当要用到某一金属零件时,就需要对其身份进行识别,即需要对金属零件外壳侧面上的钢印进行文字检测,目前的检测方法主要有:
[0003] 使用同轴光源打出文字基线的高光区域。由于此方法对光源的调试要求较高,通常使用在批量生产的流水线上,而对于灵活配置或动态配置的单件生产线而言没有实用意义。
[0004] 另一种方法是使用激光线扫描方式或使用ToF或其他深度相机获取金属零件某视角的三维点云,并得到文字凸凹特征,并进行光字符识别。此方法不仅对调试的要求较高,而且对金属零件的位姿有一定的要求,因而对于没有确切零件位姿的情况下,无法进行光字符识别。
[0005] 目前随着深度神经网络的推广,光字符识别可以实现检测文字区域并提供透视变换信息,对透视变换后的区域进行文字识别的功能。传统的基于模板匹配、二值化特征提取等方法在准确度、处理速度、高容错等方面均弱于深度神经网络方法,而上述常见的钢印光字符识别方法只能通过二值化特征提取等基于分割的方法完成,性能上存在不足。
[0006] 对于工业光源而言,高斯光、同轴光意味着设备臃肿,检测区域庞大,占地面积大,无法灵活嵌入到常见的紧凑环境中。
[0007] 然而,不使用理想光源则会导致凹凸不平的物体在光源下产生的高频特征不一致性。一种极端例子是,点光源是光源不均衡的极端表现形式,目前的检测系统难以克服点光源产生的高光、阴影、高频特征不一致的问题。同时,现有的集成度高的自带主动光源的工业相机,无法在高强度曝光的环境下正常使用。
[0008] 因此,现有的设备和方法无法满足视觉检测应用场景的多样性。发明内容:
[0009] 本发明要解决的技术问题是:提供一种马赫带效应模拟的点光源金属钢印文字检测方法,该方法极大程度上降低了检测装置的复杂度、限定程度及装置规模,检测准确度高,速度快,成本低。
[0010] 本发明的技术方案:
[0011] 一种马赫带效应模拟的点光源金属钢印文字检测方法,含有以下步骤:
[0012] 步骤一、使面阵相机面向待检测金属钢印,待检测金属钢印区域位于面阵相机视野内,在点光源下用面阵相机进行拍照,捕捉到一帧待检测金属钢印的输入图像数据;
[0013] 步骤二、对面阵相机的输入图像数据进行预处理操作,经过预处理操作后得到图像S;
[0014] 步骤三、基于马赫带效应建模,使用图像S建立基于马赫带的自求商模拟图像R;
[0015] 马赫带效应是一种心理学视觉效应,即人对物体的明暗边界具有主动增强的能力,同时能够在亮度缓慢变化的区域内消除亮度的不一致性的视觉能力。
[0016] 得到的马赫带模拟图像R的幅值不处于归一化的范围,但大部分位于0附近;
[0017] 步骤四、根据整型或浮点型量化形式使用映射函数将自求商模拟图像R的值域进行归一化,得到待输入深度神经网络的图像U;
[0018] 步骤五、将图像U输入基于深度神经网络的文字检测器,得到文字包络区域;
[0019] 步骤六、将文字包络区域进行透视变换,通过文字包络区域的四个角点求解透视变换矩阵,得到透视变换后的图像;
[0020] 步骤七、将透视变换后的图像输入光字符识别网络,得到金属钢印文字的识别结果。
[0021] 步骤二中的预处理操作分两种情况:当面阵相机为RGB彩色相机时,使用最暗通道原则提取输入图像的亮度值,得到图像S;
[0022] 当面阵相机为灰度相机时,无需进行任何操作,直接将输入图像作为图像S。
[0023] 最暗通道原则的表达式如下:
[0024] Pi,j=min(Ri,j,Gi,j,Bi,j)
[0025] 其中(i,j)是指输入图像的像素位于输入图像某通道的第i行第j列,Ri,j,Gi,j,Bi,j分别代表输入图像在位置(i,j)处的像素中R(红),G(绿),B(蓝)通道分量值,Pi,j是指位置(i,j)处的输入图像的R,G,B通道中最小亮度值。
[0026] 步骤三中的基于马赫带的自求商模拟图像R的表达式如下:
[0027]
[0028] 其中,Si,j是图像S在位置(i,j)处的像素亮度值,Bi,j是图像B在位置(i,j)处的像素亮度值,mean(S)和mean(B)分别是对图像S和图像B整体求得的均值;
[0029] B是一种通过处理后的图像,可通过近似的均值卷积实现,然而一般的均值卷积在自求商过程中会遇到过于平滑的问题,从而出现自求商效果劣化的情况,因此,使用带有抖动的扩张均值卷积窗K对图像S做卷积,得到图像B。
[0030] 卷积窗K如下:
[0031] 其中,p为均值权重,W为普通的均值窗。
[0032] 上述计算的计算量在紧凑相机的低功耗处理器中是极为可观的,因此,使用积分图I对所述均值窗W进行加速,积分图能够描述当前位置与原点构成的矩形内所有像素幅值之和。对于图像S,积分图I的简明概念可以通过加和公式表示如下:
[0033] I(i,j)=∑x
[0034] 整理上述规则构建积分图:
[0035] I(i,j)=I(i-1,j)+I(i,j-1)-I(i-1,j-1)+S(i,j)。
[0036] 此方法可以节省滑动窗口时的计算量。
[0037] 步骤四中,考虑深度神经网络的输入量化格式:
[0038] 当深度神经网络的输入量化格式为INT8时,
[0039] 有映射函数 根据函数映射特性计算位深为8bit的图像查找表T:
[0040] Tx(x∈[0,255])=M(x)*255
[0041] 对自求商模拟图像R进行查表转换,得到待输入深度神经网络的图像U:
[0042] Ui,j=T(Si,j*255);
[0043] 当深度神经网络的输入量化格式为浮点型时,
[0044] 使用映射函数 计算,得到待输入深度神经网络的图像U。
[0045] 此时无法通过查找表加速,但一般通过浮点计算的深度神经网络都会运行在特定的加速器芯片中,因此不存在性能瓶颈。
[0046] 步骤六中,一般的文字包络区域可以由四边形代替,因此,有透视变换关系如下:
[0047]
[0048] 该关系式中,等号的左侧为目标位置,等号的右侧为转移矩阵A和像素原始位置齐次项,
[0049] 求解矩阵A,每个点有:
[0050]
[0051]
[0052] 4点组成适定方程,求得矩阵A;4点的目标位置确定下一级网络输入(h*w)的图像大小构成,4点的目标位置为:
[0053] P(0,0),P(0,h-1),P(w-1,0),P(w-1,h-1);
[0054] 至此,得到(h*w)区域内透视变换后的图像,对光字符识别网络而言,这是一种高质量的输入图像。
[0055] 本发明的有益效果:
[0056] 1、本发明使用面阵相机,基于马赫带效应的建模方法,解决了在点光源下捕捉到的金属钢印的阴影、高频特征非一致性问题,同时提供了实用的加速后处理方法,能够将图像对接至现有的光字符识别深度神经网络中;本发明通过对图像的有效处理,即可实现高性能的灵活的金属钢印文字检测,准确度高。
[0057] 2、本发明对光源均一性要求较低,可以使用普通的点光源,对待检零件的位姿要求低,极大程度上降低了检测装置的复杂度、限定程度及装置规模。检测成本低。
[0058] 3、本发明的后处理方法中使用了积分图对均值窗进行加速,使用了映射函数查表法提高了处理速度,效率很高。附图说明:
[0059] 图1为使用手机在手机闪光灯下所捕捉到的金属零件钢印图像;
[0060] 图2为通过本发明方法处理后待输入光字符识别网络的图像。具体实施方式:
[0061] 马赫带效应模拟的点光源金属钢印文字检测方法,含有以下步骤:
[0062] 步骤一、使手机面向待检测金属钢印,待检测金属钢印区域位于手机摄像头视野内,在手机闪光灯的点光源下用手机进行拍照,捕捉到一帧待检测金属钢印的输入图像数据,如图1所示;
[0063] 步骤二、对手机的输入图像数据进行预处理操作,经过预处理操作后得到图像S;
[0064] 步骤三、基于马赫带效应建模,使用图像S建立基于马赫带的自求商模拟图像R;
[0065] 马赫带效应是一种心理学视觉效应,即人对物体的明暗边界具有主动增强的能力,同时能够在亮度缓慢变化的区域内消除亮度的不一致性的视觉能力。
[0066] 得到的马赫带模拟图像R的幅值不处于归一化的范围,但大部分位于0附近;
[0067] 步骤四、根据整型或浮点型量化形式使用映射函数将自求商模拟图像R的值域进行归一化,得到待输入深度神经网络的图像U;
[0068] 步骤五、将图像U输入基于深度神经网络的文字检测器,得到文字包络区域;
[0069] 步骤六、将文字包络区域进行透视变换,通过文字包络区域的四个角点求解透视变换矩阵,得到透视变换后的图像,如图2所示;
[0070] 步骤七、将透视变换后的图像输入光字符识别网络,得到金属钢印文字的识别结果。
[0071] 步骤二中的预处理操作分两种情况:当手机设为RGB彩色相机时,使用最暗通道原则提取输入图像的亮度值,得到图像S;
[0072] 当手机设为灰度相机时,无需进行任何操作,直接将输入图像作为图像S。
[0073] 最暗通道原则的表达式如下:
[0074] Pi,j=min(Ri,j,Gi,j,Bi,j)
[0075] 其中(i,j)是指输入图像的像素位于输入图像某通道的第i行第j列,Ri,j,Gi,j,Bi,j分别代表输入图像在位置(i,j)处的像素中R(红),G(绿),B(蓝)通道分量值,Pi,j是指位置(i,j)处的输入图像的R,G,B通道中最小亮度值。
[0076] 步骤三中的基于马赫带的自求商模拟图像R的表达式如下:
[0077]
[0078] 其中,Si,j是图像S在位置(i,j)处的像素亮度值,Bi,j是图像B在位置(i,j)处的像素亮度值,mean(S)和mean(B)分别是对图像S和图像B整体求得的均值;
[0079] B是一种通过处理后的图像,可通过近似的均值卷积实现,然而一般的均值卷积在自求商过程中会遇到过于平滑的问题,从而出现自求商效果劣化的情况,因此,使用带有抖动的扩张均值卷积窗K对图像S做卷积,得到图像B。
[0080] 卷积窗K如下:
[0081] 其中,p为均值权重,W为普通的均值窗。
[0082] 以3×3为例:
[0083]
[0084] 此时,扩张均值卷积窗实现了数值抖动,但没有增加噪声。
[0085] 上述计算的计算量在紧凑相机的低功耗处理器中是极为可观的,因此,使用积分图I对所述均值窗W进行加速,积分图能够描述当前位置与原点构成的矩形内所有像素幅值之和。对于图像S,积分图I的简明概念可以通过加和公式表示如下:
[0086] I(i,j)=∑x
[0087] 整理上述规则构建积分图:
[0088] I(i,j)=I(i-1,j)+I(i,j-1)-I(i-1,j-1)+S(i,j)。
[0089] 以求锚点位于(a,b)的像素,窗口大小为3×3的均值为例,均值W为:
[0090] W(a,b)=(I(a+1,b+1)-I(a-1,b-1))*p
[0091] 此方法可以节省滑动窗口时的计算量。
[0092] 步骤四中,考虑深度神经网络的输入量化格式:
[0093] 当深度神经网络的输入量化格式为INT8时,
[0094] 有映射函数 根据函数映射特性计算位深为8bit的图像查找表T:
[0095] Tx(x∈[0,255])=M(x)*255
[0096] 对自求商模拟图像R进行查表转换,得到待输入深度神经网络的图像U:
[0097] Ui,j=T(Si,j*255);
[0098] 当深度神经网络的输入量化格式为浮点型时,
[0099] 使用映射函数 计算,得到待输入深度神经网络的图像U。
[0100] 此时无法通过查找表加速,但一般通过浮点计算的深度神经网络都会运行在特定的加速器芯片中,因此不存在性能瓶颈。
[0101] 步骤六中,一般的文字包络区域可以由四边形代替,因此,有透视变换关系如下:
[0102]
[0103] 该关系式中,等号的左侧为目标位置,等号的右侧为转移矩阵A和像素原始位置齐次项,
[0104] 求解矩阵A,每个点有:
[0105]
[0106]
[0107] 4点组成适定方程,求得矩阵A;4点的目标位置确定下一级网络输入(h*w)的图像大小构成,4点的目标位置为:
[0108] P(0,0),P(0,h-1),P(w-1,0),P(w-1,h-1);
[0109] 至此,得到如图2所示的(h*w)区域内透视变换后的图像,对光字符识别网络而言,这是一种高质量的输入图像。