一种基于深度学习模型的OCR识别方法及终端转让专利
申请号 : CN201910067240.6
文献号 : CN109784342B
文献日 : 2021-03-12
发明人 : 林玉玲 , 郝占龙 , 陈文传 , 吴建杭 , 庄国金 , 方恒凯
申请人 : 厦门商集网络科技有限责任公司
摘要 :
权利要求 :
1.一种基于深度学习模型的OCR识别方法,其特征在于,包括:S1、将预设的字符片段图像分割成多个单字符图像,得到单字符图像集合;
S2、预设的第一OCR深度学习模型依次识别所述单字符图像集合中的元素,得到第一特征向量集合;一所述单字符图像对应一第一特征向量;
S3、根据预设的特征数据库,将所述第一特征向量集合中的每一第一特征向量转换为对应的单字符,得到单字符集合;所述特征数据库中的一条记录保存一单字符和与所述一单字符对应的特征向量;
S4、排列所述单字符集合中的元素,得到与所述字符片段图像对应的字符串;
所述S2之前,还包括:
S61、从预设的第一训练样本集中获取一样本;
S62、预设的第二OCR深度学习模型识别所述一样本,得到第二特征向量;
S63、根据预设的损失函数计算所述第二特征向量的损失值;
S64、根据所述损失值调整所述第二OCR深度学习模型的参数;
S65、重复执行S61至S64,直至所述第一训练样本集被遍历,得到所述第一OCR深度学习模型;
所述预设的损失函数,具体为:其中, L为所述损失值,m为类别间距,s为样本的模,W为所述第二OCR深度学习模型的权重,X为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
2.根据权利要求1所述的基于深度学习模型的OCR识别方法,其特征在于,所述S2之前,还包括:
S51、从所述单字符图像集合中获取一单字符图像,得到第一单字符图像;
S52、获取所述第一单字符图像的长宽比例;
S53、将所述第一单字符图像的最长边缩放至预设的像素,并根据所述长宽比例缩放所述第一单字符图像中除所述最长边之外的其它边,得到第二单字符图像;
S54、当所述第二单字符图像中存在边长小于所述预设的像素的边时,使用所述第一单字符图像的背景图像填充所述第二单字符图像,得到第三单字符图像;所述第三单字符图像的长和宽均为所述预设的像素;
S55、重复执行S51至S54,直至所述单字符图像集合被遍历。
3.根据权利要求2所述的基于深度学习模型的OCR识别方法,其特征在于,所述S3之前,还包括:
获取与第四单字符对应的预设数量样本,得到第二训练样本集;
所述第一OCR深度学习模型识别所述第二训练样本集,得到第三特征向量集合;
获取与所述第三特征向量集合对应的平均特征向量;
添加所述第四单字符和所述平均特征向量至所述特征数据库。
4.根据权利要求3所述的基于深度学习模型的OCR识别方法,其特征在于,所述S4具体为:
获取所述单字符图像集合中每一所述单字符图像在所述字符片段图像中的坐标,得到坐标信息;
根据所述坐标信息排列所述单字符集合中的元素,得到与所述字符片段图像对应的字符串。
5.一种基于深度学习模型的OCR识别终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:S1、将预设的字符片段图像分割成多个单字符图像,得到单字符图像集合;
S2、预设的第一OCR深度学习模型依次识别所述单字符图像集合中的元素,得到第一特征向量集合;一所述单字符图像对应一第一特征向量;
S3、根据预设的特征数据库,将所述第一特征向量集合中的每一第一特征向量转换为对应的单字符,得到单字符集合;所述特征数据库中的一条记录保存一单字符和与所述一单字符对应的特征向量;
S4、排列所述单字符集合中的元素,得到与所述字符片段图像对应的字符串;
所述S2之前,还包括:
S61、从预设的第一训练样本集中获取一样本;
S62、预设的第二OCR深度学习模型识别所述一样本,得到第二特征向量;
S63、根据预设的损失函数计算所述第二特征向量的损失值;
S64、根据所述损失值调整所述第二OCR深度学习模型的参数;
S65、重复执行S61至S64,直至所述第一训练样本集被遍历,得到所述第一OCR深度学习模型;
所述预设的损失函数,具体为:其中, L为所述损失值,m为类别间距,s为样本的模,s和m为所述第二OCR深度学习模型的超参数,W为所述第二OCR深度学习模型的权重,X为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
6.根据权利要求5所述的基于深度学习模型的OCR识别终端,其特征在于,所述S2之前,还包括:
S51、从所述单字符图像集合中获取一单字符图像,得到第一单字符图像;
S52、获取所述第一单字符图像的长宽比例;
S53、将所述第一单字符图像的最长边缩放至预设的像素,并根据所述长宽比例缩放所述第一单字符图像中除所述最长边之外的其它边,得到第二单字符图像;
S54、当所述第二单字符图像中存在边长小于所述预设的像素的边时,使用所述第一单字符图像的背景图像填充所述第二单字符图像,得到第三单字符图像;所述第三单字符图像的长和宽均为所述预设的像素;
S55、重复执行S51至S54,直至所述单字符图像集合被遍历。
7.根据权利要求6所述的基于深度学习模型的OCR识别终端,其特征在于,所述S3之前,还包括:
获取与第四单字符对应的预设数量样本,得到第二训练样本集;
所述第一OCR深度学习模型识别所述第二训练样本集,得到第三特征向量集合;
获取与所述第三特征向量集合对应的平均特征向量;
添加所述第四单字符和所述平均特征向量至所述特征数据库。
8.根据权利要求7所述的基于深度学习模型的OCR识别终端,其特征在于,所述S4具体为:
获取所述单字符图像集合中每一所述单字符图像在所述字符片段图像中的坐标,得到坐标信息;
根据所述坐标信息排列所述单字符集合中的元素,得到与所述字符片段图像对应的字符串。
说明书 :
一种基于深度学习模型的OCR识别方法及终端
技术领域
背景技术
征很大程度上决定了OCR识别的精度和速度。
识别方法受前期预处理的影响较大,适合字符清晰无干扰的字符影像,但是对于打印票据
或其他印刷品常常出现墨渍不均匀、字不清晰的情况,二值化方法受干扰影响较大,识别准
确度较低。基于灰度图像的识别方法,常采用不同的特征算子,例如hog和gabor,对图像进
行卷积运算,然后将抽取的图像像素点作为字符的描述特征,但是拍摄的光照变化,文档的
印章、底纹、线条、污渍等干扰会改变字符图像的灰度信息,在存在干扰的情况下,识别准确
度较低。
包含的干扰因素较多,当干扰程度较重时,会影响深度学习模型识别的准确性。
发明内容
述一单字符对应的特征向量;
符图像的长和宽均为所述预设的像素;
为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别
数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
述一单字符对应的特征向量;
符图像的长和宽均为所述预设的像素;
为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别
数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
片化,降低干扰因素对字符识别准确度的影响。再使用本发明提供的第一OCR深度学习模型
依次识别每个单字符图像,得到与每个单字符图像对应的识别结果。由于本发明提供的第
一OCR深度学习模型是通过大量存在不同类型、不同程度干扰的单字符图像样本训练得到
的,具有较好的抗干扰能力,较高的识别准确度。区别于现有技术1使用深度学习模型直接
识别整个字符片段图像,本发明的深度学习模型一次只识别一个单字符图像,其待识别单
字符图像本身携带的干扰因素较之整个字符片段图像中的干扰因素相比较小,且本发明的
深度学习模型是使用单字符图像训练样本训练得到的,较之使用整个字符片段图像样本训
练得到的深度学习模型,具有更高的识别准确度。区别于现有技术2将字符片段图像分割成
单字符图像后,直接使用二值化或灰度图像识别方法识别单字符图像,由于二值化和灰度
图像识别方法均不适用于具有干扰因素的应用场景,本发明提供的基于深度学习模型的
OCR识别方法能够更准确地识别出带干扰因素的字符片段图像对应的字符串。综上所述,本
发明提供的基于深度学习模型的OCR识别方法及终端具有较强的抗干扰能力和较高的识别
准确度,尤其适用于合同、表格、票据等纸质文档在电子数据化过程中,印章底纹、拍摄光
照、图像模糊等外部环境变化较大的应用场景。
相同,有利于减小尺寸因素对识别准确度的干扰。在尺寸归一化的过程中,本发明保持原单
字符图像的长宽比例不变,使用背景图像填充不足部分,有效保证了待识别的单字符图像
保持原来的特征,避免单字符图像扭曲变形带来的干扰。同时,使用背景图像填充不足之
处,有利于避免单字符图像的空白部分被误识别成有意义的像素,减少背景对OCR字符识别
的干扰,提高OCR字符识别的准确度。
能优化特征使得同一字符对应的不同形式样本得到高相似度,不同字符之间的样本得到低
相似度。本发明提供的损失函数直接关注特征的角度可分性,认为设置分类间隔以缩小类
内间距,拉大类间距离,使得同一字符对应的不同形式样本相似度高,不同字符之间的样本
相似度低,使得训练第一深度学习模型过程中可以更加精准地调整模型参数,增强第一深
度学习模型的拟合性,提高第一深度学习模型的准确度。
为了提高深度学习模型识别单字符图像的准确度,使用由同一个单字符对应的不同形式样
本的平均特征向量作为该单字符的特征模板,特征模板描述该单字符的典型特征,并使用
各单字符的特征模板与深度学习模型实时识别到的特征向量进行比较,从而挑选出相似度
最高的单字符,极大程度上降低了不同字体、字号、光照、背景等因素对深度学习模型识别
准确度的影响。
附图说明
具体实施方式
的坐标信息,从原票据图像中剪切得到多个单字符图像。
“税”、“发”和“票”五个单字符图像。
符图像的长和宽均为所述预设的像素;
字符图像的尺寸归一化为64像素*64像素,不仅能够满足识别字符所需的特征信息,而且能
够加快特征提取的速度,节约显存空间。尺寸归一化后的多个单字符图像如图2所示。图2中
的方框边长为64像素,若方框中存在空白区域,直接使用单字符图像的背景填充方框。
于减小尺寸因素对识别准确度的干扰。在尺寸归一化的过程中,本发明保持原单字符图像
的长宽比例不变,使用背景图像填充不足部分,有效保证了待识别的单字符图像保持原来
的特征,避免单字符图像扭曲变形带来的干扰。同时,使用背景图像填充不足之处,有利于
避免单字符图像的空白部分被误识别成有意义的像素,减少背景对OCR字符识别的干扰,提
高OCR字符识别的准确度。
为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别
数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
别的概率值为cosθyi,预测为其他类别的概率值为(cosθj),当预测的值越接近真实类别
时,cosθyi越大,代入公式,则loss的值越接近于0;反之,loss越大,即代表当前样本与预测
的类别差距越大。
维的特征向量;然后接入1*class_number的全连接层,class_number表示字符的类别数。将
尺寸归一化后的单字符图像送入训练好的第一深度学习模型,经过卷积运算,提取单字符
特征,最后输出高维的特征向量,该特征向量就是描述输入的单字符图像的一种数学表达
方式。
进行训练,得到能正确表达单字类别特征的第一OCR深度学习模型。测试样本集测试准确率
为99.9%。
征使得同一字符对应的不同形式样本得到高相似度,不同字符之间的样本得到低相似度。
本发明提供的损失函数直接关注特征的角度可分性,认为设置分类间隔以缩小类内间距,
拉大类间距离,使得同一字符对应的不同形式样本相似度高,不同字符之间的样本相似度
低,使得训练第一深度学习模型过程中可以更加精准地调整模型参数,增强第一深度学习
模型的拟合性,提高第一深度学习模型的准确度。
深度学习模型识别单字符图像的准确度,使用由同一个单字符对应的不同形式样本的平均
特征向量作为该单字符的特征模板,特征模板描述该单字符的典型特征,并使用各单字符
的特征模板与深度学习模型实时识别到的特征向量进行比较,从而挑选出相似度最高的单
字符,极大程度上降低了不同字体、字号、光照、背景等因素对深度学习模型识别准确度的
影响。
“利”字图像等。由于各样本之间存在差异,第一OCR深度学习模型对不同的“利”样本进行识
别,得到的第三特征向量有略微的差别。将所有“利”对应的第三特征向量进行平均化,得到
平均特征向量。平均特征向量能够去除不同样本“利”之间的差异特征,保留“利”的典型特
征。即使第一OCR深度学习模型当前所要识别的“利”字图像存在的干扰情况在之前的训练
样本中未出现过,也能够通过具有“利”字典型特征的平均特征向量准确匹配。
量计算相似度,具有最高相似度的特征向量对应的单字符即为第一OCR深度学习模型识别
一单字符图像的识别结果。可选地,采用余弦距离作为两个特征向量之间的相似度。
“票”。根据各个单字符图像在同一字符片段图像中的相对坐标排列深度学习模型识别到的
单字符,能够得到与字符片段图像相同的字符串。
章、线条、污渍、光照、墨渍不均等干扰。实验取10000个票据图像的单字样本,这些样本较多
由于墨渍不均出现模糊、断线、印章、线条干扰等问题,分别使用现有的识别方法abbyy和本
实施例提供的方法进行识别,其中abbyy识别准确率为97.8%,本实施例提供的方法的准确
率为99.2%。本实施例提供的OCR识别方法具有较强的抗干扰能力和较高的识别准确度。
片化,降低干扰因素对字符识别准确度的影响。再使用本发明提供的第一OCR深度学习模型
依次识别每个单字符图像,得到与每个单字符图像对应的识别结果。由于本发明提供的第
一OCR深度学习模型是通过大量存在不同类型、不同程度干扰的单字符图像样本训练得到
的,具有较好的抗干扰能力,较高的识别准确度。区别于现有技术1使用深度学习模型直接
识别整个字符片段图像,本实施例的深度学习模型一次只识别一个单字符图像,其待识别
单字符图像本身携带的干扰因素较之整个字符片段图像中的干扰因素相比较小,且本实施
例的深度学习模型是使用单字符图像训练样本训练得到的,较之使用整个字符片段图像样
本训练得到的深度学习模型,具有更高的识别准确度。区别于现有技术2将字符片段图像分
割成单字符图像后,直接使用二值化或灰度图像识别方法识别单字符图像,由于二值化和
灰度图像识别方法均不适用于具有干扰因素的应用场景,本实施例提供的基于深度学习模
型的OCR识别方法能够更准确地识别出带干扰因素的字符片段图像对应的字符串。综上所
述,本实施例提供的基于深度学习模型的OCR识别方法具有较强的抗干扰能力和较高的识
别准确度,尤其适用于合同、表格、票据等纸质文档在电子数据化过程中,印章底纹、拍摄光
照、图像模糊等外部环境变化较大的应用场景。
1执行以下步骤:
的坐标信息,从原票据图像中剪切得到多个单字符图像。
“税”、“发”和“票”五个单字符图像。
符图像的长和宽均为所述预设的像素;
字符图像的尺寸归一化为64像素*64像素,不仅能够满足识别字符所需的特征信息,而且能
够加快特征提取的速度,节约显存空间。尺寸归一化后的多个单字符图像如图2所示。图2中
的方框边长为64像素,若方框中存在空白区域,直接使用单字符图像的背景填充方框。
于减小尺寸因素对识别准确度的干扰。在尺寸归一化的过程中,本发明保持原单字符图像
的长宽比例不变,使用背景图像填充不足部分,有效保证了待识别的单字符图像保持原来
的特征,避免单字符图像扭曲变形带来的干扰。同时,使用背景图像填充不足之处,有利于
避免单字符图像的空白部分被误识别成有意义的像素,减少背景对OCR字符识别的干扰,提
高OCR字符识别的准确度。
为所述第二特征向量,θ为所述第二特征向量X与权重W之间的夹角,N为样本数量,n为类别
数,yi为所述一样本的实际类别,j为预设的样本集合中除yi之外的其它类别。
别的概率值为cosθyi,预测为其他类别的概率值为(cosθj),当预测的值越接近真实类别
时,cosθyi越大,代入公式,则loss的值越接近于0;反之,loss越大,即代表当前样本与预测
的类别差距越大。
维的特征向量;然后接入1*class_number的全连接层,class_number表示字符的类别数。将
尺寸归一化后的单字符图像送入训练好的第一深度学习模型,经过卷积运算,提取单字符
特征,最后输出高维的特征向量,该特征向量就是描述输入的单字符图像的一种数学表达
方式。
进行训练,得到能正确表达单字类别特征的第一OCR深度学习模型。测试样本集测试准确率
为99.9%。
征使得同一字符对应的不同形式样本得到高相似度,不同字符之间的样本得到低相似度。
本发明提供的损失函数直接关注特征的角度可分性,认为设置分类间隔以缩小类内间距,
拉大类间距离,使得同一字符对应的不同形式样本相似度高,不同字符之间的样本相似度
低,使得训练第一深度学习模型过程中可以更加精准地调整模型参数,增强第一深度学习
模型的拟合性,提高第一深度学习模型的准确度。
深度学习模型识别单字符图像的准确度,使用由同一个单字符对应的不同形式样本的平均
特征向量作为该单字符的特征模板,特征模板描述该单字符的典型特征,并使用各单字符
的特征模板与深度学习模型实时识别到的特征向量进行比较,从而挑选出相似度最高的单
字符,极大程度上降低了不同字体、字号、光照、背景等因素对深度学习模型识别准确度的
影响。
“利”字图像等。由于各样本之间存在差异,第一OCR深度学习模型对不同的“利”样本进行识
别,得到的第三特征向量有略微的差别。将所有“利”对应的第三特征向量进行平均化,得到
平均特征向量。平均特征向量能够去除不同样本“利”之间的差异特征,保留“利”的典型特
征。即使第一OCR深度学习模型当前所要识别的“利”字图像存在的干扰情况在之前的训练
样本中未出现过,也能够通过具有“利”字典型特征的平均特征向量准确匹配。
量计算相似度,具有最高相似度的特征向量对应的单字符即为第一OCR深度学习模型识别
一单字符图像的识别结果。可选地,采用余弦距离作为两个特征向量之间的相似度。
“票”。根据各个单字符图像在同一字符片段图像中的相对坐标排列深度学习模型识别到的
单字符,能够得到与字符片段图像相同的字符串。
章、线条、污渍、光照、墨渍不均等干扰。实验取10000个票据图像的单字样本,这些样本较多
由于墨渍不均出现模糊、断线、印章、线条干扰等问题,分别使用现有的识别终端abbyy和本
实施例提供的终端进行识别,其中abbyy识别准确率为97.8%,本实施例提供的终端的准确
率为99.2%。本实施例提供的OCR识别终端具有较强的抗干扰能力和较高的识别准确度。
片化,降低干扰因素对字符识别准确度的影响。再使用本发明提供的第一OCR深度学习模型
依次识别每个单字符图像,得到与每个单字符图像对应的识别结果。由于本发明提供的第
一OCR深度学习模型是通过大量存在不同类型、不同程度干扰的单字符图像样本训练得到
的,具有较好的抗干扰能力,较高的识别准确度。区别于现有技术1使用深度学习模型直接
识别整个字符片段图像,本实施例的深度学习模型一次只识别一个单字符图像,其待识别
单字符图像本身携带的干扰因素较之整个字符片段图像中的干扰因素相比较小,且本实施
例的深度学习模型是使用单字符图像训练样本训练得到的,较之使用整个字符片段图像样
本训练得到的深度学习模型,具有更高的识别准确度。区别于现有技术2将字符片段图像分
割成单字符图像后,直接使用二值化或灰度图像识别方法识别单字符图像,由于二值化和
灰度图像识别方法均不适用于具有干扰因素的应用场景,本实施例提供的基于深度学习模
型的OCR识别终端能够更准确地识别出带干扰因素的字符片段图像对应的字符串。综上所
述,本实施例提供的基于深度学习模型的OCR识别终端具有较强的抗干扰能力和较高的识
别准确度,尤其适用于合同、表格、票据等纸质文档在电子数据化过程中,印章底纹、拍摄光
照、图像模糊等外部环境变化较大的应用场景。
术领域,均同理包括在本发明的专利保护范围内。