一种目标文本提取方法及系统转让专利
申请号 : CN202110621923.9
文献号 : CN113255665B
文献日 : 2021-12-21
发明人 : 姚娟娟 , 樊代明 , 钟南山
申请人 : 明品云(北京)数据科技有限公司
摘要 :
权利要求 :
1.一种目标文本提取方法,其特征在于,包括:获取原始图像集;
将所述原始图像集输入识别网络进行训练,获取识别模型,训练过程包括:区域划分、图像区域语义标签提取和文本区域语义标签提取;
获取待识别图像;
将所述待识别图像输入所述识别模型进行识别,获取图像区域语义标签和文本区域语义标签;
根据所述图像区域语义标签和所述文本区域语义标签,进行目标文本提取;
根据所述图像区域语义标签和所述文本区域语义标签,进行目标文本提取的步骤包括:
将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配,获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度;
判断所述匹配度是否大于或等于预设的匹配阈值,若所述匹配度大于或等于所述匹配阈值,则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本;
若所述匹配度小于所述匹配阈值范围,则根据预先设置的优先级规则,将所述图像区域语义标签或所述文本区域语义标签确定为目标文本,完成目标文本提取;图像区域语义标签提取的步骤包括:对图像区域进行细化处理,获取细化图像;
利用预先设置的图像增强模板,对细化图像进行图像增强,获取增强图像;
对所述增强图像进行特征提取,获取图像区域特征,所述图像区域特征包括:颜色特征、形状特征和纹理特征;
对所述图像区域特征进行二值化处理,获取二值化特征;
根据所述二值化特征,对所述图像区域进行图像语义识别,获取图像区域语义标签;
所述形状特征的获取步骤包括:对所述增强图像进行灰度化处理,获取灰度图像和所述灰度图像中每个像素点的色度值;
判断所述色度值是否超出预设的色度值阈值范围,获取判断结果;
根据所述判断结果,确定所述图像区域中的目标区域;
对所述目标区域进行降噪处理,获取降噪图像;
将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取,获取所述图像区域中的形状特征;
将所述原始图像集输入识别网络进行训练的步骤包括:根据所述图像区域语义标签和所述文本区域语义标签,利用预设的损失函数,对所述识别网络进行训练,所述损失函数的数学表达为:
f(x)=α∑i[ut×log(up)+(1-ut) ×log(1-up)]+ β∑i|yt-yp|其中,f(x)为损失函数,α为预设的第一权值,ut为图像区域语义标签的真实值,up为图像区域语义标签的预测值,β为预设的第二权值,n为样本数量,yt为文本区域语义标签的真实值,yp为文本区域语义标签的预测值,1≤i≤n。
2.根据权利要求1所述的目标文本提取方法,其特征在于,所述识别网络包括:卷积神经网络、图像语义识别网络和文本语义识别网络;
将所述原始图像集中的原始图像输入所述卷积神经网络进行特征提取,获取一个或多个特征框;
对所述特征框进行标注与分类,确定所述原始图像中的图像区域和文本区域,所述图像区域与所述文本区域相对应;
将所述图像区域输入图像语义识别网络进行图像语义识别,获取图像区域语义标签;
将所述文本区域输入文本语义识别网络进行文本语义识别,获取文本区域语义标签;
根据所述图像区域语义标签和所述文本区域语义标签,对所述识别网络进行训练,获取所述识别模型。
3.根据权利要求1所述的目标文本提取方法,其特征在于,根据所述图像区域特征,对所述图像区域进行图像语义识别的步骤包括:将所述图像区域特征与图像样本库中的图像样本进行匹配,获取匹配结果;
根据所述匹配结果,确定与所述图像区域特征相对应的图像样本,并获取对应图像样本的图像语义短语;
将所述图像语义短语作为所述图像区域语义标签,完成所述图像区域语义标签的获取。
4.根据权利要求1所述的目标文本提取方法,其特征在于,文本区域语义标签提取的步骤包括:
对所述文本区域进行预处理,获取预处理图像,进行预处理的步骤至少包括以下之一:灰度处理、降噪处理和归一化处理;
将所述预处理图像输入文本语义识别网络进行文本检测,获取文本框;
对所述文本框进行文字特征提取,获取所述文本区域的文字特征向量;
将所述文字特征向量与预设的文字特征库中的特征进行对比,确定文本内容;
将所述文本内容输入所述文本语义识别网络中的长短期记忆子网络进行文本区域语义标签提取,获取文本区域语义标签。
5.根据权利要求1所述的目标文本提取方法,其特征在于,完成目标文本提取的步骤之后包括:
设置关联信息库,所述关联信息库包括:文本数据和推荐信息,所述文本数据与所述推荐信息相关联;
将所述目标文本与所述文本数据进行匹配,确定对应的文本数据及对应的推荐信息;
根据所述推荐信息,进行关联信息推荐。
6.一种目标文本提取系统,其特征在于,包括:预处理模块,用于获取原始图像集;将所述原始图像集输入识别网络进行训练,获取识别模型,训练过程包括:区域划分、图像区域语义标签提取和文本区域语义标签提取;
采集模块,用于获取待识别图像;
处理模块,用于将所述待识别图像输入所述识别模型进行识别,获取图像区域语义标签和文本区域语义标签;
目标文本提取模块,用于根据所述图像区域语义标签和所述文本区域语义标签,进行目标文本提取;根据所述图像区域语义标签和所述文本区域语义标签,进行目标文本提取的步骤包括:将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配,获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度;判断所述匹配度是否大于或等于预设的匹配阈值,若所述匹配度大于或等于所述匹配阈值,则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本;若所述匹配度小于所述匹配阈值范围,则根据预先设置的优先级规则,将所述图像区域语义标签或所述文本区域语义标签确定为目标文本,完成目标文本提取;所述预处理模块、采集模块、处理模块和目标文本提取模块连接;
所述预处理模块进行图像区域语义标签提取的步骤包括:对图像区域进行二值化处理,获取二值化图像;
对所述二值化图像进行细化处理,获取细化图像;
利用预先设置的图像增强模板,对细化图像进行图像增强,获取增强图像;
对所述增强图像进行特征提取,获取图像区域特征,所述图像区域特征包括:颜色特征、形状特征和纹理特征;
根据所述图像区域特征,对所述图像区域进行图像语义识别,获取图像区域语义标签;
所述形状特征的获取步骤包括:对所述增强图像进行灰度化处理,获取灰度图像和所述灰度图像中每个像素点的色度值;
判断所述色度值是否超出预设的色度值阈值范围,获取判断结果;
根据所述判断结果,确定所述图像区域中的目标区域;
对所述目标区域进行降噪处理,获取降噪图像;
将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取,获取所述图像区域中的形状特征;
将所述原始图像集输入识别网络进行训练的步骤包括:根据所述图像区域语义标签和所述文本区域语义标签,利用预设的损失函数,对所述识别网络进行训练,所述损失函数的数学表达为:
f(x)=α∑i[ut×log(up)+(1-ut) ×log(1-up)]+ β∑i|yt-yp|其中,f(x)为损失函数,α为预设的第一权值,ut为图像区域语义标签的真实值,up为图像区域语义标签的预测值,β为预设的第二权值,n为样本数量,yt为文本区域语义标签的真实值,yp为文本区域语义标签的预测值,1≤i≤n。
说明书 :
一种目标文本提取方法及系统
技术领域
背景技术
识别,容易导致识别不充分,精确度较低,且不能较好地提取出文本区域和图像区域中的目
标信息,存在较大不便。
发明内容
度较低,且不能较好地提取出文本区域和图像区域中的目标信息的问题。
数的数学表达为:
的真实值,yp为文本区域语义标签的预测值,1≤i≤n。
提取的步骤包括:将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配,获
取所述图像区域语义标签和所述文本区域语义标签之间的匹配度;判断所述匹配度是否大
于或等于预设的匹配阈值,若所述匹配度大于或等于所述匹配阈值,则确定对应所述图像
区域语义标签或所述文本区域语义标签为目标文本;若所述匹配度小于所述匹配阈值范
围,则根据预先设置的优先级规则,将所述图像区域语义标签或所述文本区域语义标签确
定为目标文本,完成目标文本提取;所述预处理模块、采集模块、处理模块和目标文本提取
模块连接;
数的数学表达为:
的真实值,yp为文本区域语义标签的预测值,1≤i≤n。
区域语义标签和文本区域语义标签,并根据所述图像区域语义标签和文本区域语义标签,
进行目标文本提取,能够较好地提取出待识别图像中的文本区域和图像区域中的目标文
本,有效提高了对待识别图像的识别精确度,成本较低,实施较方便。
附图说明
具体实施方式
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施
例中的特征可以相互组合。
绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也
可能更为复杂。
一个区域进行识别,容易导致识别不充分,精确度较低,且不能较好地提取出文本区域和图
像区域中的目标信息,存在较大不便。例如:在医学领域中,常见的病例和体检报告等医学
文件,同一页文件内容经常既包括图像区域,又包括文本区域,目前,通常对文本区域进行
识别,或者对图像区域进行识别,忽略了同一页面上的图像区域与文本区域之间的关联关
系,导致识别精确度较低,因此,发明人提出一种目标文本提取方法及系统,通过将原始图
像集输入识别网络进行训练,获取识别模型,将待识别图像输入所述识别模型进行识别,获
取图像区域语义标签和文本区域语义标签,并根据所述图像区域语义标签和文本区域语义
标签,进行目标文本提取,能够较好地提取出待识别图像中的文本区域和图像区域中的目
标文本,有效提高了对待识别图像的识别精确度,成本较低,实施较方便,灵活度较高。
语义标签标注的原始图像作为原始图像集,通过获取所述原始图像集,能够为训练识别网
络提供较好地训练基础。
识别网络进行区域划分,能够获取原始图像集中的原始图像中的图像区域及文本区域,通
过提取图像区域中的语义标签和文本区域中的语义标签,能够较好地确定对应的原始图像
中的语义,便于提取目标文本,例如:将所述原始图像集输入识别网络进行训练,调整梯度
下降的速度、迭代学习率、学习次数及迭代次数,获得较优的识别模型,精确度较高。
义识别和文本区域语义识别,能够较好地获取图像区域语义标签和文本区域语义标签,实
施较方便。
图像区域和文本区域的页面进行识别,帮助用户确定该页面语义表达的真实含义时,则将
该页面图像作为待识别图像,将待识别图像输入识别网络进行识别,获取图像区域语义标
签和文本区域语义标签,将所述图像区域语义标签与所述文本区域语义标签进行匹配,根
据匹配结果,确定目标文本,如弥漫性溃疡和乳腺增生等,实现了对目标文本较好地提取,
提高了目标文本提取的精确度,实施较方便,成本较低,灵活度较高。
图像区域语义标签和所述文本区域语义标签的识别模型,发明人提出,获取所述识别模型
的步骤包括:
的特征框,便于进行图像区域与文本区域之间的区域划分。
原始图像中的图像区域和文本区域,当一个原始图像中包含一个或多个图像区域或一个或
多个文本区域时,所述图像区域与文本区域相对应,即同一原始图像中的图像区域与文本
区域相互关联,避免出现识别失误。
像区域语义标签,所述图像区域语义标签包括一个或多个,例如:根据图像区域中的特征,
确定图像区域中图像的真实表达含义,确定图像区域语义标签。
文本的检测与识别,同时,结合文本区域中的文本内容的上下文语义,确定文本区域语义标
签,精确度较高。
别网络进行迭代训练,获取较优的识别模型。通过所述识别模型,能够对图像中的图像区域
语义标签和文本区域语义标签进行较好地识别。
的真实值,yp为文本区域语义标签的预测值,1≤i≤n。通过设置上述损失函数,对识别网络
进行训练,能够有效提高识别模型的精确度,可实施性较强。
状,减少冗余信息量,降低后续特征处理的难度。
用预先设置的图像增强模板,确定所述细化图像中的感兴趣区域与不感兴趣区域,抑制不
感兴趣区域中的特征,有效去除图像区域中的噪声。还可以通过中值滤波的方式进行图像
增强。
的图像语义短语作为图像区域语义标签,实施较方便,例如:将病例的图像区域特征与预先
设置的图像样本库中的图像样本的特征进行匹配,确定与所述图像区域特征相对应的图像
样本,进而获取对应的图像语义短语,确定图像区域语义标签,精确度较高,实施较方便。
域的处理难度,在一些实施例中,通过对文本区域进行灰度处理,能够降低后续图像处理的
复杂程度。可以采用RGB像素的平均值作为每个像素的分量值等;可以采用中值滤波器对原
始图像进行滤波,实现降噪,有助于提高文本区域文本识别的精确度。通过对图像区域进行
归一化处理,能够加快文本语义识别网络的收敛速度,便于对文本语义识别网络进行训练。
行文本区域语义标签提取,能够较好地结合文本内容中的上下文语义信息,提高文本区域
语义标签提取的准确性,有助于提取目标文本。
域语义标签和所述文本区域语义标签,进行目标文本提取的步骤包括:
本;
当需要确定病例或体检报告中的病灶,且病例或体检报告的页面中均包括图像区域和文本
区域时,则将待识别图像输入识别模型进行识别,对所述待识别图像中的图像区域及文本
区域进行划分,确定图像区域语义标签及文本区域语义标签,将所述图像区域语义标签与
文本区域语义标签进行相似度匹配,获取匹配度,当所述匹配度大于或等于预先设置的匹
配阈值时,则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本,当所
述匹配度小于匹配阈值时,则根据预先设置的优先级规则,将所述图像区域语义标签或所
述文本区域语义标签确定为目标文本,完成目标文本提取。所述优先级规则可以根据实际
情况进行设置,或者,当所述匹配度小于匹配阈值时,则输出图像区域语义标签及文本区域
语义标签,用户可以根据实际情况进行选择,确定目标文本,进一步地,当所述匹配度小于
匹配阈值时,可以将待识别图像、图像区域语义标签及文本区域语义标签上传至云端,调用
云端资源对待识别图像进行识别,确定待识别图像中的目标文本,如弥漫性溃疡和乳腺增
生等。通过将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配,便于确定
待识别图像中的目标文本,所述目标文本为用于表示待识别图像的语义表达的文本,即图
像的真实语义,精确度较高,实时较方便。
本数据进行匹配,确定对应的文本数据以及对应的推荐信息,能够进行针对性推荐,提升用
户体验感,可实施性较强。
通过将获取的原始图像集输入识别网络进行训练,获取识别模型,将待识别图像输入所述
识别模型进行识别,获取图像区域语义标签和文本区域语义标签,并根据所述图像区域语
义标签和文本区域语义标签,进行目标文本提取,能够较好地提取出待识别图像中的文本
区域和图像区域中的目标文本,有效提高了对待识别图像的识别精确度,成本较低,实施较
方便,灵活度较高。
的真实值,yp为文本区域语义标签的预测值,1≤i≤n。
可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步
骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
口用于进行通信,处理器和收发器用于运行计算机程序,使电子终端执行如上方法的各个
步骤。
(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific
Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。