一种目标文本提取方法及系统转让专利

申请号 : CN202110621923.9

文献号 : CN113255665B

文献日 : 2021-12-21

本发明提供一种目标文本提取方法及系统，目标文本提取方法包括：获取原始图像集；将原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；获取待识别图像；将待识别图像输入识别模型进行识别，获取图像区域语义标签和文本区域语义标签；根据图像区域语义标签和文本区域语义标签，进行目标文本提取；本发明中的目标文本提取方法及系统，通过获取图像区域语义标签和文本区域语义标签，并根据图像区域语义标签和文本区域语义标签，进行目标文本提取，能够较好地提取出待识别图像中的文本区域和图像区域中的目标文本，有效提高了对待识别图像的识别精确度，成本较低，实施较方便。

1.一种目标文本提取方法，其特征在于，包括：获取原始图像集；

将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；

获取待识别图像；

将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；

根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取；

根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取的步骤包括：

将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；

判断所述匹配度是否大于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本；

若所述匹配度小于所述匹配阈值范围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确定为目标文本，完成目标文本提取;图像区域语义标签提取的步骤包括：对图像区域进行细化处理，获取细化图像；

利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；

对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

对所述图像区域特征进行二值化处理，获取二值化特征；

根据所述二值化特征，对所述图像区域进行图像语义识别，获取图像区域语义标签；

所述形状特征的获取步骤包括：对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

根据所述判断结果，确定所述图像区域中的目标区域；

对所述目标区域进行降噪处理，获取降噪图像；

将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征；

将所述原始图像集输入识别网络进行训练的步骤包括:根据所述图像区域语义标签和所述文本区域语义标签，利用预设的损失函数，对所述识别网络进行训练，所述损失函数的数学表达为：

f（x）=α∑i[ut×log(up)+(1－ut) ×log(1－up)]+ β∑i|yt－yp|其中，f（x）为损失函数，α为预设的第一权值，ut为图像区域语义标签的真实值，up为图像区域语义标签的预测值，β为预设的第二权值，n为样本数量，yt为文本区域语义标签的真实值，yp为文本区域语义标签的预测值，1≤i≤n。

2.根据权利要求1所述的目标文本提取方法，其特征在于，所述识别网络包括：卷积神经网络、图像语义识别网络和文本语义识别网络；

将所述原始图像集中的原始图像输入所述卷积神经网络进行特征提取，获取一个或多个特征框；

对所述特征框进行标注与分类，确定所述原始图像中的图像区域和文本区域，所述图像区域与所述文本区域相对应；

将所述图像区域输入图像语义识别网络进行图像语义识别，获取图像区域语义标签；

将所述文本区域输入文本语义识别网络进行文本语义识别，获取文本区域语义标签；

根据所述图像区域语义标签和所述文本区域语义标签，对所述识别网络进行训练，获取所述识别模型。

3.根据权利要求1所述的目标文本提取方法，其特征在于，根据所述图像区域特征，对所述图像区域进行图像语义识别的步骤包括：将所述图像区域特征与图像样本库中的图像样本进行匹配，获取匹配结果；

根据所述匹配结果，确定与所述图像区域特征相对应的图像样本，并获取对应图像样本的图像语义短语；

将所述图像语义短语作为所述图像区域语义标签，完成所述图像区域语义标签的获取。

4.根据权利要求1所述的目标文本提取方法，其特征在于，文本区域语义标签提取的步骤包括：

对所述文本区域进行预处理，获取预处理图像，进行预处理的步骤至少包括以下之一：灰度处理、降噪处理和归一化处理；

将所述预处理图像输入文本语义识别网络进行文本检测，获取文本框；

对所述文本框进行文字特征提取，获取所述文本区域的文字特征向量；

将所述文字特征向量与预设的文字特征库中的特征进行对比，确定文本内容；

将所述文本内容输入所述文本语义识别网络中的长短期记忆子网络进行文本区域语义标签提取，获取文本区域语义标签。

5.根据权利要求1所述的目标文本提取方法，其特征在于，完成目标文本提取的步骤之后包括：

设置关联信息库，所述关联信息库包括：文本数据和推荐信息，所述文本数据与所述推荐信息相关联；

将所述目标文本与所述文本数据进行匹配，确定对应的文本数据及对应的推荐信息；

根据所述推荐信息，进行关联信息推荐。

6.一种目标文本提取系统，其特征在于，包括：预处理模块，用于获取原始图像集；将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；

采集模块，用于获取待识别图像；

处理模块，用于将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；

目标文本提取模块，用于根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取；根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取的步骤包括：将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；判断所述匹配度是否大于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本；若所述匹配度小于所述匹配阈值范围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确定为目标文本，完成目标文本提取；所述预处理模块、采集模块、处理模块和目标文本提取模块连接；

所述预处理模块进行图像区域语义标签提取的步骤包括：对图像区域进行二值化处理，获取二值化图像；

对所述二值化图像进行细化处理，获取细化图像；

利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；

对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

根据所述图像区域特征，对所述图像区域进行图像语义识别，获取图像区域语义标签；

所述形状特征的获取步骤包括：对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

根据所述判断结果，确定所述图像区域中的目标区域；

对所述目标区域进行降噪处理，获取降噪图像；

将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征；

一种目标文本提取方法及系统

技术领域

[0001] 本发明涉及机器识别领域，尤其涉及一种目标文本提取方法及系统。

背景技术

[0002] 随着图像处理技术的发展，图像识别技术受到了越来越多的关注，图像识别的过程中，当待识别图像中既存在图像区域，又存在文本区域时，目前通常对其中一个区域进行
识别，容易导致识别不充分，精确度较低，且不能较好地提取出文本区域和图像区域中的目
标信息，存在较大不便。

发明内容

[0003] 本发明提供一种目标文本提取方法及系统，以解决现有技术中当待识别图像中既存在图像区域又存在文本区域时，仅对其中一个区域进行识别，容易导致识别不充分，精确
度较低，且不能较好地提取出文本区域和图像区域中的目标信息的问题。

[0004] 本发明提供的目标文本提取方法，包括：

[0005] 获取原始图像集；

[0006] 将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；

[0007] 获取待识别图像；

[0008] 将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；

[0009] 根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取；根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取的步骤包括：

[0010] 将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；

[0011] 判断所述匹配度是否大于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本；

[0012] 若所述匹配度小于所述匹配阈值范围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确定为目标文本，完成目标文本提取；

[0013] 图像区域语义标签提取的步骤包括：

[0014] 对图像区域进行细化处理，获取细化图像；

[0015] 利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；

[0016] 对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

[0017] 对所述图像区域特征进行二值化处理，获取二值化特征；

[0018] 根据所述二值化特征，对所述图像区域进行图像语义识别，获取图像区域语义标签；

[0019] 所述形状特征的获取步骤包括：

[0020] 对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

[0021] 判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

[0022] 根据所述判断结果，确定所述图像区域中的目标区域；

[0023] 对所述目标区域进行降噪处理，获取降噪图像；

[0024] 将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征；

[0025] 将所述原始图像集输入识别网络进行训练的步骤包括:根据所述图像区域语义标签和所述文本区域语义标签，利用预设的损失函数，对所述识别网络进行训练，所述损失函
数的数学表达为：

[0026] f（x）=α∑i[ut×log(up)+(1－ut) ×log(1－up)]+ β∑i|yt－yp|

[0027] 其中，f（x）为损失函数，α为预设的第一权值，ut为图像区域语义标签的真实值，up为图像区域语义标签的预测值，β为预设的第二权值，n为样本数量，yt为文本区域语义标签
的真实值，yp为文本区域语义标签的预测值，1≤i≤n。

[0028] 可选的，所述识别网络包括：卷积神经网络、图像语义识别网络和文本语义识别网络；

[0029] 将所述原始图像集中的原始图像输入所述卷积神经网络进行特征提取，获取一个或多个特征框；

[0030] 对所述特征框进行标注与分类，确定所述原始图像中的图像区域和文本区域，所述图像区域与所述文本区域相对应；

[0031] 将所述图像区域输入图像语义识别网络进行图像语义识别，获取图像区域语义标签；

[0032] 将所述文本区域输入文本语义识别网络进行文本语义识别，获取文本区域语义标签；

[0033] 根据所述图像区域语义标签和所述文本区域语义标签，对所述识别网络进行训练，获取所述识别模型。

[0034] 可选的，根据所述图像区域特征，对所述图像区域进行图像语义识别的步骤包括：

[0035] 将所述图像区域特征与图像样本库中的图像样本进行匹配，获取匹配结果；

[0036] 根据所述匹配结果，确定与所述图像区域特征相对应的图像样本，并获取对应图像样本的图像语义短语；

[0037] 将所述图像语义短语作为所述图像区域语义标签，完成所述图像区域语义标签的获取。

[0038] 可选的，文本区域语义标签提取的步骤包括：

[0039] 对所述文本区域进行预处理，获取预处理图像，进行预处理的步骤至少包括以下之一：灰度处理、降噪处理和归一化处理；

[0040] 将所述预处理图像输入文本语义识别网络进行文本检测，获取文本框；

[0041] 对所述文本框进行文字特征提取，获取所述文本区域的文字特征向量；

[0042] 将所述文字特征向量与预设的文字特征库中的特征进行对比，确定文本内容；

[0043] 将所述文本内容输入所述文本语义识别网络中的长短期记忆子网络进行文本区域语义标签提取，获取文本区域语义标签。

[0044] 可选的，完成目标文本提取的步骤之后包括：

[0045] 设置关联信息库，所述关联信息库包括：文本数据和推荐信息，所述文本数据与所述推荐信息相关联；

[0046] 将所述目标文本与所述文本数据进行匹配，确定对应的文本数据及对应的推荐信息；

[0047] 根据所述推荐信息，进行关联信息推荐。

[0048] 本发明还提供一种目标文本提取系统，包括：

[0049] 预处理模块，用于获取原始图像集；将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；

[0050] 采集模块，用于获取待识别图像；

[0051] 处理模块，用于将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；

[0052] 目标文本提取模块，用于根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取；根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本
提取的步骤包括：将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获
取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；判断所述匹配度是否大
于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像
区域语义标签或所述文本区域语义标签为目标文本；若所述匹配度小于所述匹配阈值范
围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确
定为目标文本，完成目标文本提取；所述预处理模块、采集模块、处理模块和目标文本提取
模块连接；

[0053] 所述预处理模块进行图像区域语义标签提取的步骤包括：

[0054] 对图像区域进行二值化处理，获取二值化图像；

[0055] 对所述二值化图像进行细化处理，获取细化图像；

[0056] 利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；

[0057] 对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

[0058] 根据所述图像区域特征，对所述图像区域进行图像语义识别，获取图像区域语义标签；

[0059] 所述形状特征的获取步骤包括：

[0060] 对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

[0061] 判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

[0062] 根据所述判断结果，确定所述图像区域中的目标区域；

[0063] 对所述目标区域进行降噪处理，获取降噪图像；

[0064] 将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征；

[0065] 将所述原始图像集输入识别网络进行训练的步骤包括:根据所述图像区域语义标签和所述文本区域语义标签，利用预设的损失函数，对所述识别网络进行训练，所述损失函
数的数学表达为：

[0066] f（x）=α∑i[ut×log(up)+(1－ut) ×log(1－up)]+ β∑i|yt－yp|

[0067] 其中，f（x）为损失函数，α为预设的第一权值，ut为图像区域语义标签的真实值，up为图像区域语义标签的预测值，β为预设的第二权值，n为样本数量，yt为文本区域语义标签
的真实值，yp为文本区域语义标签的预测值，1≤i≤n。

[0068] 本发明的有益效果：本发明中的目标文本提取方法及系统，通过将原始图像集输入识别网络进行训练，获取识别模型，将待识别图像输入所述识别模型进行识别，获取图像
区域语义标签和文本区域语义标签，并根据所述图像区域语义标签和文本区域语义标签，
进行目标文本提取，能够较好地提取出待识别图像中的文本区域和图像区域中的目标文
本，有效提高了对待识别图像的识别精确度，成本较低，实施较方便。

附图说明

[0069] 图1是本发明实施例中目标文本提取方法的流程示意图。

[0070] 图2是本发明实施例中目标文本提取方法中的获取识别模型的流程示意图。

[0071] 图3是本发明实施例中目标文本提取方法中的提取图像区域语义标签的流程示意图。

[0072] 图4是本发明实施例中目标文本提取方法中的提取文本区域语义标签的流程示意图。

[0073] 图5是本发明实施例中目标文本提取方法中提取目标文本的流程示意图。

[0074] 图6是本发明实施例中目标文本提取系统的结构示意图。

具体实施方式

[0075] 以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离
本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施
例中的特征可以相互组合。

[0076] 需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸
绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也
可能更为复杂。

[0077] 发明人发现，随着图像处理技术的发展，图像识别技术受到了越来越多的关注，在图像识别的过程中，当待识别图像中既存在图像区域，又存在文本区域时，目前通常对其中
一个区域进行识别，容易导致识别不充分，精确度较低，且不能较好地提取出文本区域和图
像区域中的目标信息，存在较大不便。例如：在医学领域中，常见的病例和体检报告等医学
文件，同一页文件内容经常既包括图像区域，又包括文本区域，目前，通常对文本区域进行
识别，或者对图像区域进行识别，忽略了同一页面上的图像区域与文本区域之间的关联关
系，导致识别精确度较低，因此，发明人提出一种目标文本提取方法及系统，通过将原始图
像集输入识别网络进行训练，获取识别模型，将待识别图像输入所述识别模型进行识别，获
取图像区域语义标签和文本区域语义标签，并根据所述图像区域语义标签和文本区域语义
标签，进行目标文本提取，能够较好地提取出待识别图像中的文本区域和图像区域中的目
标文本，有效提高了对待识别图像的识别精确度，成本较低，实施较方便，灵活度较高。

[0078] 如图1所示，本实施例中的目标文本提取方法，包括：

[0079] S101：获取原始图像集；所述原始图像集包括：原始图像、图像区域语义标签标注和文本区域语义标签标注。例如：采集一个或多个带有图像区域语义标签标注和文本区域
语义标签标注的原始图像作为原始图像集，通过获取所述原始图像集，能够为训练识别网
络提供较好地训练基础。

[0080] S102：将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取。通过将所述原始图像集输入
识别网络进行区域划分，能够获取原始图像集中的原始图像中的图像区域及文本区域，通
过提取图像区域中的语义标签和文本区域中的语义标签，能够较好地确定对应的原始图像
中的语义，便于提取目标文本，例如：将所述原始图像集输入识别网络进行训练，调整梯度
下降的速度、迭代学习率、学习次数及迭代次数，获得较优的识别模型，精确度较高。

[0081] S103：获取待识别图像；所述待识别图像包括：图像区域和文本区域。

[0082] S104：将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；通过将所述待识别图像输入所述识别模型进行区域划分、图像区域语
义识别和文本区域语义识别，能够较好地获取图像区域语义标签和文本区域语义标签，实
施较方便。

[0083] S105：根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取。所述目标文本为用于表示图像的语义表达的文本，如当需要对病例或体检报告中同时带有
图像区域和文本区域的页面进行识别，帮助用户确定该页面语义表达的真实含义时，则将
该页面图像作为待识别图像，将待识别图像输入识别网络进行识别，获取图像区域语义标
签和文本区域语义标签，将所述图像区域语义标签与所述文本区域语义标签进行匹配，根
据匹配结果，确定目标文本，如弥漫性溃疡和乳腺增生等，实现了对目标文本较好地提取，
提高了目标文本提取的精确度，实施较方便，成本较低，灵活度较高。

[0084] 请参考图2，为了较好地进行目标文本提取，发明人提出，所述识别网络包括：卷积神经网络、图像语义识别网络和文本语义识别网络。进一步地，为了便于获取用于获取所述
图像区域语义标签和所述文本区域语义标签的识别模型，发明人提出，获取所述识别模型
的步骤包括：

[0085] S201：将所述原始图像集中的原始图像输入所述卷积神经网络进行特征提取，获取一个或多个特征框；通过利用卷积神经网络对原始图像进行特征提取，确定原始图像中
的特征框，便于进行图像区域与文本区域之间的区域划分。

[0086] S202：对所述特征框进行标注与分类，确定所述原始图像中的图像区域和文本区域，所述图像区域与所述文本区域相对应；通过对特征框进行标注与分类，能够较好地获取
原始图像中的图像区域和文本区域，当一个原始图像中包含一个或多个图像区域或一个或
多个文本区域时，所述图像区域与文本区域相对应，即同一原始图像中的图像区域与文本
区域相互关联，避免出现识别失误。

[0087] S203：将所述图像区域输入图像语义识别网络进行图像语义识别，获取图像区域语义标签；通过将图像区域输入图像语义识别网络进行图像语义识别，能够较好地获取图
像区域语义标签，所述图像区域语义标签包括一个或多个，例如：根据图像区域中的特征，
确定图像区域中图像的真实表达含义，确定图像区域语义标签。

[0088] S204：将所述文本区域输入文本语义识别网络进行文本语义识别，获取文本区域语义标签；通过将文本区域输入文本语义识别网络进行文本语义识别，实现对文本区域中
文本的检测与识别，同时，结合文本区域中的文本内容的上下文语义，确定文本区域语义标
签，精确度较高。

[0089] S205：根据所述图像区域语义标签和所述文本区域语义标签，对所述识别网络进行训练，获取所述识别模型。例如：根据图像区域语义标签和文本区域语义标签，对所述识
别网络进行迭代训练，获取较优的识别模型。通过所述识别模型，能够对图像中的图像区域
语义标签和文本区域语义标签进行较好地识别。

[0090] 为了便于对识别模型进行训练，提高识别模型的精确度，发明人提出，还包括：

[0091] 根据所述图像区域语义标签和所述文本区域语义标签，利用预设的损失函数，对所述识别网络进行训练，所述损失函数的数学表达为：

[0092] f（x）=α∑i[ut×log(up)+(1－ut) ×log(1－up)]+ β∑i|yt－yp|

[0093] 其中，f（x）为损失函数，α为预设的第一权值，ut为图像区域语义标签的真实值，up为图像区域语义标签的预测值，β为预设的第二权值，n为样本数量，yt为文本区域语义标签
的真实值，yp为文本区域语义标签的预测值，1≤i≤n。通过设置上述损失函数，对识别网络
进行训练，能够有效提高识别模型的精确度，可实施性较强。

[0094] 如图3所示，为了提高图像区域语义标签提取的精确度，发明人提出，图像区域语义标签提取的步骤包括：

[0095] S301：对图像区域进行细化处理，获取细化图像；通过对图像区域进行细化处理，有效减少图像区域中的噪声，有助于提取出图像区域中的形状构架，突出图像区域中的形
状，减少冗余信息量，降低后续特征处理的难度。

[0096] S302：利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；通过对细化图像进行图像增强，突出以及强化图像区域中的感兴趣区域中的特征，例如：利
用预先设置的图像增强模板，确定所述细化图像中的感兴趣区域与不感兴趣区域，抑制不
感兴趣区域中的特征，有效去除图像区域中的噪声。还可以通过中值滤波的方式进行图像
增强。

[0097] S303：对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

[0098] 在一些实施例中，所述形状特征的获取步骤包括：

[0099] 对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

[0100] 判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

[0101] 根据所述判断结果，确定所述图像区域中的目标区域；

[0102] 对所述目标区域进行降噪处理，获取降噪图像；

[0103] 将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征。

[0104] S304：对所述图像区域特征进行二值化处理，获取二值化特征；通过对图像区域特征进行二值化处理，降低了对图像区域特征的处理难度，便于对特征进行识别。

[0105] S305：根据所述二值化特征，对所述图像区域进行图像语义识别，获取图像区域语义标签。

[0106] 在一些实施例中，根据所述图像区域特征，对所述图像区域进行图像语义识别的步骤包括：

[0107] 将所述图像区域特征与图像样本库中的图像样本进行匹配，获取匹配结果，所述图像样本库包括：图像样本以及与所述图像样本相关联的图像语义短语；

[0108] 根据所述匹配结果，确定与所述图像区域特征相对应的图像样本，并获取对应图像样本的图像语义短语；

[0109] 将所述图像语义短语作为所述图像区域语义标签，完成所述图像区域语义标签的获取。通过将图像区域特征与图像样本库中的图像样本进行匹配，根据匹配结果，获取对应
的图像语义短语作为图像区域语义标签，实施较方便，例如：将病例的图像区域特征与预先
设置的图像样本库中的图像样本的特征进行匹配，确定与所述图像区域特征相对应的图像
样本，进而获取对应的图像语义短语，确定图像区域语义标签，精确度较高，实施较方便。

[0110] 请参考图4，为了提高文本区域语义标签提取的精确度，发明人提出，文本区域语义标签提取的步骤包括：

[0111] S401：对所述文本区域进行预处理，获取预处理图像，进行预处理的步骤至少包括以下之一：灰度处理、降噪处理和归一化处理；通过对文本区域进行预处理，降低对文本区
域的处理难度，在一些实施例中，通过对文本区域进行灰度处理，能够降低后续图像处理的
复杂程度。可以采用RGB像素的平均值作为每个像素的分量值等；可以采用中值滤波器对原
始图像进行滤波，实现降噪，有助于提高文本区域文本识别的精确度。通过对图像区域进行
归一化处理，能够加快文本语义识别网络的收敛速度，便于对文本语义识别网络进行训练。

[0112] S402：将所述预处理图像输入文本语义识别网络进行文本检测，获取文本框；

[0113] S403：对所述文本框进行文字特征提取，获取所述文本区域的文字特征向量；

[0114] S404：将所述文字特征向量与预设的文字特征库中的特征进行对比，确定文本内容；

[0115] S405：将所述文本内容输入所述文本语义识别网络中的长短期记忆子网络进行文本区域语义标签提取，获取文本区域语义标签。通过将文本内容输入长短期记忆子网络进
行文本区域语义标签提取，能够较好地结合文本内容中的上下文语义信息，提高文本区域
语义标签提取的准确性，有助于提取目标文本。

[0116] 如图5所示，为了提高目标文本的提取精确度，发明人提出，利用图像区域语义标签和图像区域语义标签，进行目标文本提取，从而提高目标文本的精确度，根据所述图像区
域语义标签和所述文本区域语义标签，进行目标文本提取的步骤包括：

[0117] S501：将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；

[0118] S502：判断所述匹配度是否大于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文
本；

[0119] S503：若所述匹配度小于所述匹配阈值范围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确定为目标文本，完成目标文本提取。例如：
当需要确定病例或体检报告中的病灶，且病例或体检报告的页面中均包括图像区域和文本
区域时，则将待识别图像输入识别模型进行识别，对所述待识别图像中的图像区域及文本
区域进行划分，确定图像区域语义标签及文本区域语义标签，将所述图像区域语义标签与
文本区域语义标签进行相似度匹配，获取匹配度，当所述匹配度大于或等于预先设置的匹
配阈值时，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本，当所
述匹配度小于匹配阈值时，则根据预先设置的优先级规则，将所述图像区域语义标签或所
述文本区域语义标签确定为目标文本，完成目标文本提取。所述优先级规则可以根据实际
情况进行设置，或者，当所述匹配度小于匹配阈值时，则输出图像区域语义标签及文本区域
语义标签，用户可以根据实际情况进行选择，确定目标文本，进一步地，当所述匹配度小于
匹配阈值时，可以将待识别图像、图像区域语义标签及文本区域语义标签上传至云端，调用
云端资源对待识别图像进行识别，确定待识别图像中的目标文本，如弥漫性溃疡和乳腺增
生等。通过将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，便于确定
待识别图像中的目标文本，所述目标文本为用于表示待识别图像的语义表达的文本，即图
像的真实语义，精确度较高，实时较方便。

[0120] 当目标文本提取完成后，为了提高用户的体验感，发明人提出，完成目标文本提取的步骤之后包括：

[0121] 设置关联信息库，所述关联信息库包括：文本数据和推荐信息，所述文本数据与所述推荐信息相关联；

[0122] 将所述目标文本与所述文本数据进行匹配，确定对应的文本数据及对应的推荐信息；

[0123] 根据所述推荐信息，进行关联信息推荐。例如：所述文本数据可以为病灶信息等，所述推荐信息可以为针对病灶所提出的诊疗方案等，通过将目标文本与关联信息库中的文
本数据进行匹配，确定对应的文本数据以及对应的推荐信息，能够进行针对性推荐，提升用
户体验感，可实施性较强。

[0124] 如图6所示，本实施例还提供一种目标文本提取系统，包括：

[0125] 预处理模块，用于获取原始图像集；将所述原始图像集输入识别网络进行训练，获取识别模型，训练过程包括：区域划分、图像区域语义标签提取和文本区域语义标签提取；

[0126] 采集模块，用于获取待识别图像；

[0127] 处理模块，用于将所述待识别图像输入所述识别模型进行识别，获取图像区域语义标签和文本区域语义标签；

[0128] 目标文本提取模块，用于根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取；所述预处理模块、采集模块、处理模块和目标文本提取模块依次连接。
通过将获取的原始图像集输入识别网络进行训练，获取识别模型，将待识别图像输入所述
识别模型进行识别，获取图像区域语义标签和文本区域语义标签，并根据所述图像区域语
义标签和文本区域语义标签，进行目标文本提取，能够较好地提取出待识别图像中的文本
区域和图像区域中的目标文本，有效提高了对待识别图像的识别精确度，成本较低，实施较
方便，灵活度较高。

[0129] 在一些实施例中，所述识别网络包括：卷积神经网络、图像语义识别网络和文本语义识别网络；所述识别模型的获取步骤包括：

[0130] 将所述原始图像集中的原始图像输入所述卷积神经网络进行特征提取，获取一个或多个特征框；

[0131] 对所述特征框进行标注与分类，确定所述原始图像中的图像区域和文本区域，所述图像区域与所述文本区域相对应；

[0132] 将所述图像区域输入图像语义识别网络进行图像语义识别，获取图像区域语义标签；

[0133] 将所述文本区域输入文本语义识别网络进行文本语义识别，获取文本区域语义标签；

[0134] 根据所述图像区域语义标签和所述文本区域语义标签，对所述识别网络进行训练，获取所述识别模型。

[0135] 在一些实施例中，所述预处理模块进行图像区域语义标签提取的步骤包括：

[0136] 对图像区域进行二值化处理，获取二值化图像；

[0137] 对所述二值化图像进行细化处理，获取细化图像；

[0138] 利用预先设置的图像增强模板，对细化图像进行图像增强，获取增强图像；

[0139] 对所述增强图像进行特征提取，获取图像区域特征，所述图像区域特征包括：颜色特征、形状特征和纹理特征；

[0140] 根据所述图像区域特征，对所述图像区域进行图像语义识别，获取图像区域语义标签。

[0141] 在一些实施例中，根据所述图像区域特征，对所述图像区域进行图像语义识别的步骤包括：

[0142] 将所述图像区域特征与图像样本库中的图像样本进行匹配，获取匹配结果；

[0143] 根据所述匹配结果，确定与所述图像区域特征相对应的图像样本，并获取对应图像样本的图像语义短语；

[0144] 将所述图像语义短语作为所述图像区域语义标签，完成所述图像区域语义标签的获取。

[0145] 在一些实施例中，所述形状特征的获取步骤包括：

[0146] 对所述增强图像进行灰度化处理，获取灰度图像和所述灰度图像中每个像素点的色度值；

[0147] 判断所述色度值是否超出预设的色度值阈值范围，获取判断结果；

[0148] 根据所述判断结果，确定所述图像区域中的目标区域；

[0149] 对所述目标区域进行降噪处理，获取降噪图像；

[0150] 将所述降噪图像输入图像语义识别网络的轮廓提取子网络进行轮廓提取，获取所述图像区域中的形状特征。

[0151] 在一些实施例中，所述预处理模块文本区域语义标签提取的步骤包括：

[0152] 对所述文本区域进行预处理，获取预处理图像，进行预处理的步骤至少包括以下之一：灰度处理、降噪处理和归一化处理；

[0153] 将所述预处理图像输入文本语义识别网络进行文本检测，获取文本框；

[0154] 对所述文本框进行文字特征提取，获取所述文本区域的文字特征向量；

[0155] 将所述文字特征向量与预设的文字特征库中的特征进行对比，确定文本内容；

[0156] 将所述文本内容输入所述文本语义识别网络中的长短期记忆子网络进行文本区域语义标签提取，获取文本区域语义标签。

[0157] 在一些实施例中，根据所述图像区域语义标签和所述文本区域语义标签，进行目标文本提取的步骤包括：

[0158] 将所述图像区域语义标签和所述文本区域语义标签进行相似度匹配，获取所述图像区域语义标签和所述文本区域语义标签之间的匹配度；

[0159] 判断所述匹配度是否大于或等于预设的匹配阈值，若所述匹配度大于或等于所述匹配阈值，则确定对应所述图像区域语义标签或所述文本区域语义标签为目标文本；

[0160] 若所述匹配度小于所述匹配阈值范围，则根据预先设置的优先级规则，将所述图像区域语义标签或所述文本区域语义标签确定为目标文本，完成目标文本提取。

[0161] 在一些实施例中，根据所述图像区域语义标签和所述文本区域语义标签，利用预设的损失函数，对所述识别网络进行训练，所述损失函数的数学表达为：

[0162] f（x）=α∑i[ut×log(up)+(1－ut) ×log(1－up)]+ β∑i|yt－yp|

[0163] 其中，f（x）为损失函数，α为预设的第一权值，ut为图像区域语义标签的真实值，up为图像区域语义标签的预测值，β为预设的第二权值，n为样本数量，yt为文本区域语义标签
的真实值，yp为文本区域语义标签的预测值，1≤i≤n。

[0164] 在一些实施例中，还包括，关联信息推荐模块，用于设置关联信息库，所述关联信息库包括：文本数据和推荐信息，所述文本数据与所述推荐信息相关联；

[0165] 将所述目标文本与所述文本数据进行匹配，确定对应的文本数据及对应的推荐信息；

[0166] 根据所述推荐信息，进行关联信息推荐。

[0167] 本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

[0168] 本实施例还提供一种电子终端，包括：处理器及存储器；

[0169] 所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行本实施例中任一项方法。

[0170] 本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序
可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步
骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0171] 本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接
口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个
步骤。

[0172] 在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non‑volatile memory)，例如至少一个磁盘存储器。

[0173] 上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器
(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific
Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

[0174] 上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因
此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

一种目标文本提取方法及系统转让专利

申请号 : CN202110621923.9

文献号 : CN113255665B

文献日 : 2021-12-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 姚娟娟 , 樊代明 , 钟南山

申请人 : 明品云(北京)数据科技有限公司

摘要 :

权利要求 :

说明书 :