一种文本检测模型训练方法、装置、设备及存储介质转让专利

申请号 : CN202210040015.5

文献号 : CN114067321B

文献日 : 2022-04-08

本申请实施例提供一种文本检测模型训练方法、装置、设备及存储介质，可应用于地图领域、车载场景、人工智能、辅助驾驶等各种场景，该方法包括：获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象。基于样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型。在训练过程中两种模型相互监督学习，两种模型对应的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

1.一种文本检测模型训练方法，其特征在于，包括：获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及对所述样本图像进行特征提取，获得目标样本特征图像；对所述目标样本特征图像进行语义分割，获得所述样本图像中各个像素对应的预测全局类别；基于所述目标样本特征图像，生成所述样本图像中各个像素对应的特征向量；从所述各个像素中，确定预测全局类别为前景类别的目标像素；基于各个目标像素的特征向量，对所述各个目标像素进行聚类，获得至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签；基于所述至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象；

基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确定目标损失值，并采用所述目标损失值进行参数调整。

2.如权利要求1所述的方法，其特征在于，所述通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，包括：对所述样本图像进行特征提取，获得多个不同尺寸的样本特征图像；

从多个样本特征图像中，切割出相应的多个初始文本框图像，并将所述多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像；

对所述多个样本文本框图像进行实例分割，获得所述至少一个第一预测文本对象；

对所述多个样本文本框图像进行属性预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息。

3.如权利要求2所述的方法，其特征在于，所述预测属性信息包括预测位置信息和预测类别；

所述对所述多个样本文本框图像进行属性信息预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息，包括：对所述多个样本文本框图像进行边框回归，获得所述至少一个第一预测文本对象各自对应的预测位置信息；

对所述多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别。

4.如权利要求2所述的方法，其特征在于，所述从多个样本特征图像中，切割出相应的多个初始文本框图像，包括：

针对所述多个样本特征图像，分别执行以下步骤：确定与一个样本特征图像的图像尺寸匹配的文本框尺寸；

在所述一个样本特征图像中，生成所述文本框尺寸对应的多个初始文本框；

基于所述多个初始文本框，从所述一个样本特征图像中切割出多个初始文本框图像。

5.如权利要求1所述的方法，其特征在于，所述基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确定目标损失值，包括：基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息，和所述至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失值；

基于所述样本图像中的至少一个真实文本对象，和所述至少一个第二预测文本对象，确定第二损失值；

基于所述第一损失值和所述第二损失值，确定所述目标损失值。

6.如权利要求5所述的方法，其特征在于，所述真实属性信息包括真实位置信息和真实类别，所述预测属性信息包括预测位置信息和预测类别；

所述基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息，和所述至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失值，包括：基于所述至少一个真实文本对象和所述至少一个第一预测文本对象，确定第一实例分割损失值；

基于所述至少一个真实文本对象各自对应的真实位置信息，以及所述至少一个第一预测文本对象各自对应的预测位置信息，确定位置损失值；

基于所述至少一个真实文本对象各自对应的真实类别，以及所述至少一个第一预测文本对象各自对应的预测类别，确定类别损失值；

基于所述第一实例分割损失值、所述位置损失值和所述类别损失值，确定所述第一损失值。

7.如权利要求5所述的方法，其特征在于，所述基于所述样本图像中的至少一个真实文本对象，和所述至少一个第二预测文本对象，确定第二损失值，包括：基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实全局类别，以及所述至少一个第二预测文本对象对应的各个像素的预测全局类别，确定语义分割损失值；

基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实文本对象标签，以及所述至少一个第二预测文本对象对应的各个像素的预测文本对象标签，确定第二实例分割损失值；

基于所述语义分割损失值和所述第二实例分割损失值，确定所述第二损失值。

8.如权利要求1至7任一所述的方法，其特征在于，所述基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型之后，还包括：

获取待处理图像；

采用所述目标文本检测模型，对所述待处理图像进行特征提取，获得多个不同尺寸的目标特征图像，并从多个目标特征图像中，切割出相应的多个候选文本框图像；

采用所述目标文本检测模型，将所述多个候选文本框图像调整为相同尺寸，获得多个目标文本框图像；

采用所述目标文本检测模型，对所述多个目标文本框图像进行实例分割，获得至少一个目标文本对象。

9.一种文本检测模型训练装置，其特征在于，包括：第一获取模块，用于获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

模型训练模块，用于基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：

通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及对所述样本图像进行特征提取，获得目标样本特征图像；对所述目标样本特征图像进行语义分割，获得所述样本图像中各个像素对应的预测全局类别；基于所述目标样本特征图像，生成所述样本图像中各个像素对应的特征向量；从所述各个像素中，确定预测全局类别为前景类别的目标像素；基于各个目标像素的特征向量，对所述各个目标像素进行聚类，获得至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签；基于所述至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1 8任一权利要求所述方~

法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1 8任一所述方~

法的步骤。

一种文本检测模型训练方法、装置、设备及存储介质

技术领域

[0001] 本发明实施例涉及人工智能技术领域，尤其涉及一种文本检测模型训练方法、装置、设备及存储介质。

背景技术

[0002] 随着人工智能技术的发展，场景文本检测技术应运而生，场景文本检测技术指在图像中提取文本内容。

[0003] 相关技术在进行场景文本识别时，先对图像中的前景和背景进行分离，获得图像中的文本区域，然后对文本区域进行像素级别的特征聚类，获得文本内容。

[0004] 然而，上述方案高度依赖聚类半径等条件，对离群点较敏感，同一聚类半径很难同时解决大小不同的文本场景，从而导致文本检测的准确性较低。

发明内容

[0005] 本申请实施例提供了一种文本检测模型训练方法、装置、设备及存储介质，用于提高文本检测的准确性。

[0006] 一方面，本申请实施例提供了一种文本检测模型训练方法，该方法包括：

[0007] 获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

[0008] 基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：

[0009] 通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过所述全局语义分割模型，对所述样本图像进行图
像分割，获得至少一个第二预测文本对象；

[0010] 基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确
定目标损失值，并采用所述目标损失值进行参数调整。

[0011] 一方面，本申请实施例提供了一种文本检测模型训练装置，该装置包括：

[0012] 第一获取模块，用于获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

[0013] 模型训练模块，用于基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过
程中，执行以下操作：

[0014] 通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过所述全局语义分割模型，对所述样本图像进行图
像分割，获得至少一个第二预测文本对象；

[0015] 基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确
定目标损失值，并采用所述目标损失值进行参数调整。

[0016] 可选地，所述模型训练模块具体用于：

[0017] 对所述样本图像进行特征提取，获得多个不同尺寸的样本特征图像；

[0018] 从多个样本特征图像中，切割出相应的多个初始文本框图像，并将所述多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像；

[0019] 对所述多个样本文本框图像进行实例分割，获得所述至少一个第一预测文本对象；

[0020] 对所述多个样本文本框图像进行属性预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息。

[0021] 可选地，所述预测属性信息包括预测位置信息和预测类别；

[0022] 所述模型训练模块具体用于：

[0023] 对所述多个样本文本框图像进行边框回归，获得所述至少一个第一预测文本对象各自对应的预测位置信息；

[0024] 对所述多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别。

[0025] 可选地，所述模型训练模块具体用于：

[0026] 针对所述多个样本特征图像，分别执行以下步骤：

[0027] 确定与一个样本特征图像的图像尺寸匹配的文本框尺寸；

[0028] 在所述一个样本特征图像中，生成所述文本框尺寸对应的多个初始文本框；

[0029] 基于所述多个初始文本框，从所述一个样本特征图像中切割出多个初始文本框图像。

[0030] 可选地，所述模型训练模块具体用于：

[0031] 对所述样本图像进行特征提取，获得目标样本特征图像；

[0032] 对所述目标样本特征图像进行语义分割，获得所述样本图像中各个像素对应的预测全局类别；

[0033] 基于所述目标样本特征图像，生成所述样本图像中各个像素对应的特征向量；

[0034] 基于所述各个像素对应的预测全局类别和特征向量，对所述样本图像进行实例分割，获得至少一个第二预测文本对象。

[0035] 可选地，所述模型训练模块具体用于：

[0036] 从所述各个像素中，确定预测全局类别为前景类别的目标像素；

[0037] 基于各个目标像素的特征向量，对所述各个目标像素进行聚类，获得至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签；

[0038] 基于所述至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象。

[0039] 可选地，所述模型训练模块具体用于：

[0040] 基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息，和所述至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失值；

[0041] 基于所述样本图像中的至少一个真实文本对象，和所述至少一个第二预测文本对象，确定第二损失值；

[0042] 基于所述第一损失值和所述第二损失值，确定所述目标损失值。

[0043] 可选地，所述真实属性信息包括真实位置信息和真实类别，所述预测属性信息包括预测位置信息和预测类别；

[0044] 所述模型训练模块具体用于：

[0045] 基于所述至少一个真实文本对象和所述至少一个第一预测文本对象，确定第一实例分割损失值；

[0046] 基于所述至少一个真实文本对象各自对应的真实位置信息，以及所述至少一个第一预测文本对象各自对应的预测位置信息，确定位置损失值；

[0047] 基于所述至少一个真实文本对象各自对应的真实类别，以及所述至少一个第一预测文本对象各自对应的预测类别，确定类别损失值；

[0048] 基于所述第一实例分割损失值、所述位置损失值和所述类别损失值，确定所述第一损失值。

[0049] 可选地，所述模型训练模块具体用于：

[0050] 基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实全局类别，以及所述至少一个第二预测文本对象对应的各个像素的预测全局类别，确定语义分割
损失值；

[0051] 基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实文本对象标签，以及所述至少一个第二预测文本对象对应的各个像素的预测文本对象标签，确定
第二实例分割损失值；

[0052] 基于所述语义分割损失值和所述第二实例分割损失值，确定所述第二损失值。

[0053] 可选地，还包括模型预测模块；

[0054] 所述模型预测模块具体用于：

[0055] 所述基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型之后，获取待处理图像；

[0056] 采用所述目标文本检测模型，对所述待处理图像进行特征提取，获得多个不同尺寸的目标特征图像，并从多个目标特征图像中，切割出相应的多个候选文本框图像；

[0057] 采用所述目标文本检测模型，将所述多个候选文本框图像调整为相同尺寸，获得多个目标文本框图像；

[0058] 采用所述目标文本检测模型，对所述多个目标文本框图像进行实例分割，获得所述至少一个目标文本对象。

[0059] 一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本检测模
型训练方法的步骤。

[0060] 一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述
文本检测模型训练方法的步骤。

[0061] 一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指
令被计算机设备执行时，使所述计算机设备执行上述文本检测模型训练方法的步骤。

[0062] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其
次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像
素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

附图说明

[0063] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本
领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其
他的附图。

[0064] 图1为本申请实施例提供的一种系统架构示意图；

[0065] 图2为本申请实施例提供的一种待处理图像的示意图；

[0066] 图3为本申请实施例提供的一种待处理图像的检查结果的示意图；

[0067] 图4为本申请实施例提供的一种地图应用界面的示意图；

[0068] 图5为本申请实施例提供的一种文本检测模型训练方法的流程示意图；

[0069] 图6为本申请实施例提供的一种真实文本对象的示意图；

[0070] 图7为本申请实施例提供的一种文本检测模型的网络结构示意图；

[0071] 图8为本申请实施例提供的一种文本检测方法的流程示意图一；

[0072] 图9为本申请实施例提供的一种特征提取模块的网络结构示意图；

[0073] 图10为本申请实施例提供的一种全局语义分割模型的网络结构示意图；

[0074] 图11为本申请实施例提供的一种文本检测方法的流程示意图二；

[0075] 图12为本申请实施例提供的一种文本检测模型和全局语义分割模型的网络结构示意图；

[0076] 图13为本申请实施例提供的一种文本检测模型训练装置的结构示意图；

[0077] 图14为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

[0078] 为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发
明，并不用于限定本发明。

[0079] 为了方便理解，下面对本发明实施例中涉及的名词进行解释。

[0080] 人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理
论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解
智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

[0081] 人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

[0082] 自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种
理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领
域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联
系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技
术。比如，本申请实施例中采用自然语言处理技术，对待处理图像进行目标检测，获得至少
一个目标文本对象。

[0083] POI：point of interest，在地图中某个地理位置的周边信息，也可以称之为地图上任何非地理意义的有意义的点，比如商店、酒吧、加油站等。

[0084] OCR ：Optical Character Recognition，光学字符识别，指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文
字的过程。

[0085] 下面对本申请实施例的设计思想进行介绍。

[0086] 相关技术在进行场景文本识别时，先对图像中的前景和背景进行分离，获得图像中的文本区域，然后对文本区域进行像素级别的特征聚类，获得文本内容。然而，上述方案
高度依赖聚类半径等条件，对离群点较敏感，同一聚类半径很难同时解决大小不同的文本
场景，从而导致文本检测的准确性较低。

[0087] 鉴于此，本申请实施例提供了一种文本检测模型训练方法，该方法包括：

[0088] 获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象。基于样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的
目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：

[0089] 通过文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过全局语义分割模型，对样本图像进行图像分割，获得至
少一个第二预测文本对象。然后基于样本图像中的至少一个真实文本对象以及相应的真实
属性信息、至少一个第一预测文本对象以及相应的预测属性信息、至少一个第二预测文本
对象，确定目标损失值，并采用目标损失值进行参数调整。

[0090] 采用上述方式获得目标文本检测模型之后，将待处理图像输入目标文本检测模型进行文本检测，获得待处理图像中的至少一个目标文本对象。

[0091] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其
次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像
素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

[0092] 参见图1，其为本申请实施例适用的一种系统架构图。该架构至少包括终端设备101以及服务器102。终端设备101的数量可以是一个或多个，服务器102的数量也可以是一
个或多个，本申请对终端设备101和服务器102的数量不做具体限定。

[0093] 终端设备101中可以安装有目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。在实际应用场景中，目标应用可以是任意具备文本检测功能的应用。
终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智
能家电、智能音箱、智能手表、智能车载设备等，但并不局限于此。本申请实施例可应用于各
种场景，包括但不限于地图领域、车载场景、云技术、人工智能、智慧交通、辅助驾驶。

[0094] 服务器102可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系
统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服
务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和
人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无
线通信方式进行直接或间接地连接，本申请在此不做限制。

[0095] 本申请实施例中的文本检测模型训练方法可以是终端设备101执行，也可以是服务器102执行，也可以由终端设备101与服务器102交互执行。

[0096] 下面以文本检测模型训练方法均由服务器102执行为例，进行以下具体说明：

[0097] 模型训练阶段：

[0098] 终端设备101将样本图像集合发送至服务器102，每个样本图像包含至少一个真实文本对象。服务器102基于样本图像集合，对待训练的文本检测模型和全局语义分割模型进
行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以
下操作：

[0099] 通过文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过全局语义分割模型，对样本图像进行图像分割，获得至
少一个第二预测文本对象。然后基于样本图像中的至少一个真实文本对象以及相应的真实
属性信息、至少一个第一预测文本对象以及相应的预测属性信息、至少一个第二预测文本
对象，确定目标损失值，并采用目标损失值进行参数调整。

[0100] 在获得目标文本检测模型之后，将目标文本检测模型保存在服务器102中。

[0101] 文本检测阶段：

[0102] 用户在终端设备101上提交待处理图像，终端设备101将待处理图像发送至服务器102。服务器102将待处理图像输入目标文本检测模型进行文本检测，获得待处理图像中的
至少一个目标文本对象。服务器102将至少一个目标文本对象发送至终端设备101。终端设
备101在显示界面展示至少一个目标文本对象。具体在展示时，可以单独展示目标文本对
象，也可以在待处理图像中的相应位置展示目标文本对象。

[0103] 在实际应用中，本申请实施例中的文本检测模型训练方法适用于任意需要检测图像中的文本对象的场景，比如地图中POI更新、公交站牌名称识别、交通标志牌识别等。下面
以更新地图中的POI举例来说：

[0104] 参见图2，为在目标位置A附近拍摄的待处理图像，采用本申请实施例中的文本检测模型训练方法获得目标文本检测模型之后，将图2所示的待处理图像输入目标文本检测
模型，通过目标文本检测模型对待处理图像进行文本对象检测，输出检测结果。检测结果如
图3所示，包括目标文本框201和目标文本框202。分别对目标文本框201和目标文本框202进
行文本识别，获得目标文本框201中的文本内容为“重庆特色鱼庄”，目标文本框202中的文
本内容为“千叶花店”。若地图中目标位置A的POI中没有“重庆特色鱼庄”和“千叶花店”，则
将“重庆特色鱼庄”和“千叶花店”作为目标位置的POI添加至地图中。

[0105] 用户在地图应用中搜索目标位置A的周边信息时，如图4所示，地图应用显示“重庆特色鱼庄”和“千叶花店”等目标位置A的周边信息。

[0106] 基于图1所示的系统架构图，本申请实施例提供了一种文本检测模型训练方法的流程，如图5所示，该方法的流程可以由图1所示的终端设备101或服务器102执行，也可以由
终端设备101和服务器102交互执行，包括以下步骤：

[0107] 步骤S501，获取样本图像集合。

[0108] 具体地，每个样本图像包含至少一个真实文本对象，真实文本对象是在样本图像中预先标记的文本对象，文本对象可以是包含文本内容的多边形。

[0109] 以真实文本对象为四边形的真实文本框举例来说，如图6所示，样本图像中包含两个预先标记的真实文本框，分别为真实文本框601和真实文本框602，其中，真实文本框601
内包含的文本内容为“重庆特色鱼庄”，真实文本框602内包含的文本内容为“千叶花店”。

[0110] 步骤S502，基于样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型。

[0111] 具体地，在每次迭代训练过程中，执行以下操作：

[0112] 通过文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过全局语义分割模型，对样本图像进行图像分割，获得至
少一个第二预测文本对象。然后基于样本图像中的至少一个真实文本对象以及相应的真实
属性信息、至少一个第一预测文本对象以及相应的预测属性信息、至少一个第二预测文本
对象，确定目标损失值，并采用目标损失值进行参数调整。

[0113] 具体实施中，真实属性信息包括真实位置信息和真实类别，预测属性信息包括预测位置信息和预测类别。在每次迭代训练过程中，可以采用不放回的方式从样本图像集合
中随机选取至少一个样本图像进行训练；也可以预先对样本图像集合中的各个样本图像进
行排序，然后按照排序结果，依次从样本图像集合中选取至少一个样本图像进行训练。

[0114] 在每次迭代过程中，采用目标损失值对待训练的文本检测模型和全局语义分割模型进行参数调整，使真实文本对象以及相应的真实属性信息，与第一预测文本对象以及相
应的预测属性信息之间的相似性越来越高，同时，使真实文本对象与第二预测文本对象之
间的相似性越来越高。

[0115] 迭代训练的结束条件可以是迭代训练次数达到预设次数，或者目标损失值满足预设收敛条件。

[0116] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其
次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像
素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

[0117] 可选地，参见图7，为本申请实施例提供的文本检测模型的网络结构示意图，其中，该文本检测模型包括特征提取模块、候选框预测模块、特征裁剪模块、第一实例分割分支、
边框回归分支和边框分类分支。

[0118] 基于上述网络结构，本申请实施例至少采用以下方式，通过文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，如图8所
示，包括以下步骤：

[0119] 步骤S801，对样本图像进行特征提取，获得多个不同尺寸的样本特征图像。

[0120] 具体地，通过特征提取模块，对样本图像进行特征提取，获得多个不同尺寸的样本特征图像，其中，特征提取模块包括主干网络和多尺度特征融合模块，主干网络采用
resnet101等深度残差，以保证能够训练更深的网络。多尺度特征融合模块采用特征金字塔
网络（Feature Pyramid Networks，简称FPN），以实现更好的图像特征融合。

[0121] 主干网络包括多个indetity block（标识块）和多个conv block（卷积块），卷积块包括多个卷积层、多个归一化层和多个激活层，用于获得图像特征。具体地，低层卷积层负
责提取图片边缘纹理等基本图像特征，高层卷积层负责把底层的纹理特征结合抽象。归一
化层对图像特征进行归一化正态分布处理。激活层对提取的图像特征进行非线性映射，加
强模型的泛化能力。

[0122] 标识块中包括shortcut（直连）结构和恒等映射结构，这样不会产生额外的参数，也不会增加计算复杂度，保证了梯度的有效回传，也保证了深度网络的训练中梯度不消失。

[0123] 多尺度特征融合模块包括多个上采样块，每个上采样块输入不仅来自于前一个上采样输出的图像特征，还来自于主干网络提取的同尺寸的图像特征。为了更好的融合特征
信息，上采样块内部会将二种图像特征进行加和，并进行卷积操作实现信息融合，获得特征
图像。

[0124] 举例来说，参见图9，为本申请实施例提供的一种特征提取模块的网络结构示意图，包括主干网络和多尺度特征融合模块，其中，主干网络包括4个残差模块，分别为残差模
块1、残差模块2、残差模块3、残差模块4，每个残差模块包括标识块和卷积块。多尺度特征融
合模块包括3个上采样块，分别为上采样块1、上采样块2、上采样块3。

[0125] 将样本图像输入主干网络，残差模块1对样本图像进行下采样处理，获得特征图像C2，并将特征图像C2输入残差模块2。残差模块2对特征图像C2进行下采样处理，获得特征图
像C3，并将特征图像C3输入残差模块3。残差模块3对特征图像C3进行下采样处理，获得特征
图像C4，并将特征图像C4输入残差模块4。残差模块4对特征图像C4进行下采样处理，获得特
征图像C5。对特征图像C5进行1x1卷积处理后，获得特征图像M5，并将特征图像M5输入上采
样模块1。

[0126] 上采样模块1对特征图像M5进行上采样处理，获得特征图像M4，然后将特征图像M4输入上采样模块2。上采样模块2对特征图像M4进行上采样处理，获得特征图像M3，然后将特
征图像M3输入上采样模块3。上采样模块3对特征图像M3进行上采样处理，获得特征图像M2。
特征图像C4与特征图像M4的尺寸相同，特征图像C3与特征图像M3的尺寸相同，特征图像C2
与特征图像M2的尺寸相同。

[0127] 对特征图像M5进行3x3卷积处理，获得样本特征图像P1。将特征图像C4进行1x1卷积处理后，与特征图像M4进行融合，然后对融合获得的图像进行3x3卷积处理，获得样本特
征图像P2。将特征图像C3进行1x1卷积处理后，与特征图像M3进行融合，然后对融合获得的
图像进行3x3卷积处理，获得样本特征图像P3。将特征图像C2进行1x1卷积处理后，与特征图
像M2进行融合，然后对融合获得的图像进行3x3卷积处理，获得样本特征图像P4，其中，样本
特征图像P1、样本特征图像P2、样本特征图像P3和样本特征图像P4为不同尺寸的样本特征
图像。

[0128] 步骤S802，从多个样本特征图像中，切割出相应的多个初始文本框图像。

[0129] 具体地，通过候选框预测模块，从样本特征图像中确定样本文本框图像，样本特征图像中每个像素可以产生多个不同大小的样本文本框，各个样本文本框的大小由scale（尺
寸）和ratio（比例）这两个参数来确定。候选框预测模块可以是区域推荐网络（Region
Proposal Network，简称RPN）。

[0130] 由于特征提取模块提取了多个不同尺寸的样本特征图像，因此，可以在不同尺寸的样本特征图像中切割出不同尺寸的初始文本框。具体地，针对多个样本特征图像，分别执
行以下步骤：

[0131] 确定与一个样本特征图像的图像尺寸匹配的文本框尺寸，然后在该样本特征图像中，生成文本框尺寸对应的多个初始文本框。之后再基于多个初始文本框，从该样本特征图
像中切割出多个初始文本框图像。

[0132] 具体实施中，大尺寸的样本特征图像，匹配大尺寸的初始文本框；小尺寸的样本特征图像，匹配小尺寸的初始文本框。这样便可以在小尺寸的样本特征图像中切割出小文本
对象对应的初始文本框，在大尺寸的样本特征图像中切割出大文本对象对应的初始文本
框，从而提高检测不同尺寸的文本对象的准确性，同时减少后续对样本文本框的过滤。

[0133] 步骤S803，将多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像。

[0134] 具体地，通过特征裁剪模块，针对多个初始文本框图像，分别执行以下步骤：

[0135] 按照预设划分比例，将一个初始文本框图像划分为多个相同尺寸的候选区域。然后对每个候选区域包含的多个采样点进行双线性插值处理，获得每个候选区域对应的4个
采样像素值，并将4个采样像素值中的最大采样像素值，作为每个候选区域的目标像素值。
基于多个候选区域对应的目标像素值，获得调整尺寸后的样本文本框图像。通过双线性插
值得到固定四个点坐标的像素值，从而使得不连续的操作变得连续起来，返回到原图的时
候误差也就更加的小,同时保证特征维度的一致性。

[0136] 步骤S804，对多个样本文本框图像进行实例分割，获得至少一个第一预测文本对象。

[0137] 具体地，本申请实施例中的一个实例表示一个文本对象。每个样本文本框图像对应一个文本对象。通过第一实例分割分支，采用全卷机网络（Fully Convolution Network，
简称FCN）对调整尺寸后的样本文本框图像进行处理，获得第一预测文本对象。由于一个第
一预测文本对象可能对应多个样本文本框图像，因此，对多个样本文本框图像进行实例分
割，获得多个实例分割结果之后，采用非极大抑制算法对重复的实例分割结果进行去重，将
保留的实例分割结果作为第一预测文本对象输出。

[0138] 步骤S805，对多个样本文本框图像进行属性预测，获得至少一个第一预测文本对象各自对应的预测属性信息。

[0139] 具体地，预测属性信息包括预测位置信息和预测类别。通过边框回归分支对多个样本文本框图像进行边框回归，获得至少一个第一预测文本对象各自对应的预测位置信
息，其中，预测位置信息可以是预测文本对象在样本图像中的位置坐标。当预测文本对象为
四边形的文本框时，预测位置信息可以是文本框四个角的位置坐标。

[0140] 通过边框分类分支对多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别，其中，预测类别可以包括文本和非文本两个类别，也可以包
括清晰文本、模糊文本、非文本三个类别，还可以设置其他类别，对此，本申请不做具体限
定。

[0141] 本申请实施例中，通过对样本图像进行特征提取，获得多个不同尺寸的样本特征图像，从多个样本特征图像中，获得相应的多个样本文本框图像进行文本对象检测，从而提
高检测不同尺寸的文本对象的准确性。通过实例分割分支、边框回归分支和边框分类分支
分别对样本文本框图像进行多维度的文本检测，使得训练过程中可以采用多种损失值对模
型进行参数调整，从而提高训练获得的目标文本检测模型的性能。

[0142] 可选地，参见图10，为本申请实施例提供的全局语义分割模型的网络结构示意图，其中，该全局语义分割模型包括特征提取模块、语义分割分支、特征学习模块、第二实例分
割分支。

[0143] 基于上述网络结构，本申请实施例至少采用以下方式，通过全局语义分割模型，对样本图像进行图像分割，获得至少一个第二预测文本对象，如图11所示，包括以下步骤：

[0144] 步骤S1101，对样本图像进行特征提取，获得目标样本特征图像。

[0145] 具体地，通过特征提取模对样本图像进行特征提取，获得目标样本特征图像。全局语义分割模型与文本检测模型可以对应相同的特征提取模块，特征提取模块提取特征的过
程在前文已有介绍，此处不再赘述。

[0146] 目标样本特征图像可以是：对样本图像进行特征提取后获得多个不同尺寸的样本特征图像中的一个样本特征图像。比如，目标样本特征图像为图9中的样本特征图像P4。

[0147] 步骤S1102，对目标样本特征图像进行语义分割，获得样本图像中各个像素对应的预测全局类别。

[0148] 具体地，预测全局类别包括前景类别和背景类别。通过语义分割分支对目标样本特征图像进行语义分割，获得样本图像中各个像素对应的预测全局类别，其中，采用1表示
前景类别，采用0表示背景类别。当然，本申请实施例也可以采用其他数值表示前景类别和
背景类别，此处不做具体限定。

[0149] 步骤S1103，基于目标样本特征图像，生成样本图像中各个像素对应的特征向量。

[0150] 具体地，通过特征学习模块针对每个像素，生成一个8维的特征向量。

[0151] 步骤S1104，基于各个像素对应的预测全局类别和特征向量，对样本图像进行实例分割，获得至少一个第二预测文本对象。

[0152] 具体地，通过第二实例分割分支从各个像素中，确定预测全局类别为前景类别的目标像素，然后基于各个目标像素的特征向量，对各个目标像素进行聚类，获得至少一个目
标像素集合以及至少一个目标像素集合各自对应的预测文本对象标签。基于至少一个目标
像素集合以及至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预
测文本对象。

[0153] 具体实施中，从各个像素中确定预测全局类别为前景类别的目标像素之后，与各个像素对应的特征向量合并，获得所有前景类别的目标像素的特征向量，即所有文本对象
的像素特征。每个文本对象对应一个文本对象标签，比如，不然的文本对象采用不同的数字
表示文本对象标签。

[0154] 采用密度聚类算法，基于各个目标像素的特征向量，对各个目标像素进行聚类，使同一文本对象的目标像素尽可能相似，不同文本对象的目标像素尽可能区分。最后，将聚类
获得的目标像素集合以及对应的预测文本对象标签，确定第二预测文本对象。

[0155] 本申请实施例中，在训练过程中，采用语义分割和实例分割结合的方式，从样本图像中检测获得至少一个第二预测文本对象，故在进行模型参数调整时，可以结合语义分割
和实例分割两种损失函数共同优化梯度的学习，从而提高联合训练获得的效果。

[0156] 可选地，在每次迭代过程中，基于样本图像中的至少一个真实文本对象以及相应的真实属性信息，和至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失
值。然后基于样本图像中的至少一个真实文本对象，和至少一个第二预测文本对象，确定第
二损失值。之后再基于第一损失值和第二损失值，确定目标损失值。

[0157] 具体地，通过文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息之后，基于样本图像中的至少一个真实文本对象以及相应
的真实属性信息，和至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失
值。

[0158] 通过全局语义分割模型，对样本图像进行图像分割，获得至少一个第二预测文本对象之后，基于样本图像中的至少一个真实文本对象，和至少一个第二预测文本对象，确定
第二损失值。

[0159] 再联合文本检测模型对应的第一损失值和全局语义分割模型对应的第二损失值，获得目标损失值，并采用目标损失值对文本检测模型和全局语义分割模型进行参数调整。

[0160] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练过程中，结合文本检测模型和全局语义分割模型各自对应的损失值，对文本检测模型和
全局语义分割模型进行参数调整，实现文本检测模型和全局语义分割模型相互监督学习，
从而提高文本检测鲁棒性与精准度。

[0161] 可选地，文本检测模型中包括第一实例分割分支、边框回归分支和边框分类分支三个分支，这三个分支输出的结果均可以指导模型训练，因此，可以基于这三个分支各自对
应的损失值，确定文本检测模型对应的第一损失值，具体如下：

[0162] 基于至少一个真实文本对象和至少一个第一预测文本对象，确定第一实例分割损失值。基于至少一个真实文本对象各自对应的真实位置信息，以及至少一个第一预测文本
对象各自对应的预测位置信息，确定位置损失值。基于至少一个真实文本对象各自对应的
真实类别，以及至少一个第一预测文本对象各自对应的预测类别，确定类别损失值。基于第
一实例分割损失值、位置损失值和类别损失值，确定第一损失值。

[0163] 具体实施中，每个真实文本对象对应一个预测文本对象。采用损失函数，基于至少一个真实文本对象和相应的预测文本对象，确定第一实例分割损失值。第一实例分割损失
值越小，说明文本检测模型预测获得的预测文本对象越接近真实文本对象。

[0164] 采用损失函数，基于至少一个真实文本对象各自对应的真实位置信息，和相应的预测文本对象对应的预测位置信息，确定位置损失值。位置损失值越小，说明文本检测模型
预测获得的预测位置信息越接近真实位置信息。

[0165] 采用损失函数基于至少一个真实文本对象各自对应的真实类别，和相应的预测文本对象对应的预测类别，确定类别损失值。类别损失值越小，说明文本检测模型预测获得的
预测类别越接近真实类别。用于计算第一实例分割损失值、位置损失值和类别损失值的损
失函数可以是相同的，也可以是不相同的。

[0166] 需要说明的是，本申请实施例中确定第一损失值的方式并不限于以上描述的一种，也可以将第一实例分割损失值作为第一损失值，或者基于第一实例分割损失值和位置
损失值，确定第一损失值，或者基于第一实例分割损失值和类别损失值，确定第一损失值，
还可以是其他的实施方式，对此，本申请不做具体限定。

[0167] 本申请实施例中，通过实例分割分支的实例分割损失值、边框回归分支的位置损失值和边框分类分支的类别损失值联合对模型进行参数调整，优化了训练过程中梯度的学
习，对模型训练起到了有效的指导，从而提高训练获得的目标文本检测模型的性能，提高文
本检测的准确性。

[0168] 可选地，全局语义分割模型中包括第二语义分割分支和实例分割分支两个分支，这两个分支输出的结果均可以指导模型训练，因此，可以基于这两个分支各自对应的损失
值，确定全局语义分割模型对应的第二损失值，具体如下：

[0169] 基于样本图像中，至少一个真实文本对象对应的各个像素的真实全局类别，以及至少一个第二预测文本对象对应的各个像素的预测全局类别，确定语义分割损失值。基于
样本图像中，至少一个真实文本对象对应的各个像素的真实文本对象标签，以及至少一个
第二预测文本对象对应的各个像素的预测文本对象标签，确定第二实例分割损失值。然后
基于语义分割损失值和第二实例分割损失值，确定第二损失值。

[0170] 具体地，在模型训练之前，标记样本图像中每个像素对应的真实全局类别和真实文本对象标签，其中，真实全局类别包括真实前景类别和真实背景类别，真实前景类别采用
1表示，真实背景类别采用0表示。不同的真实文本对象标签采用不同的数字表示。

[0171] 采用交叉熵损失函数，基于样本图像中至少一个真实文本对象对应的各个像素的真实全局类别，以及相应的第二预测文本对象对应的各个像素的预测全局类别，确定语义
分割损失值。

[0172] 采用损失函数，基于样本图像中至少一个真实文本对象对应的各个像素的真实文本对象标签，以及相应的第二预测文本对象对应的各个像素的预测文本对象标签，确定第
二实例分割损失值，其中，第二实例分割损失值包括类内聚合度损失、类间区别度损失，其
中，类内聚合度损失保证同一个文本对象对应的像素尽可能的相似，类间区别度损失保证
不同文本对象之间的像素有较大的区别。

[0173] 基于语义分割损失值和第二实例分割损失值，确定第二损失值；也可以基于语义分割损失值、第二实例分割损失值以及模型复杂度的正则化损失值，确定第二损失值。

[0174] 本申请实施例中，通过语义分割分支的语义分割损失值以及实例分割分支的实例分割损失值对模型进行参数调整，优化了训练过程中梯度的学习，对模型训练起到了有效
的指导。同时，通过引入全局语义分割模型指导文本检测模型的训练，相较于单独训练文本
检测模型来说，提高了文本检测模型的训练效果，进而提升文本检测鲁棒性与精准度。

[0175] 为了更好地解释本申请实施例，下面结合具体实施场景介绍本申请实施例提供的一种文本检测模型训练方法，该方法的流程可以由图1所示的终端设备101或服务器102执
行，也可以由终端设备101和服务器102交互执行。

[0176] 参见图12，为本申请实施例提供的文本检测模型和全局语义分割模型的网络结构示意图，包括特征提取模块、目标检测分支和全局分割分支，其中，特征提取模块包括主干
网络和多尺度特征融合模块，目标检测分支包括候选框预测模块、特征裁剪模块、第一实例
分割分支、边框回归分支和边框分类分支。全局分割分支包括语义分割分支、特征学习模
块、第二实例分割分支。

[0177] 在训练过程中，获取样本图像集合，其中，每个样本图像包含预先标记的至少一个真实文本对象以及每个真实文本对象的真实位置信息和真实类别。另外，预先标记了每个
真实文本对象对应的各个像素的真实全局类别以及真实文本对象标签，其中，真实全局类
别包括真实前景类别和真实背景类别，每个真实文本对象标签标识一个文本对象，不同的
真实文本对象标签采用不同的数字表征。

[0178] 基于本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，其中，在每次迭代训练过程中，执行以下操作：

[0179] 特征提取模块：对样本图像进行特征提取，获得多个不同尺寸的样本特征图像。

[0180] 目标检测分支：通过候选框预测模块，从多个样本特征图像中，切割出相应的多个初始文本框图像，其中，候选框预测模块为区域推荐网络。通过特征裁剪模块，采用ROI‑
align方式，将多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像。通过第一
实例分割分支，采用全卷机网络，对多个样本文本框图像进行实例分割，获得至少一个第一
预测文本对象。采用损失函数，基于至少一个真实文本对象和相应的预测文本对象，确定第
一实例分割损失值。

[0181] 通过边框回归分支对多个样本文本框图像进行边框回归，获得至少一个第一预测文本对象各自对应的预测位置信息。采用损失函数，基于至少一个真实文本对象各自对应
的真实位置信息，和相应的预测文本对象对应的预测位置信息，确定位置损失值。

[0182] 通过边框分类分支对多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别。采用损失函数基于至少一个真实文本对象各自对应的真实
类别，和相应的预测文本对象对应的预测类别，确定类别损失值。

[0183] 全局分割分支：从多个不同尺寸的样本特征图像中获得目标样本特征图像。通过语义分割分支，对目标样本特征图像进行语义分割，获得样本图像中各个像素对应的预测
全局类别。采用交叉熵损失函数，基于样本图像中至少一个真实文本对象对应的各个像素
的真实全局类别，以及相应的第二预测文本对象对应的各个像素的预测全局类别，确定语
义分割损失值。

[0184] 通过特征学习模块，基于目标样本特征图像，生成样本图像中每个像素对应的特征向量。将语义分割分支和特征学习模块的处理结果合并输入第二实例分割分支。通过第
二实例分割分支，从各个像素中，确定预测全局类别为前景类别的目标像素，基于各个目标
像素的特征向量，对各个目标像素进行聚类，获得至少一个目标像素集合以及至少一个目
标像素集合各自对应的预测文本对象标签。基于至少一个目标像素集合以及至少一个目标
像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象。采用损失函数，
基于样本图像中至少一个真实文本对象对应的各个像素的真实文本对象标签，以及相应的
第二预测文本对象对应的各个像素的预测文本对象标签，确定第二实例分割损失值。

[0185] 基于第一实例分割损失值、位置损失值、类别损失值、语义分割损失值和第二实例分割损失值，确定目标损失值，然后采用目标损失值，对文本检测模型和全局语义分割模型
进行参数调整。

[0186] 在迭代训练次数达到预设次数时，停止迭代训练并输出训练获得的目标文本检测模型，其中，目标文本检测模型包含特征提取模块和目标检测分支，不包含全局分割分支。

[0187] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其
次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像
素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

[0188] 基于图1所示的系统架构图，本申请实施例提供了一种文本检测方法的流程，该方法的流程可以由图1所示的终端设备101或服务器102执行，也可以由终端设备101和服务器
102交互执行，包括以下步骤：

[0189] 获取待处理图像，然后将待处理图像输入目标文本检测模型进行文本检测，获得待处理图像中的至少一个目标文本对象。

[0190] 具体地，目标文本对象可以是内部包含文本内容的多边形。将待处理图像输入目标文本检测模型之后，采用目标文本检测模型对待处理图像进行特征提取，获得多个不同
尺寸的目标特征图像，并从多个目标特征图像中，切割出相应的多个候选文本框图像。采用
目标文本检测模型，将多个候选文本框图像调整为相同尺寸，获得多个目标文本框图像。之
后再采用目标文本检测模型，对多个目标文本框图像进行实例分割，获得至少一个目标文
本对象。目标文本检测模型对待处理图像进行文本检测的过程，与前文描述的待训练的文
本检测模型对样本图像进行文本检测的过程相同，此处不再赘述。

[0191] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性，进
而提高文本检测的准确性。其次，训练获得的目标文本检测模型，通过对待处理图像进行目
标检测获得目标文本对象，不需要进行像素级别的特征聚类，避免了聚类半径带来的问题，
从而提高文本检测的准确性和效率。

[0192] 在一种可能的实施方式中，待处理图像为目标位置的周边图像。将周边图像输入目标文本检测模型进行文本检测，获得周边图像中的至少一个目标文本对象之后，对周边
图像中的每个目标文本对象进行文本识别，获得目标文本对象中的文本内容。然后基于获
得的各个文本内容，更新目标位置在地图应用中的周边信息。

[0193] 具体地，采用OCR对目标文本对象进行文本识别，获得目标文本对象中的文本内容，该文本内容可以是商店、加油站、银行的名称。然后判断目标位置在地图应用中的周边
信息是否包含该文本内容，若不包含，则可以将该文本内容作为目标位置的周边信息，添加
至地图应用中。

[0194] 在对地图中的POI进行更新时，由于采集的周边图像的文本分布情况与尺度不一、背景丰富、亮度差、对比度差、遮挡、光照、透视变形、残缺遮挡等问题，从而导致文本检测的
准确性较差，进而影响后续POI更新的准确性。而本申请实施例中，通过对待训练的文本检
测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，然后采
用目标文本检测模型对周边图像进行文本检测，有效提高了对周边图像进行文本检测的准
确性，进而提高POI更新的准确性和效率，同时保持了地图数据鲜度，给用户提供更好的体
验。

[0195] 基于相同的技术构思，本申请实施例提供了一种文本检测模型训练装置的结构示意图，如图13所示，该装置1300包括：

[0196] 第一获取模块1301，用于获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

[0197] 模型训练模块1302，用于基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训
练过程中，执行以下操作：

[0198] 通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过所述全局语义分割模型，对所述样本图像进行图
像分割，获得至少一个第二预测文本对象；

[0199] 基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确
定目标损失值，并采用所述目标损失值进行参数调整。

[0200] 可选地，所述模型训练模块1302具体用于：

[0201] 对所述样本图像进行特征提取，获得多个不同尺寸的样本特征图像；

[0202] 从多个样本特征图像中，切割出相应的多个初始文本框图像，并将所述多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像；

[0203] 对所述多个样本文本框图像进行实例分割，获得所述至少一个第一预测文本对象；

[0204] 对所述多个样本文本框图像进行属性预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息。

[0205] 可选地，所述预测属性信息包括预测位置信息和预测类别；

[0206] 所述模型训练模块1302具体用于：

[0207] 对所述多个样本文本框图像进行边框回归，获得所述至少一个第一预测文本对象各自对应的预测位置信息；

[0208] 对所述多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别。

[0209] 可选地，所述模型训练模块1302具体用于：

[0210] 针对所述多个样本特征图像，分别执行以下步骤：

[0211] 确定与一个样本特征图像的图像尺寸匹配的文本框尺寸；

[0212] 在所述一个样本特征图像中，生成所述文本框尺寸对应的多个初始文本框；

[0213] 基于所述多个初始文本框，从所述一个样本特征图像中切割出多个初始文本框图像。

[0214] 可选地，所述模型训练模块1302具体用于：

[0215] 对所述样本图像进行特征提取，获得目标样本特征图像；

[0216] 对所述目标样本特征图像进行语义分割，获得所述样本图像中各个像素对应的预测全局类别；

[0217] 基于所述目标样本特征图像，生成所述样本图像中各个像素对应的特征向量；

[0218] 基于所述各个像素对应的预测全局类别和特征向量，对所述样本图像进行实例分割，获得至少一个第二预测文本对象。

[0219] 可选地，所述模型训练模块1302具体用于：

[0220] 从所述各个像素中，确定预测全局类别为前景类别的目标像素；

[0221] 基于各个目标像素的特征向量，对所述各个目标像素进行聚类，获得至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签；

[0222] 基于所述至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象。

[0223] 可选地，所述模型训练模块1302具体用于：

[0224] 基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息，和所述至少一个第一预测文本对象以及相应的预测属性信息，确定第一损失值；

[0225] 基于所述样本图像中的至少一个真实文本对象，和所述至少一个第二预测文本对象，确定第二损失值；

[0226] 基于所述第一损失值和所述第二损失值，确定所述目标损失值。

[0227] 可选地，所述真实属性信息包括真实位置信息和真实类别，所述预测属性信息包括预测位置信息和预测类别；

[0228] 所述模型训练模块1302具体用于：

[0229] 基于所述至少一个真实文本对象和所述至少一个第一预测文本对象，确定第一实例分割损失值；

[0230] 基于所述至少一个真实文本对象各自对应的真实位置信息，以及所述至少一个第一预测文本对象各自对应的预测位置信息，确定位置损失值；

[0231] 基于所述至少一个真实文本对象各自对应的真实类别，以及所述至少一个第一预测文本对象各自对应的预测类别，确定类别损失值；

[0232] 基于所述第一实例分割损失值、所述位置损失值和所述类别损失值，确定所述第一损失值。

[0233] 可选地，所述模型训练模块1302具体用于：

[0234] 基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实全局类别，以及所述至少一个第二预测文本对象对应的各个像素的预测全局类别，确定语义分割
损失值；

[0235] 基于所述样本图像中，所述至少一个真实文本对象对应的各个像素的真实文本对象标签，以及所述至少一个第二预测文本对象对应的各个像素的预测文本对象标签，确定
第二实例分割损失值；

[0236] 基于所述语义分割损失值和所述第二实例分割损失值，确定所述第二损失值。

[0237] 可选地，还包括模型预测模块1303；

[0238] 所述模型预测模块1303具体用于：

[0239] 所述基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型之后，获取待处理图像；

[0240] 采用所述目标文本检测模型，对所述待处理图像进行特征提取，获得多个不同尺寸的目标特征图像，并从多个目标特征图像中，切割出相应的多个候选文本框图像；

[0241] 采用所述目标文本检测模型，将所述多个候选文本框图像调整为相同尺寸，获得多个目标文本框图像；

[0242] 采用所述目标文本检测模型，对所述多个目标文本框图像进行实例分割，获得所述至少一个目标文本对象。

[0243] 本申请实施例中，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型，在训练过程中两种模型相互监督学习，两种模型对应
的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其
次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像
素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

[0244] 基于相同的技术构思，本申请实施例提供了一种计算机设备，该计算设备可以是图1所示的终端设备和/或服务器，如图14所示，包括至少一个处理器1401，以及与至少一个
处理器连接的存储器1402，本申请实施例中不限定处理器1401与存储器1402之间的具体连
接介质，图14中处理器1401和存储器1402之间通过总线连接为例。总线可以分为地址总线、
数据总线、控制总线等。

[0245] 在本申请实施例中，存储器1402存储有可被至少一个处理器1401执行的指令，至少一个处理器1401通过执行存储器1402存储的指令，可以执行上述文本检测模型训练方法
的步骤。

[0246] 其中，处理器1401是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1402内的指令以及调用存储在存储器
1402内的数据，从而执行文本检测模型训练和文本检测。可选的，处理器1401可包括一个或
多个处理单元，处理器1401可集成应用处理器和调制解调处理器，其中，应用处理器主要处
理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，
上述调制解调处理器也可以不集成到处理器1401中。在一些实施例中，处理器1401和存储
器1402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

[0247] 处理器1401可以是通用处理器，例如中央处理器（CPU）、数字信号处理器、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列或者其他
可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实
施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理
器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者
用处理器中的硬件及软件模块组合执行完成。

[0248] 存储器1402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1402可以包括至少一种类型的存储介质，
例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器（Random Access
Memory，RAM）、静态随机访问存储器（Static Random Access Memory，SRAM）、可编程只读存
储器（Programmable Read Only Memory，PROM）、只读存储器（Read Only Memory，ROM）、带
电可擦除可编程只读存储器（Electrically Erasable Programmable Read‑Only Memory，
EEPROM）、磁性存储器、磁盘、光盘等等。存储器1402是能够用于携带或存储具有指令或数据
结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实
施例中的存储器1402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序
指令和/或数据。

[0249] 基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上
述文本检测模型训练方法的步骤。

[0250] 基于同一发明构思，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当
所述程序指令被计算机设备执行时，使所述计算机设备执行上述文本检测模型训练方法的
步骤。

[0251] 本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的
形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产品的形
式。

[0252] 本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流
程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

[0253] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或
多个方框中指定的功能。

[0254] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一
个方框或多个方框中指定的功能的步骤。

[0255] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本发明范围的所有变更和修改。

[0256] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围
之内，则本发明也意图包含这些改动和变型在内。

一种文本检测模型训练方法、装置、设备及存储介质转让专利

申请号 : CN202210040015.5

文献号 : CN114067321B

文献日 : 2022-04-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 单鼎一

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :