标注图像中区域与标注对应关系的确定方法转让专利

申请号 : CN201210184510.X

文献号 : CN102737244B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘咏梅

申请人 : 哈尔滨工程大学

摘要 :

本发明提供的是一种标注图像中区域与标注对应关系的确定方法。首先,将视觉描述转换为标注字的权值,代表与视觉的相关程度,利用Topic模型提取场景类别,并将场景内图像的区域聚类为视觉概念。然后在不同场景中,采用信度传播方法降低视觉概念的标注不确定性,即在不同场景间寻找相同或同义的标注字,令其在视觉相似的区域间传播。最后,构建每个场景下的贝叶斯网络,获得视觉概念的标注结果。通过对图像分割区域的标识结果进行融合,最终可以获得图像物体语义级的分割与识别结果。本发明避免了对单幅图像的每个区域单独进行标注,能够有效地提高算法效率。能够方便有效地实现非标注图像的语义内容分析。

权利要求 :

1.一种标注图像中区域与标注对应关系的确定方法,其特征是:

步骤1,特征提取:对学习用的标注图像,采用模糊K-均值方法进行图像过分割,获得区域视觉描述,并利用信度传播方法,使标注字在视觉近邻间传播,将视觉描述转换标注字权值;

步骤2,提取场景语义类别:获得所需的图像特征后,利用概率潜在语义分析模型对学习用的标注图像进行自动场景语义分类,即合理地运用图像的视觉和标注字之间高、低级语义信息的互补性,有效地自动构建出图像语义类别;

步骤3,生成视觉概念:在确定了图像的场景语义类别后,按高斯混合模型对场景内的视觉分布进行建模,模型个数由场景内标注字个数指导确定,每个视觉高斯分布模型对应一个视觉概念;

步骤4,构建不同场景间的视觉概念近邻图:近邻图中的每个节点对应一个视觉概念,视觉概念分布的相似性采用彼此的KL距离;

步骤5,场景间视觉概念的标注传播:利用数据字典在不同场景间寻找相同或同义的标注字,令其在视觉相似的区域间传播;

步骤6,场景下的贝叶斯网络构造:构造场景内视觉概念的贝叶斯网络结构,通过场景内概念间的贝叶斯推理,获得确切的标注信息;

步骤7,视觉语义网络的建立:将视觉近邻图中具有连接关系、并最终具有一致标注的视觉概念合并成一个节点,形成一个视觉语义网络图;

步骤8,对非标注图像的区域标注:对非标注图像进行语义内容分析时,待分析图像每个区域的视觉描述激活多个语义概念,采用信度传播方法让可能的标注在激活的语义网络中传播,收敛后获得分割区域的标注结果;

图像间的相似性度量采用推土机距离方法。

说明书 :

标注图像中区域与标注对应关系的确定方法

技术领域

[0001] 本发明涉及的是一种图像处理方法。具体地说是一种能够最终达到对非标注图像的分割区域进行自动标注识别的方法。

背景技术

[0002] 在目前的图像分析与理解中,常常按照场景级和物体级两个级别对图像进行识别,即场景分类和目标的检测与识别。场景识别通常需要事先对图像数据库进行手工编目,然后采用监督学习的方式进行图像的场景语义分类。但这些方法基本上采用的是监督学习方式,即需要事先定义并组织好图像的语义类别,这种采用人工编目的方法只能局限于数量有限的图像类别。随着图像数量与种类的增加,这必然会导致编目难度激增,限制了方法的实用性。另一方面,目标的检测、识别与场景识别之间又有着密切的相关性,在缺乏相应的场景背景信息的情况下,要正确地识别出某个单独的图像区域,即便对人类观察者来说有时也是困难的。而在确定的语义场景下,图像区域的识别检测工作则要容易得多。
[0003] 随着高质量标注图像的增多,为图像的语义内容分析提供了大量可靠的学习样本。如果能够通过对标注图像的学习,实现对非标注图像分割区域的自动标注,那么就可以用关键字来标识分割的区域。通过这样的方式对图像中的物体进行识别检测,不仅能够指出图像中包含哪些物体,还能指出它们的具体所处位置,为图像中的目标检测与识别提供新的实现途径。
[0004] 如果在学习用的标注图像中,给出了标注字与图像区域的对应关系,图像区域的标注学习则相对容易得多。但一般的标注图像中并没有指出标注字所对应的图像区域,导致学习样本中缺少这部分相应信息。本发明的主要目的就通过对标注图像的学习,学习到这种缺失的对应关系,并利用这种关系对图像区域进行识别检测。

发明内容

[0005] 本发明的目的在于提供一种通过对标注图像的学习,得到标注字所对应的图像区域的对应关系,并能利用这种关系对图像区域进行识别检测的标注图像中区域与标注对应关系的确定方法。
[0006] 本发明的目的是这样实现的:
[0007] 步骤1,特征提取:对学习用的标注图像,采用模糊K-均值方法进行图像过分割,获得区域视觉描述,并利用信度传播方法,使标注字在视觉近邻间传播,将视觉描述转换标注字权值;
[0008] 步骤2,提取场景语义类别:获得所需的图像特征后,利用概率潜在语义分析模型对学习用的标注图像进行自动场景语义分类,即合理地运用图像的视觉和标注字之间高、低级语义信息的互补性,有效地自动构建出图像语义类别;
[0009] 步骤3,生成视觉概念:在确定了图像的场景语义类别后,按高斯混合模型对场景内的视觉分布进行建模,模型个数由场景内标注字个数指导确定,每个视觉高斯分布模型对应一个视觉概念;
[0010] 步骤4,构建不同场景间的视觉概念近邻图:近邻图中的每个节点对应一个视觉概念,视觉概念分布的相似性采用彼此的KL距离;
[0011] 步骤5,场景间视觉概念的标注传播:利用数据字典在不同场景间寻找相同或同义的标注字,令其在视觉相似的区域间传播;
[0012] 步骤6,场景下的贝叶斯网络构造:构造场景内视觉概念的贝叶斯网络结构,通过场景内概念间的贝叶斯推理,获得确切的标注信息;
[0013] 步骤7,视觉语义网络的建立:将视觉近邻图中具有连接关系、并最终具有一致标注的视觉概念合并成一个节点,形成一个视觉语义网络图;
[0014] 步骤8,对非标注图像的区域标注:对非标注图像进行语义内容分析时,待分析图像每个区域的视觉描述激活多个语义概念,采用信度传播方法让可能的标注在激活的语义网络中传播,收敛后获得分割区域的标注结果;
[0015] 图像间的相似性度量采用推土机距离方法。
[0016] 本发明提出了一种新的对图像的分割区域进行标注识别的方法。该方法将图像按场景级与物体级的语义内容分别处理。首先,将视觉描述转换为标注字的权值,代表与视觉的相关程度,利用Topic模型提取场景类别,并将场景内图像的区域聚类为视觉概念。然后在不同场景中,采用信度传播方法降低视觉概念的标注不确定性,即在不同场景间寻找相同或同义的标注字,令其在视觉相似的区域间传播。最后,构建每个场景下的贝叶斯网络,获得视觉概念的标注结果。通过对图像分割区域的标识结果进行融合,最终可以获得图像物体语义级的分割与识别结果。
[0017] 特别指出的是,本发明提出了对场景下的图像区域聚类为视觉概念,并实现对视觉概念的整体标注。通过图像场景的提取,能够将同一场景下视觉分布一致的区域,作为一个整体进行标注,这样就避免了对单幅图像的每个区域单独进行标注,能够有效地提高算法效率。本发明合理地利用了场景与物体间的依赖关系,不但有效地降低了运算复杂度,而且分步处理的结果又能够自然地合成一个以数据驱动、视觉为主导的语义网络层次模型,该模型将图像区域的语义从一般到特殊进行描述,能够方便有效地实现非标注图像的语义内容分析。

附图说明

[0018] 附图是本发明的流程框图。

具体实施方式

[0019] 下面举例对本发明做更详细的描述:
[0020] 步骤1,特征提取。对学习用的标注图像,采用模糊K-均值方法进行图像过分割,获得区域视觉描述。并利用信度传播(Belief Propagation)方法,使标注字在视觉近邻间传播,将视觉描述转换标注字权值。其中,图像间的相似性度量采用EMD(推土机距离)方法。
[0021] 步骤2,提取场景语义类别。获得所需的图像特征后,利用PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)模型对学习用的标注图像进行自动场景语义分类,即合理地运用图像的视觉和标注字之间高、低级语义信息的互补性,有效地自动构建出图像语义类别。
[0022] 步骤3,生成视觉概念。为了避免对单幅图像的每个区域单独进行标注,在确定了图像的场景语义类别后,按高斯混合模型(Gaussian Mixture Models,GMM)对场景内的视觉分布进行建模,模型个数可由场景内标注字个数指导确定,每个视觉高斯分布模型对应一个视觉概念。
[0023] 步骤4,构建不同场景间的视觉概念近邻图。近邻图中的每个节点对应一个视觉概念,视觉概念分布的相似性采用彼此的KL距离。
[0024] 步骤5,场景间视觉概念的标注传播。为了确定某个视觉概念的对应标注,利用WordNet(数据字典)在不同场景间寻找相同或同义的标注字,令其在视觉相似的区域间传播。
[0025] 步骤6,场景下的贝叶斯网络构造。
[0026] 图像中,有时一些事物总是伴随某种事物出现,因此不能保证每个视觉概念的标注可以通过这种信息传播的方式确定,标注不确定性的进一步排除还需要场景内视觉概念间的彼此依赖关系。为此,构造场景内视觉概念的贝叶斯网络结构,通过场景内概念间的贝叶斯推理,获得确切的标注信息。
[0027] 步骤7,视觉语义网络的建立。将视觉近邻图中具有连接关系、并最终具有一致标注的视觉概念合并成一个节点,形成一个视觉语义网络图。
[0028] 步骤8,对非标注图像的区域标注。对非标注图像进行语义内容分析时,待分析图像每个区域的视觉描述激活多个语义概念,采用信度传播方法让可能的标注在激活的语义网络中传播,收敛后获得分割区域的标注结果。