基于监督主题模型的高分辨率SAR影像标注方法转让专利

申请号 : CN201110446232.6

文献号 : CN102542590B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王寰宇柳彬胡昊汪炜于秋则刘兴钊郁文贤

申请人 : 上海交通大学

摘要 :

本发明公开了一种基于监督主题模型的高分辨率SAR影像标注方法,包括以下步骤:S1:分割影像,其进一步包括:将SAR影像分割成为多个大小相等的子影像;再将每个子影像划分成为互不重叠的矩形区域,每个矩形区域称之为单词;S2:图像表征:用子影像生成文档,用所有的文档生成文集;S3:知识输入,其进一步包括:选取一部分具有典型场景的子影像进行基于关键字的人工标注,这些关键字组成的集合称之为文档的隐类别;S4:训练推理:完成SAR影像的初步标注;S5:语义分析:根据所有子影像的分类结果与单词的标注结果,通过先验语义知识对标注结果进行语义分析,从而得到符合人类语义的标注结果。

权利要求 :

1.一种基于监督主题模型的高分辨率SAR影像标注方法,其特征在于,包括以下步骤:S1:分割影像,其进一步包括:

将SAR影像分割成为多个大小相等的子影像;再将每个子影像划分成为互不重叠的矩形区域,每个矩形区域称之为单词;

S2:图像表征:用子影像生成文档,用所有的文档生成文集;

S3:知识输入,其进一步包括:

选取一部分具有典型场景的子影像进行基于关键字的人工标注,这些关键字组成的集合称之为文档的隐类别;

S4:训练推理:完成SAR影像的初步标注;

所述步骤S4进一步包括:

S41:将具有关键字的文档与其关键字输入监督主题模型进行训练,得到相应的模型,包括:不同类别文档内隐主题的分布、不同隐主题内可视词的分布和每个可视词的隐主题标注;

S42:将不具有关键字的文档输入步骤S41得到的模型,进行推理,得到其关键字与其每个可视词的隐主题标注;

S43:将S41步骤与S42步骤得到的结果结合,即可得到所有文档的分类结果与初步标注结果;

S5:语义分析:根据所有子影像的分类结果与单词的标注结果,通过先验语义知识对标注结果进行语义分析,从而得到符合人类语义的标注结果。

2.根据权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:S21:生成可视词;

S22:生成文档:由子影像生成文档,即将子影像中的每个单词由可视词替代;

S23:生成文集:最后,将所有文档组合,得到完整的文集。

3.根据权利要求2所述的方法,其特征在于,所述步骤S21进一步包括:S211:根据待标注数据类型与待标注数据的场景特点,选取对应的特征空间;

S212:将所有的单词在此空间的投影向量进行无监督聚类;

S213:将所有的聚类中心构成字典,每个聚类中心在字典中的索引称为可视词。

4.根据权利要求1所述的方法,其特征在于,所述步骤S2和步骤S3的顺序可交换。

说明书 :

基于监督主题模型的高分辨率SAR影像标注方法

技术领域

[0001] 本发明涉及遥感影像处理技术领域,更具体的涉及一种基于监督主题模型的高分辨率SAR影像标注方法。

背景技术

[0002] 合成孔径雷达(Synthetic Aperture Radar,SAR)的全天候、全天时及能穿透一些地物的成像特点,显示出它与光学传感器相比的优越性。自90年代以来SAR在军事及民用等诸多场合得到了广泛应用。近年来,大量的高分辨率星载、机载SAR系统诞生,使得大量的高分辨率SAR影像可以被用来支持地表测绘、城市变化检测、自然灾害应急、反恐维稳等。SAR影像标注是SAR影像处理的关键步骤。传统的SAR标注手段通常是基于人机交互的辅助判读专家系统。但是与以往的SAR影像相比,高分辨率SAR影像具有信息量大、细节丰富等特点,传统的SAR人工标注手段将急剧增加劳力与不稳定性。
[0003] 通常,传统的监督标注算法,需要经过全标注的训练数据。这对海量的高分辨率SAR影像来说是很困难的,需要大量的人力。同时,高分辨率SAR影像具有大量的潜在语义信息,传统的标注算法并没有考虑到这些信息。所以,研究一个针对高分辨率SAR影像高效的、快速的并充分利用高分辨率带来的信息的标注方法是很有必要的。
[0004] 监督主题模型最初是用于自然语言分析中的一种手段。监督主题模型是一种分层模型,底层为单词,中层为文档,高层为文集。这里的单词,指的是抽象的“单词”,通常通过聚类等手段得到,是一系列真实单词的聚类中心。监督主题模型用K个“隐主题”描述单词与所在文档之间的关系,用M个“隐类别”描述文集中文档与文档之间的关系。通过分析文集中所有文档的“隐类别”,可以知道文档中单词的“隐主题”。可见,监督主题模型中同时实现了文档的分类与单词的标注。对应于SAR影像,文集便是整景SAR影像;文档是SAR影像的子影像;单词则是文档中局部特征的聚类中心。

发明内容

[0005] 本发明目的是针对现有的SAR影像标注技术的不足和缺陷,提出了一种基于监督主题模型的高分辨率SAR影像标注方法,其可以高效、快速地对海量的高分辨率SAR影像进行标注。
[0006] 本发明提的技术方案如下:
[0007] 一种基于监督主题模型的高分辨率SAR影像标注方法,包括以下步骤:
[0008] S1:分割影像,其进一步包括:
[0009] 将SAR影像分割成为多个大小相等的子影像;再将每个子影像划分成为互不重叠的矩形区域,每个矩形区域称之为单词;
[0010] S2:图像表征:用子影像生成文档,用所有的文档生成文集;
[0011] S3:知识输入,其进一步包括:
[0012] 选取一部分具有典型场景的子影像进行基于关键字的人工标注,这些关键字组成的集合称之为文档的隐类别;
[0013] S4:训练推理:完成SAR影像的初步标注;
[0014] S5:语义分析:根据所有子影像的分类结果与单词的标注结果,通过先验语义知识对标注结果进行语义分析,从而得到符合人类语义的标注结果。
[0015] 较佳地,所述步骤S2进一步包括:
[0016] S21:生成可视词;
[0017] S22:生成文档:由子影像生成文档,即将子影像中的每个单词由可视词替代;
[0018] S23:生成文集:最后,将所有文档组合,得到完整的文集。
[0019] 较佳地,所述步骤S21进一步包括:
[0020] S211:根据待标注数据类型与待标注数据的场景特点,选取对应的特征空间;
[0021] S212:将所有的单词在此空间的投影向量进行无监督聚类;
[0022] S213:将所有的聚类中心构成字典,每个聚类中心在字典中的索引称为可视词。
[0023] 较佳地,所述步骤S4进一步包括:
[0024] S41:将具有关键字的文档与其关键字输入监督主题模型进行训练,得到相应的模型,包括:不同类别文档内隐主题的分布、不同隐主题内可视词的分布和每个可视词的隐主题标注;
[0025] S42:将不具有关键字的文档输入步骤S41得到的模型,进行推理,得到其关键字与其每个可视词的隐主题标注;
[0026] S43:将S41步骤与S42步骤得到的结果结合,即可得到所有文档的分类结果与初步标注结果。
[0027] 较佳地,所述步骤S2和步骤S3的顺序可交换。
[0028] 与现有技术相比,本发明的有益效果如下:
[0029] 本发明所提出的技术方案可以高效、快速地对海量的高分辨率SAR影像进行标注。且本发明提出的技术方案同时考虑了影像本身的数据信息、影像已有的先验知识、影像像素之间的语义关联,很好的将SAR影像标注与真实语义联系起来,克服了在机器学习过程中往往和真实语义有偏差的问题。其次,此方法解决了现有SAR影像标注需要极大人力与极长时间的问题,即此方法只需要进行极少部分的子影像的关键字标注即可完成知识的输入,大大的缩减了人力劳动。

附图说明

[0030] 图1为本发明具体实施例一种基于监督主题模型的高分辨率SAR影像标注方法的流程图;
[0031] 图2为本发明具体实施例步骤S2图像表征的流程图;
[0032] 图3为本发明具体实施例步骤S4训练推理的流程图。

具体实施方式

[0033] 下面对针对上述基于监督主题模型的高分辨率SAR影像标注方法的基本原理和相关概念加以说明。
[0034] (1)监督主题模型
[0035] 监督主题模型最初是用于自然语言分析中的一种手段。监督主题模型是一种三层生成模型。在监督主题模型中,有如下定义:
[0036] 1.单词:单词是监督主题模型中处理的最基本元素;
[0037] 2.可视词:可视词是一系列相似单词的聚类中心;
[0038] 3.字典:所有可视词构成的集合;
[0039] 4.文档:由一系列单词组成的集合,也可以表示为由可视词组成的集合;
[0040] 5.文集:由一系列文档组成;
[0041] 6.隐主题:一系列的可视词组成了一个语义化的主题,这个主题称为隐主题;
[0042] 7.响应值:将文档的响应值定义为文档的类别,则每一类文档具有同一个响应值。
[0043] 每个单词都可以用与其对应的可视词表示。每个可视词都可以在一个长度为V的1 2 V
字典中找到。单词用一个V维的向量表示,w=(w,w,…w)。如果单词w对应词典中的i
第i个可视词,那么单词的第i维等于1,即w =1;其它维等于0,即当u≠i且u∈[1,u
V]时w =0。一个长度为N的文档用W={w1,w2,…,wN}表示。一个长度为M的文集用D={W1,W2,…,WM}表示。
[0044] 在监督主题模型中有两个隐变量z与θ。若文集中共有K个隐主题T={t1,t2,…,tK},那么z与θ都是一个K维向量。每个单词都有一个隐主题,单词wi的隐主题记为zi。若zi对应第j个隐主题,那么zi的第j维等于1,其它维等于0。θ的第m维表m m
示某个单词的隐主题zi是第m个隐主题的概率,即θ =P(zi =1|θ)。
[0045] 根据以上定义,监督主题模型中以如下方式描述一个文档的生成过程。
[0046] 1.选择隐主题的先验概率参数θ。根据上述描述,θ服从以α为参数的Dirichlet分布。其中,α为待估计参数;
[0047] 2.对于文档中的每个单词:
[0048] a)选择一个隐主题zn。根据上述描述,zn服从以θ为参数的多项分布;
[0049] b)选择一个单词wn。wn服从以 为参数的多项分布。β为待估计参数, 表示在隐主题zn下,发生某个单词的先验概率;
[0050] 3.为文档选择一个响应值y。当前文档的响应值y服从以η和δ为参数的广义线性模型分布。
[0051] 基于上述生成过程,可以描述为以下公式:
[0052]
[0053] 则整个文集的产生概率为:
[0054] p(D|w1:N,y,α,β1:K,η,δ)=П∫p(θ,z1:N|w1:N,y,α,β1:K,η,δ)dθ[0055] 在分层生成语义模型中,有两种模型被广泛使用:概率隐语义分析模型 (Probabilistic Latent Semantic Analysis,PL SA) 与 Latent Dirichlet
Allocation(LDA)模型。PLSA模型是一个两层语义模型,只有文档层与单词层。在PLSA模型中,只是对单词的分布进行建模,但没有关注文档级的分布。每个文档对于PLSA模型来说都完全独立的,具有其独立的参数。这就导致随着训练集文档数目的增加,PLSA模型需要推理的参数越多。这样,出现过拟合的概率大大增加。PLSA模型在小的训练集下的表现很好,但是完全不适合于大的训练集。LDA模型是针对PLSA模型的缺点提出的。它规定了文档的分布,在文档层之上增加文集层。LDA模型中的参数数目是固定的,不会随着训练集的增大而增加,所以它克服了PLSA模型中的过拟合的问题,但是它的计算复杂度大大增加。
LDA模型在大训练集下的表现要远好于PLSA模型。但无论是PLSA模型还是LDA模型,都不能直接完成文档的分类工作和标注工作。因为这两种模型都是无监督或半监督模型,会导致隐语义与实际语义的不匹配问题。所以需要加入监督使语义匹配,符合应用需求。监督主题模型通过加入人类语义知识生成具有语义的模型,实现对未知文档的语义化分类。通过语义化的分类结果,对隐主题标注进行符合人类语义的修正,从而实现隐语义与实际语义的对应问题,并同时完成对文档的分类工作于标注工作。所以,针对海量高分SAR数据的标注问题,监督主题模型更适合。
[0056] 监督主题模型的参数估计通过EM算法。通常在EM算法中经常采用基于变分的推理方法对参数进行估计,但是考虑到监督主题模型的复杂性,本方法采用基于采样的推理方法对参数进行估计。基于采样的推理方法相比于基于变分的推理方法计算量较少,适合大数据集的计算。
[0057] (2)分割影像与知识输入
[0058] 影像的分割采用非重叠的分割方法,将整景影像分割为大小相等的子影像,每个子影像就是一个文档。传统的标注方法中,进行训练时,需要输入一部分影像像素级的标注。这样的输入势必有很大的工作量。而基于监督主题模型的标注方法中,进行训练时只需要输入一部分文档与其隐类别(关键字)即可,大大的减少了工作量。隐类别相比较于隐主题,应该具有更高层的语义,应该是由当前文档多有单词隐主题构成的高层语义。如对于有“建筑”和“道路”隐主题的文档,应输入“城区”这一隐类别。
[0059] (3)图像表征
[0060] 可视词的生成是图像表征中最重要的部分。在生成可视词过程中,应该选择合适的特征空间对所有单词进行聚类。以单极化SAR影像为例,对于细节丰富的高分辨率单极化SAR影像来说,具有很强的纹理特征。比如在城市区域,纹理特征较强;在水域,纹理特征较弱。对于一个窗口,纹理因子定义为:
[0061]
[0062] 其中Var(x)代表窗口的方差,Mean(x)代表窗口的均值。但是,是一个区域性纹理因子,鲁棒性较差。为了考虑其他因素的影像,引入纹理异质性描述子:
[0063]
[0064] 其中, 代表全图范围内的最小 同时,为了进一步加入灰度信息,我们让k(x)去调制原始影像的灰度,对其进行加强。最后得到原始影像的特征图:
[0065] φ(x)=k(x)I(x)
[0066] 由特征图,我们可以得到将每个单词的所在区域的特征直方图,即为单词的特征向量。但是考虑到SAR影像的特征,比如在广场等区域,其纹理特征很弱,接近于水域,但是其灰度特征很强。所以,可以将单词的纹理特征向量与其灰度直方图特征向量组合,合成一个特征向量。通过实验,发现当纹理特征维数与灰度直方图特征维数为1∶3时,将得到最优的结果。
[0067] (4)语义分析
[0068] 在传统的SAR影像标注方法中,我们往往忽略了影响像素间在语义上的一些规律,而基于监督主题模型的标注方法提供给我们充分利用这些信息的条件。
[0069] 在高分辨率SAR影像的标注中经常会出现以下几种现象:
[0070] 城区中阴影误判为水体:在城区中通常会出现很多灰度值很低的块状区域。在训练过程中,模型通常会将其认为是水域,因为其灰度特征与纹理特征均与水域相似。其实,这是由于SAR卫星并不是正射的进行成像而是有一定的角度,导致在高的植被及建筑物后面形成的阴影区域。对于这些阴影区域,很难将其剔除,一般都会被误判为水域。
[0071] 森林中树冠误判为建筑:在森林这一类别中经常会出现高亮度值的区域。在训练过程中,模型通常会将其认为是建筑,因为其灰度特征与纹理特征均与建筑相似。其实这是由于树冠处的散射较强,通常会看起来如建筑一般。
[0072] 河岸中岸边误判为建筑:在河岸这一类别中经常会出现带状高亮度值区域。在训练过程中,模型通常会将其认为是建筑,因为其灰度特征与纹理特征均与建筑相似。该高亮度值条状区域是由于水域周边树林相较之下体现出来的强散射特性而造成的。
[0073] 监督主题模型可以帮助我们达到这一目的。因为我们在知道当前单词的隐主题的同时,还知道当前单词所在的文档是属于哪一类别。通过加入对文档类别的先验知识,可以得知哪些隐主题是不应该存在的,哪些隐主题是该怎么分布的。这样就可以对单词的标注结果进行修正,得到符合人类语义的标注结果。
[0074] 针对以上三种现象,本发明提供可以解决其问题的先验知识作为例子。
[0075] 城区中阴影误判为水体:当前文档如果为“城区”类别时,其中分散的水域主题单词应该修正为建筑主题;对于较大片的连续水域主题单词,不修正。
[0076] 森林中树冠误判为建筑:当前文档如果为“森林”类别时,其中分散的建筑主题单词应该修正为森林主题;对于较大片的连续建筑主题单词,不修正。
[0077] 河岸中岸边误判为建筑:当前文档如果为“河岸”类别时,其中呈带状或者分散的建筑主题单词应该修正为森林主题;对于较大片的连续建筑主题单词,不修正。
[0078] 通过具体的实践,经过语义分析后,标注结果的准确率将得到切实的提高。
[0079] 下方结合附图和具体实施例对本发明做进一步的描述:
[0080] 基于以上原理与概念本发明提供一景单极化TerraSAR-X影像的基于监督主题模型的高分辨率SAR影像标注方法的具体流程以供实施参考。
[0081] 实 验 数 据 集 合 建 立 在 一 整 景TerraSAR-X 影 像 上,影 像 大 小 为9504(宽)×8330(高)像素,该影像是2008年1月27日对德国罗森海姆(Rosenheim)及
其周边区域成像获得,影像分辨率为1.24m×1.60m。影像的真实标注是人工根据相关地理信息手动标注获得。影像的像素被标注为四个主题或“其他”类别。这四个主题分别为城区、林地、农田和水域。不属于这四类的像素和位于类别边界的像素被标注为“其他”类别。
这些“其他”类别是不参与训练与推理的。
[0082] 参见图1至图3,一种基于监督主题模型的高分辨率SAR影像标注方法,包括以下步骤:
[0083] S1:分割影像,其进一步包括:
[0084] 将SAR影像分割成为多个大小相等的子影像;再将每个子影像划分成为互不重叠的矩形区域,每个矩形区域称之为单词;
[0085] 在本实施例中,影像被分割为200×200像素大小的无重叠子影像,同时每个子影像再分别被分割为10×10大小的单词。
[0086] S2:图像表征:用子影像生成文档,用所有的文档生成文集;所述步骤S2进一步包括:
[0087] S21:生成可视词,进一步包括:
[0088] S211:根据待标注数据类型与待标注数据的场景特点,选取对应的特征空间;如面对单极化SAR,通常选取灰度或纹理特征空间;面对全极化SAR,通常选取极化信息作为特征。
[0089] S212:将所有的单词在此空间的投影向量进行无监督聚类;
[0090] S213:将所有的聚类中心构成字典,每个聚类中心在字典中的索引称为可视词。
[0091] 本实施例中,选取纹理特征空间与灰度特征空间,分别计算每个单词的特征向量。为了比较特征空间的选择对实例的影响,分别选取不同维数的特征向量。同时,聚类方法采用无监督K-means聚类方法,生成字典维数为256维,即将单词聚类为256类。
[0092] S22:生成文档:由子影像生成文档,即将子影像中的每个单词由可视词替代;
[0093] S23:生成文集:最后,将所有文档组合,得到完整的文集。
[0094] S3:知识输入,其进一步包括:
[0095] 选取一部分具有典型场景的子影像进行基于关键字的人工标注,这些关键字组成的集合称之为文档的“隐类别”;
[0096] 由于要保证输入的知识正确,所以尽量可能的选择具有典型场景的子影像进行基于关键字的人工标注,所谓“典型场景”就是指人眼可以很容易的判断场景的内容,而不是除了经过专业训练否则很难判决场景内容的场景,比如港口是由建筑与水体组成,那么典型的港口场景最好能将水体与建筑的比例基本一致,不会出现很特殊的情况。
[0097] 在本实施例中,在文集中选取一部分文档,进行基于关键词的标注。所选取的文档应该包含所有的隐类别。本例中,文档的选取与标注是通过SARMAT工具实现的,选取的比例为10%。SARMAT工具基于由MIT CSAIL实验室的图像标注开源软件LabelMe开发,专门用于本方法知识输入步骤。SARMAT可以提供给用户文档级的标注模式,同时,SARMAT是一款基于网络的标注工具,可以对一副图像进行多人协同标注。
[0098] S4:训练推理:完成文集的初步标注。所述步骤S4进一步包括:
[0099] S41:将具有关键字的文档与其关键字输入监督主题模型进行训练,得到相应的模型,包括:不同类别文档内隐主题的分布、不同隐主题内可视词的分布和每个可视词的隐主题标注;
[0100] S42:将不具有关键字的文档输入步骤S42得到的模型,进行推理,得到其关键字与其每个可视词的隐主题标注;
[0101] S43:将S41步骤与S42步骤得到的结果结合,即可得到所有文档的分类结果与初步标注结果。
[0102] 本实施例中,将整个文集输入训练好的模型,进行推理,得到所有文档的分类结果与单词的标注结果。
[0103] S5:语义分析:根据所有子影像的分类结果与单词的标注结果,通过先验语义知识对标注结果进行语义分析,从而得到符合人类语义的标注结果。
[0104] 本实施例中,先验语义知识的使用如上文所述,分别对城区中阴影误判为水体的标注、森林中树冠误判为建筑的标注、河岸中岸边误判为建筑的标注进行矫正,从而得到符合语义的标注结果。
[0105] 在具体实施时,上述步骤S2和步骤S3的顺序可交换。本发明不对步骤S2和S3之间的顺序作出限定。
[0106] 本实施例中,基于监督主题模型的标注准确率为84.14%,其混淆矩阵如表1所示。
[0107] 表1
[0108]
[0109] 与现有技术相比,本发明实施例的有益效果如下:
[0110] 本发明提出的技术方案同时考虑了影像本身的数据信息、影像已有的先验知识、影像像素之间的语义关联,很好的将SAR影像标注与真实语义联系起来,克服了在机器学习过程中往往和真实语义有偏差的问题。其次,此方法解决了现有SAR影像标注需要极大人力与极长时间的问题,即此方法只需要进行极少部分的子影像的关键字标注即可完成知识的输入,大大的缩减了人力劳动。
[0111] 本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。