一种高光谱图像分类中多中心拟合方法转让专利

申请号 : CN201510227125.2

文献号 : CN104794497B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘治唐波肖晓燕郑成云李晓梅聂明钰

申请人 : 山东大学

摘要 :

本发明公开了一种高光谱图像分类中多中心拟合方法,包括:随机选择已知类别的标签的样本,构建训练样本集合X和标签矩阵y;初始化控制参数:设置每类样本的最大分裂数K,偏差分裂阈值σt,以及分裂后类内最小样本数Nmin;计算各类拟合中心ci和各类平均偏差分裂决策;分裂有效性评估,比较分裂的子类内样本数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,直到类别收敛;如果子类内样本数有一个小于分裂后类内最小样本数Nmin,则说明此类别已收敛,分裂结束。本发明针对高光谱分类中混合像元问题,能在多维特征空间中更准确的划分决策区域。

权利要求 :

1.一种高光谱图像分类中多中心拟合方法,其特征是,包括以下步骤:

步骤(1):随机选择已知类别的标签的样本,构建训练样本集合X和标签矩阵y;

步骤(2):初始化控制参数:设置每类样本的最大分裂数K,偏差分裂阈值σt,以及分裂后类内最小样本数Nmin;

步骤(3):计算各类拟合中心ci和各类平均偏差

步骤(4):分裂决策,如果类别内平均偏差 大于设置的偏差分裂阈值σt,则需要对此类别进行分裂,采用k均值聚类方法得到分裂后的多个子类,分别标记为不同的标签,否则,分裂结束;

步骤(5):分裂有效性评估,比较步骤(4)分裂的子类内样本数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,对子类重复步骤(3)~(5),直到类别收敛;如果子类内样本数有一个小于分裂后类内最小样本数Nmin,则说明此类别已收敛,分裂结束,分裂结束后,得到一组分裂后的子类;

步骤(6)计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第类别i分裂的子类个数;

所述步骤(4)分裂决策的方法为:

步骤(4-1):比较步骤(3)中类别i的平均偏差 与步骤(2)中偏差分裂阈值σt,如果 且当前分裂次数小于最大分裂数K,则需要对此进行类别内二分裂;否则,说明此类别已收敛,停止分裂过程;

步骤(4-2):类别内二分裂的方法为k均值聚类,k=2,对类别i内的所有样本进行二分类聚类,将类别i分裂成两个子类,并分别赋予不同的类别标签,记为Csub1,Csub2;

所述步骤(4-2)k均值聚类方法为:

步骤(4-2-1):对类别i,随机选取类别i内任意两个样本作为初始的聚类中心,记为μ1,μ2,μ1对应子类Csub1,μ2对应子类Csub2;

步骤(4-2-2):对任意样本xij,j=1,2,...,Ni,分别计算xij与步骤(4-2-1)中两个初始聚类中心μ1,μ2的欧式距离的平方:d1表示xij到聚类中心μ1的欧式距离的平方,d2表示xij到聚类中心μ2的欧式距离的平方;

如果d1≤d2,则样本xij属于子类Csub1,反之样本xij属于子类Csub2;

步骤(4-2-3):更新聚类中心μ1,μ2,方式如下:

Nsub1表示子类Csub1内的样本数,Nsub2表示子类Csub2内的样本数, 为一个样本,l是特征数;

步骤(4-2-4):重复步骤(4-2-2)和步骤(4-2-3)直到收敛,得到两个子类Csub1,Csub2。

2.如权利要求1所述的一种高光谱图像分类中多中心拟合方法,其特征是,所述步骤(1)构建训练样本集合X和标签矩阵y的具体方法为:采用bootstrap采样方法随机抽取训练样本,即对特定的类i,i∈[1,2,...,C],C表示类别数,进行随机有放回的采样,得到训练样本集合 和标签矩阵其中, xij表示类别i内第j个样本,l是特征数,yij=i,i=1,2,...,C,j=1,2,...Ni,Ni表示类别i内的样本总数, 是实数集。

3.如权利要求1所述的一种高光谱图像分类中多中心拟合方法,其特征是,所述步骤(3)计算各类拟合中心ci的具体方法为:各类拟合中心的计算方法为计算类内所有样本的均值,如下式所示:

其中,ci为类别i的类中心, xij表示类别i内第j个样本,Ni表示类别i内的样本总数,i=1,2,...,C,C是类别数。

4.如权利要求1或3所述的一种高光谱图像分类中多中心拟合方法,其特征是,各类平均偏差 的计算方式如下:其中,σj表示类别i内第j个样本xij与类中心ci的标准差,j=1,2,...,Ni,Ni表示类别i内的样本总数, 表示类别i的平均偏差,i=1,2,...,C,C是类别数。

5.如权利要求1所述的一种高光谱图像分类中多中心拟合方法,其特征是,所述步骤(5)分裂有效评估的方法为:比较步骤(4)中子类Csub1,Csub2内样本个数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,对步骤(4)内的两个子类Csub1,Csub2重复步骤(3)~(5)直到收敛,如果子类内样本数有一个小于分裂后类内最小样本数Nmin或者达到最大分裂次数K,则说明此类别已收敛,分裂结束。分裂结束后,得到一组分裂后的子类。

6.如权利要求1所述的一种高光谱图像分类中多中心拟合方法,其特征是,所述步骤(6)计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第i类别分裂的子类个数,各子类的拟合中心的计算方法为计算各子类内所有样本的均值。

说明书 :

一种高光谱图像分类中多中心拟合方法

技术领域

[0001] 本发明涉及高光谱图像处理领域,尤其涉及一种高光谱分类中多中心拟合方法。

背景技术

[0002] 高光谱成像基于多光谱成像,从紫外到近红外的光谱范围内,采用成像光谱仪,在光谱覆盖范围的数十或数百个光谱波段上对目标物体连续成像。在获得物体空间特征成像的同时,也获得被测物体的光谱信息。光谱成像技术具有超多波段、高光谱分辨率、波段窄、光谱范围广和图谱合一的特点。其优势在于采集到的图像信息丰富、识别度较高和数据描述模型多。因其在探测领域的卓越性能,已被广泛应用于实际中。
[0003] 近年来,随着高光谱成像技术的广泛应用,高光谱图像分析处理技术得到迅速发展。因此,高光谱分类问题备受关注。高光谱图像本身存在缺陷,比如维数过高,数据冗余度大,混合像元等,严重阻碍了高光谱技术的发展。其中,混合像元是由于高光谱成像时单个像素点对应较大的实际空间区域,而此区域内并不仅仅存在一种物质,因此,此像素点记录的信息是本区域内全部目标信息的叠加。混合像元的存在严重影响遥感的分类精度。另一方面,高光谱图像有监督分类的参考样本选择非常有限,一般是从已知的高光谱图像区域中选取,这样处理的训练数据存在较高的光谱混合。高光谱分类中的经典算法,如光谱角匹配(SAM)、k-最近邻(KNN)等,都需要对训练集合进行拟合,由于混合像元的存在,单个类别内的样本均值中心会出现欠拟合现象,表现为单个中心对整体训练集合拟合程度低,直接导致分类准确率低。

发明内容

[0004] 为解决现有技术存在的不足,本发明公开了一种高光谱图像分类中多中心拟合方法,针对小样本学习分类以及混合像元问题,通过条件约束进行分裂,得到同一类别多个拟合中心,实现多中心全局拟合的同时,有效的提高整个分类系统的分类精度。
[0005] 为实现上述目的,本发明的具体方案如下:
[0006] 一种高光谱图像分类中多中心拟合方法,包括以下步骤:
[0007] 步骤(1):随机选择已知类别的标签的样本,构建训练样本集合X和标签矩阵y;
[0008] 步骤(2):初始化控制参数:设置每类样本的最大分裂数K,偏差分裂阈值σt,以及分裂后类内最小样本数Nmin;
[0009] 步骤(3):计算各类拟合中心ci和各类平均偏差
[0010] 步骤(4):分裂决策,如果类别内平均偏差 大于设置的偏差分裂阈值σt,则需要对此类别进行分裂,采用k均值聚类方法得到分裂后的多个子类,分别标记为不同的标签,否则,分裂结束;
[0011] 步骤(5):分裂有效性评估,比较步骤(4)分裂的子类内样本数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,对子类重复步骤(3)~(5),直到类别收敛;如果子类内样本数有一个小于分裂后类内最小样本数Nmin,则说明此类别已收敛,分裂结束,分裂结束后,得到一组分裂后的子类;
[0012] 步骤(6):计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第i类别分裂的子类个数。
[0013] 所述步骤(1)构建训练样本集合X和标签矩阵y的具体方法为:
[0014] 采用bootstrap采样方法随机抽取训练样本,即对特定的类i,i∈[1,2,...,C],C表示类别数,进行随机有放回的采样,得到训练样本集合 和标签矩阵
[0015] 其中, xij表示类别i内第j个样本,l是特征数,yij=i,i=1,2,...,C,j=1,2,...Ni,Ni表示类别i内的样本总数, 是实数集。
[0016] 所述步骤(3)计算各类拟合中心ci的具体方法为:
[0017] 各类拟合中心的计算方法为计算类内所有样本的均值,如下式所示:
[0018]
[0019] 其中,ci为类别i的类拟合中心, xij表示类别i内第j个样本,Ni表示类别i内的样本总数,i=1,2,...,C,C是类别数。
[0020] 各类平均偏差 的计算方式如下:
[0021]
[0022]
[0023] 其中,σj表示类别i内第j个样本xij与类中心ci的标准差,j=1,2,...,Ni,Ni表示类别i内的样本总数, 表示类别i的平均偏差,i=1,2,...,C,C是类别数。
[0024] 所述步骤(4)分裂决策的方法为:
[0025] 步骤(4-1):比较步骤(3)中类别i的平均偏差 与步骤(2)中偏差分裂阈值σt,如果 且当前分裂次数小于最大分裂数K,则需要对此进行类别内二分裂;否则,说明此类别已收敛,停止分裂过程;
[0026] 步骤(4-2):类别内二分裂的方法为k均值聚类,k=2,对类别i内的所有样本进行二分类聚类,将类别i分裂成两个子类,并分别赋予不同的类别标签,记为Csub1,Csub2。
[0027] 所述步骤(4-2)k均值聚类方法为:
[0028] 步骤(4-2-1):对类别i,随机选取类别i内任意两个样本作为初始的聚类中心,记为μ1,μ2,μ1对应子类Csub1,μ2对应子类Csub2;
[0029] 步骤(4-2-2):对任意样本xij,j=1,2,...,Ni,分别计算xij与步骤(4-2-1)中两个初始聚类中心μ1,μ2的欧式距离的平方:
[0030]
[0031] d1表示xij到聚类中心μ1的欧式距离的平方,d2表示xij到聚类中心μ2的欧式距离的平方;
[0032] 如果d1≤d2,则样本xij属于子类Csub1,反之样本xij属于子类Csub2;
[0033] 步骤(4-2-3):更新聚类中心μ1,μ2,方式如下:
[0034]
[0035]
[0036] Nsub1表示子类Csub1内的样本数,Nsub2表示子类Csub2内的样本数, 为一个样本,l是特征数;
[0037] 步骤(4-2-4):重复步骤(4-2-2)和步骤(4-2-3)直到收敛,得到两个子类Csub1,Csub2。
[0038] 所述步骤(5)分裂有效评估的方法为:
[0039] 比较步骤(4)中子类Csub1,Csub2内样本个数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,对步骤(4)内的两个子类Csub1,Csub2重复步骤(3)~(5)直到收敛。如果子类内样本数有一个小于分裂后类内最小样本数Nmin或者达到最大分裂次数K,则说明此类别已收敛,分裂结束。分裂结束后,得到一组分裂后的子类。
[0040] 所述步骤(6)计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第i类别分裂的子类个数,各子类的拟合中心的计算方法为计算各子类内所有样本的均值。
[0041] 本发明的有益效果:
[0042] (1)本发明的核心思想是在预设条件约束下,为每个类别分裂出多个拟合中心,最小化类平均偏差,具有很好的稳定性;
[0043] (2)本发明通过设置最大分裂次数和分裂阈值,实现类别分裂的可控性;
[0044] (3)本发明针对高光谱分类中混合像元问题,能在多维特征空间中更准确的划分决策区域。
[0045] (4)本发明按类别实现条件约束下逐步分裂收敛,得到多个拟合中心,有效的提高整个分类系统的分类精度。

附图说明

[0046] 图1本发明高光谱分类中多中心拟合方法流程图;
[0047] 图2a二维空间中三类分裂类内均值化拟合结果;
[0048] 图2b二维空间中三类分裂多中心拟合结果。具体实施方式:
[0049] 下面结合附图对本发明进行详细说明:
[0050] 如图1所示,一种高光谱图像分类中多中心拟合方法的过程是:
[0051] (1).bootstrap采样获取训练样本。从已标记的样本中随机有放回的抽取一定的样本作为训练样本。
[0052] (2).参数初始化:参数包括每类最大分裂数K,偏差分裂阈值σt以及分裂后类内最小样本数Nmin。
[0053] (3).分别计算各类拟合中心ci和平均偏差
[0054] (4).比较步骤3中类别i的平均偏差 与步骤(2)中初始化的偏差分裂阈值σt,如果 且当前分裂次数小于最大分裂数K,则进行k均值聚类,k=2,将当前类别划分为两个子类,并分别赋予不同的类别标签;否则,说明此类别已收敛,停止分裂过程。
[0055] (5).分裂有效性评估。针对步骤(4)分裂的两个子类,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分类有效,对子类重复步骤(3)~(5)直到收敛。如果子类内样本数有一个小于分裂后类内最小样本数Nmin或者达到最大分裂次数K,则说明此类别已收敛,分裂结束。分裂结束后,得到一组分裂后的子类。
[0056] (6).计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第类别i分裂的子类个数。
[0057] 详细方案为:
[0058] 步骤(1)构建训练样本集合X和标签矩阵y的具体方法为:
[0059] 采用bootstrap采样方法随机抽取训练样本,即对特定的类i,i∈[1,2,...,C],C表示类别数,进行随机有放回的采样,得到训练样本集合 和标签矩阵
[0060] 其中, xij表示类别i内第j个样本,l是特征数,yij=i,i=1,2,...,C,j=1,2,...Ni,Ni表示类别i内的样本总数, 是实数集。
[0061] 步骤(3)计算各类拟合中心ci的具体方法为:
[0062] 各类拟合中心的计算方法为计算类内所有样本的均值,如下式所示:
[0063]
[0064] 其中,ci为类别i的类中心, xij表示类别i内第j个样本,Ni表示类别i内的样本总数,i=1,2,...,C,C是类别数。
[0065] 各类平均偏差的计算方式如下:
[0066]
[0067]
[0068] 其中,σj表示类别i内第j个样本xij与类中心ci的标准差,j=1,2,...,Ni,Ni表示类别i内的样本总数, 表示类别i的平均偏差,i=1,2,...,C,C是类别数。
[0069] 步骤(4)分裂决策的方法为:
[0070] 步骤(4-1):比较步骤(3)中类别i的平均偏差 与步骤(2)中偏差分裂阈值σt,如果 且当前分裂次数小于最大分裂数K,则需要对此进行类别内二分裂;否则,说明此类别已收敛,停止分裂过程;
[0071] 步骤(4-2):类别内二分裂的方法为k均值聚类,k=2,对类别i内的所有样本进行二分类聚类,将类别i分裂成两个子类,并分别赋予不同的类别标签,记为Csub1,Csub2。
[0072] 步骤(4-2)k均值聚类方法为:
[0073] 步骤(4-2-1):对类别i,随机选取类别i内任意两个样本作为初始的聚类中心,记为μ1,μ2,μ1对应子类Csub1,μ2对应子类Csub2;
[0074] 步骤(4-2-2):对任意样本xij,j=1,2,...,Ni,分别计算xij与步骤(4-2-1)中两个初始聚类中心μ1,μ2的欧式距离的平方:
[0075]
[0076] d1表示xij到聚类中心μ1的欧式距离的平方,d2表示xij到聚类中心μ2的欧式距离的平方;
[0077] 如果d1≤d2,则样本xij属于子类Csub1,反之样本xij属于子类Csub2;
[0078] 步骤(4-2-3):更新聚类中心μ1,μ2,方式如下:
[0079]
[0080]
[0081] Nsub1表示子类Csub1内的样本数,Nsub2表示子类Csub2内的样本数, 为一个样本,l是特征数;
[0082] 步骤(4-2-4):重复步骤(4-2-2)和步骤(4-2-3)直到收敛,得到两个子类Csub1,Csub2。
[0083] 步骤(5)分裂有效评估的方法为:
[0084] 比较步骤(4)中子类Csub1,Csub2内样本个数与分裂后类内最小样本数Nmin的大小,如果两个子类内样本数都大于分裂后类内最小样本数Nmin,则分裂有效,对步骤(4)内的两个子类Csub1,Csub2重复步骤(3)~(5)直到收敛。如果子类内样本数有一个小于分裂后类内最小样本数Nmin或者达到最大分裂次数K,则说明此类别已收敛,分裂结束。分裂结束后,得到一组分裂后的子类。
[0085] 步骤(6)计算分裂后各子类的拟合中心cij,i=1,2,...,C,C是类别数,j是第类别i分裂的子类个数,方法为计算子类内所有样本的均值。
[0086] 二维空间中三类分裂结果:图2a为类内均值化拟合结果,图2b为多中心拟合结果。
[0087] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。