顾及POI数据空间异质性的地表覆盖验证方法及系统转让专利

申请号 : CN201710113124.4

文献号 : CN106845559B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邢汉发孟媛陈小祥侯东阳陈志谋吕磊

申请人 : 山东师范大学

摘要 :

本发明公开了顾及POI数据空间异质性的地表覆盖验证方法及系统;从新浪微博开放平台获取POI数据集,将OSM提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;对确定的城市区域POI进行分类,得到城市区域的POI分类结果;对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;根据POI分类结果,生成栅格数据,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。

权利要求 :

1.顾及POI数据空间异质性的地表覆盖验证方法,其特征是,包括如下步骤:步骤A:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;

步骤B:根据地表覆盖分类标准,对步骤A中确定的城市区域POI进行分类,得到城市区域的POI分类结果;

步骤C:针对步骤A中确定的非城市区域POI,依据步骤B中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;

在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;

步骤D:根据步骤B确定的城市区域POI分类结果和步骤C确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;

步骤E:根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。

2.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述步骤A包括:步骤A1:从新浪微博开放平台获取POI数据集:利用其开放平台提供的API接口,以网络爬虫的方式,获取所需POI数据集,所述POI数据集包括描述POI类型的文本信息与表示空间位置的坐标信息;

步骤A2:利用ArcGIS软件将OSM城区建筑物数据与POI点数据进行空间叠加,使得同一地理坐标下的POI与城区建筑物位于同一空间位置;

步骤A3:通过判断POI点数据是否落入城区建筑物数据,来划分城市区域POI与非城市区域POI;若落入则为城市区域POI,若没有落入,则为非城市区域POI;

步骤A4:对划分结果进行人工修正:通过参考Google Earth中高分辨率遥感影像里的真实地物,对步骤A3中划分错误的POI进行修改。

3.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述根据地表覆盖分类标准:参照GlobeLand30中的地表覆盖类型的分类方式,将地表覆盖分为耕地、林地、草地、灌木丛、沼泽、水体、苔原、人造地表、裸地、冰川10种地表覆盖类型。

4.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,所述利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果的步骤为:(C1)引入两个分类结果修正变量:POI与最近村庄的最短距离、POI与最近道路的最短距离,利用OSM中待测区域的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄的最短距离和到最近的道路的最短距离;

(C2)利用C5.0决策树算法,引入步骤(C1)所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型;

(C3)通过引入adaptive boosting算法和惩罚矩阵cost matrix进行分类修正模型的优化;

(C4)利用顾及空间异质性的POI分类修正模型,将经过步骤C得到的非城市区域的POI分类结果进一步分类。

5.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,由于C5.0决策树算法为监督分类算法,故将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。

6.如权利要求1所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤E中,利用混淆矩阵的验证方法定义如下:其中,AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。

7.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,POI到最近的村庄的最短距离Dv计算公式如下:其中,Px为POI的坐标经度,Py为POI的坐标纬度,Vx为村庄所在位置的坐标经度,Vy为村庄所在位置的坐标纬度;

POI距离最近的道路的最短距离Dr计算如下:

其中,A、B、C为计算道路的可调参数。

8.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤(C2):C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况;

信息熵的值越大,表示数据集包含POI类型越多,反之越少;

信息熵的计算公式如下:

其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率;i为POI数据集的类别;

pi的计算公式如下:

其中,ni为落入每一类POI的数量;

为准确将POI进行分类,C5.0决策树算法引入信息增益Gain以修正分类结果,具体计算公式如下:Gain(A)=Entropy(S1)-Entropy(S2)     (5);

其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄的最短距离和到最近的道路的最短距离;S1、S2分别为经过分类前与分类后的数据集S;分类后数据集S2的信息熵计算公式如下:

9.如权利要求4所述的顾及POI数据空间异质性的地表覆盖验证方法,其特征是,步骤(C3)的步骤为:adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器;

假设POI数据集S中有n个数据样本,adaptive boosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为Ct, 为第t轮决策树训练中POI样本i的权重;同时,用于adaptive boosting算法的指示函数indicator function定义如下:adaptive boosting算法参数初始化使得t=1, C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下:基于训练误差函数εt的每个决策树权重αt定义如下:

更新第t轮决策树训练中POI样本i的权重 如下:

得到每轮决策树训练中POI样本i的权重 后,最终的adaptive boosting算法的最优分类器构建如下:其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器;

为提高属于人造地表的POI分类的准确率,引入惩罚矩阵cost matrix,提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价;惩罚矩阵构建如下: 分类为非人造地表  分类为人造地表

非人造地表        0         m

人造地表          n         0

由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。

10.顾及POI数据空间异质性的地表覆盖验证系统,其特征是,包括:

划分模块:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;

第一分类模块:根据地表覆盖分类标准,对划分模块中确定的城市区域POI进行分类,得到城市区域的POI分类结果;

第二分类模块:针对划分模块中确定的非城市区域POI,依据第一分类模块中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;

在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;

分类结果生成模块:根据第一分类模块确定的城市区域POI分类结果和第二分类模块确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;

验证精度获取模块:根据分类结果生成模块基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。

说明书 :

顾及POI数据空间异质性的地表覆盖验证方法及系统

技术领域

[0001] 本发明涉及顾及POI数据空间异质性的地表覆盖验证方法及系统。

背景技术

[0002] 地表覆盖及变化是环境变化研究、地理国情监测和可持续发展规划等不可或缺的重要因素,其精度验证是地表覆盖制图的重要组成部分。目前,国内外地表覆盖分类精度验证工作主要是通过遥感影像目视解译和野外实地调查等方式进行,该方法耗时耗力,验证周期长,难以满足地表覆盖产品快速验证的需求。为减少地表覆盖验证成本,更好地满足广大用户日快速验证的应用需求,需要发展一种新的地表覆盖验证方法。
[0003] 近年来,随着地理时空大数据的发展和应用,出现了诸如Geo-wiki、GlobeLand30、Degrees of Confluence Project等地表覆盖产品分享和验证平台,同时,带有地理标记的文本、图片等众源地理数据,也被广泛应用于人造地表、森林和农作物等地表覆盖数据的精度验证。“Leung D,Newsam S.Land cover classification using geo-referenced photos[J].Multimedia Tools&Applications,2015:1-21.”中指出,通过获取Flickr中带有地理位置信息的图片数据,利用数据中的图像、文本以及地理位置等信息来识别不同类型的地表覆盖产品。“Hou D,Chen J,Wu H,et al.Active collection of land cover sample data from geo-tagged web texts[J].Remote Sensing,2015,7(5):5805-5827.”中提出了一种基于深度搜索的地表覆盖验证信息获取方法,自动爬取搜房网的文本信息,进行地表覆盖中人造地表的分类精度验证。“Foody G M,Boyd D S.Using volunteered data in land cover map validation:Mapping West African forests[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2013,6(3):1305-1312.”中提出利用Degrees of Confluence Project地表覆盖共享平台,通过志愿者解译图片信息,验证非洲西部地表覆盖中森林的分类精度。
[0004] 综上所述,将众源地理大数据应用到地表覆盖验证已成为当前研究的热点。然而,上述地表覆盖验证结果很大程度上依赖于志愿者的先验知识,难以准确地对结果做出客观的评判。同时,这类众源地理数据定位精度相对较低,在一定程度上影响了地表覆盖的验证结果。而兴趣点(Point of Interest,POI)作为一种开放的空间数据源,由于其大多搭载于地图导航平台,具有地理位置相对准确、更新速度快、分布范围广等特点,能够弥补众源地理数据定位精度低的不足。此外,POI文本中诸如“餐馆”、“牧场”、“渔场”等分类,分别对应于地表覆盖类型中的人造地表、草地和水体,易于地表覆盖类型的识别。然而,将POI数据应用于地表覆盖验证仍面临诸多挑战:一方面,某些POI类型诸如“未知分类”、“旅游景点”和“娱乐场所”等无法直接判断地表覆盖类型,需要对POI进行数据清理与分类;另一方面,POI在城市区域分布密集,而在非城市区域分布稀疏,具有显著的空间异质性分布特征,在非城市区域由于过少的POI难以表示大面积的地表覆盖,无法进行地表覆盖验证。因此,构建一套顾及POI数据空间异质性的地表覆盖验证方法,具有重要的理论和现实意义。

发明内容

[0005] 本发明提供了顾及POI数据空间异质性的地表覆盖验证方法及系统,由于POI具有地理位置相对准确、其文本信息易于地表覆盖类型识别的特点,故可作为地表覆盖的验证数据。但POI在分布较为密集,而在非城市区域的空间分布不均匀,部分区域POI分布数量较少,存在空间异质性的特点,使得难以准确识别地表覆盖类型。
[0006] 为解决上述问题,本发明提出了:
[0007] 顾及POI数据空间异质性的地表覆盖验证方法,包括如下步骤:
[0008] 步骤A:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
[0009] 步骤B:根据地表覆盖分类标准,对步骤A中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
[0010] 步骤C:针对步骤A中确定的非城市区域POI,依据步骤B中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
[0011] 在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的距离、POI与最近道路的距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
[0012] 步骤D:根据步骤B确定的城市区域POI分类结果和步骤C确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
[0013] 步骤E:根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
[0014] 所述步骤A包括:
[0015] 步骤A1:从新浪微博开放平台获取POI数据集:利用其开放平台提供的API接口,以网络爬虫的方式,获取所需POI数据集,所述POI数据集包括描述POI类型的文本信息与表示空间位置的坐标信息;
[0016] 步骤A2:利用ArcGIS软件将OSM城区建筑物数据与POI点数据进行空间叠加,使得同一地理坐标下的POI与城区建筑物位于同一空间位置;
[0017] 步骤A3:通过判断POI点数据是否落入城区建筑物数据,来划分城市区域POI与非城市区域POI;若落入则为城市区域POI,若没有落入,则为非城市区域POI;
[0018] 步骤A4:对划分结果进行人工修正:通过参考Google Earth中高分辨率遥感影像里的真实地物,对步骤A3中划分错误的POI进行修改。
[0019] 所述根据地表覆盖分类标准:参照GlobeLand30中的地表覆盖类型的分类方式,将地表覆盖分为耕地、林地、草地、灌木丛、沼泽、水体、苔原、人造地表、裸地、冰川10种地表覆盖类型。
[0020] 诸如POI文本中
[0021] “餐馆”对应地表覆盖中的人造地表;
[0022] “高尔夫球场”对应地表覆盖中的草地;
[0023] “海滨浴场”对应地表覆盖中的水体。
[0024] 所述利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果的步骤为:
[0025] (C1)引入两个分类结果修正变量:POI与最近村庄的最短距离、POI与最近道路的最短距离,利用OSM中待测区域的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄的最短距离和到最近的道路的最短距离;
[0026] (C2)利用C5.0决策树算法,引入步骤(C1)所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型;
[0027] (C3)通过引入adaptive boosting算法和惩罚矩阵cost matrix进行分类修正模型的优化;
[0028] (C4)利用顾及空间异质性的POI分类修正模型,将经过步骤C得到的非城市区域的POI分类结果进一步分类。
[0029] 由于C5.0决策树算法为监督分类算法,故将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。
[0030] 步骤E中,利用混淆矩阵的验证方法定义如下:
[0031]
[0032] 其中,AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。
[0033] POI到最近的村庄的最短距离Dv计算公式如下:
[0034]
[0035] 其中,Px为POI的坐标经度,Py为POI的坐标纬度,Vx为村庄所在位置的坐标经度,Vy为村庄所在位置的坐标纬度;
[0036] POI距离最近的道路的最短距离Dr计算如下:
[0037]
[0038] 其中,A、B、C为计算道路的可调参数。
[0039] 步骤(C2):
[0040] C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况;
[0041] 信息熵的值越大,表示数据集包含POI类型越多,反之越少;
[0042] 信息熵的计算公式如下:
[0043]
[0044] 其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率;i为POI数据集的类别;
[0045] pi的计算公式如下:
[0046]
[0047] 其中,ni为落入每一类POI的数量;
[0048] 为准确将POI进行分类,C5.0决策树算法引入信息增益Gain以修正分类结果,具体计算公式如下:
[0049] Gain(A)=Entropy(S1)-Entropy(S2)  (5);
[0050] 其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄的最短距离和到最近的道路的最短距离;S1、S2分别为经过分类前与分类后的数据集S;分类后数据集S2的信息熵计算公式如下:
[0051]
[0052] 步骤(C3)的步骤为:
[0053] adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器;
[0054] 假设POI数据集S中有n个数据样本,adaptive boosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为Ct, 为第t轮决策树训练中POI样本i的权重。同时,用于adaptive boosting算法的指示函数indicator function定义如下:
[0055]
[0056] adaptive boosting算法参数初始化使得t=1 C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下:
[0057]
[0058] 基于训练误差函数εt的每个决策树权重αt定义如下:
[0059]
[0060] 更新第t轮决策树训练中POI样本i的权重 如下:
[0061]
[0062] 得到每轮决策树训练中POI样本i的权重 后,最终的adaptive boosting算法的最优分类器构建如下:
[0063]
[0064] 其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器。
[0065] 为提高属于人造地表的POI分类的准确率,引入惩罚矩阵(cost matrix),提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价。惩罚矩阵构建如下。
[0066]              分类为非人造地表   分类为人造地表
[0067] 非人造地表         0              m
[0068] 人造地表           n             0
[0069] 由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。
[0070] 顾及POI数据空间异质性的地表覆盖验证系统,包括:
[0071] 划分模块:从新浪微博开放平台获取POI数据集,将OSM(OpenStreetMap)提供的城区建筑物数据与POI数据集进行叠加,划分出城市区域与非城市区域的POI,对划分结果进行修正;
[0072] 第一分类模块:根据地表覆盖分类标准,对划分模块中确定的城市区域POI进行分类,得到城市区域的POI分类结果;
[0073] 第二分类模块:针对划分模块中确定的非城市区域POI,依据第一分类模块中城市区域POI的分类方法,对非城市区域不同类型的POI进行分类,得到非城市区域的POI分类结果;
[0074] 在POI分类的基础上,引入两个分类结果修正变量:POI与最近村庄的最短距离、POI与最近道路的最短距离,利用C5.0决策树算法构建顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
[0075] 分类结果生成模块:根据第一分类模块确定的城市区域POI分类结果和第二分类模块确定的非城市区域POI分类结果,生成以30m*30m像元为单位的栅格数据,依据落入栅格中各类型POI的数量,采用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
[0076] 验证精度获取模块:根据分类结果生成模块基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖数据产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖数据产品的验证精度,实现顾及POI空间异质性的地表覆盖精度验证。
[0077] 本发明的有益效果:
[0078] 本发明提出了一种顾及POI数据空间异质性的地表覆盖验证方法,利用所述基于POI文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类;针对POI在非城市区域的空间异质性的问题,构建所述顾及POI空间异质性的POI分类修正模型,得到顾及空间异质性的POI分类结果;继而基于POI分类结果,利用多数投票法,生成地表覆盖格网数据,从而用于顾及POI空间异质性的地表覆盖分类精度验证。

附图说明

[0079] 图1为北京地区新浪微博POI分布示意图;
[0080] 图2为城市区域与非城市区域POI划分结果示意图;
[0081] 图3(a)为所有POI与村庄的最短距离示意图;
[0082] 图3(b)为所有POI与道路的最短距离示意图;
[0083] 图4为基于多数投票法的地表覆盖类型分布示意图。

具体实施方式

[0084] 下面结合附图与实施例对本发明作进一步说明。
[0085] 为了对本发明的技术特征、目的和效果有更加清楚的理解,现以北京地区的新浪微博POI数据和GlobeLand30地表覆盖数据为例,对照附图说明本发明的具体实施方式。
[0086] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0087] 本发明所提出的一种顾及POI数据空间异质性的地表覆盖验证方法,所述方法用于基于POI的地表覆盖验证;所述地表覆盖验证方法包括基于文本信息的POI分类和顾及空间异质性的POI分类修正模型;所述方法包括如下步骤:
[0088] A、所述地表覆盖分类方法从新浪微博开放平台获取北京市POI数据集,使用OpenStreetMap(OSM)提供的城区建筑物数据与POI进行叠加,划分出城市区域与非城市区域的POI,并利用人工检核的方式修正划分结果;
[0089] 通过编写网络爬虫,利用新浪微博开放平台(网址)中获取POI(网址)的API接口,获得包括地理坐标、类型等属性的POI数据141745条,作为地表覆盖验证的数据源。其中,POI数据部分属性如表1所示。
[0090] 表1新浪微博POI数据部分属性
[0091]
[0092]
[0093] 针对POI数据分布不均的问题,本专利利用北京地区OMS建筑物数据,将POI划分为城市区域和非城市区域。具体实施步骤如下:
[0094] a.依据POI数据中经度与纬度两个属性,将POI进行空间可视化,从而进一步分析北京地区POI的空间分布特征。POI空间分布如图1所示;
[0095] b.将北京地区OSM城区建筑物数据与POI数据进行叠加分析,以此作为划分城市区域POI与非城市区域POI的依据,与城区建筑物叠加的POI数据划分为城市区域的POI,未与城区建筑物叠加的POI数据划分为非城市区域的POI;
[0096] c.由于OSM城区建筑物数据为众源地理数据,难以保证数据覆盖北京地区的所有城市区域,故采用人工检核的方式,依据北京市遥感影像数据修正城市区域与非城市区域POI的划分结果。城市区域与非城市区域POI划分结果如图2所示。
[0097] B、针对步骤A中确定的城市区域与非城市区域的POI,依据所述基于文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类,得到城市区域的POI分类结果。
[0098] 所述基于文本信息的POI分类方法实施步骤如下:
[0099] 如表2所示,提取POI的类型属性这种文本信息作为分类依据,以GlobeLand30中的地表覆盖分类作为POI的分类标准。依照基于文本信息的POI分类结果,统计各类型POI数据占比。未识别分类由于无法应用于地表覆盖验证,故被剔除;草地和水体所对应的POI数量过少,仅占POI总数的0.91%和0.03%,故不作为验证数据。因此,本专利基于文本信息的POI分类结果,利用GlobeLand30为人造地表的POI数据,将其重分类为人造地表与非人造地表。其中,城市区域POI将被直接用于地表覆盖中人造地表的分类精度验证。
[0100] 表2基于文本信息的POI分类结果
[0101]
[0102]
[0103] C、针对步骤A中确定的非城市区域POI,由于POI分布范围广、数据稀疏、具有空间异质性的特点,在步骤B所述POI分类的基础上,引入两个分类结果修正变量:POI与村庄的最近距离、POI与道路的最近距离,利用C5.0决策树算法构建所述顾及POI空间异质性的POI分类修正模型,得到非城市区域的POI分类结果;
[0104] 顾及空间异质性的POI分类修正模型构建方法实施步骤如下:
[0105] a.引入两个分类结果修正变量:POI与村庄的最近距离、POI与道路的最近距离,利用OSM中北京地区的村庄数据与道路数据,计算各非城市区域POI到距离最近的村庄最短距离和到最近的道路的最短距离。POI到村庄的最短距离Dv计算公式如下。
[0106]
[0107] 其中,Px,Py分别为POI的坐标经度和坐标纬度,Vx,Vy则为村庄所在位置的经纬度。
[0108] POI距离最近道路的最短距离Dr计算如下.
[0109]
[0110] 其中,A、B、C为计算道路的可调参数。
[0111] 两分类结果修正变量的统计结果如图3(a)、图3(b)所示。POI与村庄的最短距离多集中于2000m内,与道路的最短距离多集中于100m内,而零散分布于远离村庄与道路的POI,由于空间异质性的影响,不应作为人造地表的验证数据源,应被分为非人造地表的POI。故本专利将引入C5.0决策树算法,构建顾及空间异质性的POI分类修正模型。
[0112] b.利用C5.0决策树算法,引入步骤a.所述分类结果修正变量,构建顾及空间异质性的POI分类修正模型。
[0113] C5.0决策树算法基于信息熵计算POI数据集S中各分类结果中POI类型分布状况。信息熵的值越大,表示数据集包含POI类型越多,反之越少。信息熵的计算公式如下。
[0114]
[0115] 其中,c为基于POI数据集S划分的不同类别,pi为落入每一类POI的概率。pi的计算公式如下。
[0116]
[0117] 其中,ni为落入每一类POI的数量。
[0118] 为准确将POI进行分类,C5.0决策树算法引入信息增益(Gain)以修正分类结果,具体计算公式如下。
[0119] Gain(A)=Entropy(S1)-Entropy(S2)  (5)
[0120] 其中,A为POI数据集S的用于分类的属性,即为各非城市区域POI到距离最近的村庄的最短距离和到最近的道路的最短距离。S1、S2分别为经过分类前与分类后的数据集S。分类后数据集S2的信息熵计算公式如下。
[0121]
[0122] 尽管C5.0决策树算法能够基于信息熵的计算实现POI的自动分类,但为实现地表覆盖分类模型的优化以及提高属于人造地表的POI分类的准确率,本专利引入adaptive boosting算法和惩罚矩阵(cost matrix)进行分类修正模型的优化。
[0123] c.通过引入adaptive boosting算法和惩罚矩阵(cost matrix)进行分类修正模型的优化。
[0124] adaptive boosting算法通过构建多个决策树分类模型及计算每个决策树分类模型的权重,构建最优地表覆盖分类器。假设POI数据集S中有n个数据样本,adaptive tboosting算法旨在构建T个决策树,每一轮决策树训练t中得到的决策树为C , 为第t轮决策树训练中POI样本i的权重。同时,用于adaptive boosting算法的指示函数(indicator function)定义如下。
[0125]
[0126] adaptive boosting算法参数初始化使得t=1, C5.0决策树算法在每一次训练中都会减少其训练误差,其中,训练误差函数如下。
[0127]
[0128] 基于训练误差函数εt的每个决策树权重αt定义如下。
[0129]
[0130] 更新第t轮决策树训练中POI样本i的权重 如下。
[0131]
[0132] 得到每轮决策树训练中POI样本i的权重 后,最终的adaptive boosting算法的最优分类器构建如下。
[0133]
[0134] 其中,CT即为基于adaptive boosting算法的地表覆盖最优分类器。
[0135] 为提高属于人造地表的POI分类的准确率,本专利引入惩罚矩阵(cost matrix),提高POI被错误分类为人造地表的代价,降低POI被错误分类为非人造地表的代价。惩罚矩阵构建如下。
[0136]             分类为非人造地表  分类为人造地表
[0137] 非人造地表       0              m
[0138] 人造地表         n              0
[0139] 由惩罚矩阵可知,POI被正确分类时的代价均为0,属于人造地表的POI被错误分类到非人造地表时,代价为n,属于非人造地表的POI被错误分类到人造地表时,代价为m。
[0140] d.利用顾及空间异质性的POI分类修正模型,将经过步骤B文本分类的北京地区18925个非城市区域的POI进一步分类。由于C5.0决策树算法为监督分类算法,故本专利将遥感影像分类结果作为POI正确分类,并将POI划分为训练数据与测试数据,构建顾及空间异质性的POI分类修正模型。表3为经过文本分类后的POI训练数据与测试数据及其分类正确率。
[0141] 表3 POI训练数据与测试数据及其正确率
[0142]
[0143]
[0144] Adaptive boosting算法迭代错误率如表4.
[0145] 表4 Adaptive boosting算法迭代错误率
[0146]迭代数 决策树数量 错误率
0 5 25.20%
1 2 24.70%
2 4 23.50%
3 4 24.50%
4 5 36.90%
5 4 24.60%
6 6 36.80%
7 2 23.40%
8 2 24.90%
9 3 22.20%
10   20.40%
[0147] 依据表4各迭代数的错误率,本专利采用10次迭代数来优化C5.0决策树模型。
[0148] 此外,惩罚矩阵定义如下。
[0149]            分类为非人造地表   分类为人造地表
[0150] 非人造地表       0               4
[0151] 人造地表         1                0
[0152] 错误分类为人造地表的代价为错误分类为非人造地表的代价的4倍,以此提高人造地表的分类精度。
[0153] 基于POI分类修正模型的训练数据分类结果与测试数据数据分类结果如表5、表6所示。
[0154] 表5基于POI分类修正模型的训练数据分类结果
[0155]
[0156]
[0157] 表6基于POI分类修正模型的测试数据分类结果
[0158]
[0159] D、根据步骤B、C确定的城市区域与非城市区域POI分类结果,生成以30m*30m像元为单位的栅格,依据落入栅格中各类型POI的数量,利用多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果;
[0160] 为了进行GlobeLand30地表覆盖分类精度的验证,需要将POI数据转换为与GlobeLand30分辨率相同的以30m*30m的像元为单元的栅格数据。由于栅格数据精度限制,落入同一栅格的POI所属地表覆盖类型可能不会完全相同,故本专利多数投票算法,确定每个栅格的地表覆盖类型,生成基于POI的地表覆盖分类结果。
[0161] 计算每个栅格单元中中各类型POI的数量,存储单元v用来存储当前正在计算的POI类型,并定义计数器k,当前计算的POI类型与上一个POI类型相同时,计数器数目加1,否则,计数器k数目减1,直到k的值归零。当k的值为0时,当前正在计算的POI类型为存储单元v中的POI类型。基于多数投票法生成66058个代表不同地表覆盖类型的栅格单元,其地表覆盖空间分布分布如图4所示。
[0162] E、根据步骤D基于POI的地表覆盖分类结果,以GlobeLand30地表覆盖分类产品为验证数据,利用混淆矩阵,得到基于POI的GlobeLand30地表覆盖分类产品的验证精度,实现所述顾及POI空间异质性的地表覆盖精度验证。
[0163] 基于混淆矩阵的验证方法定义如下。
[0164]
[0165] 其中AC(accuracy)表示人造地表识别结果的精度,TP(true positive)表示被模型预测为人造地表的正确样本,TN(true negative)表示被模型预测为非人造地表的错误样本,FP(false positive)表示被模型预测为人造地表的错误样本,FN(false negative)表示被模型预测为非人造地表的正确样本。
[0166] 对GlobeLand30人造地表的分类精度验证结果见表7。
[0167] 表7人造地表分类精度验证
[0168]
[0169] 本发明提出了一种顾及POI数据空间异质性的地表覆盖验证方法,利用所述基于POI文本信息的POI分类方法,根据地表覆盖的分类标准,对不同类型的POI进行分类;针对POI在非城市区域的空间异质性的问题,构建所述顾及POI空间异质性的POI分类修正模型,得到顾及空间异质性的POI分类结果;继而基于POI分类结果,利用多数投票法,生成地表覆盖栅格数据,从而用于顾及POI空间异质性的地表覆盖分类精度验证。
[0170] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。