一种基于数据复杂度的空间矢量数据的建模方法转让专利

申请号 : CN202010467727.6

文献号 : CN111625519B

文献日 : 2021-03-23

本发明公开了一种基于数据复杂度的空间矢量数据的建模方法，包括以下步骤：建立空间矢量数据集；计算空间矢量数据均匀度，根据公式PH＝ΣNi/J和PHi＝Ni/PH得到空间对象偏离值，发现原始数据的不均匀性，数据量总数与分布式计算节点数量匹配性矛盾；分割处理，遍历矢量数据集，若PHi＞M，M为初始值(M＝1.00)，则使用Ni＝F(PHi)，(F(PHi)：空间对象分割算法)和预处理软件对该空间对象进行水平分布，分割处理，提升数据均匀度；建立分布式空间数据库；常用指标效率对比测试。本发明通过我们提出的空间矢量数据均匀度模型，对原始数据颗粒度进行重新划分，达到分布式计算所需的合理均匀度，避免木桶效应，降低数据传输(广播)时间，大大提高计算效率。

1.一种基于数据复杂度的空间矢量数据的建模方法，其特征在于，包括以下步骤：步骤S1：建立空间矢量数据集；

步骤S2：计算空间矢量数据均匀度，根据公式PH＝ΣNi/J得到平均均匀度值，PH:平均均匀度，Ni：第i个空间对象复杂度，J：空间对象数量；根据公式PHi＝Ni/PH得到第i个空间对象偏离值，Ni：第i个空间对象复杂度，PHi：第i个空间对象偏离值，发现原始数据的不均匀性；

步骤S3：预设一个M值，M＝1.00；

步骤S4：分割处理：遍历矢量数据集，若PHi＞M，使用Ni＝F(PHi)，F(PHi)：空间对象分割算法和预处理软件对该空间对象进行分割处理，提升数据均匀度；

步骤S5：建立分布式空间数据库；

步骤S6：常用指标效率对比测试，若对比测试效率提升值不显著，则返回步骤S4，调整M值大小，重新对原始数据进行分割处理，对比测试效率提升值小于10％为效率提高不显著，对比测试效率提升值大于10％为效率提高显著，若对比测试效率提升值显著，对比测试结束，数据模型建立成功。

2.根据权利要求1所述的一种基于数据复杂度的空间矢量数据的建模方法，其特征在于，所述步骤S6中，用三个以上区域或三种以上不同类型空间数据，对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空间数据库进行应用对比测试，用于验证本发明是否提高空间数据查询效率、空间数据统计分析效率、空间数据处理效率。

一种基于数据复杂度的空间矢量数据的建模方法

技术领域

[0001] 本发明涉及空间矢量数据计算技术领域，具体涉及一种基于数据复杂度的空间矢量数据的建模方法。

背景技术

[0002] 分布式数据库将集中存储的数据分布到若干节点上存储，并通过并行计算，同时完成若干节点上数据的处理，解决集中式架构I/O吞吐瓶颈和单点计算带来的效率低下问
题。在非空间信息数据库中，每条记录的各个字段由一些数字和文本构成，数据量比较均
匀，计算效率非常高，而且计算效率与节点基本成线性比例提升，因此分布式架构成为目前
大数据计算的主流技术。

[0003] 由于所有信息都具有时空属性，因此地理空间信息作为连接所有信息的天然载体，在大数据时代具有重要作用，目前地理空间大数据也广泛应用分布式架构进行巨量地
理空间矢量数据的高性能计算。为了便于管理和应用，地理空间矢量数据也采用面向对象
的数据建库模式，即一个空间对象在库中作为一条记录的某个字段来存储。但空间对象本
身具有信息颗粒度极不均匀的问题，例如POI、控制点等点对象，数据量一般只有几个字节；
河流、等高线等线对象，行政界线、地类图斑等面对象，数据量从0.1K到上百兆不等，但他们
在数据库里都是一条记录。对于这些数据量差异巨大的对象，在分布式架构下的数据传输/
广播和分布式并行计算都面临严重的木桶效应问题(整体计算效率由最慢的那个计算节点
决定)。即由于少数对象数据量特别巨大，导致与其相关的计算节点上数据传输和计算耗时
特别大，根据分布式并行计算的原理，其他已完成传输和计算的节点，必须等待这些节点完
成计算才能统一汇总，完成整个计算任务，空间大数据计算属于全新技术领域，上述问题都
是我们在理论推导和试验中发现的，未见类似报道。

发明内容

[0004] 本发明的目的在于提供一种基于数据复杂度的空间矢量数据的建模方法，用以解决空间矢量数据易产生木桶效应，降低数据传输时间，数据计算分析效率较低的问题。

[0005] 为解决上述技术问题，本发明采用了以下方案：

[0006] 一种基于数据复杂度的空间矢量数据的建模方法，包括以下步骤：

[0007] S1：建立空间矢量数据集；

[0008] S2：计算空间矢量数据均匀度，首先根据公式PH＝ΣNi/J(PH:平均均匀度，Ni：第i个空间对象复杂度，Ni为空间矢量数据本身属性，本领域技术人员可直接得到Ni值，J：空间
对象数量，本领域技术人员可直接得到)计算得到原始数据平均均匀度值，然后将PH值代入
公式PHi＝Ni/PH(Ni：第i个空间对象复杂度，PHi：第i个空间对象偏离值)计算得到原始数
据空间对象偏离值，通过上述原始数据复杂度计算，发现原始数据的不均匀性；

[0009] S3：预设一个M初始值(M＝1.00)；

[0010] S4：分割处理，遍历矢量数据集，若PHi＞M，则使用Ni＝F(PHi)，(F(PHi)：空间对象分割算法)和预处理软件对该对空间对象进行分割处理，提升数据均匀度；

[0011] S5：建立分布式数据库；

[0012] S6：常用指标效率对比测试，若对比测试效率提升值不显著，则返回步骤S4，调整M值大小，重新对原始数据进行分割处理，若对比测试效率提升值显著，对比测试结束，原始
数据重新分割处理，是为找到一个合理的M值，使得原始数据达到分布式计算所需的合理均
匀度，避免木桶效应，降低数据传输时间，大大提高计算效率。

[0013] 优选的，所述步骤S6中，用三个以上区域或三种以上不同类型空间数据，对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空
间数据库进行应用对比测试，验证本发明是否提高空间数据查询效率、空间数据统计分析
效率、空间数据处理效率。

[0014] 优选的，所述对比测试效率提升值小于10％为效率提高不显著，就需要重新对原始数据进行分割处理，若对比测试效率提升值大于10％为效率提高显著，此时的M值为一个
合理值，对比测试结束，原始数据的均匀度也符合要求。

[0015] 本发明具有的有益效果：

[0016] 1、通过提出的空间矢量数据均匀度模型，对原始数据颗粒度进行重新划分，达到分布式计算所需的合理均匀度，避免木桶效应，降低数据传输(广播)时间，大大提高计算效
率，结合物理架构调整，可以将全国范围上的复杂空间计算时间控制在几秒秒内完成，改变
大范围、长距离空间计算需要几十分钟才能完成的现状。

附图说明

[0017] 图1为本发明的流程原理示意图；

具体实施方式

[0018] 下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

[0019] 在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基
于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅
是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的
方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

[0020] 在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连
接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒
介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况
理解上述术语在本发明中的具体含义。

[0021] 实施例

[0022] 如图1所示，一种基于数据复杂度的空间矢量数据的建模方法，包括以下步骤：

[0023] S1：建立空间矢量数据集；

[0024] S2：计算空间矢量数据均匀度，首先根据公式PH＝ΣNi/J(PH:平均均匀度，Ni：第i个空间对象复杂度，为空间矢量数据本身属性，本领域技术人员可直接得到，J：空间对象数
量，本领域技术人员可直接得到)计算得到原始数据平均均匀度值，然后将PH值代入公式
PHi＝Ni/PH(Ni：第i个空间对象复杂度，PHi：第i个空间对象偏离值)计算得到原始数据空
间对象偏离值，通过上述原始数据复杂度计算，发现原始数据的不均匀性。

[0025] S3：预设一个M初始值，(M＝1.00)；

[0026] S4：分割处理，遍历矢量数据集，若PHi＞M，则使用Ni＝F(PHi)，(F(PHi)：空间对象分割算法)和预处理软件对该空间对象进行水平分布，分割处理，提升数据均匀度。

[0027] S5：建立分布式空间数据库；

[0028] S6：常用指标效率对比测试，用三个以上区域或三种以上不同类型空间数据，对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布
式空间数据库进行应用对比测试，验证本发明是否提高空间数据查询效率、空间数据统计
分析效率、空间数据处理效率；常用指标效率对比测试效率提升值若小于10％为效率提高
不显著，则返回对原始数据进行重新分割处理，并对M值大小做调整，如此重复的分割、对比
计算，找到一个合理的M值，使得原始数据到达分布式计算所需的合理均匀度，能大幅度提
升分布式架构下空间计算效率，有效避免木桶效应，降低数据传输时间，大大提高计算效
率，对比测试效率提升值若大于10％为效率提高显著，对比结束，确定M值为合理值，此时原
始数据的均匀度符合要求。

[0029] 以实际测试数据为例，将某区地类图斑矢量数据入库，约有345991条数据，数据总节点数为44395347，然后根据公式PH＝ΣNi/J，计算出矢量数据平均均匀度约为128，并根
据公式PHi＝Ni/PH计算每条空间矢量数据的偏离值，第一条空间数据的Ni为5，则其Phi＝
5/128，明显其值小于初始值M＝1，该条数据不用分割，第二数据的Ni为328，则其Phi＝2.56
>M，该条数据需要分割，依次计算，所有空间数据分割完后得到48450544条数据，然后建立
分布式空间数据库；最后进行空间分析效率测试，结果发现与原始数据的对比提升效率值
小于10％，则不显著，调整M值。将空间数据的偏离值倒序排序，取得前5％数据的最小偏离
值作为M值(即会分割5％的数据)，重新分割处理，发现空间分析效率对比大于10％，显著提
升(提升4倍多)，建模完成。

[0030] 在实际应用中，再结合物理架构调整，本发明可以将全国范围上的复杂空间计算时间控制在较短时间内完成，改变大范围、长距离空间计算需要几十分钟才能完成的现状，
这将大大扩展地理信息应用范围和价值，例如智慧城市、数字城市的重要基础平台就是地
理信息公共服务平台，但一直没有体现出“重要基础平台”的作用，其重要原因就是空间分
析耗时太长，无法提供在线服务，而空间分析服务正是地理信息公共服务平台的核心价值；
再如应急处置中，如果空间分析能快速完成，将避免巨大的生命财产损失。

[0031] 本发明的原理：首先通过上述实施例中的相应公式，计算出空间矢量数据复杂度，包括原始数据平均均匀度和空间对象偏离值，发现原始数据的不均匀性，其次通过本发明
提出的算法模型，利用在此基础上开发的预处理软件，对原始数据分割处理，原始数据颗粒
度重新划分，提升数据均匀度，使之达到分布式计算所需的合理均匀度，避免木桶效应；然
后建立分布式数据库，最后进行常用指标效率对比测试，用三个以上区域或三种以上不同
类型空间数据，对按常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模
型处理后建立的分布式空间数据库进行对比测试，用于验证本发明是否提高空间数据查询
效率、空间数据统计分析效率、空间数据处理效率，常用指标效率对比测试效率提升值若小
于10％为效率提高不显著，则返回对数据重新分割处理，并对M值大小做调整，如此往复的
分割、对比，找到一个合理的M值，若对比测试效率提升值若大于10％为效率提高显著，则对
比结束，M值为合理值。

[0032] 以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、
等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

一种基于数据复杂度的空间矢量数据的建模方法转让专利

申请号 : CN202010467727.6

文献号 : CN111625519B

文献日 : 2021-03-23

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杨军

申请人 : 杨军

摘要 :

权利要求 :

说明书 :