一种基于时空分布特征的空气质量指数预测方法转让专利

申请号 : CN201510188119.0

文献号 : CN104850734B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 沈满吴杰刘琳尹琴陈彬张龙黄俊韬杨曦

申请人 : 武大吉奥信息技术有限公司

摘要 :

本发明涉及一种空气质量指数预测方法,尤其涉及一种基于时空分布特征的空气质量指数预测方法。本方法采用时间序列预测方法预测时间方向,即未来某个时间的空气质量指数;再采用克里格插值法,利用已知的监测站点经纬度坐标,结合时间序列预测结果,插值估计整个区域任意地点的空气质量指数。因此,本发明具有如下优点:1.降低了模型的复杂度,并且缩短了整体的计算时间,同时又保证了模型的准确性。2.可以更准确地预测区域内每个地方、一天内多个时段的空气质量指数。

权利要求 :

1.一种基于时空分布特征的空气质量指数预测方法,其特征在于,包括以下步骤:

样本获取步骤,用于获取待预测区域中的空气质量监测站的经纬度坐标,每隔一定时间段记录区域中的各个空气质量监测站在同一时刻监测得到的空气质量指数,得到空气质量样本数据;

时间序列预测步骤,用于根据样本获取步骤中得到空气质量样本数据建立各个空气质量监测站的时间序列函数,选择置信度较高的时间序列函数预测该函数所对应的空气质量检测站在未来某个时间采样点的第一监测点空气指数预测集;

克里格插值步骤,用于根据第一监测点空气指数据预测集拟合得到待预测区域中的空间变异函数,根据所述空间变异函数以及第一监测点空气指数预测集进行克里格插值估计。

2.根据权利要求1所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述时间序列预测步骤进一步包括以下子步骤:时间序列划分子步骤,用于将空气质量样本数据划分为m个时间序列,每个时间序列包括来自同一监测站点的n个空气质量样本,其中:m是空气质量监测站的个数,n是空气质量监测站的数据记录次数;

模型训练子步骤,对于每个时间序列,根据已有样本中n个时间,选择最后的ι个时间对应的ι×m个样本作为验证样本,即实际值realij,i=1,2,…,m;j=1,2,…,ι;选择前n-ι个数据作为时间序列训练样本,利用训练样本训练得到各个站点的移动平均自回归模型,利用该移动平均自回归模型预测验证样本中的ι个时间对应的空气质量指数,记为zij,i=1,

2,…,m;j=1,2,…,ι,分别计算各个zij值的80%置信区间和90%的置信区间;

模型验证子步骤,对m站点的时间序列ti′,i=1,2,…,m,若其ι个实际值分别落在zij的

80%置信区间和90%的置信区间内部的数量比例分别达到预设的第一阈值和预设的第二阈值,则将该时间序列ti′对应的移动平均自回归模型保留,共得到s个观测点的移动平均自回归模型;

时间序列预测子步骤,利用保留的s个观测点的移动平均自回归模型预测未来t时刻该s个站点的空气质量指数Z(xi),i=1,2,…,s,将Z(xi)作为第一监测点空气指数预测集。

3.根据权利要求2所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述第一阈值为85%,所述第二阈值为75%。

4.根据权利要求1所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述克里格插值步骤进一步包括以下子步骤:区域划分步骤,用于将待预测区域划分成不相交的正方形网格;

变异函数拟合子步骤,利用第一监测点空气指数预测集以及相应的监测点坐标,并基于以下公式计算得到待预测区域内的变异函数离散值:式中,h为两监测点空间分隔距离,N(h)表示距离为h的监测点的对数,Z(xi)和Z(xi+h)分别监测点xi和监测点xi+h处第一监测点空气指数预测值,其中:i∈[1,2,...,N(h)];选择适当的圆滑曲线来对变异函数离散值进行拟合,将样本均方差值最小的函数作为待预测区域内的变异函数;

范围搜索子步骤,利用拟合得到的变异函数的变程a,搜索对网格中心处x0有影响的监测点,x0处经纬度坐标为(x0,y0),计算第一监测点空气指数预测集中的s个站点与x0的距离di,i=1,2,…,s,取di小于等于a的所有的有影响的观测点作为有效观测点构成有效观测点集合s0;

加权系数计算子步骤,利用变异函数、观测点集合s0并基于以下公式计算得到有效范围内的有效观测点集s0的空气质量指数在对某个网格X0进行克里格估值计算时的权值λi:式中,γ(xi,xj)为有效观测点xi与xj之间的变异函数值,γ(xi,x0)为待估点x0与有效观测点xi之间的变异函数值;μ为拉格朗日乘数;

空间克里格估值子步骤,利用有效观测集合s0对应的第一监测点空气质量指数预测值Z(xi),i=1,2,…,s0,并基于以下公式对网格X0进行预测:式中,Z(xi)是网格X0的有效观测点集s0对应的第一监测点空气质量指数预测值,λi是s0个有效观测点对网格X0权值;对区域内其余的每个网格,重复范围搜索子步骤、加权系数计算子步骤和空间克里格估值子步骤,最后获得区域内各个网格的空气质量指数预测值。

5.根据权利要求4所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:式中,C0为块金常数,C0+C为基台值,C为拱高,a为变程。

6.根据权利要求4所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:式中,C0为块金常数,C为拱高,但a1为三分之一的变程。

7.根据权利要求4所述的一种基于时空分布特征的空气质量指数预测方法,其特征在于,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:式中,C0为块金常数,C为拱高,a1为三分之一的变程。

说明书 :

一种基于时空分布特征的空气质量指数预测方法

技术领域

[0001] 本发明涉及一种空气质量指数预测方法,尤其涉及一种基于时空分布特征的空气质量指数预测方法。

背景技术

[0002] 空气是地球上的生物赖以生存的物质,是必不可少的一种物质。环境空气质量与人们的日常生活息息相关,同时也在城市环境综合评价中占有重要地位。但是随着人类文明和经济的发展,空气污染越来越严重,如何改善空气质量、合理进行大气环境质量预测预警变得越来越重要,根据当地的空气质量预测结果,人们可以采取相应措施如带口罩,尽量避免外出等,保护自己免受空气污染物的侵害。
[0003] 空气质量指数用AQI表示,是一个用来定量描述空气质量水平的数值。它由空气中二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、臭氧(O3)、悬浮颗粒物PM10和PM2.5,共6中污染物的含量计算出来的。AQI的取值范围位于0–500之间。由于空气质量情况与气候因素、地理位置有关,在数据角度上对应的就是空气质量指数与时间、空间分布都相关。因此需要有一定的技术方法,利用区域内多个监测站观测并计算得到的空气质量指数数据,预测整个地区未来的空气质量指数。
[0004] 但是,传统的空气质量预测方法存在以下问题:
[0005] (1)不能准确的对没有观测站的区域进行空气指数预测:一般利用各地的多个空气质量监测站历史的检测数据,来预测该站点(或附近)未来一段时间的空气质量指数,而不能预测没有观测站的地方未来的空气质量情况;也有一种时空克里格插值方法可以仅根据离散分布的观测点的历史数据资料,预测整个区域范围内某个时间的空气质量指数,但是时空克里格插值法是内插法,即当要预测的未来时间点超出统计资料样本数据的最大时间时,预测误差将会变得很大。因此研究出新的方法可以比较准确的预测整个区域内每个地方在未来某个时间的空气质量指数是有必要的。
[0006] (2)不能进行细粒度时间段的空气指数预测:传统的空气质量预测通常是对接下来一整天的空气质量进行预测,这种粗粒度时间段的空气质量预测存在一个弊端,假设明天的空气质量预测结果是优,表明对空气污染物较敏感的人群可以进行户外活动,而实际上某些时间段(如上午8:00-9:00,下午5:00-6:00)的空气质量有可能是中度污染或者重度污染,对空气污染较敏感人群在这些时间段不宜进行户外活动。因此,对接下来一天的空气质量进行细粒度时间段的预测更为合理。

发明内容

[0007] 本发明主要是解决现有技术所存在的不能准确的对没有观测站的区域进行空气指数预测以及不能进行细粒度时间段的空气指数预测的技术问题;提供了一种基于时空分布特征的空气质量指数预测方法。该方法将空间克里格插值法与时间序列预测方法相结合,把空间插值估计过程和时间序列预测过程分开进行,降低了模型的复杂度,并且缩短了整体的计算时间,同时又保证了模型的准确性;并且本方法可以更准确地预测区域内每个地方、一天内多个时段的空气质量指数,满足人们挑选空气质量较好的时间段进行外出活动的需要。
[0008] 本发明的上述技术问题主要是通过下述技术方案得以解决的:
[0009] 一种基于时空分布特征的空气质量指数预测方法,包括以下步骤:
[0010] 样本获取步骤,用于获取待预测区域中的空气质量监测站的经纬度坐标,每隔一定时间段记录区域中的各个空气质量监测站在同一时刻监测得到的空气质量指数,得到空气质量样本数据;
[0011] 时间序列预测步骤,用于根据样本获取步骤中得到空气质量样本数据建立各个空气质量监测站的时间序列函数,选择置信度较高的时间序列函数预测该函数所对应的空气质量检测站在未来某个时间采样点的第一监测点空气指数预测集;
[0012] 克里格插值步骤,用于根据第一监测点空气指数据预测集拟合得到待预测区域中的空间变异函数,根据所述空间变异函数以及第一监测点空气指数预测集进行克里格插值估计。
[0013] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述时间序列预测步骤进一步包括以下子步骤:
[0014] 时间序列划分子步骤,用于将空气质量样本数据划分为m个时间序列,每个时间序列包括来自同一监测站点的n个空气质量样本,其中:m是空气质量监测站的个数,n是空气质量监测站的数据记录次数;
[0015] 模型训练子步骤,对于每个时间序列,根据已有样本中n个时间,选择最后的ι个时间对应的ι×m个样本作为验证样本,即实际值realij(i=1,2,…,m;j=1,2,…,ι);选择前n-ι个数据作为时间序列训练样本,利用训练样本训练得到各个站点的移动平均自回归模型,利用移动平均自回归模型预测验证样本中的ι个时间对应的空气质量指数,记为zij(i=1,2,…,m;j=1,2,…,ι),分别计算各个zij值的80%置信区间和90%的置信区间;
[0016] 模型验证子步骤,对m站点的时间序列mi(i=1,2,…,m),若其ι个实际值分别落在zij的80%置信区间和90%的置信区间内部的数量比例分别达到预设的第一阈值和预设的第二阈值,则将该时间序列mi对应的移动平均自回归模型保留,共得到s个观测点的移动平均自回归模型;
[0017] 时间序列预测子步骤,利用保留的s个观测点的移动平均自回归模型预测未来t时刻该s个站点的空气质量指数Z(xi)(i=1,2,…,s),将Z(xi)作为第一监测点空气指数预测集。
[0018] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述第一阈值为85%,所述第二阈值为75%。
[0019] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述克里格插值步骤进一步包括以下子步骤:
[0020] 区域划分步骤,用于将待预测区域划分成不相交的正方形网格;
[0021] 变异函数拟合子步骤,利用第一监测点空气指数预测集以及相应的监测点坐标,并基于以下公式计算得到待预测区域内的变异函数离散值:
[0022]
[0023] 式中,h为两监测点空间分隔距离,N(h)表示距离为h的监测点的对数,Z(xi)和Z(xi+h)分别监测点xi和监测点xi+h处第一监测点空气指数预测值,其中:i∈[1,2,...,N(h)];选择适当的圆滑曲线来对变异函数离散值进行拟合,将样本均方差值最小的函数作为待预测区域内的变异函数;
[0024] 范围搜索子步骤,利用拟合得到的变异函数的变程a,搜索对网格中心处x0有影响的监测点,x0处经纬度坐标为(x0,y0),计算第一监测点空气指数预测集中的s个站点与x0的距离di(i=1,2,…,s),取di小于等于a的所有的有影响的观测点作为有效观测点构成有效观测点集合s0;
[0025] 加权系数计算子步骤,利用变异函数、观测点集合s0并基于以下公式计算得到有效范围内的有效观测点集s0的空气质量指数在对某个网格X0进行克里格估值计算时的权值λi:
[0026]
[0027] 式中:,
[0028] γ(xi,xj)为有效观测点xi与xj之间的变异函数值,γ(xi,x0)为待估点x0与有效观测点xi之间的变异函数值;μ为拉格朗日乘数;
[0029] 空间克里格估值子步骤,利用有效观测集合s0对应的第一监测点空气质量指数预测值Z(xi)(i=1,2,…,s0),并基于以下公式对网格X0进行预测:
[0030]
[0031] 式中,Z(xi)是网格X0的有效观测点集s0对应的第一监测点空气质量指数预测值,λi是s0个有效观测点对网格x0权值;对区域内其余的每个网格,重复范围搜索子步骤、加权系数计算子步骤和空间克里格估值子步骤,最后获得区域内各个网格的空气质量指数预测值。
[0032] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:
[0033]
[0034] 式中,C0为块金常数,(C0+C)为基台值,C为拱高,a为变程。
[0035] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:
[0036]
[0037] 式中,C0为块金常数,C为拱高,但a为三分之一的变程。
[0038] 优化的,上述的一种基于时空分布特征的空气质量指数预测方法,所述变异函数拟合子步骤中变异函数的拟合基于以下公式:
[0039]
[0040] 式中,C0为块金常数,C为拱高,a为三分之一的变程。
[0041] 因此,本发明具有如下优点:
[0042] 1.本方法将空间克里格插值法与时间序列预测方法相结合,把空间插值估计过程和时间序列预测过程分开进行,降低了模型的复杂度,并且缩短了整体的计算时间,同时又保证了模型的准确性。
[0043] 2.本方法可以更准确地预测区域内每个地方、一天内多个时段的空气质量指数,满足人们挑选空气质量较好的时间段进行外出活动的需要。

附图说明

[0044] 附图1是本发明的流程图;
[0045] 附图2是本发明的时间序列的移动平均自回归模型预测图;
[0046] 附图3是本发明拟合的球形变异函数曲线。

具体实施方式

[0047] 下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
[0048] 实施例:
[0049] 图1是本发明的基于时空分布特征的空气质量指数预测方法。该方法的主要包括三个大的步骤,分别是样本获取步骤、时间序列预测步骤、克里格插值步骤,下面分别进行介绍。
[0050] 1、样本获取
[0051] 获取待预测区域中的空气质量监测站的经纬度坐标,每隔一定时间段记录区域中的各个空气质量监测站在同一时刻监测得到的空气质量指数,得到空气质量样本数据;本实施例中,各采样点之间的时间间隔优选为6小时,为保证训练样本完整性,监测站点有数据历史数据有缺失情况,填补缺失记录,获取n×m个样本。
[0052] 2、时间序列预测
[0053] 根据样本获取步骤中得到空气质量样本数据建立各个空气质量监测站的时间序列函数,选择置信度较高的时间序列函数预测该函数所对应的空气质量检测站在未来某个时间采样点的第一监测点空气指数预测集;该步骤进一步包括以下子步骤:
[0054] 2.1时间序列划分
[0055] 用于将空气质量样本数据划分为m个时间序列,每个时间序列包括来自同一监测站点的n个空气质量样本,其中:m是空气质量监测站的个数,n是空气质量监测站的数据记录次数;
[0056] 2.2模型训练
[0057] 对于每个时间序列,根据已有样本中n个时间,选择最后的ι个时间对应的ι×m个样本作为验证样本,即实际值realij(i=1,2,…,m;j=1,2,…,ι);选择前n-ι个数据作为时间序列训练样本,利用训练样本训练得到各个站点的移动平均自回归模型作为该站点的时间序列函数。
[0058] 移动平均自回归模型,简称为ARIMA(p,d,q)模型,是目前时间序列的众多模型中比用通用,且预测效果较佳的模型。该模型含有p,d,q三个参数,通过调整3个参数可保证时间序列的平稳性。因此对以上m个时间序列,采用该模型时p,d,q三个参数各不相同。
[0059] 利用训练得到的移动平均自回归模型预测验证样本中的ι个时间对应的空气质量指数,记为zij(i=1,2,…,m;j=1,2,…,ι),其中,zij的80%置信区间上下限分别为80_lowerij和80_upperij,95%置信区间上下限分别为95_lowerij和95_upperij(i=1,2,…,m;j=1,2,…,ι)。
[0060] 2.3模型验证
[0061] 对站点的时间序列mi(i=1,2,…,m),计算ι个实际值分别落在80%置信区间内部的数量比例80_ratioi和落在95%置信区间内部的数量比例95_ratioi:
[0062]
[0063]
[0064] 当80_ratioi>=80%,并且95_ratioi>=75%,就认为时间序列mi(i=1,2,…,m)的移动平均自回归模型ARIMA的预测精度较高,并且对应的观测点予以保留,m个观测点中保留的有s个,并记录这s个观测点的经纬度坐标为(sxi,syi)i=1,2,…,s)。
[0065] 如图2所示,是一个时间序列的ARIMA模型的预测值、置信区间和实际值的比较图,此ARIMA模型的3个参数分别是p=1,d=q=0,右边阴影部分中的线条是预测结果,阴影部分分别表示80%置信区间和95%置信区间,圆圈代表实际值,此图比较直观的展示了ARIMA模型的预测效果。
[0066] 2.4时间序列预测
[0067] 利用保留的s个观测点的移动平均自回归模型预测未来t时刻该s个站点的空气质量指数Z(xi)(i=1,2,…,s),将Z(xi)作为第一监测点空气指数预测集。
[0068] 3、克里格插值
[0069] 根据第一监测点空气指数据预测集拟合得到待预测区域中的空间变异函数,根据所述空间变异函数以及第一监测点空气指数预测集进行克里格插值估计。
[0070] 在知道区域内离散分布的观测点的同一时刻的空气质量指数时,要估计整个区域任意地方的空气质量指数。由于空气质量情况是有空间分布特征的,因此空气质量指数也有空间分布特征,对于有空间分布特征的数据,采用克里格插值法可以无偏估计出区域内任意点的空气质量指数。主要步骤如下:
[0071] 3.1区域划分
[0072] 将待预测区域划分成不相交的正方形网格,在同一时刻每个网格内的各处的空气质量指数相等。克里格插值过程中网格单元越小,插值估计经度也越高,因此在划分网格时,网格的面积很小,使每个网格内部的空气质量指数近似相等的。
[0073] 区域G的经纬度的最大最小值记为:经度最小值xmin,经度最大值xmax,纬度最小值ymin,纬度最大值ymax。每个网格g的经纬跨度记为cell,那么按照cell为单元来划分,区域G的经度可以划分为XX=(xmax-xmin)/cell份,其中XX取整数,经度方向可得到xmin,xmin+cell,xmin+2*cell,…,xmin+XX*cell序列;区域G的纬度可以划分为YY=(ymax-ymin)/cell份,其中YY取整数。
[0074] 纬度方向可划分为ymin,ymin+cell,ymin+2*cell,…,ymin+YY*cell序列;将这些经纬度序列进行组合,总共有N=XX*YY个经纬度坐标,即空间坐标。这些坐标依次记为(xi,yi)(i=1,2,…,N),每个坐标点是网格g的中心,最终目标就是要预测每个格网g的中心点处的空气质量指数。
[0075] 3.2变异函数拟合
[0076] 空间变异的意思是,变量在空间中随着空间位置的变化而不同;变异函数是描述这种变异性质的表达式。
[0077] 利用第一监测点空气指数预测集以及相应的监测点坐标,并基于以下公式计算得到待预测区域内的变异函数离散值:
[0078]
[0079] 式中,h为两监测点空间分隔距离,N(h)表示距离为h的监测点的对数,Z(xi)和Z(xi+h)分别监测点xi和监测点xi+h处第一监测点空气指数预测值,其中:i∈[1,2,...,N(h)];
[0080] 为了考察空间位置x处的值Z(x)受多大范围内的空间点值的影响,所以要对上面离散的变异函数γ*h进行拟合,采用加权多项式回归拟合法进行拟合,拟合的光滑的变异函数曲线,与空间点位置xi无关,只与空间点距离h有关。
[0081] 本实施例中的变异函数的拟合可采用以下几种方法:
[0082] (1)球形变异函数模型:
[0083]
[0084] 式中:C0为块金常数,(C0+C)为基台值,C为拱高,a为变程。当空间点的距离h>=变程a时,变异函数γ(h)值不再变化,即以点x处为中心,半径为a范围内的点xi处的值Z(xi)对x处的值Z(x)有影响,超出这个范围的无影响。也就是说克里格差值过程中,只选择与所预测的网格距离小于等于变程的观测点。
[0085] 采用球形变异函数模型进行拟合的结果如图3所示。
[0086] (2)指数模型:
[0087]
[0088] 式中:C0,C意义同前,但a不是变程,由于1-e-3=1-0.05=0.95≈1,则变程为3a[0089] (3)高斯模型:
[0090]
[0091] 式中:C0,C意义同前,但a不是变程,由于1-e-3=1-0.05=0.95≈1,则变程为3a。
[0092] 3.3范围搜索
[0093] 利用拟合得到的变异函数的变程a,搜索对网格中心处x0有影响的监测点,x0处经纬度坐标为(x0,y0),计算第一监测点空气指数预测集中的s个站点(经纬度坐标为(sxi,syi))与x0的距离di(i=1,2,…,s),取di小于等于a的所有的有影响的观测点作为有效观测点构成有效观测点集合s0。
[0094] 3.4加权系数计算
[0095] 利用变异函数、观测点集合s0并基于以下公式计算得到有效范围内的有效观测点集s0的空气质量指数在对某个网格X0进行克里格估值计算时的权值λi:
[0096]
[0097] 式中:γ(xi,xj)为有效观测点xi与xj之间的变异函数值,γ(xi,x0)为待估点x0与有效观测点xi之间的变异函数值;μ为拉格朗日乘数;此公式仅为置信度高且在网格的有效范围内的监测站对一个网格的权值计算,对每个网格的权值需重复计算该步骤,其中拉格朗日常数,也称为朗格朗日乘子,是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n个变量与k个约束条件的最优化问题转换为一个有n+k个变量的方程组的极值问题,因而可用求解极值方法求解条件方程组。
[0098] 3.5空间克里格估值
[0099] 利用有效观测集合s0对应的第一监测点空气质量指数预测值Z(xi)(i=1,2,…,s0),并基于以下公式对网格X0进行预测:
[0100]
[0101] 式中,Z(xi)是网格X0的有效观测点集s0对应的第一监测点空气质量指数第一监测点空气质量指数预测值,λi是s0个有效观测点对网格x0权值;对区域内其余的每个网格,重复范围搜索子步骤、加权系数计算子步骤和空间克里格估值子步骤,最后获得区域内各个网格的空气质量指数预测值。
[0102] 通过以上方案,本方法采用空间克里格插值法与时间序列预测方法相结合,把空间插值估计过程和时间序列预测过程分开进行,降低了模型的复杂度,并且缩短了整体的计算时间。
[0103] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
[0104] 尽管本文较多地使用了等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。