会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 数据挖掘 / 一种基于数据挖掘的空气质量预测方法及系统

一种基于数据挖掘的空气质量预测方法及系统

阅读:43发布:2021-02-24

IPRDB可以提供一种基于数据挖掘的空气质量预测方法及系统专利检索,专利查询,专利分析的服务。并且一种基于数据挖掘的空气质量预测方法及系统,系统用于实现基于数据挖掘的空气质量预测方法。方法包括获取风速级别、细颗粒物污染数值以及本地污染物污染数值,并将上述三个信息作为输入参量;对输入参量做标准化处理;将经过所述标准化处理的输入参量输入至BP神经网络模型中,对空气质量进行预测。其中,所述本地污染物根据预测地区的主要污染物类型进行选择。所述BP神经网络模型为由输入层、隐含层和输出层组成的三层设计,所述隐含层的节点数为5、6或者7。本发明的网络模型结构简单、计算资源耗费低、能够实现准确预测,同时还具有收敛速度快、网络泛化能力强的特点。,下面是一种基于数据挖掘的空气质量预测方法及系统专利的具体信息内容。

1.一种基于数据挖掘的空气质量预测方法,其特征在于,该方法具体包括如下步骤:步骤1、获取风速级别、细颗粒物污染数值以及本地污染物污染数值,并将上述三个信息作为输入参量;

步骤2、对所述风速级别、所述细颗粒物污染数值以及所述本地污染物污染数值做标准化处理;

步骤3、将经过所述标准化处理的三个输入参量输入至BP神经网络模型中,对空气质量进行预测;

其中,所述本地污染物根据预测地区的主要污染物类型进行选择;

所述步骤3中的所述BP神经网络模型为由输入层、隐含层和输出层组成的三层设计,所述隐含层的节点数为5、6或者7;

所述BP神经网络模型是预先训练好的。

2.根据权利要求1所述的方法,其特征在于,所述本地污染物为SO2或者CO。

3.根据权利要求1所述的方法,其特征在于,在所述步骤2中的所述标准化处理之前,还包括对风速级别的量化操作;使用风速级别对应的最小风速与最大风速的均值作为量化数据完成所述量化操作。

4.根据权利要求1或3所述的方法,其特征在于,所述标准化处理为对所有输入参量进行归一化处理。

5.根据权利要求1所述的方法,其特征在于,所述隐含层中的神经元采用双曲正切S形传递函数。

6.根据权利要求1所述的方法,其特征在于,所述训练包括对于包含有n组输入参量的数据集,每次都用其中的1组输入参量评价BP神经网络模型的预测能力,其余n-1组输入参量用于BP神经网络模型的训练。

7.根据权利要求1或6所述的方法,其特征在于,所述训练算法使用Trainlm。

8.一种基于数据挖掘的空气质量预测系统,其特征在于,包括存储器和处理器以及存储在所述存储器上并可以在处理器上运行的基于数据挖掘的空气质量预测程序,所述基于数据挖掘的空气质量预测程序配置为实现如权利要求1至7中任一项所述的基于数据挖掘的空气质量预测方法的步骤。

说明书全文

一种基于数据挖掘的空气质量预测方法及系统

技术领域

[0001] 本发明属于计算机以及气象技术领域,特别涉及空气质量预测的相关技术。

背景技术

[0002] 在我国,空气质量评价时主要考虑的污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、 二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等。细颗粒物(PM2.5) 是指直径为2.5微米或更小的颗粒物质,而可吸入颗粒物(PM10)包括直径为10微米或更 小的那些颗粒。而准确的空气质量预测则有助于空气污染的防控和城市环境的规划建设,而且 能够帮助人们减少不必要的损失以及合理安排出行,对人们的生产生活有着重要的指导意义。
[0003] 现有的空气质量预测方式主要分为两类:数值预报与统计预报。数值预报的基本原理是 通过计算物质守恒方程来对大气中的污染物进行数值计算,数值预报意在模拟一种真实的大 气环境,用数学与化学公式尽可能的表达接近于真实大气的运作机理,充分考虑大气的污染 源清单、气象因子、粒子化学、光化学反应过程、二次污染物、污染物传输、清除等因素, 来模拟真实的大气环境,并根据大气环境的变化呈现出不同的精确结果。统计预报的发展得 益于人类开始建立比较完善合理的大气监测研究网络,收集大气系统中的污染物因子、气象 因子、污染源因子等变量。根据现有积累的大量历史监测数据,运用统计学的相关方法模型 如:人工神经网络、灰色系统理论、聚类与多元回归等,分析出大气预测中潜在的符合自然 规律的规则,来对未来空气质量进行预测。
[0004] 空气质量的时空分布受到气象场、排放源、理化过程的耦合等多种因素的影响,具有较 强的非线性特性。现有的统计预报方式虽然建立简单,业务运行方便、易普及,但是需要大 量的监测资料支持;数值预测虽然物理基础坚实,但是污染源浓度,气象因子等影响空气质 量的程度不尽相同,预测的输入参数和过滤条件不易给出,使得预测结果精度不高。随着计 算机大数据相关技术的发展以及监测数据的日益完善,使用数据挖掘的方法建立空气质量预 测模型也越来越受到关注,但现有技术中的此类方法仍存在收敛速度慢、网络泛化能力弱、 预测准确率不高以及计算复杂等缺点。

发明内容

[0005] 针对上述现有技术中的不足,本发明提出一种基于数据挖掘的空气质量预测方法,其特征 在于,该方法具体包括如下步骤:步骤1、获取风速级别、细颗粒物污染数值以及本地污染 物污染数值,并将上述三个信息作为输入参量;步骤2、对所述风速级别、所述细颗粒物污 染数值以及所述本地污染物污染数值做标准化处理;步骤3、将经过所述标准化处理的三个 输入参量输入至BP神经网络模型中,对空气质量进行预测,预测输出的空气质量等级设定 为优、良、轻、中、重和严重;其中,所述本地污染物根据预测地区的主要污染物类型进行 选择;例如根据预测地区的工业结构选择SO2或者CO;所述步骤3中的所述BP神经网络模 型为由输入层、隐含层和输出层组成的三层设计,所述隐含层的节点数为5、6或者7;所述 BP神经网络模型是预先训练好的。
[0006] 优选地,在所述步骤2中的所述标准化处理之前,还包括对风速级别的量化操作;使用风 速级别对应的最小风速与最大风速的均值作为量化数据完成所述量化操作。所述标准化处理 为对所有输入参量进行归一化处理,从而能够避免出现极端值而导致学习失败的情况发生。
[0007] 进一步,所述隐含层中的神经元采用双曲正切S形传递函数。所述训练包括对于包含有n 组输入参量的数据集,每次都用其中的1组输入参量评价BP神经网络模型的预测能力,其 余n-1组输入参量用于BP神经网络模型的训练。训练算法优选使用Trainlm。
[0008] 相应地,本发明同时还提出一种基于数据挖掘的空气质量预测系统,其特征在于,包括存 储器和处理器以及存储在所述存储器上并可以在处理器上运行的基于数据挖掘的空气质量预 测程序,所述基于数据挖掘的空气质量预测程序配置为实现上述基于数据挖掘的空气质量预 测方法的步骤。
[0009] 相对于现有技术,本发明提出的基于数据挖掘的空气质量预测系统能够充分体现气象因子 对空气质量预测的意义,用户可以不必深入了解空气质量变化的内部机制就可以便捷的完成 对空气质量的预测。同时,本发明的BP神经网络模型能够在保证预测准确性的基础上大大 降低计算资源,同时还具有收敛速度快、网络泛化能力强的特点。
[0010] 上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照 说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

[0011] 图1:神经网络示意图;
[0012] 图2:训练误差与隐含层节点数关系示意图;
[0013] 图3:预测误差与隐含层节点数关系示意图。

具体实施方式

[0014] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的 附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实 施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015] BP(back propagation)神经网络是一种应用于模式识别和分类预测评价的人工神经网络。一 般的神经网络结构可能由多层所构成,本发明只需要采用由输入层,隐含层、输出层构成的 三层拓扑结构的神经网络即可以实现准确的空气质量预测。BP神经网络的学习过程是从外界 输入训练样本不断对模型进行训练,改变网络的连接权值,使得最终的输出值更加接近期望 输出。这一过程包括了工作信号正向传递过程,以及误差信号的反向传递过程。正向传递就 是输入层的每个节点都要与隐含层进行加权求和计算,通过隐含层的激活函数计算出每个值 再与输出层进行加权求和计算,最终的输出值与期望值作比较,计算出误差,完成一次正向 传递的过程。反向传递是利用正向传递最后输出的结果来计算误差的偏导数,并一层层的向 后反向传递,直到输入层并更新权重,完成反向传递的过程。如此反复,直到全局误差达到 满意为止,学习结束。
[0016] 空气污染与气象条件有着直接的关系,城市环境下重污染事件的发生主要归结为不利于 扩散的天气条件,而并非突然增加的排放源。气象要素与污染物的排放、传输、扩散、(光) 化学反应、以及干湿沉降等方面密切相关,例如,温度和地表湿度对沙尘排放的影响,风对 污染物扩散的显著影响等。因此研究地区气象因素有利于判断污染气团来源与污染现象的扩 散条件。在污染物较为严重的地区,气象因子中的风速会对空气质量产生较为明显的影响, 这一点往往在空气质量预测中被忽略。污染会根据风速有明显变化,因而风速作为输入参数 指标的意义重大,故在本发明的技术方案中选用风速作为输入的特征向量之一。一般风速例 如可以通过风级大小来反映,但是风级本身无法充分体现出风速对预测结果的影响,因此本 方法对风速进行量化处理后再作为输入参数值。根据风速级别的标准,不同风级对应的风速 是一个范围,同一风级的风速在最小风速和最大风速之间变化。选取最小风速与最大风速的 均值作为量化数据,对风级进行量化。不同级别的风速对应关系即量化关系如表1所示。
[0017] 表1风速级别量化关系示意
[0018]
[0019]
[0020] 本实施例以石家庄市近十年的空气质量数据作为数据集,数据来自中国空气质量在线监 测分析平台。国家规定的影响空气质量指数(AQI)的主要污染物包括细颗粒物(PM2.5)、 可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)和一氧化碳 (CO)。具体实施例中采用污染物细颗粒物(PM2.5)、二氧化硫(SO2)和风速这三个指 标作为输入参量。细颗粒物PM2.5指的是包含粒径小于2.5微米的颗粒物。针对发展中国家 而言,PM10中一半是PM2.5,当空气中PM2.5含量增加时,PM10的含量也会对应升高,鉴 于这一现象,选取PM2.5作为输入参量之一,能够充分描述粉尘污染物的浓度和趋势。针对 石家庄地区的特点,该地区为工业城市,包含化学工厂较多,因此SO2对空气质量有显著的 影响,选择SO2作为输入参数之一。在预测其它地区或者城市的方案中,可以根据本地的工 业结构等情况选择重要污染物作为本地污染物输入参量,来替换上述SO2,比如大同作为煤 矿输出城市主要污染物为煤尘和CO,可以使用CO来作为本地污染物,与风速和细颗粒物 PM2.5一起作为输入参量。
[0021] 本实施例BP神经网络预测输出的空气质量等级设定为6类:优、良、轻、中、重、严重, 将这6个指标作为输出的特征向量即可覆盖空气质量的所有情况。具体神经网络示意参见说 明书附图1所示。
[0022] 在网络学习之前,首先需要进行数据预处理的操作,将网络输入层的参数进行标准化处 理,使它们处在区间(0,1)中。例如,选取所有输入参数进行归一化处理,包含量化后的风速 参数。通过数据预处理后,输入输出向量可以映射到对应区间中,避免出现极端值而导致学 习失败的情况发生。网络的最终输出按照上述数据预处理的反过程处理,就可以还原出真正 的输出数据。
[0023] 对于数据集中的数据,采用“舍一法”进行学习,即对于包含有n组输入参量的数据集, 每次都用其中的1组输入参量评价网络模型的预测能力,其余n-1组输入参量用于网络模型 的训练。
[0024] 本申请的拓扑结构采用了BP神经网络的三层设计:输入层、隐含层和输出层,即可完成 空气质量的准确预测。输入层输入训练样本,对于本实施例来说,神经元为对应污染物细颗 粒物(PM2.5)、二氧化硫(SO2)和风速的三个特征向量;输出层为对应优、良、轻、中、 重、严重6类结果的6个特征向量。实际上,在选取输入特征向量时,如果选择4个特征向 量会导致训练时间变长,收敛的速度也比较缓慢,效率降低。经验证,综合考虑选取3个输 入特征向量时,使用本发明的方法进行预测会达到较好的效果。
[0025] 同时,隐含层节点数的选择也至关重要,如果节点太少则会导致训练结果很差,如果节 点过多,则会造成训练时间较长,易陷入局部最小值。为了验证不同节点数算法的可行性和 执行效率,使用Matlab平台进行仿真,并用训练误差和预测误差进行验证评价,其中,训练 误差指的是实际训练结果和期待训练结果的数值的差值占比,预测误差指的是实际预测结果 和期待预测结果的数值的差值占比。根据所选定的参数及相关神经网络算法,将算法编译成 Matlab程序脚本,进行训练,最终达到收敛。针对不同的隐含层节点数,使用该算法模型对 相同的数据进行训练,得到不同隐含层节点数的训练误差和预测误差,参见说明书附图2和 3所示。由说明书附图2可知,随着隐含层节点数的增加,评价算法的训练误差在不断下降, 最后趋近于0,在节点数达到5和6之后,其下降速率就会增强,当隐含层节点数越大,训 练误差越低,隐含层节点数的增加可以增强算法的学习能力。但考虑到计算资源,节点数为 5和6时的训练误差效果也是可以接受的。由说明书附图3可知,随着隐含层节点数从2增 加到5,评价算法的预测误差急剧降低,隐含层节点数从5增加到7时,其预测误差基本不 变,隐含层节点数继续增加时,预测误差会急剧增加。这意味着隐含层节点数在比较小的时 候,评价算法的预测能力会随着节点数增加而增强,然而节点数增加到一定程度时,算法中 的神经网络会产生过度吻合,即节点太多反而令噪声增加,这时算法的预测能力下降。综上 所述,为了令评价算法的训练误差和预测能力达到相对理想的状态,本实施例中将隐含层节 点数设置在[5,7]之间,优选神经网络的隐含层节点数设置为5。
[0026] BP网络的传递函数有多种,可以根据需要进行选择。Log-sigmod型函数的输入值可取任 意值,输出值在0和1之间;tan-sigmod型传递函数tansig的输入值可取任意值,输出值在-1 到+1之间;线性传递函数purelin的输入与输出值可取任意值。用含有单隐含层的三层BP 神经网络模型,隐含层中神经元采用双曲正切S形传递函数。双曲正切函数tansig用于将神 经元的输入范围从(-∞,+∞)映射到(-1,+1),而且是可微函数,适合于BP神经网络训练的神经 元。输出层采用双曲对数型传递函数Log-sigmod。按照参数设定的网络结构对数据样本进行 训练,达到目标精度后停止训练。需要配置的参数如表2所示:
[0027] 表2配置参数示例
[0028]Name of network Parameters Contents
Network Back Propagation
Training function Trainlm
Performance function MSE
Training Epoch 20000
Goal 0.01
[0029] 在其他实施例中,这些设定的参数可以根据具体需求来进行调整。而本实施例中,NetWork 选取的是BP神经网络,训练算法选择的是L-M优化算法trainlm,因为对于中等规模的网络 来说,trainlm是速度最快的一种训练算法,所以选取该算法来进行权值优化。BP神经网络里 的误差衡量指标用的是MSE均方差。训练迭代次数越大训练效果越好,当迭代次数增大,训 练效果相差不大的时候,也就是已经收敛,迭代结束。Goal作为目标精度根据具体要求进行 选取。此外,训练算法也可以考虑其它权值训练算法,例如带动量的梯度下降法traingdm、 量化共轭梯度法trainscg、traingdx或者traingda等。
[0030] 为了验证模型真实有效率,以石家庄市空气质量数据为基础,随机挑选100天相对应的 三个指标作为检测样本,进行模型检验,利用本方案构建的神经网络模型对这100天的空气 质量进行分类预测,并与实际结果对比,随机抽取的100天空气质量中,有96天的分类预 测是正确的。部分结果如表3所示。
[0031] 表3模型有效率检验示意
[0032]日期 PM2.5 SO2 风速 预测分类 实际分类 评价
2018.3.4 128 212 2.5 中度污染 中度污染 准确
2018.3.5 42 83 4.4 良 良 准确
2018.3.6 76 124 2.5 轻度污染 轻度污染 准确
2018.3.7 82 132 2.5 轻度污染 轻度污染 准确
2018.3.8 92 142 0.9 中度污染 轻度污染 错误
2018.3.9 132 203 2.5 中度污染 中度污染 准确
2018.3.10 172 263 0.9 重度污染 重度污染 准确
2018.3.11 92 140 4.4 轻度污染 轻度污染 准确
2018.3.12 159 232 2.5 重度污染 重度污染 准确
2018.3.13 277 377 0.9 严重污染 严重污染 准确
[0033] 由此可知,本发明中的BP神经网络训练模型达到了很好的预测效果,具有较高的预测 准确率和较好的预测分类作用。
[0034] 本实施例同时提出了相应的空气质量预测系统,系统可以使用服务器或者终端设备来完 成上述预测功能。所述服务器或者终端设备包括存储器、处理器,以及存储在所述存储器上 并可以在处理器上运行的本实施例中的空气质量预测程序。所述空气质量预测程序配置为能 够实现本实施例阐述的基于数据挖掘的空气质量预测方法的步骤。
[0035] 与现有技术相比,本申请提出的BP神经网络建立了预测空气质量预测模型并基于该模型 搭建了空气质量预测系统,从而能够以较少的计算资源并且很精准的预测到空气质量。除了 设置神经网络输入层和输出层的节点数外,运用神经网络对样本进行训练,不需要了解空气 质量变化的内部机制,比传统的基于复杂数学模型的预测方法更为便捷,选用风速作为进行 量化输入参数,体现了气象因子对空气质量预测的意义,提高了预测准确度。相比于其他机 器学习建立的模型预测空气质量方案来说更加具有独特性和适配性,同时还具有收敛速度快、 网络泛化能力强的特点。
[0036] 上面所述的只是说明本发明的一种基于数据挖掘的空气质量预测方法及系统,由于对相 同技术领域的普通技术人员来说很容易在此基础上进行若干修改和改动,因此本说明书并非 是要将本发明的空气质量预测方法和系统局限在所示和所述的具体范围内,故凡是所有可能 被利用的相应修改及等同方法,均属于本发明所申请的专利范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用