颗粒物组分数据的修复方法、装置、电子设备及存储介质转让专利

申请号 : CN202210360646.5

文献号 : CN114662611B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈焕盛肖林鸿王文丁张稳定吴剑斌秦东明

申请人 : 中科三清科技有限公司

摘要 :

本申请提供一种颗粒物组分数据的修复方法、装置、电子设备及存储介质,属于环境科学领域。所述方法包括:获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复。采用本申请,可以对颗粒物组分数据进行修复,并且可以提高数据修复的稳定性和准确性。

权利要求 :

1.一种颗粒物组分数据的修复方法,其特征在于,所述方法包括:获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;

基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;

模型训练完成后,对每个颗粒物组分修复模型的修复效果进行评估;

在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;

基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重;当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;

分别基于训练后的每个颗粒物组分修复模型对所述目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;

基于每个颗粒物组分修复模型的权重和所述多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;

基于所述修复基准数据,对所述目标颗粒物组分数据进行修复。

2.根据权利要求1所述的方法,其特征在于,所述形成训练样本集,包括:基于预设的多个颗粒物浓度范围,将所述颗粒物浓度数据和对应的颗粒物组分数据划分为多个训练样本集;

所述基于所述训练样本集,对颗粒物组分修复模型组进行训练,包括:基于每个训练样本集,分别对颗粒物组分修复模型组进行训练,得到每个颗粒物浓度范围对应的颗粒物组分修复模型组;

所述基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,包括:基于目标颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,所述目标颗粒物组分修复模型组与所述目标颗粒物浓度数据所属的颗粒物浓度范围相对应。

3.根据权利要求2所述的方法,其特征在于,所述多个颗粒物浓度范围包括2个颗粒物浓度范围,分别对应于空气质量的清洁条件和污染条件;或所述多个颗粒物浓度范围包括6个颗粒物浓度范围,分别对应于空气质量等级的优、良、轻度污染、中度污染、重度污染、严重污染六个级别。

4.根据权利要求1所述的方法,其特征在于,所述形成训练样本集,包括:确定所述颗粒物浓度数据和对应的颗粒物组分数据是否经过质控;

如果是,则基于所述颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;

如果否,则对所述颗粒物浓度数据和对应的颗粒物组分数据进行质控操作,基于质控后的颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。

5.根据权利要求1所述的方法,其特征在于,所述多个颗粒物组分修复模型的类型包括以下任意多种的组合:线性回归模型,支持向量回归模型,决策树回归模型,随机森林回归模型,集成回归模型。

6.一种颗粒物组分数据的修复装置,其特征在于,所述装置包括:训练模块,用于获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;

权重确定模块,用于模型训练完成后,对每个颗粒物组分修复模型的修复效果进行评估;在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重;

获取模块,用于当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;

修复模块,用于分别基于训练后的每个颗粒物组分修复模型对所述目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;基于每个颗粒物组分修复模型的权重和所述多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;基于所述修复基准数据,对所述目标颗粒物组分数据进行修复。

7.一种电子设备,包括:

处理器;以及

存储程序的存储器,

其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑5中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1‑5中任一项所述的方法。

说明书 :

颗粒物组分数据的修复方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及环境科学领域,尤其涉及一种颗粒物组分数据的修复方法、装置、电子设备及存储介质。

背景技术

[0002] 近年来,高浓度细颗粒物(即PM2.5)污染(俗称雾霾)是重要环境问题。PM2.5是指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物。它能较长时间悬浮于空气中,其在空气中浓度越高,则代表空气污染越严重。从组成来讲,PM2.5是一类污染物的集合,主要包括有机碳、元素碳、钠盐、氯盐、硫酸盐、硝酸盐、铵盐等化学组分。PM2.5的形成机制和来源极其复杂,受到不同行业污染排放、不同地区下垫面特征和气象气候条件、地区间的相互传输等因素的影响,这导致不同地区、不同时段、不同天气条件下PM2.5的组成有显著差异。深入开展PM2.5的组分构成及其变化研究是各地区大气污染溯源和治理的一项重要工作。
[0003] 目前,研究机构和业务部门已在全国各地建设了大量的颗粒物组分监测站,通过组分监测数据可以识别污染的成因和来源,追踪污染的演变并评估污染控制的成效,有效支撑 PM2.5污染的精准管控。颗粒物组分监测需要配备高端的专业仪器设备,同时需要专业人员持续进行运行维护,从而才能获得高质量的监测数据。近年来,我国的颗粒物组分监测分析已取得了长足的进步,但是由于颗粒物组分监测的成本高、专业性强、成熟度低、运维难度大,导致监测数据仍存在大量的异常,严重影响数据质量。针对颗粒物组分监测数据,业务部门大多会采取自动审核和人工审核来剔除异常数据,但审核后通常会出现大面积的监测缺失值,大大降低了数据的应用价值。
[0004] 因此,需要针对颗粒物组分数据的缺失值,进行科学有效的修复,大幅减小组分数据的缺失率,使得这些高成本获得的组分数据可以发挥更大的应用价值。

发明内容

[0005] 为了解决现有技术问题,本申请实施例提供了一种颗粒物组分数据的修复方法、装置、电子设备及存储介质,可以对颗粒物组分数据进行修复。技术方案如下:
[0006] 根据本申请的一方面,提供了一种颗粒物组分数据的修复方法,所述方法包括:
[0007] 获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;
[0008] 基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;
[0009] 当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;
[0010] 基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复。
[0011] 可选的,所述形成训练样本集,包括:基于预设的多个颗粒物浓度范围,将所述颗粒物浓度数据和对应的颗粒物组分数据划分为多个训练样本集;
[0012] 所述基于所述训练样本集,对颗粒物组分修复模型组进行训练,包括:基于每个训练样本集,分别对颗粒物组分修复模型组进行训练,得到每个颗粒物浓度范围对应的颗粒物组分修复模型组;
[0013] 所述基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,包括:基于目标颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,所述目标颗粒物组分修复模型组与所述目标颗粒物浓度数据所属的颗粒物浓度范围相对应。
[0014] 可选的,所述多个颗粒物浓度范围包括2个颗粒物浓度范围,分别对应于空气质量的清洁条件和污染条件;或
[0015] 所述多个颗粒物浓度范围包括6个颗粒物浓度范围,分别对应于空气质量等级的优、良、轻度污染、中度污染、重度污染、严重污染六个级别。
[0016] 可选的,所述基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度,对所述目标颗粒物组分数据进行修复,包括:
[0017] 分别基于训练后的每个颗粒物组分修复模型对所述目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;
[0018] 基于每个颗粒物组分修复模型的权重和所述多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;
[0019] 基于所述修复基准数据,对所述目标颗粒物组分数据进行修复。
[0020] 可选的,所述方法还包括:
[0021] 在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;
[0022] 基于所述每个颗粒物组分修复模型的修复效果统计参数,确定每个颗粒物组分修复模型的权重。
[0023] 可选的,所述基于所述每个颗粒物组分修复模型的修复效果统计参数,确定每个颗粒物组分修复模型的权重,包括:
[0024] 基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重。
[0025] 可选的,所述形成训练样本集,包括:
[0026] 确定所述颗粒物浓度数据和对应的颗粒物组分数据是否经过质控;
[0027] 如果是,则基于所述颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;
[0028] 如果否,则对所述颗粒物浓度数据和对应的颗粒物组分数据进行质控操作,基于质控后的颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。
[0029] 可选的,所述多个颗粒物组分修复模型的类型包括以下任意多种的组合:线性回归模型,支持向量回归模型,决策树回归模型,随机森林回归模型,集成回归模型。
[0030] 根据本申请的另一方面,提供了一种颗粒物组分数据的修复装置,所述装置包括:
[0031] 训练模块,用于获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;
[0032] 获取模块,用于当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;
[0033] 修复模块,用于基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复。
[0034] 可选的,所述训练模块,用于:基于预设的多个颗粒物浓度范围,将所述颗粒物浓度数据和对应的颗粒物组分数据划分为多个训练样本集;基于每个训练样本集,分别对颗粒物组分修复模型组进行训练,得到每个颗粒物浓度范围对应的颗粒物组分修复模型组;
[0035] 所述修复模块,用于:基于目标颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,所述目标颗粒物组分修复模型组与所述目标颗粒物浓度数据所属的颗粒物浓度范围相对应。
[0036] 可选的,所述多个颗粒物浓度范围包括2个颗粒物浓度范围,分别对应于空气质量的清洁条件和污染条件;或
[0037] 所述多个颗粒物浓度范围包括6个颗粒物浓度范围,分别对应于空气质量等级的优、良、轻度污染、中度污染、重度污染、严重污染六个级别。
[0038] 可选的,所述修复模块,用于:
[0039] 分别基于训练后的每个颗粒物组分修复模型对所述目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;
[0040] 基于每个颗粒物组分修复模型的权重和所述多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;
[0041] 基于所述修复基准数据,对所述目标颗粒物组分数据进行修复。
[0042] 可选的,所述装置还包括权重确定模块,所述权重确定模块,用于:
[0043] 在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;
[0044] 基于所述每个颗粒物组分修复模型的修复效果统计参数,确定每个颗粒物组分修复模型的权重。
[0045] 可选的,所述权重确定模块,用于:
[0046] 基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重。
[0047] 可选的,所述训练模块,用于:
[0048] 确定所述颗粒物浓度数据和对应的颗粒物组分数据是否经过质控;
[0049] 如果是,则基于所述颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;
[0050] 如果否,则对所述颗粒物浓度数据和对应的颗粒物组分数据进行质控操作,基于质控后的颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。
[0051] 可选的,所述多个颗粒物组分修复模型的类型包括以下任意多种的组合:线性回归模型,支持向量回归模型,决策树回归模型,随机森林回归模型,集成回归模型。
[0052] 根据本申请的另一方面,提供了一种电子设备,包括:
[0053] 处理器;以及
[0054] 存储程序的存储器,
[0055] 其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述颗粒物组分数据的修复方法。
[0056] 根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述颗粒物组分数据的修复方法。
[0057] 本申请可以取得如下有益效果:
[0058] (1)通过颗粒物浓度数据和对应的颗粒物组分数据,对颗粒物组分修复模型进行训练,使得颗粒物组分修复模型可以充分学习训练样本集中颗粒物浓度与颗粒物组分之间的关联信息,以及各个颗粒物组分之间的关联信息,从而可以基于颗粒物浓度数据对颗粒物组分数据进行修复。
[0059] (2)通过多种模型的有效集合,可以减小单一模型在不同数据条件下的特异性和不稳定性,有效增强模型的泛化能力,提高数据修复的稳定性和准确性。
[0060] (3)在模型训练阶段,基于颗粒物浓度范围对训练样本集进行划分,并训练得到每个颗粒物浓度范围对应的颗粒物组分修复模型组,提高模型对不同污染条件的适用性。
[0061] (4)基于不同地区、不同浓度范围的样本集对颗粒物组分修复模型进行训练构建,同时动态进行训练、评估并更新相应的权重,动态纳入对化学成分相关性以及不同污染条件下组分变化特征的差异性表征,提高模型对不同地区、不同时段、不同污染条件的适用性。

附图说明

[0062] 在下面结合附图对于示例性实施例的描述中,本申请的更多细节、特征和优点被公开,在附图中:
[0063] 图1示出了根据本申请示例性实施例的颗粒物组分数据的修复方法的流程图;
[0064] 图2示出了根据本申请示例性实施例的颗粒物组分数据的修复方法的流程图;
[0065] 图3示出了根据本申请示例性实施例的颗粒物组分数据的修复装置的示意性框图;
[0066] 图4示出了能够用于实现本申请的实施例的示例性电子设备的结构框图。

具体实施方式

[0067] 下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
[0068] 应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/ 或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
[0069] 本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0070] 需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0071] 本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0072] 本申请实施例提供了一种颗粒物组分数据的修复方法,该方法可以由终端、服务器和/ 或其他具备处理能力的设备完成。本申请实施例提供的方法可以由上述任一设备完成,也可以由多个设备共同完成。
[0073] 本申请提供的方法基于多种机器学习算法构建颗粒物组分修复模型,统筹考虑颗粒物浓度与颗粒物组分之间相关性、各个颗粒物组分之间相关性以及不同污染条件下组分变化特征的差异性,提高颗粒物组分修复模型对不同地区、不同时段、不同空气质量的适用性。
[0074] 下面将参照图1所示的颗粒物组分数据的修复方法的流程图,对该方法进行介绍。
[0075] 步骤101,获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。
[0076] 在一种可能的实施方式中,颗粒物浓度数据和颗粒组分数据可以基于不同的监测设备进行采集并存储,颗粒物浓度数据和颗粒组分数据可以在采集时间上存在对应关系,例如,某日9:00‑10:00采集的颗粒物浓度数据和颗粒组分数据相对应。
[0077] 进而,在对机器学习模型进行训练时,可以获取已收集的颗粒物浓度数据和对应的颗粒物组分数据,并构建相应的训练样本集,其中,一个颗粒物浓度值可以与对应的一组颗粒物组分的浓度值构成一个训练样本。
[0078] 可选的,在形成训练样本集之前,可以对获取的数据进行质控操作,如图2所示的颗粒物组分数据的修复方法的流程图,相应的处理可以如下:
[0079] 确定颗粒物浓度数据和对应的颗粒物组分数据是否经过质控;
[0080] 如果是,则基于颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;
[0081] 如果否,则对颗粒物浓度数据和对应的颗粒物组分数据进行质控操作,基于质控后的颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。
[0082] 在一种可能的实施方式中,在获取到颗粒物浓度数据和对应的颗粒物组分数据之后,可以判断获取的数据是否经过质控,例如,可以查询获取到的数据中是否包含已经过质控的标记。
[0083] 如果获取的数据已经过质控,则可以构建相应的训练样本集。
[0084] 如果获取的数据未经过质控,则可以对获取的数据进行质控操作,进而基于质控后的数据构建相应的训练样本集。其中,质控操作可以参照中国环境监测总站发布的大气颗粒物组分监测数据审核规范,主要采用经验阈值法对数据进行筛选。
[0085] 可选的,为了适应不同的空气质量,可以对训练样本集进行分类,相应的处理可以如下:基于预设的多个颗粒物浓度范围,将颗粒物浓度数据和对应的颗粒物组分数据划分为多个训练样本集。
[0086] 其中,上述预设的多个颗粒物浓度范围可以有两种可能的情况。
[0087] 情况一,上述多个颗粒物浓度范围具体可以包括2个颗粒物浓度范围,分别对应于3
空气质量的清洁条件和污染条件。示例性的,可以将PM2.5浓度大于等于75μg/m所对应的数
3
据划分为污染条件对应的训练样本集,将PM2.5浓度小于75μg/m所对应的数据划分为清洁条件对应的训练样本集。
[0088] 情况二,上述多个颗粒物浓度范围具体可以包括6个颗粒物浓度范围,分别对应于空气质量等级的优、良、轻度污染、中度污染、重度污染、严重污染六个级别。示例性的,可以3 3 3 3
将PM2.5浓度(即下文中的c)所对应的数据按照c≤35μg/m ,35μg/m<c≤75μg/m , 75μg/m
3 3 3 3 3 3
<c≤115μg/m ,115μg/m <c≤150μg/m ,150μg/m<c≤250μg/m ,c>250μg/m ,划分为6个训练样本集。
[0089] 当然,除了本实施例提供的上述两种情况,还可以采用其他具体的数目以及颗粒物浓度范围对训练样本集进行划分,本实施例对此不作限定。训练样本集的数据量越大、分类越精细,则越有利于提高颗粒物组分修复模型对不同空气质量的适用性。
[0090] 可选的,还可以根据地区划分不同的训练样本集,在此基础上,可以针对不同的地区训练不同的颗粒物组分修复模型组,在后续修复过程中每个地区可以使用对应的颗粒物组分修复模型组,用于修复该地区的颗粒物组分数据,以适应不同地区的差异化。
[0091] 步骤102,基于训练样本集,对颗粒物组分修复模型组进行训练。
[0092] 其中,颗粒物组分修复模型组包括多个颗粒物组分修复模型。
[0093] 在一种可能的实施方式中,可以通过上述训练样本集,分别对预设的多个机器学习模型进行训练,从而构建相应的颗粒物组分修复模型。颗粒物组分修复模型的输入可以为颗粒物浓度数据,输出可以为预测颗粒物组分数据,训练标签可以为对应的真实颗粒物组分数据。其中,输入模型的颗粒物浓度数据和对应的真实颗粒物组分数据是指上述步骤101 获取的数据。
[0094] 训练完成后,颗粒物组分修复模型可以充分学习训练样本集中颗粒物浓度与颗粒物组分之间的关联信息,以及各个颗粒物组分之间的关联信息,从而可以基于颗粒物浓度数据对颗粒物组分数据进行预测。
[0095] 可选的,对应于上述划分多个不同空气质量的训练样本集,可以基于每个训练样本集,分别对颗粒物组分修复模型组进行训练,得到每个颗粒物浓度范围对应的颗粒物组分修复模型组。训练完成后,颗粒物组分修复模型组可以充分学习不同空气质量下组分变化特征的差异性表征信息,提高对不同空气质量的适用性。
[0096] 可选的,上述多个颗粒物组分修复模型的类型包括以下任意多种的组合:线性回归模型,支持向量回归模型,决策树回归模型,随机森林回归模型,集成回归模型。
[0097] 各个模型的简要介绍如下:
[0098] 线性回归(Linear Regression):线性回归假设目标值与特征之间存在线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b,一般通过最小二乘法或梯度下降法求解。
[0099] 支持向量回归(Support Vector Regression):算法主要是通过升维后,在高维空间中构造线性决策函数来实现线性回归。为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项,增加的可调参数也增加了过拟合的风险。支持向量回归算法采用核函数解决这一矛盾。用核函数代替线性方程中的线性项,引进核函数达到了“升维”的目的,而增加的可调参数使得过拟合依然能控制。
[0100] 决策树回归(Decision Tree Regression):回归树将特征空间划分成若干单元,每一个划分单元有一个特定的输出,因为每个结点都是“是”和“否”的判断,划分的边界是平行于坐标轴的,对于输入数据只要按照特征将其归到某个单元,便得到对应的输出值。
[0101] 随机森林回归(Random Forest Regression):利用多棵树对样本进行训练并预测的一种集成模型,处理回归问题时,则以每棵决策树输出的均值为最终结果。
[0102] 集成回归(Bagging Regression):让算法训练多轮,每轮的训练集由从初始的训练样本集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练样本集中可以出现多次或根本不出现,训练之后可得到一个预测函数序列H={h1......hn},最终的预测函数H对回归问题采用简单平均方法对每轮的结果h1~hn进行计算。
[0103] 上述各个模型中的具体处理可以参照现有原理进行,本申请对此不作详细介绍。
[0104] 可选的,在训练完成后,随着颗粒物浓度数据和颗粒物组分数据的累积,每当达到第一更新条件时,可以基于训练完成后采集的颗粒物浓度数据和颗粒物组分数据,对上述颗粒物组分修复模型组重新进行训练并更新,从而及时纳入最新的监测数据,提高模型对不同时段的适用性。其中,达到第一更新条件可以是指达到第一更新周期,或者,还可以是指模型训练完成后采集的颗粒物浓度数据和颗粒物组分数据的数据量大于第一预设阈值,本实施例对具体的第一更新条件不作限定。
[0105] 模型训练完成后,可以对模型的修复效果进行评估。
[0106] 可选的,每个颗粒物组分修复模型可以具有各自的权重,该权重可以基于各个模型在模型评估阶段的修复效果进行确定。相应的处理可以如下:
[0107] 在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;
[0108] 基于每个颗粒物组分修复模型的修复效果统计参数,确定每个颗粒物组分修复模型的权重。
[0109] 在一种可能的实施方式中,可以基于步骤101获取的部分数据构建评估验证样本集。采用随机算法对其中的颗粒物组分数据进行剔除,将剔除后剩余的颗粒物组分数据用于模拟待修复的颗粒物组分数据。
[0110] 进而,可以将评估验证样本集中的颗粒物浓度数据分别输入每个颗粒物组分修复模型进行处理,每个颗粒物组分修复模型可以输出各自的预测颗粒物组分数据。将预测颗粒物组分数据和剔除前的真实颗粒物组分数据进行对比,可以确定每个颗粒物组分修复模型的修复效果统计参数。
[0111] 如果修复效果统计参数表示的修复效果较好,则可以增加对应的颗粒物组分修复模型的权重;如果修复效果统计参数表示的修复效果较差,则可以降低对应的颗粒物组分修复模型的权重。
[0112] 具体的,修复效果统计参数可以采用相关系数和平均误差,确定权重相应的处理可以如下:基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重。
[0113] 在一种可能的实施方式中,可以采用如下公式计算每个颗粒物组分修复模型的权重。
[0114]
[0115] 其中,WCi代表第i个颗粒物组分修复模型的权重,CCi代表第i个颗粒物组分修复模型的相关系数,MEi代表第i个颗粒物组分修复模型的平均误差。α代表调整因子,取值范围为大于0的整数。n为模型数目,i、n为大于等于1的自然数。
[0116] α为缩放各个修复模型差距的比例因子,α越大,那么各个模型的权重系数差距就越大,表明选择相信在模型评估阶段表现最好的模型;α越小,各个模型的权重系数越接近,表明更愿意相信多模型集合平均的作用。
[0117] 任一颗粒物组分修复模型的相关系数CC和平均误差ME可以采用如下公式计算。
[0118]
[0119]
[0120] 其中,Fk代表第k个预测颗粒物组分数据,代表N个预测颗粒物组分数据的平均值, Tk代表第k个真实颗粒物组分数据,代表N个真实颗粒物组分数据的平均值,Fk和Tk相对应。N为模拟待修复的颗粒物组分数据的样本数目,k、N为大于等于1的自然数。
[0121] 可选的,在模型评估完成后,随着颗粒物浓度数据和颗粒物组分数据的累积,每当达到第二更新条件时,可以基于模型评估完成后采集的颗粒物浓度数据和颗粒物组分数据,对上述颗粒物组分修复模型重新进行评估并更新相应的权重,从而动态反映各个模型在不同时段的表现。其中,达到第二更新条件可以是指达到第二更新周期,或者,还可以是指模型评估完成后采集的颗粒物浓度数据和颗粒物组分数据的数据量大于第二预设阈值,本实施例对具体的第二更新条件不作限定。
[0122] 在模型训练以及模型评估完成后,可以进入步骤103‑104,对待修复的目标颗粒物组分数据进行修复。
[0123] 步骤103,当对目标颗粒物组分数据进行修复时,获取目标颗粒物组分数据对应的目标颗粒物浓度数据。
[0124] 在一种可能的实施方式中,当颗粒物组分数据存在无效数据时,例如存在缺失值、负值等,可以将该颗粒物组分数据作为目标颗粒物组分数据,并获取对应的颗粒物浓度数据作为目标颗粒物浓度数据。
[0125] 步骤104,基于训练后的颗粒物组分修复模型组和目标颗粒物浓度数据,对目标颗粒物组分数据进行修复。
[0126] 在一种可能的实施方式中,可以将目标颗粒物浓度数据输入颗粒物组分修复模型组进行处理,对目标颗粒物浓度数据对应的颗粒物组分数据进行预测,得到最终的修复基准数据。进而可以参照修复基准数据,对目标颗粒物浓度数据中的无效数据进行修复,例如,当 的数据缺失时,可以参照修复基准数据中 的数据进行补充;当 的数据为负值时,可以替换为修复基准数据中 的数据。
[0127] 可选的,每个颗粒物组分修复模型可以具有各自的权重,上述步骤104的处理可以如下:分别基于训练后的每个颗粒物组分修复模型对目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;基于每个颗粒物组分修复模型的权重和多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;基于修复基准数据,对目标颗粒物组分数据进行修复。
[0128] 其中,可以采用如下公式计算修复基准数据:
[0129]
[0130] 其中,FE代表任一颗粒物组分的修复基准数据,Fi代表第i个颗粒物组分修复模型对该颗粒物组分的预测颗粒物组分数据。
[0131] 当然,还可以采用其他具体的公式计算修复基准数据,例如加权平均的计算公式,本实施例对此不作限定。
[0132] 可选的,对应于上述不同空气质量具有不同的颗粒物组分修复模型组的情况,上述步骤104的处理可以包括:基于目标颗粒物组分修复模型组和目标颗粒物浓度数据,对目标颗粒物组分数据进行修复。
[0133] 其中,目标颗粒物组分修复模型组与目标颗粒物浓度数据所属的颗粒物浓度范围相对应。
[0134] 在一种可能的实施方式中,在获取到目标颗粒物浓度数据后,可以确定其所属的颗粒物浓度范围,进而调用对应的目标颗粒物组分修复模型组,以执行后续的修复处理。
[0135] 本申请实施例可以取得如下有益效果:
[0136] (1)本申请实施例中,通过颗粒物浓度数据和对应的颗粒物组分数据,对颗粒物组分修复模型进行训练,使得颗粒物组分修复模型可以充分学习训练样本集中颗粒物浓度与颗粒物组分之间的关联信息,以及各个颗粒物组分之间的关联信息,从而可以基于颗粒物浓度数据对颗粒物组分数据进行修复。
[0137] (2)通过多种模型的有效集合,可以减小单一模型在不同数据条件下的特异性和不稳定性,有效增强模型的泛化能力,提高数据修复的稳定性和准确性。
[0138] (3)在模型训练阶段,基于颗粒物浓度范围对训练样本集进行划分,并训练得到每个颗粒物浓度范围对应的颗粒物组分修复模型组,提高模型对不同污染条件的适用性。
[0139] (4)基于不同地区、不同浓度范围的样本集对颗粒物组分修复模型进行训练构建,同时动态进行训练、评估并更新相应的权重,动态纳入对化学成分相关性以及不同污染条件下组分变化特征的差异性表征,提高模型对不同地区、不同时段、不同污染条件的适用性。
[0140] 本申请实施例提供了一种颗粒物组分数据的修复装置,该装置用于实现上述颗粒物组分数据的修复方法。如图3所示的颗粒物组分数据的修复装置的示意性框图,颗粒物组分数据的修复装置300包括:训练模块301,获取模块302,修复模块303。
[0141] 训练模块301,用于获取颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;基于所述训练样本集,对颗粒物组分修复模型组进行训练,其中,所述颗粒物组分修复模型组包括多个颗粒物组分修复模型;
[0142] 获取模块302,用于当对目标颗粒物组分数据进行修复时,获取所述目标颗粒物组分数据对应的目标颗粒物浓度数据;
[0143] 修复模块303,用于基于训练后的颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复。
[0144] 可选的,所述训练模块301,用于:基于预设的多个颗粒物浓度范围,将所述颗粒物浓度数据和对应的颗粒物组分数据划分为多个训练样本集;基于每个训练样本集,分别对颗粒物组分修复模型组进行训练,得到每个颗粒物浓度范围对应的颗粒物组分修复模型组;
[0145] 所述修复模块303,用于:基于目标颗粒物组分修复模型组和所述目标颗粒物浓度数据,对所述目标颗粒物组分数据进行修复,所述目标颗粒物组分修复模型组与所述目标颗粒物浓度数据所属的颗粒物浓度范围相对应。
[0146] 可选的,所述多个颗粒物浓度范围包括2个颗粒物浓度范围,分别对应于空气质量的清洁条件和污染条件;或
[0147] 所述多个颗粒物浓度范围包括6个颗粒物浓度范围,分别对应于空气质量等级的优、良、轻度污染、中度污染、重度污染、严重污染六个级别。
[0148] 可选的,所述修复模块303,用于:
[0149] 分别基于训练后的每个颗粒物组分修复模型对所述目标颗粒物浓度进行处理,得到多个预测颗粒物组分数据;
[0150] 基于每个颗粒物组分修复模型的权重和所述多个预测颗粒物组分数据,确定对颗粒物组分的修复基准数据;
[0151] 基于所述修复基准数据,对所述目标颗粒物组分数据进行修复。
[0152] 可选的,所述装置还包括权重确定模块,所述权重确定模块,用于:
[0153] 在模型评估阶段,基于每个颗粒物组分修复模型输出的预测颗粒物组分数据和对应的真实颗粒物组分数据,确定每个颗粒物组分修复模型的修复效果统计参数;
[0154] 基于所述每个颗粒物组分修复模型的修复效果统计参数,确定每个颗粒物组分修复模型的权重。
[0155] 可选的,所述权重确定模块,用于:
[0156] 基于预设的调整因子、预测颗粒物组分数据和对应的真实颗粒物组分数据之间的相关系数和平均误差,确定每个颗粒物组分修复模型的权重。
[0157] 可选的,所述训练模块301,用于:
[0158] 确定所述颗粒物浓度数据和对应的颗粒物组分数据是否经过质控;
[0159] 如果是,则基于所述颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集;
[0160] 如果否,则对所述颗粒物浓度数据和对应的颗粒物组分数据进行质控操作,基于质控后的颗粒物浓度数据和对应的颗粒物组分数据,形成训练样本集。
[0161] 可选的,所述多个颗粒物组分修复模型的类型包括以下任意多种的组合:线性回归模型,支持向量回归模型,决策树回归模型,随机森林回归模型,集成回归模型。
[0162] 本申请实施例中,通过颗粒物浓度数据和对应的颗粒物组分数据,对颗粒物组分修复模型进行训练,使得颗粒物组分修复模型可以充分学习训练样本集中颗粒物浓度与颗粒物组分之间的关联信息,以及各个颗粒物组分之间的关联信息,从而可以基于颗粒物浓度数据对颗粒物组分数据进行修复。
[0163] 本申请示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。
[0164] 本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。
[0165] 本申请示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。
[0166] 参考图4,现将描述可以作为本申请的服务器或客户端的电子设备400的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0167] 如图4所示,电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM) 402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O) 接口405也连接至总线404。
[0168] 电子设备400中的多个部件连接至I/O接口405,包括:输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备,输入单元406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元408可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax 设备、蜂窝通信设备和/或类似物。
[0169] 计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元 401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如,在一些实施例中,颗粒物组分数据的修复方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行颗粒物组分数据的修复方法。
[0170] 用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0171] 在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0172] 如本申请使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0173] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0174] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0175] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。