基于随机森林的气体种类及浓度预测方法、系统及装置转让专利

申请号 : CN202311051588.9

文献号 : CN116759014B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄奇景金红兴付倩倩刘国建

申请人 : 启思半导体(杭州)有限责任公司

摘要 :

本发明公开了一种基于随机森林的气体种类及浓度预测方法、系统及装置,方法包括:获取采样数据形成的数据集;判断预设空气基线是否需要校正,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型;基于所述空气基线对历史数据集中的响应数据进行更新,得到更新后的历史数据集;对更新后的历史数据集进行预处理,得到训练样本集,基于训练样本集训练及验证并得到随机森林预测模型;将待测数据输入随机森林预测模型,得到气体分类及气体浓度的预测结果。本发明能够提高基于随机森林的气体种类及浓度预测准确性。

权利要求 :

1.一种基于随机森林的气体种类及浓度预测方法,其特征在于,包括以下步骤:获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;

判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型,基线更新模型表示如下:其中, 表示空气基线, 、 分别表示当前更新周期t、及上一个周期t‑1的传感器电阻值的平均值, 表示当前更新周期t的湿度变化,,表示调整系数, 、2分别表示当前周期内湿度变化的阈值及前后两个周期比值大小的阈值;

基于所述校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;

确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型,其中,所述分类预测模型表示如下:其中,H(x)表示分类预测模型,T表示决策树的数目, 表示每棵决策树预测的类别,Y表示类别标签, 表示x属于类别Y,Qclst表示重要性系数;

所述浓度预测模型表示如下:

Qregt1

其中,H(x1)表示浓度预测模型,T1表示回归树的数目, 表示每棵回归树预测的浓度,Y1是浓度标签, 表示ht1(x1)和真实浓度Y1的预测误差,Qregt1表示所述第一重要性系数;

将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。

2.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,包括以下步骤:基于预设电阻值校准模型对当前时刻传感器电阻值进行校准,得到校准结果;

基于校准结果及预设基线更新模型对预设空气基线进行更新,得到校准空气基线;

其中,所述预设电阻值校准模型,表示如下:

Z=Rg/Ra=R/R0=(Rt1‑R) H/R0(Ht1‑H)+Rt1 d/R0‑(1+i)(Rt1‑R) Ht1/R0(Ht1‑H)其中,Z表示响应函数,R表示当前时刻传感器电阻值,R0表示校准到标准环境后传感器电阻值,t1表示t1时刻,Rt1表示t1时刻测量的电阻,Ht1表示t1时刻的湿度,H表示当前时刻的湿度;i,d表示调整系数,且调整系数随温度调整。

3.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述响应数据表示为z=[z1,z2,...,zn];所述气体类别标签及气体浓度标签表示为[是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],所述训练样本序列表示为[z1,z2,...,zn,是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],其中,n表示响应数据个数,m表示气体种类总数。

4.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述判断预设空气基线是否需要校准,至少包括:设置校准条件,校准条件至少为:基于空气基线更新周期对空气基线进行更新;

若时间间隔满足校准条件,则对预设空气基线进行更新。

5.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述预处理,至少包括标准化处理;

对更新后的响应数据的每个维度进行标准化处理,所述标准化的公式如下:其中,i表示某维度的第i个响应数据,表示某维度的平均值, 表示某维度的标准差。

6.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述分类预测预训练模型,构建过程如下:基于一组决策树,构建初始随机森林模型;

基于训练样本序列中每个数据在初始随机森林模型的分类结果,得到每个决策树的权重,所述权重为分类准确度评估对应决策树的重要性系数,所述重要性系数表示如下:其中,T表示决策树数目,t表示某棵决策树,Acct表示某棵决策树t对训练样本序列预测的分类准确率,Qclst表示相应决策树的重要性系数;

根据每个决策树的权重,对初始随机森林模型进行更新;

迭代计算及更新权重的步骤,直至达到预设迭代次数或初始随机森林模型性能的收敛,进而得到分类预测预训练模型。

7.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,所述浓度预测预训练模型,构建过程如下:基于一组回归树,得到初始浓度随机森林模型;

基于训练样本序列中每个数据在初始浓度随机森林模型的误差总和,得到每个回归树的第一权重,所述第一权重为分类准确度评估对应回归树的第一重要性系数,所述第一重要性系数表示如下:其中,T1表示回归树数目,t1表示某棵回归树,Errt1表示某棵回归树t1对所有样本预测的预测误差总和,Qregt1表示相应回归树的第一重要性系数;

根据每个回归树的第一权重,对初始浓度随机森林模型进行更新;

迭代计算及更新权重的步骤,直至达到预设迭代次数或初始浓度随机森林模型性能的收敛,进而得到浓度预测预训练模型。

8.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,还包括以下步骤:构建分类预测预训练模型的第一损失函数及浓度预测预训练模型的第二损失函数,第一损失函数和第二损失函数分别对分类预测预训练模型及浓度预测预训练模型进行再次优化。

9.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,将待测序列输入分类预测模型中,得到气体种类的预测结果,包括以下步骤:将所述响应数据及气体类别标签输入至分类预测预训练模型,训练得到初始分类预测模型;

将所述初始分类预测模型结合自适应权重分配算法得到每棵决策树的权重,通过结合权重后的投票规则得到初始分类预测模型的输出结果,重复本步直至达到迭代次数或者初始分类预测模型收敛,进而得到分类预测预模型;

其中,结合权重后的投票规则为:选取任意决策树对某气体类别标签的预测类别乘以决策树的权重系数,得到相应决策树的分类得分,同理得到其他决策树的分类得分,将所有分类得分求和得到得分最高类别,即为气体的预测类别。

10.根据权利要求1所述的一种基于随机森林的气体种类及浓度预测方法,其特征在于,将待测序列依次输入浓度预测模型中,得到气体浓度的预测结果,包括以下步骤:将响应数据及气体浓度标签浓度预测预训练模型,训练得到初始浓度预测模型;

将所述初始浓度预测模型结合自适应权重分配算法得到每棵回归树的权重,通过结合权重后的投票规则得到初始浓度预测模型的输出结果,重复本步直至达到迭代次数或者初始浓度预测模型收敛,进而得到浓度预测模型;

其中,结合权重后的投票规则为:选取任意回归树对某气体浓度标签的预测浓度乘以回归树的权重系数,得到相应回归树的浓度预测结果,同理得到其他回归树的浓度预测结果,将所有浓度预测结果求和得到最终浓度预测结果,即为气体的浓度预测结果。

11.一种基于随机森林的气体种类及浓度预测系统,其特征在于,包括数据处理模块、判断更新模块、数据集更新模块、确定训练模块及数据预测模块;

所述数据处理模块,用于获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;

所述判断更新模块,用于判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型,基线更新模型表示如下:其中, 表示空气基线, 、 分别表示当前更新周期t、及上一个周期t‑1的传感器电阻值的平均值, 表示当前更新周期t的湿度变化,,表示调整系数, 、2分别表示当前周期内湿度变化的阈值及前后两个周期比值大小的阈值;

所述数据集更新模块,基于所述校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;

所述确定训练模块,用于确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型,其中,所述分类预测模型表示如下:其中,H(x)表示分类预测模型,T表示决策树的数目, 表示每棵决策树预测的类别,Y表示类别标签, 表示x属于类别Y,Qclst表示重要性系数;

所述浓度预测模型表示如下:

Qregt1

其中,H(x1)表示浓度预测模型,T1表示回归树的数目, 表示每棵回归树预测的浓度,Y1是浓度标签, 表示ht1(x1)和真实浓度Y1的预测误差,Qregt1表示所述第一重要性系数;

所述数据预测模块,用于将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。

12.一种基于随机森林的气体种类及浓度预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任意一项所述的方法。

13.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,其特征在于,所述计算机可读存储介质存储有执行权利要求1至10任意一项所述的方法。

说明书 :

基于随机森林的气体种类及浓度预测方法、系统及装置

技术领域

[0001] 本发明涉及气体检测技术领域,尤其涉及一种基于随机森林的气体种类及浓度预测方法、系统及装置。

背景技术

[0002] 在如今注重环境安全的时代,对气体成分的检测受到社会各界越来越多的重视,气体检测的主要应用是对目标气体的成分进行分析,进而对目标气体中有害气体的浓度进行识别与检测。在气体识别过程中,气体分类和气体浓度预测依赖传感器电阻值,但传感器电阻值受周围环境比如温度及湿度的影响较大,由于传感器周围有恒温加热电阻丝进行加热,故传感器周围的温度相对稳定,但湿度随周围环境变化而随之变化。故为了提升气体分类和气体浓度预测的精度,需要使用环境湿度数据对气体传感器的电阻进行校准(补偿)。
[0003] 然而,现有气体检测技术存在不少技术瓶颈和技术缺陷难以解决,一方面,现有的气体传感器的选择性和灵敏度已经很难提高,导致存在显著的对于气体的交叉敏感的情况,降低测量精度,与此同时,基线漂移也是一个不容忽视的影响因素。另一方面,现有的气体检测技术所使用的智能算法技术对数据处理的精确度,始终无法达到更高的水平,存在精确度差,效率低等各种问题。

发明内容

[0004] 本发明针对现有技术中的缺点,提供了一种基于随机森林的气体种类及浓度预测方法、系统及装置。
[0005] 为了解决上述技术问题,本发明通过下述技术方案得以解决:
[0006] 一种基于随机森林的气体种类及浓度预测方法,包括以下步骤:
[0007] 获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;
[0008] 判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型;
[0009] 基于所述校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;
[0010] 确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型;
[0011] 将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。
[0012] 作为一种可实施方式,所述则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,包括以下步骤:
[0013] 基于预设电阻值校准模型对当前时刻传感器电阻值进行校准,得到校准结果;
[0014] 基于校准结果及预设基线更新模型对预设空气基线进行更新,得到校准空气基线;
[0015] 其中,所述预设电阻值校准模型,表示如下:
[0016] Z=Rg/Ra=R/R0=(Rt1‑R) H/R0(Ht1‑H)+Rt1 d/R0‑(1+i)(Rt1‑R) Ht1/R0(Ht1‑H)[0017] 其中,Z表示响应函数,R表示当前时刻传感器电阻值,R0表示校准到标准环境后传感器电阻值,t1表示t1时刻,Rt1表示t1时刻测量的电阻,Ht1表示t1时刻的湿度,H表示当前时刻的湿度;i,d表示调整系数,且调整系数随温度调整;
[0018] 所述预设基线更新模型,表示如下:
[0019]
[0020] 其中, 表示空气基线, 、 分别表示当前更新周期t、及上一个周期t‑1的传感器电阻值的平均值, 表示当前更新周期t的湿度变化,,表示调整系数,、2分别表示当前周期内湿度变化的阈值及前后两个周期比值大小的阈值。
[0021] 作为一种可实施方式,所述响应数据表示为z=[z1,z2,...,zn];所述气体类别标签及气体浓度标签表示为[是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],所述训练样本序列表示为[z1,z2,...,zn,是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],其中,n表示响应数据个数,m表示气体种类总数。
[0022] 作为一种可实施方式,所述判断预设空气基线是否需要校准,至少包括:
[0023] 设置校准条件,校准条件至少为:基于空气基线更新周期对空气基线进行更新;
[0024] 若时间间隔满足校准条件,则对预设空气基线进行更新。
[0025] 作为一种可实施方式,所述预处理,至少包括标准化处理;
[0026] 对更新后的响应数据的每个维度进行标准化处理,所述标准化的公式如下:
[0027]
[0028] 其中,i表示某维度的第i个响应数据,表示某维度的平均值, 表示某维度的标准差。
[0029] 作为一种可实施方式,所述分类预测预训练模型,构建过程如下:
[0030] 基于一组决策树,构建初始随机森林模型;
[0031] 基于训练样本序列中每个数据在初始随机森林模型的分类结果,得到每个决策树的权重,所述权重为分类准确度评估对应决策树的重要性系数,所述重要性系数表示如下:
[0032]
[0033] 其中,T表示决策树数目,t表示某棵决策树,Acct表示某棵决策树t对训练样本序列预测的分类准确率,Qclst表示相应决策树的重要性系数;
[0034] 根据每个决策树的权重,对初始随机森林模型进行更新;
[0035] 迭代计算及更新权重的步骤,直至达到预设迭代次数或初始随机森林模型性能的收敛,进而得到分类预测预训练模型。
[0036] 作为一种可实施方式,所述浓度预测预训练模型,构建过程如下:
[0037] 基于一组回归树,得到初始浓度随机森林模型;
[0038] 基于训练样本序列中每个数据在初始浓度随机森林模型的误差总和,得到每个回归树的第一权重,所述第一权重为分类准确度评估对应回归树的第一重要性系数,所述第一重要性系数表示如下:
[0039]
[0040] 其中,T1表示回归树数目,t1表示某棵回归树,Errt1表示某棵回归树t1对所有样本预测的预测误差总和,Qregt1表示相应回归树的第一重要性系数;
[0041] 根据每个回归树的第一权重,对初始浓度随机森林模型进行更新;
[0042] 迭代计算及更新权重的步骤,直至达到预设迭代次数或初始浓度随机森林模型性能的收敛,进而得到浓度预测预训练模型。
[0043] 作为一种可实施方式,所述分类预测模型表示如下:
[0044]
[0045] 其中,H(x)表示分类预测模型,T表示决策树的数目, 表示每棵决策树预测的类别,Y表示类别标签, 表示x属于类别Y,Qclst表示重要性系数;
[0046] 所述浓度预测模型表示如下:
[0047] Qregt1
[0048] 其中,H(x1)表示浓度预测模型,T1表示回归树的数目, 表示每棵回归树预测的浓度,Y1是浓度标签, 表示ht1(x1)和真实浓度Y1的预测误差,Qregt1表示所述第一重要性系数。
[0049] 作为一种可实施方式,还包括以下步骤:
[0050] 构建分类预测预训练模型的第一损失函数及浓度预测预训练模型的第二损失函数,第一损失函数和第二损失函数分别对分类预测预训练模型及浓度预测预训练模型进行再次优化。
[0051] 作为一种可实施方式,将待测序列输入分类预测模型中,得到气体种类的预测结果,包括以下步骤:
[0052] 将所述响应数据及气体类别标签输入至分类预测预训练模型,训练得到初始分类预测模型;
[0053] 将所述初始分类预测模型结合自适应权重分配算法得到每棵决策树的权重,通过结合权重后的投票规则得到初始分类预测模型的输出结果,重复本步直至达到迭代次数或者初始分类预测模型收敛,进而得到分类预测预模型;
[0054] 其中,结合权重后的投票规则为:选取任意决策树对某气体类别标签的预测类别乘以决策树的权重系数,得到相应决策树的分类得分,同理得到其他决策树的分类得分,将所有分类得分求和得到得分最高类别,即为气体的预测类别。
[0055] 作为一种可实施方式,将待测序列依次输入浓度预测模型中,得到气体浓度的预测结果,包括以下步骤:
[0056] 将响应数据及气体浓度标签浓度预测预训练模型,训练得到初始浓度预测模型;
[0057] 将所述初始浓度预测模型结合自适应权重分配算法得到每棵回归树的权重,通过结合权重后的投票规则得到初始浓度预测模型的输出结果,重复本步直至达到迭代次数或者初始浓度预测模型收敛,进而得到浓度预测模型;
[0058] 其中,结合权重后的投票规则为:选取任意回归树对某气体浓度标签的预测浓度乘以回归树的权重系数,得到相应回归树的浓度预测结果,同理得到其他回归树的浓度预测结果,将所有浓度预测结果求和得到最终浓度预测结果,即为气体的浓度预测结果。
[0059] 一种基于随机森林的气体种类及浓度预测系统,包括数据处理模块、判断更新模块、数据集更新模块、确定预处理模块及数据预测模块;
[0060] 所述数据处理模块,用于获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;
[0061] 所述判断更新模块,用于判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型;
[0062] 所述数据集更新模块,基于所述校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;
[0063] 所述确定训练模块,用于确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型;
[0064] 所述数据预测模块,用于将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。
[0065] 一种基于随机森林的气体种类及浓度预测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
[0066] 一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,其特征在于,所述计算机可读存储介质存储有执行如上所述的方法。
[0067] 本发明由于采用了以上技术方案,具有显著的技术效果:
[0068] 本发明基于随机森林模型构建分类预测模型和浓度预测模型,用于气体的识别检测,随机森林算法模型在这一领域表现出了更好的识别效果,具有模型简单、精度较高、鲁棒性好等特点,不仅实现了对混合气体的定性识别,还实现了各成分气体的浓度预测;
[0069] 对空气基线进行更新,基于所述空气基线值对收集到的数据进行处理,能克服目前普遍存在的气体传感器交叉敏感的情况及基线漂移的问题,提高数据处理的精确度。

附图说明

[0070] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0071] 图1为本发明方法的流程示意图;
[0072] 图2为本发明实验的结果示意图;
[0073] 图3为本发明系统的结构示意图。

具体实施方式

[0074] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0075] 在本发明中,采样数据来自于对气体传感器的采集采样数据,气体传感器可以是传感器阵列中的传感器单元。传感器阵列是指在单个基板或单个器件中具有不同传感元件或像素的传感单元。传感器单元是指传感器或传感器阵列的元件。而响应数据是传感器中的感测元件或MOS像素的可测量响应,包括电特性(电阻或阻抗)的变化。它是一种模拟信号,可以转换和记录为数字形式,因此可以称之为相应数据。响应数据的单位通常是传感器电阻(R)比值。采样数据其实采集的是传感器活性材料在给定温度下的电阻值,通常,响应数据表示为Rg/Ra,其中“R”是传感器活性材料在给定温度下的电阻;“Rg”表示传感器暴露于目标气体时的电阻;“Ra”是传感器像素暴露在空气中时的电阻(作为基线信息)。根据MOS材料类型(N型或P型),也可以使用Ra/Rg,也就是说,根据材料的不同,响应数据=采样数据/空气基线,或者响应数据=空气基线/采样数据。
[0076] 现有技术中,气味数据是指能够反映分析物的气味特征的数据。可以将一个或多个不同活性材料的气体传感器暴露于同一分析物中,并将利用温度扫描方法得到的一组或多组响应数据作为气味数据。也可以将对这一组或多组响应数据做进一步处理后的数据作为气味数据。气味数据可以一条或多条具有至少一个峰形的曲线形式的数据。其中,不同组的响应数据是针对不同活性材料的气体传感器进行温度扫描得到的。
[0077] 实施例1:
[0078] 一种基于随机森林的气体种类及浓度预测方法,如附图1所示,包括以下步骤:
[0079] S100、获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;
[0080] S200、判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型;
[0081] S300、基于所述校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;
[0082] S400、确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型;
[0083] S500、将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。
[0084] 气体传感器中,在预测气体的类别和气体浓度时依赖的是气体传感器电阻值,但是气体传感器电阻值受周围环境(温度、湿度)影较大,在工作过程中,气体传感器周围有恒温加热电阻丝进行加热,故气体传感器周围的温度相对稳定而湿度随周围环境变化而随之变化。因此在进行气体类别预测和气体浓度预测,为了提高气体分类和气体浓度预测精度,需要使用环境湿度数据对气体传感器的电阻进行校准,因此本发明中判断空气基线是否更新进而判断响应数据是否有变动。
[0085] 参见表1中的数据:
[0086]
[0087] 表 1
[0088] 表1表明的是气体传感器随湿度衰减关系图(湿度45为标准环境),也就是说:
[0089] 不同传感器的衰减系数随湿度的关系的K,b的值有区别;
[0090] A传感空气阻值的衰减系数随湿度的关系为:y = x (‑0.6527) + 133.079;
[0091] B传感空气阻值的衰减系数随湿度的关系为:y = x (‑0.2969 )+ 111.5598;
[0092] C传感空气阻值的衰减系数随湿度的关系为:y = x (‑0.5878) + 124.7797;
[0093] D传感空气阻值的衰减系数随湿度的关系为:y = x (‑0.2701) +112.0919[0094] 其中,y表示相对标注环境电阻的变化系数,x表示当前环境的湿度值。
[0095] 使用以上关系可以对传感器的电阻校准到标准环境下的电阻值。
[0096] 即,R0 = R / y,其中R表示当前气体传感器电阻值,R0表示气体传感器校准到标准环境后的电阻值。
[0097] 考虑到其他调整系数的影响,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,包括以下步骤:
[0098] 基于预设电阻值校准模型对当前时刻传感器电阻值进行校准,得到校准结果;
[0099] 基于校准结果及预设基线更新模型对预设空气基线进行更新,得到校准空气基线;
[0100] 其中,所述预设电阻值校准模型,表示如下:
[0101] Z=Rg/Ra=R/R0=(Rt1‑R) H/R0(Ht1‑H)+Rt1 d/R0‑(1+i)(Rt1‑R) Ht1/R0(Ht1‑H)[0102] 其中,Z表示响应函数,R表示当前时刻传感器电阻值,R0表示校准到标准环境后传感器电阻值,t1表示t1时刻,Rt1表示t1时刻测量的电阻,Ht1表示t1时刻的湿度,H表示当前时刻的湿度;i,d表示调整系数,且调整系数随温度调整;
[0103] 预设基线更新模型,表示如下:
[0104]
[0105] 其中, 表示空气基线, 、 分别表示当前更新周期t、及上一个周期t‑1的传感器电阻值的平均值, 表示当前更新周期t的湿度变化,,表示调整系数,、2分别表示当前周期内湿度变化的阈值及前后两个周期比值大小的阈值。i,d表示调整系数是结合当前湿度情况及气体传感器参数以及经验值来确定的,目的就是为了使得响应函数的结果更加精准。
[0106] 在一个实施例中,响应数据表示为z=[z1,z2,...,zn];气体类别标签及气体浓度标签表示为[是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],训练样本序列表示为[z1,z2,...,zn,是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],其中,n表示响应数据个数,m表示气体种类总数。
[0107] 采样数据可以理解为采样的气体传感器在空气中的电阻值,这些数据会因湿度的变化而变化。而对空气基线进行更新不仅可以解决空气基线漂移问题,还可以提高气体识别准确率。
[0108] 比如,在此实施例中,气体传感器阵列可以为气体传感器组合或者单个的气体传感器单元,获取混合气体的采样数据,比如在此可以是1个包括10个温度点的变温传感器和5个恒温传感器的采样数据,进而转化为对应的响应数据,另外,还会根据混合气体的种类及浓度的情况添加label标签,响应数据表示为z=[z1,z2,...,zn],其中n表示响应数据个数,气体类别标签及气体浓度标签表示为[是否有类1,类1浓度,是否有类2,类2浓度,...,是否有类m,类m浓度],训练样本序列表示为[z1,z2,...,zn,是否有类1,类1浓度,是否有类
2,类2浓度,...,是否有类m,类m浓度],m表示气体种类总数。
[0109] 而气体的种类对气体传感器电阻值是有影响的,气体传感器对多种气体有交叉灵敏性,不同类别的气体会导致气体传感器电阻值影响不同,因此,可用来区分气体种类以及浓度。数据集中包括了标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签。气体传感器的特性,因此会存在空气基线的漂移,在此将响应数据=采样数据/空气基线。
[0110] 在实施例中,采集时间可以按照10秒的采样时间间隔进行采样,或者可以采用其他采样规则。
[0111] 在一个实施例中,可以根据120种不同CH4与CO混合气体浓度配比(其他比例也是可以的),采用气体传感器阵列对混合气体进行采样,对气体传感器进行上万次标定测试,通过标定测试对气体传感器阵列的精确度进行判断,根据判断结果对气体传感器进行调试和置换,确保气体传感器阵列获取采样数据的准确性。
[0112] 在一个实施例中,判断预设空气基线是否需要校准,至少包括:
[0113] 设置校准条件,校准条件至少为:基于空气基线更新周期对空气基线进行更新;
[0114] 若时间间隔满足校准条件,则对预设空气基线进行更新。
[0115] 由于气体传感器的特性,因此对空气基线需要更新,比如,气体种类增加或者减少时,空气基线会变化或者气体浓度增加也会发生变化,亦或者如果浓度和种类都不变,则根据时间也可能会发生变化,因此,很有必要对空气基线进行更新。
[0116] 空气基线的初始值可以根据经验及实际需求予以设置,后续的更新或者矫正可以根据具体情况选择对应的更新方式,能够将基线漂移及气体传感器交叉敏感的问题造成的数据偏差控制在适合范围,同时在获取足量的数据同时尽可能地减少运算处理过程,满足气体传感器阵列进行数据采样的精度需求。
[0117] 对于数据集的预处理,至少包括标准化处理;
[0118] 对更新后的响应数据的每个维度进行标准化处理,标准化的公式如下:
[0119]
[0120] 其中,i表示某维度的第i个响应数据,表示某维度的平均值, 表示某维度的标准差。当然,也会包括其他处理方式,比如,剔除过大或者过小的数据,亦或者填充缺失数据。
[0121] 在本实施例中,依赖于随机森林构建了分类预测模型和浓度预测模型,通过分类预测模型和浓度预测模型,将待测序列输入至分类预测模型和浓度预测模型中,就能预测出气体类别及气体浓度。
[0122] 在一个实施例中,分类预测预训练模型,构建过程如下:
[0123] 基于一组决策树,构建初始随机森林模型;
[0124] 基于训练样本序列中每个数据在初始随机森林模型的分类结果,得到每个决策树的权重,权重为分类准确度评估对应决策树的重要性系数,重要性系数表示如下:
[0125]
[0126] 其中,T表示决策树数目,t表示某棵决策树,Acct表示某棵决策树t对训练样本序列预测的分类准确率,Qclst表示相应决策树的重要性系数;
[0127] 根据每个决策树的权重,对初始随机森林模型进行更新;
[0128] 迭代计算及更新权重的步骤,直至达到预设迭代次数或初始随机森林模型性能的收敛,进而得到分类预测预训练模型。
[0129] 而浓度预测预训练模型也采用了相同的思路进行构建,构建过程如下:
[0130] 基于一组回归树,得到初始浓度随机森林模型;
[0131] 基于训练样本序列中每个数据在初始浓度随机森林模型的绝对误差总和,得到每个回归树的第一权重,第一权重为分类准确度评估对应回归树的第一重要性系数,第一重要性系数表示如下:
[0132]
[0133] 其中,T1表示回归树数目,t1表示某棵回归树,Errt1表示某棵回归树t1对所有样本预测的预测绝对误差总和,Qregt1表示相应回归树的第一重要性系数;
[0134] 根据每个回归树的第一权重,对初始浓度随机森林模型进行更新;
[0135] 迭代计算及更新权重的步骤,直至达到预设迭代次数或初始浓度随机森林模型性能的收敛,进而得到浓度预测预训练模型。
[0136] 最终,分类预测模型表示如下:
[0137] 其中,H(x)表示分类预测模型,T表示决策树的数目, 表示每棵决策树预测的类别,Y表示类别标签, 表示x属于类别Y,Qclst表示重要性系数;
[0138] 所述浓度预测模型表示如下:
[0139] Qregt1
[0140] 其中,H(x1)表示浓度预测模型,T1表示回归树的数目, 表示每棵回归树预测的浓度,Y1是浓度标签, 表示ht1(x1)和真实浓度Y1的预测误差,Qregt1表示所述第一重要性系数。
[0141] 在构建分类预测预训练模型和浓度预测预训练模型时,由于训练出来的分类预测模型和浓度预测模型在预测时可能会导致结果与实际结果偏差较大,因此,还可以构建分类预测预训练模型的第一损失函数及浓度预测预训练模型的第二损失函数,第一损失函数和第二损失函数分别对分类预测预训练模型及浓度预测预训练模型进行再次优化。第一损失函数可以采用常规的交叉熵损失函数,也可以使用其他的损失函数。第二损失函数可以采用均方差损失函数,通过构建的这些损失函数能使得训练得到的分类预测模型和浓度预测模型在使用时得到的预测结果更加精确。
[0142] 预测阶段,将待测序列输入分类预测模型中,得到气体种类的预测结果,包括以下步骤:
[0143] 将响应数据及气体类别标签输入至分类预测预训练模型,训练得到初始分类预测模型;
[0144] 将初始分类预测模型结合自适应权重分配算法得到每棵决策树的权重,通过结合权重后的投票规则得到初始分类预测模型的输出结果,重复本步直至达到迭代次数或者初始分类预测模型收敛,进而得到分类预测模型;
[0145] 其中,结合权重后的投票规则为:选取任意决策树对某气体类别标签的预测类别乘以决策树的权重系数,得到相应决策树的分类得分,同理得到其他决策树的分类得分,将所有分类得分求和得到得分最高类别,即为气体的预测类别。
[0146] 将待测序列依次输入浓度预测模型中,得到气体浓度的预测结果,包括以下步骤:
[0147] 将响应数据及气体浓度标签浓度预测预训练模型,训练得到初始浓度预测模型;
[0148] 将初始浓度预测模型结合自适应权重分配算法得到每棵回归树的权重,通过结合权重后的投票规则得到初始浓度预测模型的输出结果,重复本步直至达到迭代次数或者初始浓度预测模型收敛,进而得到浓度预测模型;
[0149] 其中,结合权重后的投票规则为:选取任意回归树对某气体浓度标签的预测浓度乘以回归树的权重系数,得到相应回归树的浓度预测结果,同理得到其他回归树的浓度预测结果,将所有浓度预测结果求和得到最终浓度预测结果,即为气体的浓度预测结果。
[0150] 整个过程可以参见附图2所示,甲烷的浓度范围在0‑1500ppm,一氧化碳的浓度范围在0‑500ppm,label是实际数据的标签,predict表示预测结果的标签,纵轴表示气体组分的浓度数据,横轴表示采样次数,共采样20组数据,根据甲烷和一氧化碳的实际数据得到的数据折线图及根据甲烷和一氧化碳的预测结果得到的数据折线图,实验结果表明预测结果与实际数据吻合度较高。
[0151] 本发明基于随机森林模型构建分类预测模型和浓度预测模型,用于气体的识别检测,随机森林算法模型在这一领域表现出了更好的识别效果,具有模型简单、精度较高、鲁棒性好等特点,不仅实现了对混合气体的定性识别,还实现了各成分气体的浓度预测。
[0152] 本发明的方法首先适用于厨房危险气体的预警,主要检测甲烷和一氧化碳气体,当然也适用于其他领域,检测其他气体的成分,本发明首先将随机森林模型用于气体的识别检测,相比智能算法技术,随机森林算法模型在这一领域表现出了更好的识别效果,具有模型简单、精度较高、鲁棒性好等特点,不仅实现了对混合气体的定性识别,还实现了各成分气体的浓度预测,其次,还对空气基线进行更新,能克服目前普遍存在的气体传感器交叉敏感的情况及基线漂移的问题,提高数据处理的精确度。
[0153] 实施例2:
[0154] 一种基于随机森林的气体种类及浓度预测系统,如图3所示,包括数据处理模块100、判断更新模块200、数据集更新模块300、确定预处理模块400及数据预测模块500;
[0155] 数据处理模块100,用于获取标准环境采样数据、历史采样数据、当前时刻采样数据、气体类别标签及气体浓度标签形成的数据集,基于响应数据、气体类别标签及气体浓度标签形成训练样本序列,其中,基于采样数据和空气基线得到响应数据;
[0156] 判断更新模块200,用于判断预设空气基线是否需要校准,若是,则基于预设基线更新策略对预设空气基线进行校准,得到校准空气基线,其中,基于标准环境采样数据、历史采样数据及当前时刻采样数据构建基线更新模型;
[0157] 数据集更新模块300,基于校准空气基线对数据集中的响应数据进行更新,得到更新后的数据集,并对更新后的数据集进行预处理得到训练样本集;
[0158] 确定训练模块400,用于确定最优重要性系数及最优第一重要性系数,分别构建分类预测预训练模型和浓度预测预训练模型并融合,基于训练样本集训练及验证并得到分类预测模型和浓度预测模型;
[0159] 数据预测模块500,用于将待测序列依次输入分类预测模型和浓度预测模型中,得到气体种类及气体浓度的预测结果。
[0160] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0161] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0162] 本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CK‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0163] 本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0164] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0165] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0166] 此外,需要说明的是,本说明书中所描述的具体实施例,其零部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。