基于鲁棒回归建模预测烤片烟气烟气氨的方法转让专利

申请号 : CN201410384963.6

文献号 : CN104101691B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 白晓莉彭国岗段如敏余贺龙周桂圆谢志强刘挺王保兴

申请人 : 云南中烟工业有限责任公司

摘要 :

本发明提供一种基于鲁棒回归建模预测烤片烟气烟气氨的方法,通过已有的烤片理化数据和烟气NH3数据建立从理化指标项到烟气NH3的模型,对于未知烤片烟气NH3样本,可以利用其理化成分数据直接预测烤片烟气NH3值。本发明省去了由传统化学方式进行卷制、燃烧、捕捉烟气、检测等步骤;同时,采用鲁棒回归模型,可以有效地避免因理化数据或烟气数据中奇异值样本导致的弊端,很大程度上保证模型的健壮性,这点正是鲁棒回归建模优于普通线性回归建模的优点。实践证明,该模型能够有效地预测烤片的烟气NH3值,极大地提高检测效率,降低检测成本。

权利要求 :

1.一种基于鲁棒回归建模预测烤片烟气烟气氨的方法,其特征在于经过下列各步骤:(1)将已知烤片的理化数据与烟气NH3数据对应列出,建立数据样本集;其中,理化数据包括总糖、还原糖、烟碱、总挥发碱、总氮、烟碱氮、蛋白质、施木克值、氮碱比、氯、钾、糖碱比和氨态碱;

(2)分别计算步骤(1)所得数据样本集中各理化数据的列向量x1~xn和烟气NH3数据的列向量y,通过下列公式分别计算各理化数据与烟气NH3的线性相关系数r,线性相关系数r的绝对值大于0.3所对应的该项理化数据即为对烟气NH3有重要影响的特征指标项,作为建模用的输入变量:式中:x为某一理化数据的列向量,y为烟气NH3数据的列向量;

(3)根据不同产地、品种、档次,均匀挑选245个烤片作为训练样本,运用鲁棒回归线性建模算法,建立烟气NH3预测模型,其表达式为下式:Y=AX+b=a1x1+a2x2+…+anxn+b  (2)式中:Y为烟气NH3的模型预测值,X为理化数据向量,b为常数项,A为回归系数向量;a1、a2……an为每个理化数据对应的回归系数向量;

其中,运用鲁棒回归线性建模算法的步骤如下:

(a)进行局部权重回归拟合:每一次拟合过程只考虑所有拟合点数的一部分,每一个被拟合点的取值都由与之邻近的局部拟合范围的散步点所决定,在每一个拟合点处都给予不同的权重系数Wi,其权重系数在拟合点处为1,局部拟合范围内拟合点的两边各点的权重系数依次以一定的规则递减至零,超出拟合范围的数据点处的权重均为0,其代数表达式为:式中:Wi为每个拟合点的权重系数,yi为实测值, 为计算值;

(b)按下式计算调整残差:

h=X(XTX)-1XT

式中:ri为普通最小二乘法的残差,hi为残差调整杠杆值,用于降低影响拟合值较大点处的权重,T为转置;

标准调整残差由下式给出:

式中:K为调整参数,取4.685;s为鲁棒性偏差;MAD是残差的中值绝对偏差;Ks为每个拟合点对应的调整参数;

(c)按下式计算在局部拟合范围内每一点的鲁棒性权重:ui为每个拟合点对应的标准调整残差;

(d)对于式(2),将常数项b纳入到回归系数向量中,则式(2)简化为:依据权重最小二乘法求解使得下式取最小值的回归系数向量A,并计算在x0处的 值:式中:J为权重最小二乘法求解的目标函数;

(4)依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据作为输入变量套用至步骤(3)的预测模型中,即能测算得到待测烤片的烟气NH3的模型预测值Y。

2.根据权利要求1所述的基于鲁棒回归建模预测烤片烟气烟气氨的方法,其特征在于:所述步骤(3)的预测模型通过下列各步骤对拟合性能和推广性能进行评价:根据不同产地、品种、档次,均匀挑选45个与步骤(3)不同的烤片理化数据作为测试样本,套用至步骤(3)的预测模型中进行性能测试,预测结果需同时满足如下两个条件,即判定模型性能达到预测要求:A、测试样本与训练样本的预测平均误差相当,即为下式所示:式中:errtrain为预测模型对训练样本的平均误差,errtest为预测模型对测试样本的平均误差;

B、测试样本的预测值与实际值呈显著的线性相关关系,即为下式所示:式中:为测试样本的预测值,y为测试样本的实测值。

3.根据权利要求1所述的基于鲁棒回归建模预测烤片烟气烟气氨的方法,其特征在于:所述步骤(d)的鲁棒性权重若其拟合误差未达到下列拟合误差要求时,从步骤(b)开始迭代计算,直至误差达到要求或达到限定迭代次数为止:

说明书 :

基于鲁棒回归建模预测烤片烟气烟气氨的方法

技术领域

[0001] 本发明涉及一种基于鲁棒回归建模预测烤片烟气烟气氨的方法,属于特定计算模型技术领域。

背景技术

[0002] 烟草烟气是一种极为复杂的混合物,它是在卷烟抽吸过程中由烟草燃烧、裂解和蒸馏而产生的。卷烟制品对于人体的危害性是通过燃吸过程而产生的。烟气中的有害成分主要是在燃烧过程中形成,而烟气的化学特性是随烟叶原料内在化学成分的变化而变化的。因此,卷烟烟叶原料的化学特性决定了卷烟烟气的化学特性和安全性。烟气氨(以下简称:NH3)主要来自于烟草中的含氮化合物,氨不仅影响卷烟的吃味,还会刺激人体的视觉及呼吸系统,长期吸入会对人体造成较严重的危害。传统的烤片烟气NH3数据的获得方式是检测烤片燃烧后的烟气中的化学成分指标。通过这种方式获得的烟气数据,需要将烤片卷制成卷烟燃烧后的烟气进行化学检测,检测过程费时费力且检测成本极高。
[0003] 在线性回归建模中,模型是建立在一定假设条件基础上的,例如被观测样本误差为标准正态分布。如果误差的分布是非对称或者倾向于离群点,那么进行线性回归建模的假设是不成立的,参数的估计、置信区间以及其他计算的统计量都是不可靠的。这种情况下,用鲁棒回归进行模型的建立是非常有效的。鲁棒回归建模包含了一种健壮的拟合方法,与最小二乘法相比,对于数据中小部分的变异没有那么敏感,提高了模型的可信度。
[0004] 鲁棒回归通过为每个数据点赋予一个权值进行建模。加权是自动的并且是重复的,这个过程叫做自动重加权最小二乘法。在第一阶段,每个样本点被赋予相同的权重,然后利用普通的最小二乘法计算得到模型系数。在随后的迭代中,每个样本的点都将重新计算,那些远离模型预测值的样本点将被赋予较低的权重。之后利用经过加权的最小二乘法计算模型系数。迭代过程将一直进行下去,一直到模型系数在一个设定的范围波动。
[0005] 因此以鲁棒回归建立一种预测模型由烤片理化数据直接获取烟气NH3数据的方法势在必行。

发明内容

[0006] 为解决现有技术检测烤片烟气NH3数据的过程费时、费力、成本极高等问题,本发明提出一种基于鲁棒回归建模预测烤片烟气烟气氨的方法。
[0007] 本发明通过已有的烤片理化数据和烟气NH3数据建立从理化指标项到烟气NH3的鲁棒回归预测模型,对于未知烤片烟气NH3样本,利用其理化成分数据套用模型直接预测烤片烟气NH3值。具体经过下列各步骤:
[0008] (1)将已知烤片的理化数据与烟气NH3数据对应列出,建立数据样本集;
[0009] (2)分别计算步骤(1)所得数据样本集中各理化数据的列向量x1~xn和烟气NH3数据的列向量y,通过下列公式分别计算各理化数据与烟气NH3的线性相关系数r,线性相关系数r的绝对值大于0.3所对应的该项理化数据即为对烟气NH3有重要影响的特征指标项,作为建模用的输入变量:
[0010]                         (1)
[0011] 式中:x为某一理化数据的列向量,y为烟气NH3数据的列向量;
[0012] (3)根据不同产地、品种、档次,均匀挑选245个烤片作为训练样本,运用鲁棒回归线性建模算法,建立烟气NH3预测模型,其表达式为下式:
[0013]           (2)
[0014] 式中:Y为烟气NH3的模型预测值,X为理化数据向量,b为常数项,A为回归系数向量;
[0015] (4)依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据作为输入变量套用至步骤(3)的预测模型中,即能测算得到待测烤片的烟气NH3的模型预测值Y。
[0016] 所述步骤(1)的理化数据包括总糖、还原糖、烟碱、总挥发碱、总氮、烟碱氮、蛋白质、施木克值、氮碱比、氯、钾、糖碱比和氨态碱。
[0017] 所述步骤(3)运用鲁棒回归线性建模算法的步骤如下:
[0018] (a)进行局部权重回归拟合:每一次拟合过程只考虑所有拟合点数的一部分,每一个被拟合点的取值都由与之邻近的局部拟合范围的散步点所决定,在每一个拟合点处都给予不同的权重系数 ,其权重系数在拟合点处为1,局部拟合范围内拟合点的两边各点的权重系数依次以一定的规则递减至零,超出拟合范围的数据点处的权重均为0,其代数表达式为:
[0019]
[0020] 式中: 为每个拟合点的权重系数, 为实测值, 为计算值;
[0021] (b)按下式计算调整残差:
[0022]
[0023]
[0024] 式中:为普通最小二乘法的残差, 为残差调整杠杆值,用于降低影响拟合值较大点处的权重,T为转置;
[0025] 标准调整残差由下式给出:
[0026]
[0027]
[0028] 式中:K为调整参数,取4.685;s为鲁棒性偏差;MAD是残差的中值绝对偏差;
[0029] (c)按下式计算在局部拟合范围内每一点的鲁棒性权重:
[0030]
[0031] (d)对于式(2),将常数项b纳入到回归系数向量中,则式(2)简化为:
[0032]
[0033] 依据权重最小二乘法求解使得下式取最小值的回归系数向量A,并计算在x0处的值:
[0034]
[0035] 式中:J为权重最小二乘法求解的目标函数。
[0036] 所述步骤(d)的鲁棒性权重若其拟合误差未达到下列拟合误差要求时,从步骤(b)开始迭代计算,直至误差达到要求或达到限定迭代次数为止:
[0037] 。
[0038] 所述步骤(3)的预测模型通过下列各步骤对拟合性能和推广性能进行评价:
[0039] 根据不同产地、品种、档次,均匀挑选45个与步骤(3)不同的烤片理化数据作为测试样本,套用至步骤(3)的预测模型中进行性能测试,预测结果需同时满足如下两个条件,即判定模型性能达到预测要求:
[0040] A、测试样本与训练样本的预测平均误差相当,即为下式所示:
[0041]
[0042] 式中:errtrain为预测模型对训练样本的平均误差,errtest为预测模型对测试样本的平均误差;
[0043] B、测试样本的预测值与实际值呈显著的线性相关关系,即为下式所示:
[0044]
[0045] 式中: 为测试样本的预测值,y为测试样本的实测值(该实测值是通过传统方法测得)。
[0046] 本发明与现有技术相比,具备以下优点和效果:通过已有的烤片理化数据和烟气NH3数据建立从理化指标项到烟气NH3的模型,对于未知烤片烟气NH3样本,可以利用其理化成分数据直接预测烤片烟气NH3值。运用鲁棒回归线性建模算法,建模过程中寻找最终预测模型中合适的向量A和常数项b,使得烟气NH3预测模型的表达式中计算值尽可能拟合实测值。本发明省去了由传统化学方式进行卷制、燃烧、捕捉烟气、检测等步骤;同时,采用鲁棒回归模型,可以有效地避免因理化数据或烟气数据中奇异值样本导致的弊端,很大程度上保证模型的健壮性,这点正是鲁棒回归建模优于普通线性回归建模的优点。实践证明,该模型能够有效地预测烤片的烟气NH3值,极大地提高检测效率,降低检测成本。

附图说明

[0047] 图1为本发明的建模流程示意图。

具体实施方式

[0048] 下面通过实施例对本发明做进一步说明。
[0049] 实施例1
[0050] (1)将已知烤片的理化数据与烟气NH3数据对应列出,建立数据样本集,其中理化数据包括总糖、还原糖、烟碱、总挥发碱、总氮、烟碱氮、蛋白质、施木克值、氮碱比、氯、钾、糖碱比和氨态碱,如下表所示:
[0051]
[0052] (2)分别计算步骤(1)所得数据样本集中各理化数据的列向量x1~xn和烟气NH3数据的列向量y,通过下列公式分别计算各理化数据与烟气NH3的线性相关系数r:
[0053]                         (1)
[0054] 式中:x为某一理化数据的列向量,y为烟气NH3数据的列向量;得到所有烤片的理化数据与烟气NH3的线性相关系数r,如下表所示:
[0055]
[0056] 再以绝对值大于0.3的线性相关系数r在理化数据中对应选择对烟气NH3有重要影响的特征指标项,作为建模用的输入变量,即选择总糖、还原糖、总挥发碱、总氮、蛋白质、施木克值、氮碱比、氨态碱:
[0057] (3)根据不同产地、品种、档次,均匀挑选245个烤片作为训练样本,运用鲁棒回归线性建模算法,建立烟气NH3预测模型,其表达式为下式:
[0058]           (2)
[0059] 式中:Y为烟气NH3的模型预测值,X为理化数据向量,b为常数项,A为回归系数向量;
[0060] 其中用鲁棒回归线性建模算法的步骤如下:
[0061] (a)进行局部权重回归拟合:每一次拟合过程只考虑所有拟合点数的一部分,每一个被拟合点的取值都由与之邻近的局部拟合范围的散步点所决定,在每一个拟合点处都给予不同的权重系数 ,其权重系数在拟合点处为1,局部拟合范围内拟合点的两边各点的权重系数依次以一定的规则递减至零,超出拟合范围的数据点处的权重均为0,其代数表达式为:
[0062]
[0063] 式中: 为每个拟合点的权重系数, 为实测值, 为计算值;
[0064] (b)按下式计算调整残差:
[0065]
[0066]
[0067] 式中:为普通最小二乘法的残差, 为残差调整杠杆值,用于降低影响拟合值较大点处的权重,T为转置;
[0068] 标准调整残差由下式给出:
[0069]
[0070]
[0071] 式中:K为调整参数,取4.685;s为鲁棒性偏差;MAD是残差的中值绝对偏差;
[0072] (c)按下式计算在局部拟合范围内每一点的鲁棒性权重:
[0073]
[0074] (d)对于式(2),将常数项b纳入到回归系数向量中,则式(2)简化为:
[0075]
[0076] 依据权重最小二乘法求解使得下式取最小值的回归系数向量A,并计算在x0处的值:
[0077]
[0078] 式中:J为权重最小二乘法求解的目标函数;
[0079] 若其拟合误差未达到下列拟合误差要求时,从步骤(b)开始迭代计算,直至误差达到要求或达到限定迭代次数为止:
[0080] ;
[0081] 由上述运算得到a1=-0.22834、a2=0.66854、a3=185.12201、a4=-77.63949、a5=13.16111、a6=-0.26502、a7=11.63123、a8=-183.04849,b=-30.08507;
[0082] 因此,该烟气NH3预测模型的表达式为:Y=-30.08507-0.22834*总糖+0.66854*还原糖+185.12201*总挥发碱-77.63949*总氮+13.16111*蛋白质-0.26502*施木克值+11.63123*氮碱比-183.04849*氨态碱;
[0083] 对上述预测模型通过下列各步骤评价其拟合性能和推广性能:
[0084] 以上述预测模型对训练样本进行预测,其结果见下表:
[0085]
[0086] 根据不同产地、品种、档次,均匀挑选45个与步骤(3)不同的烤片理化数据作为测试样本,套用至步骤(3)所得的预测模型中进行性能测试,以上述预测模型对测试样本进行预测,结果见下表:
[0087]
[0088] 上述预测结果需同时满足如下两个条件,即判定模型性能达到预测要求:
[0089] A、测试样本与训练样本的预测平均误差相当,为0.289,即为下式所示:
[0090]
[0091] 式中:errtrain为预测模型对训练样本的平均误差=0.235,errtest为预测模型对测试样本的平均误差=0.303;
[0092] B、测试样本的预测值与实际值呈显著的线性相关关系,r=0.8979,即为下式所示:
[0093]
[0094] 式中: 为测试样本的预测值,y为测试样本的实测值(该实测值是通过传统方法测得);
[0095] 依据预测模型的评价结果,测试样本的线性相关关系为0.8979,表征了该预测模型能够很好的拟合测试样本;测试样本的平均误差与训练样本的平均误差相当,表征了该预测模型具有较好的推广性能;
[0096] (4)依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据,即总糖=24.06、还原糖=21.61、总挥发碱=0.41、总氮=2.16、蛋白质=9.69、施木克值=2.48、氮碱比=0.61、氨态碱=0.04作为输入变量套用至步骤(3)的预测模型中,即能测算得到待测烤片的烟气NH3的模型预测值Y=-30.08507-0.22834*总糖+0.66854*还原糖+185.12201*总挥发碱-77.63949*总氮+13.16111*蛋白质-0.26502*施木克值+11.63123*氮碱比-183.04849*氨态碱=13.714。为验证模型预测结果的可靠性,采用传统检测方法,测定该烤片的烟气NH3值为:13.4。
[0097] 实施例2
[0098] 与实施例1的步骤(1)~(3)相同,仅替换其它待测烤片,步骤(4)如下操作:
[0099] 依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据,即总糖=25.94、还原糖=22.43、总挥发碱=0.28、总氮=1.9、蛋白质=9.43、施木克值=2.75、氮碱比=0.84、氨态碱=0.04作为输入变量套用至步骤(3)的预测模型中,即能测算得到待测烤片的烟气NH3的模型预测值Y=-30.08507-0.22834*总糖+0.66854*还原糖+185.12201*总挥发碱-77.63949*总氮+13.16111*蛋白质-0.26502*施木克值+11.63123*氮碱比-183.04849*氨态碱=9.135。为验证模型预测结果的可靠性,采用传统检测方法,测定该烤片的烟气NH3值为:
8.9。
[0100] 实施例3
[0101] 与实施例1的步骤(1)~(3)相同,仅替换其它待测烤片,步骤(4)如下操作:
[0102] 依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据,即总糖=28.01、还原糖=24.86、总挥发碱=0.29、总氮=1.8、蛋白质=8.66、施木克值=3.24、氮碱比=0.75、氨态碱=0.04作为输入变量套用至步骤(3)的预测模型中,即能测算得到待测烤片的烟气NH3的模型预测值Y=-30.08507-0.22834*总糖+0.66854*还原糖+185.12201*总挥发碱-77.63949*总氮+13.16111*蛋白质-0.26502*施木克值+11.63123*氮碱比-183.04849*氨态碱=8,591。为验证模型预测结果的可靠性,采用传统检测方法,测定该烤片的烟气NH3值为:
8.11。