一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法转让专利

申请号 : CN201310323279.2

文献号 : CN103487558B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵镭史波林支瑞聪汪厚银裴高璞刘宁晶解楠张璐璐

申请人 : 中国标准化研究院

摘要 :

一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法,其特征在于:判断异常样本的产生是否是误操作或仪器异常,是,则通过重新采集进行纠正;否,则使用主成分分析得分图法结合马氏距离法对异常样本进行识别。

权利要求 :

1.一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法,其特征在于:采用电子鼻检测方法采集样本,所述电子鼻采用法国Alpha MOS公司生产带有顶空自动系统的Fox 4000型电子鼻;首先,在每个20mL顶空瓶中装入1.00g龙井茶干茶后加入5mL常温超纯水压盖密封;每种茶样都以这种方式盛样,并依次检测;每个样本的检测环节都是先将顶空瓶送入预热区,在500rpm振荡器转速和60℃顶空温度下加热900s后,抽出

2.0mL气体以2.0mL/s的进样速度注入到电子鼻传感器阵列室,分别与电子鼻传感器阵列室中的18根金属氧化物传感器表面的半导体材料发生吸附和解吸附作用,引起传感器电阻值的变化;在传感器阵列室内样本气体停留时间为120s,每0.5s采样一次,电子鼻软件自动记录每次采样数据;

判断异常样本的产生是否是误操作或仪器异常,是,则通过重新采集进行纠正;否,则使用主成分分析得分图法结合马氏距离法对异常样本进行识别;

所述的主成分分析得分图法在不丢失主要图谱信息的前提下消除信息共存中相互重叠的部分,主成分分析后的主成分得分反映样本间的相似性和独特性,基于样本得分图能够揭示样本的内部特征和聚类信息,进一步说明每个样本在大类样本集中是否存在较大差异;其中,主成分计算的方法采用舍一交互验证的非线性迭代偏最小二乘法;

所述马氏距离判别方法结合传感器的响应数据来进行,图谱样本的马氏距离计算步骤如下:

式中ti为校正集样本i的图谱得分,T为茶叶采样的指纹图谱样本,为校正集m个样本的平均得分矩阵;Tcen为T的均值中心化矩阵;M为校正集样本的马氏距离矩阵;MDi为校正集样本i的马氏距离,根据定量校正允许误差和对应的马氏距离,确定离群点马氏距离阈值限并对图谱数据标准化处理后,每个样本的马氏距离大小由下式决定:hii=tiT(TTT)-1ti         (1-5)

在智能感官传感器检测中,hii表达了样本i对回归模型影响程度,最大的hii表明该回归模型对样本i的依赖性较大,则样本i是异常样本。

说明书 :

一种应用智能感官信号进行茶叶品质的模式识别分析过程中

检测异常样本的方法

技术领域

[0001] 本申请涉及一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法。

背景技术

[0002] 长期以来感官品评是评定茶叶品质优劣的重要方法,但该方法需要有丰富的茶学知识和审评经验。除非是专业茶叶审评员、经销商或制造商,一般购茶者很难分辨茶叶质量的优劣,没有相当经验的积累,难以得到可靠的结果。并且培养一名茶叶评审员不仅要精心挑选,投入大量费用,而且训练周期也比较长。况且即便是专业品茶师,其感觉器官的灵敏度也易受外界因素的干扰而改变,从而影响评价结果的准确性、客观性和一致性。如人的嗅觉分辨力易受外界异杂气味的干扰;人的味觉敏感度易受其它刺激性食物及其温度的影响;人的视觉涉及到光学、视觉生理、视觉心理等诸多因素,不同人的辨色能力会存在一定的差别。审评人员感觉器官的灵敏度还受其它因素的影响,如地域差异、性别差别、精神状态及身体状况等因素。此外,感官审评需在对照实物标准样的基础上进行,而实物标准样的制作受到各种条件的限制,难以保持几年连续一致。并且标准样采用前一年度或前几年度的生产性产品作原料,不可能不受天时、气候、地理条件的影响,所以事实上标准样品质很难达到绝对的标准。
[0003] 本发明对不同采摘期、不同树种、不同产区的龙井茶从理化指标和感官指标出发,结合智能化感官分析、多元统计和现代仪器分析的集成技术,全方位的解析龙井茶特征,分析茶叶各指标的内在关系,建立定性、定量评价龙井茶品质的数学模型,对龙井茶质量进行准确的特征识别、等级评定,为建立统一的绿茶评价体系标准提供强有力的依据。这些研究在理论上将为我国其它茶叶的质量评价提供基础和支撑,在实践中对于提高我国茶叶质量的稳定性,通过标准化手段强化我国茶叶的分等分级,实现茶叶的优质优价,打破我国出口茶叶的高质低价传统,消除发达国家对我国产品优质低价的质疑,对于维护国内市场秩序和保障消费者的切身利益,积极捍卫我国茶叶产品的国际声誉,促进国际贸易等具有重要的意义和显著的社会效益、经济效益。
[0004] 近年来随着现代仪器分析技术的发展,茶叶的理化研究也得到了相应的进展。茶叶香气物质分离和分析技术已逐步从常规的气相色谱(GC)或气相色谱-质谱联用(GC-MS)过渡到气相色谱-嗅辨(GC-O)方法。目前已检测出七百多种的茶叶香气成分,包括脂肪类衍生物、萜烯类衍生物、芳香族衍生物和含氮氧杂环类化合物。但即便如此,单纯从成分的角度也难以反应茶叶香气的整体特征信息和香气品质。对茶叶呈味物质的仪器分析技术主要有液相色谱法、光谱法、质谱法、核磁共振法等。目前,已明确茶叶中含有机化学成分多达六百余种,无机矿物元素亦达四十多种。但由于各种滋味之间存在着相互作用,如味觉的对比、变调、协调和相杀等现象,所以测得的化学特性参数并不能真实全面地反映出样品的味觉特征。
[0005] 智能感官分析技术的出现进一步推动了茶叶品质检测水平,它是基于对人体感官感知过程模仿的技术。传感器相当于生物系统中的感觉器官,对被测样品某方面的属性产生响应信号;信号采集器如同神经系统对响应信号进行传输和简单处理;电脑如同人脑对信号数据进行复杂处理和分析识别,形成综合、整体的判断。智能感官分析技术具有检测时间短、重复性好、不需要复杂的样品预处理过程、不发生感官疲劳和检测结果客观可靠等特点,更重要的是可以在一定程度上模拟人的感官给出有关茶叶香气、滋味和外质的评判结果和指纹信息,是目前茶叶品质检测研究的热点和发展趋势。目前针对茶叶中的色、香、味、形等感官属性,所采用的智能感官分析技术主要有机器视觉、电子鼻和电子舌技术,其工作流程主要包括传感器产生响应信号、对响应信号进行预处理、提取样品特征信息、建立相关模型并进行模式识别。其中模式识别是智能感官系统的重要组成部分。目前应用的主要方法有主成分分析、人工神经网络和模糊识别等。主成分分析用于信号处理,抑制多维传感器响应信号噪声和压缩信号数据。人工神经网络对处理后的信号进行学习和训练,建立网络模型。模糊识别则以模糊推理对复杂事物进行模糊识别、模糊定量。
[0006] 采用智能感官技术模拟人感官审评的功能和特征,结合多算法研究处理智能感官检测中所蕴含的丰富的产品品质信息,进而抽取出相对应的计算模型和方法。以解决终端问题为目的的算法,在多个智能传感器对象和多个产品指标互相关联的情况下分析它们的统计规律,很适合食品科学研究的特点。采用多算法、智能感官分析技术和现代仪器分析技术等集成技术,能够克服多指标综合评价带来的统计和分析的麻烦,同时也能够充分利用实验数据信息得到与茶叶特征品质相关的隐含细节,使得茶叶特征品质的统计分析和模式判别可以同时完成,既迅速又准确。由此,为建立我国茶叶的特征品质数据库和智能化品质评价系统,实现对茶叶品质快速、准确、全面的分析,为我国茶叶特征品质的科学评价、合理界定提供借鉴和指导,为我国茶叶的品质保证、特色保护、真伪鉴别提供核心的技术支撑。
[0007] 电子鼻作为20世纪90年代发展起来的新型气味扫描仪,目前已广泛应用于食品、饮料、化妆品、环境检测以及农产品加工过程控制等领域。与普通的化学分析方法相比,电子鼻利用其对多种气体的交叉敏感性,综合评价气体的整体信息,与人的嗅觉相比,测定结果更加客观、可靠。
[0008] 电子舌技术是20世纪80年代中期发展起来的一种分析、识别液体味道的新型检测手段,现已被应用于食品、医药、化妆品、化工、环境监测等领域。与普通的化学分析方法相比,电子舌输出的并不是样品滋味成分的分析结果,而是一种与样品有关的信号模式,经过具有模式识别能力的软件系统分析后,可得出对样品味觉特征有关的总体评价。
[0009] 综上所述,智能感官分析技术(机器视觉技术、电子鼻技术和电子舌技术)在茶叶品质检测中已取得了较好结果,并显示了较好的应用前景。但目前这些技术离实际应用还有一定差距,尚有一些关键性问题需要解决。如:
[0010] (1)电子鼻、电子舌的关键技术研究:机器视觉技术已经在实际中广泛应用,但电子鼻、电子舌尚处于研发阶段,因此要构建综合的智能感官系统,需要对电子鼻、电子舌进行深入研究,解决其关键问题。
[0011] (2)特异性传感器的研制与筛选:由于不同类型的样品具有其特定的物质体系,导致不同类型的传感器对不同物质的响应都不同。因此,需进一步深入研究,针对特定的物质体系建立响应快、敏感度高、寿命长、清洗方便、经济适用的传感器阵列。
[0012] (3)样品的代表性和采样的科学性:目前的研究报道中,其结果大都显示对茶叶分类或分级的判别率较高。但这些研究中,茶叶样品的代表性不够强,样品数也不够全,在采集样品信息时,基本都是平行样,即每个等级的茶叶检测都重复很多次,使得模型的稳定性不佳,使用范围不广。只有建立科学的样品采集方法和样品代表性的判别原则,才能保证后续模型的顺利建立。
[0013] (4)信号的漂移和去噪:由于仪器测量参数、测量方法、测量环境、样品来源等因素变化,容易导致传感器响应曲线的漂移,引起智能感官检测的误差,使其不能适应工业化的长时间连续作业,因此需要加强有关减小响应信号漂移、信号噪声分析处理技术的研究。
[0014] (5)模型的鲁棒性:有些研究在建立判别模型时,未对模型进行详细讨论,也未使用独立的预测样本来检验模型的鲁棒性。此外,品质判别中所建模型的稳定性不足,需要加强算法的研究及改进,以提高模式识别的效力。
[0015] 电子鼻系统属于多根传感器的阵列组合,由于茶叶香气成分复杂,使得每个传感器对很多香气都有响应,而每个香气成分又在很多传感器上有响应,使得传感器指纹图谱阵列能最大程度的保留香气信息,但又容易引入大量冗余信息,导致品质建模计算量大、耗费时间长、所建模型复杂不稳定。其主要原因为:(1)由于智能感官指纹图谱中,有些传感器的样品响应信息很弱,直接影响模型的预测精度;(2)由于电子鼻仪器噪声的影响,一些传感器的样品信息信噪比(SNR)较低;同时,外界的干扰因素(如温度、湿度等)对样品品质在某些传感器处的指纹响应特性影响较大,从而降低了模型的稳健性(;3)茶叶香气中含有多种组分,每一种组分都会在某一个或几个传感器中有较强的响应,而作为茶叶香气整体信息的检测,需要优化组合对不同香气有特殊响应的传感器阵列,才能综合有效的特征香气指纹信息。
[0016] 通过传感器的合理选择与组合,不仅可以剔除不相关或非线性的嗅闻传感器,去除冗余传感器数据信息,提取最有效的香气智能嗅闻指纹图谱信息,使校正模型具有更好的预测能力,简化运算。而且可以省去那些对模式识别效果没有显著影响甚至有负面影响的传感器,从而对降低电子鼻的制造成本,提高系统稳定性都有一定的积极意义。
[0017] 传感器选择就是实践中经常遇到的一种优化问题。目前所采用的优化组合法虽然在一定程度上使用了组合的理念,但这个组合是在初步剔除的基础上,对分组后的传感器阵列进行组合,并未达到全局优化组合的效果。而Loading值法虽然避免了冗余传感器的加入,但并未分析被选传感器的响应性能,即同一传感器对同一样品响应的重复性和对不同样品响应的区分性。遗产算法(Genetic Algorithms,缩写为GA)是以达尔文的适者生存和优胜劣汰的生物进化理论为基础,模拟生物界的遗传和进化过程而建立的一种优化方法,具有非导数、随机全局优化、避免陷入局部极小点和易实现等特点。

发明内容

[0018] 一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法,其特征在于:判断异常样本的产生是否是误操作或仪器异常,是,则通过重新采集进行纠正;否,则使用主成分分析得分图法结合马氏距离法对异常样本进行识别。所述的主成分分析得分图法在不丢失主要图谱信息的前提下将数据降维,选择维数较少的新变量来代替原来较多的变量,以消除信息共存中相互重叠的部分,通过对原始图谱变量进行转换,使数目较少的新变量成为原始变量的线性组合;所述马氏距离(Mahalanobis)判别方法结合传感器的响应数据来进行,图谱样本的马氏距离计算步骤如下:
[0019]
[0020] T为茶叶采样的指纹图谱样本,式中ti为校正集样本i的图谱得分,为校正集m个样本的平均得分矩阵;Tcen为T的均值中心化矩阵;M为校正集样品的Mahalanobis矩阵;MDi为校正集样本 i的Mahalanobis距离。根据定量校正允许误差和对应的Mahalanobis距离,确定离群点Mahalanobis距离阈值限并对图谱数据标准化处理后,每个样本的马氏距离大小由下式决定:
[0021] 在智能感官传感器检测中,hii表达了样本i对回归模型影响程度,最大的hii表明该回归模型对样本i的依赖性较大,则样本i是异常样品。

附图说明

[0022] 图1 异常样本剔除前的PCA得分图(a)与马氏距离值残差图(b)。
[0023] 图2 不同样品在电子鼻传感器特征响应点的信号图。
[0024] 图3 异常样本LLJ剔除后的PCA得分图(a)与马氏距离值残差图(b)。
[0025] 图4 四个等级龙井茶的电子鼻传感器响应信号强度图。
[0026] 图5 异常样品剔除后不同等级茶叶电子鼻传感器响应平均值图。
[0027] 图6 异常样品剔除后前四个主成分下的载荷图。
[0028] 图7 等级模型中PRESS值与模型主成分数之间的关系。
[0029] 图8 遗传算法运行流程图。
[0030] 图9 交叉算法。
[0031] 图10 变异算法。
[0032] 图11 四个等级样品在主成分一、二下的载荷图。
[0033] 图12 产地模型中茶叶传感器响应平均值图。
[0034] 图13 产地模型的主成分得分图(PC1-PC2)。
[0035] 图14 产地模型LHT-LMT (a)和LYJ-LWJ (b)在主成分一、二下的载荷图。
[0036] 图15 树种模型中茶叶传感器响应平均值图。
[0037] 图16 树种模型主成分得分图(PC1-PC2)。

具体实施方式

[0038] 1 茶叶样品收集与处理
[0039] 本发明收集来自杭州西湖龙井产区当地茶农的2011年西湖龙井茶样,具体包括4个等级,2个树种,5个产地。为了便于茶样间的区分,对每种茶样进行了合理编号和区分,具体信息见表1。为了保证同种茶样品质的一致性,将茶样置于-4℃以下的冷库内,按照实验用量每次取小袋进行实验。
[0040]
[0041] 2 电子鼻检测方法
[0042] 本发明采用法国Alpha MOS公司生产带有顶空自动系统的Fox 4000型电子鼻。首先,在每个20 mL顶空瓶中装入1.00 g龙井茶干茶后加入5 mL常温超纯水压盖密封;每种茶样都以这种方式盛样,并依次检测。每个样品的检测环节都是先将顶空瓶送入预热区,在500 rpm振荡器转速和60 ℃顶空温度下加热900 s后,抽出2.0 mL气体以2.0 mL/s的进样速度注入到电子鼻传感器阵列室(含18根金属氧化物传感器)。分别与18个传感器表面的半导体材料发生吸附和解吸附作用,引起传感器电阻值的变化。在不同的时间下,产生不同的电阻值。在传感器阵列室内样品气体停留时间为120s,每0.5s采样一次,电子鼻软件自动记录每次采样数据。
[0043] 3 茶叶品质建模方法
[0044] 茶叶品质模型(等级、产地、树种模型等)建立所用样品分为校正集与预测集。对每个模型中的样品,都随机选择三分之二作校正集样品,剩下的三分之一用作预测集样品。本发明由软独立模型SIMCA(Soft independent modeling class analogy,又称相似分析法)建立定性判别模型,首先建立各类样品的PCA数据模型,再此基础上计算未知样品的SIMCA距离确定其分类归属。建模所有计算均由自编的MATLAB 7.0程序完成。
[0045] 4 异常样本点分析与剔除
[0046] 4.1 异常样本点分析原理
[0047] 在应用智能感官信号进行茶叶品质的模式识别分析过程中,所有分类和识别结果的可靠性首先取决于原始数据的准确性,即获得智能感官采集信号及茶叶原始类别信息的可靠性,数据集质量的好坏直接影响着模式判别的成败。因此,异常(奇异)样本点(Outlier Sample)的存在会在一定程度上影响甚至改变整体数据的分布趋势,从而影响校正模型的准确性。
[0048] 所谓异常样本点,不仅是指智能指纹图谱或样品原始信息的测量值与真实值的显著性异常,还应包括该样本的指纹图谱与建模集中样本平均图谱信息的显著性差异,一般可分为指纹图谱异常和茶叶原始信息异常。
[0049] 导致指纹图谱异常的主要原因有:
[0050] (1)测量仪器和性能参数的变化,如仪器能量的变化、仪器噪声和波段漂移等;
[0051] (2)测量方法的变化,如制样条件的不同、测量部位的不同和测量距离的不同等;
[0052] (3)测量环境的变化,如温度和湿度的变化;
[0053] (4)样品其它物理或机械特性的变化,如粒度、黏度、光洁度等变化;
[0054] (5)样品来源的变化,使得传感器响应电阻率或某些特征峰强度异常,如产地、放置时间、储存方式、采摘期和耕作方式等变化;
[0055] (6)样品变质或弄错等失误;
[0056] (7)智能感官信号扫描中的操作错误。
[0057] 茶叶原始品质信息异常的主要来源有:
[0058] (1)所用理化仪器和方法的可靠性;
[0059] (2)感官品评方法的变化;
[0060] (3)样品来源的变化;
[0061] (4)评茶师的失误,如在品评过程及数据录入过程中的失误。
[0062] 异常样本的产生如果是误操作或仪器异常,发现后可以简单地通过重新采集得到纠正;异常样品如果是由于样品本身产生的,不能简单地通过重新采集得到纠正,对该样品的预测值是否可靠取决于其传感器响应异常与模型的拟合程度。所以异常样品的发现和有效剔除是校正模型及数据分析结果可靠的关键。
[0063] 4.2 异常样本点分析方法
[0064] 本发明中的异常样本分析方法为主成分分析得分结合马氏距离法。
[0065] (1)主成分分析得分图法
[0066] 主成分分析(PCA)是多元统计中的一种数据挖掘技术。在不丢失主要图谱信息的前提下将数据降维,选择为数较少的新变量来代替原来较多的变量,以消除众多信息共存中相互重叠的部分。通过对原始大量图谱变量进行转换,使数目较少的新变量成为原始变量的线性组合。
[0067] 主成分分析后的主成分得分能够反映样本间的相似性和独特性,每个样本对应不同主成分有不同得分值。基于样本的得分图能够揭示样本的内部特征和聚类信息,进一步说明每个样本在大类样本集中是否存在较大差异,为异常样本点分析提供了一定的理论依据。
[0068] (2)马氏距离判别方法
[0069] 马氏距离(Mahalanobis)是研究多维空间矢量相似性的有效方法之一,在图谱的定性、离群点判别分析中得到广泛应用。Mahalanobis距离计算时,结合几个传感器下的响应数据(如电阻率)来进行,样本集的马氏距离计算步骤如下:
[0070]式中ti为校正集样本i的图谱得分,为校正集m个样本的平均得分矩阵;Tcen为T的均值中心化矩阵;M为校正集样品的Mahalanobis矩阵;MDi为校正集样本 i的Mahalanobis距离。
根据定量校正允许误差和对应的Mahalanobis距离,确定离群点Mahalanobis距离阈值限并对图谱数据标准化处理后,每个样本的马氏距离大小由下式决定:
[0071]
[0072] hii可用来衡量一个样本对于整个标准样品集的影响。在智能感官传感器检测中,hii表达了样本i对回归模型影响程度,如果hii太大,表明该回归模型对样本 i的依赖性较大,对模型稳定性不利,换句话说,样本 i 可能是异常样品。
[0073] 4.3 异常样本点分析与剔除
[0074] 主成分(得分矩阵)是原来变量的线性组合,用它来表征原来变量时所产生的平方和误差最小。第一个主成分所能解释原变量的方差量最大,第二个次之,其余类推,各组主成分相互正交。主成分计算的方法较多,在此采用舍一交互验证的非线性迭代偏最小二乘法(Nonlinear Iterative Partial Least Squires, NIPALS)。龙井茶的主成分得分与对应的马氏距离残差结果如图1所示。样品LLJ在主成分图中与其它样品集偏离较远,并且其马氏距离值也非常大,因此这些LLJ为异常样本点。分析其相应的传感器响应图(图2),发现此精品茶叶与其它样品精品的响应图差异非常大,并不属于一个等级样品。查询样品采集的原始信息,发现此样品并非真正的杭州龙坞产地精品西湖龙井茶,而是浙江龙井,因样品提供错误导致。通过对这些异常点剔除后,重新进行主成分得分与马氏距离值分析(图3),发现这些茶叶在主成分图中分布均匀,其马氏距离值也未出现异常,具有代表性,可以进行后续的模型建立及相关数学处理。
[0075] 主成分的得分能够在一定程度上反映样本间的相似性和独特性,每个样本对应不同主成分有不同得分值。图3(a)是各茶叶样本在前两个主成分上的得分散点图,显示了样本点的分散和差异,具有相同或相近性质的样本聚集在一起,而差异较明显的样本相互远离。从图中可以看到二级茶叶与其它茶叶差异非常大,拥有自己独立的区域,但精品、特级和一级的茶叶区分非常小,有明显的重叠区域。这与前面的传感器响应曲线分析结果一致。基于样本的得分图能够揭示样本的内部特征和聚类信息,进一步说明样品在传感器响应中存在的较大差异,为利用电子鼻分类检测不同等级茶叶提供了一定的理论依据。但由于其它等级区域重叠严重,这种方法借助肉眼几乎无法用于这四种样本的判别。
[0076] 而马氏距离残差图则表示各样本点对相应主成分分析模型的影响程度,由样本点的马氏距离和残差来决定,高马氏距离值和高残差值的样本点被认为是异常样本点。马氏距离值是样本点在模型中投影点距模型中心的距离,表示该样本与模型中其它样本的区别,以及样本点对所建立模型的影响程度,值越大表示对模型的影响越大。残差是样本点的观察值与拟合值之差,表示模型未能解释的样本点特征的量,其值越小,模型拟合越好。从图3(b)可知,样本点的残差值和马氏距离值都较小,表明各模型中校正集选取的样本具有相应茶叶特性的代表性。
[0077] 异常样本剔除后,其最终的实验样本数见表2,样品剔除前为667个,剔除后为617个样品。引起上述现象的主要原因是样本集中混有不属于同一总体的数据,这些异常数据(异常样本)混入后,会使预测结果不准确,影响统计推断的正确性,对测量结果带来不利的影响。异常样本对校正模型的影响绝对不可忽视,为了保证所建模型的有效性,在对数据进行处理时,必须寻找和鉴定异常样本,并将其从样本集样品中剔除,然后再做后续研究。
[0078]
[0079] 通过PCA、马氏距离图与传感器响应图谱分析,搜索建模中的异常样品点。表明传感器响应指纹图谱非常容易受到外界干扰因素的影响,特别是一些不代表样品真实性质的异常样本点,它们的存在会在很大程度上影响甚至改变整体数据的分布,对建模的影响非常大。从数学的角度看,异常样本点就是在多变量空间中远离质心的样本。最重要的是异常样本点代表了一些本不属于模型的性质,而预测集在正常情况下不会包括这些特征,使得异常样本点的存在降低了模型的预测能力和稳健性。如果没进行异常点分析和剔除,采用指纹图谱预处理或其它建模方法都很难改善模型的效果,因此异常样品剔除是每个建模工作者必须要考虑的一个问题。
[0080] 5 西湖龙井的等级模型建立
[0081] 5.1等级模型的校正集预测集样本划分
[0082] 剔除异常样本点后用于茶叶等级鉴别的样品共617个,其中随机选择三分之二作校正集样品,剩下的三分之一用作预测集样品,使得校正集既具有较好的代表性,同时又拓宽模型的预测范围,增强了模型的适应能力,样品分布见表3所示。
[0083]
[0084] 5.2 不同等级茶叶的电子鼻响应图谱分析
[0085] 茶叶香气检测中18个传感器电阻比(电阻变化与原始电阻值相比)的变化响应图如图4所示,每条曲线对应一个传感器,共18条曲线。曲线上的点代表茶汤挥发性物质通过传感器通道时,电阻率随时间的改变情况。按照传感器原理的不同,其响应强度有正负之分。横坐标下方是LY型传感器,横坐标上方是T、P型传感器。由图4可知,在采集前期,样品中挥发物质在传感器表面进行强烈的富集过程,曲线响应变化快,斜率绝对值较大。当挥发性物质与传感器的吸附作用处于平衡状态时,传感器响应值达到绝对值最大,此时最能体现样品中气体的性质。随着采集时间的延长,气体浓度逐渐降低,传感器响应值逐渐减小,曲线慢慢趋于平缓,最终达到一个相对稳定的状态。但精品与特级的图谱非常接近,二级与其它等级样品差异最大,而一级样品的图谱与精品、特级相近,但其响应值范围不同,等级高的样品,其响应值的绝对值就大。由此可知,电子鼻对茶汤的芳香成分有明显响应,表明利用电子鼻测量茶叶品质是可行的。
[0086] 在120s时间内的响应图,不能直观的比较不同样品间差异。需要寻找特征响应点,即寻找代表每根传感器对某一样品的特征响应强度。响应曲线的波峰或波谷对于同一样品的相对标准偏差(RSD)较低,对于不同样品的区分度通常最大。因此,选取传感器响应绝对值的最大点,即传感器响应信号强度图中的峰点或谷点作为特征点。为了分析不同等级、不同产地、不同树种茶叶品质的差异,图2显示某天不同茶叶(编号为:LLJ、LWJ、LYJ、LHT、LMT、QWJ、QHJ、QLJ、QYT、QMT、1、2)在各传感器波峰或波谷处的响应器信号图。从图2中可看出,每一个传感器对茶叶香气的响应各不相同。在LY型传感器中随着茶叶品质的不同,幅度有明显的波动,区分比较明显,而T型和P型其相应曲线离散性较小。同时红色的二级样品曲线与其它样品区分明显,虽然一级样品与精品、特级样品的曲线区分不是很明显,但精品与特级的曲线都在一级和二级之间。由此可知,传感器阵列特征响应图的差异在一定程度上反映了西湖龙井茶的品质区别,并具有一定的特征性和指纹性,为茶叶的分类鉴别提供了数学基础。
[0087] 图5为不同等级茶叶各自的响应平均值图,从图中可以清晰看到,二级茶叶的响应明显区别与其它等级样品。精品、特级和一级的响应图谱非常相似,只是在传感器LY2/G、LY2/AA、LY2/gCTL、P30/2等处有相对较大的区别,各传感器响应信号的差异是后续数学建模的基础。
[0088] 5.3 全体等级样品的主成分得分变化趋势
[0089] 对不同等级茶叶样本香气特征参数组成的数据矩阵进行主成分分析,其建立的主成分分析模型为: 。其中Am×p为图谱矩阵,Tm×f为得分矩阵,Pf×p为载荷矩阵,E为图谱残差,维数与Am×p相同。m为样品数目,p为传感器数目,f为主成分个数。
[0090] 对矩阵Am×p中的每一个量测值aij,其主成分分析可表达为:,式中:tin 为样本 i 在第 n 个主成分上的得分值,pnj 为传感器 j 在第 n 个主成分上的载荷值;eij 为样本 i 的变量 j 的残差值。
[0091] 采用留一交互验证法进行主成分分析,表4为全体等级茶样主成分分析的累积贡献率情况。第一主成分的贡献率为93%,代表了原始数据的绝大多数样品信息,前4个主成分代表了99%的传感器信息,根据主成分性质可知,前四个主成分可以表征样品的电子鼻智能感官数据结构特征,从而起到了降低数据维数、简化数据的作用。选择前4个主成分数建模,数据矩阵从原始的617×18减少到617×4(4个主成分)。
[0092]
[0093] 5.4 全体等级样品的主成分载荷分析
[0094] 在主成分分析中,第n个主成分得分的计算公式为: ,其中pij称为变量aij的载荷(Loading),载荷越大,说明主成分与该变量的相关性越好,而变量aij对应于传感器响应矩阵中第j个传感器的响应值。不同等级茶叶的传感器响应信号经过主成分分析,前4个主成分得分对茶叶智能指纹变化信息的贡献累计达到99%。图6展现了前4个主成分的载荷与传感器图,可看出各主成分与传感器之间的关系。
[0095] 从图6可看出,对于代表茶叶信息量最大的PC1(93%),其载荷较大的主要为LY2/G、LY2/AA、LY2/GH、LY2/gCTL这四个传感器,对于第二主成分除了传感器LY2/AA,还有P10/1、P10/2、P40/1和T40/1、TA/2的相关性较大。第三主成分下,传感器LY2/LG、LY2/G、LY2/AA、LY2/GH的相关性较大;第四主成分下,传感器LY2/AA、T30/1、T70/1和T40/1的相关性较大。
[0096] 5.5 SIMCA等级建模的主成分数选择
[0097] 相似分类法(SIMCA)建模首先对每一类样品进行主成分分析建模,使同类样本聚集在同一空间区域。表5是不同等级样品各自主成分分析模型在不同主成分下的贡献率,所有等级的第一主成分贡献率都在99%以上,同时几乎所有等级都是前5个主成分基本上代表了样品的主要信息。
[0098]
[0099] 相似分类法算法是基于建立主成分分析类模型的方法,经过主成分分析传感器响应信号主成分的变化能够非常直观地体现出茶叶品质特征的趋势,主成分数的确定是建立良好模型的关键。由于相似分类法算法关注的是各等级内部的相似程度,而各主成分代表的是同一等级校正样本的变异特性,越靠前的主成分包含的等级特征越丰富,对分类的作用越大,所以选择前几个主成分可使分级质量达到最佳,同时选用的主成分越多包含的等级特征越多,建模预测的效果也越好。
[0100] 但是选用过多的主成分数同样会带来模型过拟合的效果。本次发明中,通过交互验证来初步确定上述不同等级茶叶模型的最佳主成分数,即在预测残差平方和(PRESS)变化不大的情况下选取比较少的主成分数。随着主成分增加,PRESS逐渐减小,但主成分超过一定数值时,由于过拟合现象的出现,PRESS反而增加。图7是不同等级样品模型的PRESS值与主成分数之间的关系。由于精品与特级在主成分一和二中的PRESS值非常大,在此图中未全部画出。精品的主成分数在9时,PRESS值最小,主成分数在5-8之间,其PRESS值变化较小;特级的主成分数在7时,PRESS值最小,主成分数在5和6时,其PRESS值变化较小;一级的主成分数为6时,PRESS值最小,主成分数在4和5时,其PRESS值变化较小;二级的主成分数为6时,PRESS值最小,主成分数在4和5时,其PRESS值变化较小。
[0101] 5.6 茶叶的相似分类法等级模型建立与预测
[0102] 相似分类法分级模型的预测性能非常重要,主要表现在预测模型是否可以适合于新数据的测定。好的模型可以描述与建模数据相似的数据,检验就是指把新的相似的数据带入模型,然后观察预测误差是否符合预定的要求,从而证明所选主成分数的合理性。
[0103] 预测检验分为两种:一是外部检验,指的是使用全新的预测数据进行验证;另外一种称为内部检验,指的是使用建模本身的数据对模型进行验证。理论上,一个模型的预测能力只能由全新的数据来检验,但是内部交叉验证(Cross validation)也会给出合理的结果。
[0104] 如果样品数量较少或者很少,内部交叉验证法可以更加有效的利用有限的样品,但是计算速度比外部检验法要慢一些。在内部交叉验证算法中,相同的样品既用于模型的构建中,又用于模型的检验中。基本思路如下:先从校正集样品中留出一定量的样品,用其余的样品建立校正模型,然后用预留的那些样品输入模型进行预测,得出预测误差;这个过程重复进行,直到每一个样品都被预留出过一次,进行预测检验,然后用多次建模的预测误差来计算总体的残余方差和均方差。交叉验证是一种非常好的内部检验方法,像外部检验方法一样,追求的是使用独立的数据对模型进行检验,主要的好处是不像外部检验那样,预测数据只是用于检验,而浪费了数据资源。
[0105] 交叉验证方法又可以分为全图谱交叉验证(full cross validation)、部分交叉验证(segmented cross validation)等几种方法。全图谱交叉验证是最早使用的交叉验证方法,它的思路是每次建模时从总样品中只留出一个样品作为预测集样品,而其它的样品用于建模,重复这个过程,直到所有的样品都留出一次作为预测样品来检验模型。由于全图谱交叉验证法需要花费很多的时间,验证速度慢,而部分交叉验证法是只把所有样品分为几个部分进行验证。
[0106] 但是由于全图谱交叉验证的效果好,而广泛被采用。第一,可以估计模型的实际预测能力,虽然是内部检验,但是作为被预测的样品并没有参加建模,可以模拟对未知样品的预测情况;第二,校正集的样品数目越多,每次建模剔除的样品数目相对越少,估计效果就越好。
[0107] 对于一个模型的预测能力常常用校正集的全谱图交互验证和预测集的外部预测来检验。全谱图交互验证用于模型对于校正集的预测能力,是自检验评价;外部预测用于评价模型对于预测集样品的预示能力。一般情况下,全谱图交互验证预测性能高于外部预测,全谱图交互验证在一定程度上说明模型和选择参数的分类能力,外部预测是一个更能说明问题的指标,它反应所使用特征变量和模型的鲁棒性和适应性,表6是对四个等级不同相似分类法(SIMCA)定标建模的效果。
[0108]
[0109] 由表6,可知四个等级样品模型的识别率只能达到70%多点,不是很高,主要是精品与特级的茶叶香气特征非常接近,影响了整体模型的预测性能。单独这两级样品的判别建模识别率也大约只有67%,说明这两个等级的样品重叠比较严重。究其原因是因为精品与特级的划分主要从商品茶角度出发来划分的,也就是从香气、滋味和采摘时间上差异相当小,主要从茶叶的整齐度、大小均一性等外观方面有差异,对于没有碎末、大小均一的定为精品茶,而明前的其它茶叶就定为特级茶。因此,精品与特级的香气特征非常接近。
[0110] 为了进一步研究电子鼻的检测能力,将这四级样品中的精品与特级样品合为一种等级的样品称为“精特级”与一、二级进行三个等级的相似分类法判别模型建立,发现模型的预测性能非常好,校正集、预测集的识别率分别达到93.43%和92.72%,都超过92%。同时单独将精品、一级、二级进行三个等级的相似分类法判别模型建立,也单独将特级、一级、二级进行三个等级的相似分类法判别模型建立,这些三级模型具有较强的识别能力,它们的识别率都超过90%,也充分说明四级模型预测性能欠佳是因为精品与特级样品信息重叠所导致。另外,在相似分类法模式识别中,茶叶等级模型的建立基本是利用了线形判别的方法,茶叶识别的结果尚未达到100%的识别率,这可能是由于受储存时间、储存条件及传感器响应信号的特性,使得获取的信号存在非线性信息,所以在以后的工作中还可以尝试利用其它非线性的模式识别方法来建立模型。目前这些三级模型已能基本满足市场检测需要。
[0111] 在主成分分析图3(a)中,能看到二级样品集与其它样品集的离散程度最大,用肉眼就能非常清晰的分辨出来,通过一级、二级的相似分类法二分类判别建模,其校正集与预测集的识别率都为100%,说明一、二级样品信息区别非常大,并且此模型完全适合推广应用。
[0112] 6 智能感官图谱特征传感器选择方法
[0113] 电子鼻中传感器的响应性能主要包括同一传感器对同一样品的响应是否具有良好的稳定性和对不同样品是否具有较高的区分性。
[0114] 优化组合法是应用电子鼻采集不同品质样品的气味响应信号数据,通过对不同传感器响应信号值的方差分析,根据传感器响应性能优劣进行初步筛选和分组,再对分组的传感器进行排列组合,以主成分分析结果的判别指数DI为依据,最终确定对样品分类最有效的传感器阵列。此方法虽然也在一定程度上使用了组合的方法,但这个组合是在初步剔除的基础上,对分组后的传感器阵列进行组合,并未达到全局优化组合的效果。
[0115] Loading值法,即将传感器作为分析对象,对传感器在不同样品下的响应值进行主成分分析,通过主成分分析图(也叫传感器的Loading分析图)判断区分功能相似的传感器并给予剔除。此方法虽然避免了冗余传感器的加入,但并未分析被选传感器的响应性能,即同一传感器对同一样品响应的重复性和对不同样品响应的差异性。
[0116] 遗产算法(Genetic Algorithms,缩写为GA)是以达尔文的适者生存和优胜劣汰的生物进化理论为基础,模拟生物界的遗传和进化过程而建立的一种优化方法,具有非导数、随机全局优化、避免陷入局部极小点和易实现等特点。其基本思想是将问题域(多传感器组合群)中的可能解(某一种传感器组成方式)看作是种群(多传感器组合群)的一个个体或染色体(某一种传感器组成方式),并将每一个体编码成二进制符号串形式;遗传算法通过染色体的“适应度值”来评价染色体的好坏,适应度值大的染色体被选择的几率高,相反,适应度值小的染色体被选择的可能性小,被选择的染色体进入下一代;下一代中的染色体通过交叉和变异等遗传操作,产生新的染色体,即“后代”;经过若干代后,算法收敛于最好的染色体,该染色体就是问题的最优解或近优解,即被选择的最优传感器阵列。遗传算法的实现主要包括5个基本要素:参数编码、变量的选取、群体的初始化、适应度函数设计、遗传操作设计和收敛判据等。其中作为重要环节的遗传操作包括三个算子:选择、交叉和变异。其操作流程见图8。
[0117] 本发明采用遗传算法对等级、产地与树种模型建立中的传感器进行选择优化。遗传算法中的所有计算均由自编的MATLAB 7.0程序完成,其关键参数如表7。此算法的具体步骤如下:
[0118] (1)选择合适的变量参数:种群大小40,交叉概率pc为0.6,变异概率pm为0.1,遗传算法的终止进化代数T为200。
[0119] (2)置k=0,随机产生初始种群: 。
[0120] (3)染色体编码:把所有传感器进行二进制编码,每一根传感器作为一个基因(共18个基因)。若基因编码为1,则建模包括此传感器;若为0,则建模时不包括此传感器。一种编码组合称为一条染色体。
[0121] (4)确定适应值函数F(k):本实验对模型的预测能力采用交互验证法评价,要求所建模型的识别率最大,则模型函数为: 。
[0122] (5)染色体的选择:通过常用的“轮盘赌方法”决定适应度值大的上代染色体信息传递到下一代。
[0123] (6)染色体的交叉:采用单点交叉法,根据预先确定的交叉概率pc随机选择一定数量的染色体对作为双亲;然后,随机选择一个交叉点,交换双亲交叉点右侧的基因链,产生新的子代;最后,用子代染色体代替父代染色体,产生新种群(见图9)。这是产生新个体的主要方法,决定了遗传算法的全局搜索能力。
[0124] (7)染色体的变异:采用基本位变异法,以预定的概率pm使染色体的基因发生改变,即1与0互相转换,用变异后的子代染色体代替父代(见图10)。对交叉后的个体进行变异,得到下一代种群: ;这是产生新个体的辅助方法,能防止出现未成熟收敛现象,改善传感器的局部搜索能力。
[0125] (8)循环停止准则:是否达到预选设定的最大繁殖代数(Genmax)或最优解,达到则停止;否则,循环回到(4)。
[0126]
[0127] 6.1 等级模型中的传感器选择
[0128] 对等级模型的传感器响应图谱经过3轮遗传算法后,发现三根传感器LY2/LG、P40/1、TA/2在每次遗传过程中被使用的频率最低,因此剔除这三根传感器,对留下的LY2/G、LY2/AA、LY2/GH、LY2/gCTL、LY2/gCT、T30/1、P10/1、P10/2、T70/2、PA/2、P30/1、P40/2、P30/
2、T40/2、T40/1等这15根传感器进行不同等级模型的建立,其传感器剔除前后的建模效果见表8。对于一、二级模型,由于本身的样品差异较大,经过传感器剔除后,识别率还是保留了100%;对于样品差异非常小的精品与特级样品,模型的效果几乎没有太大变化,校正集保持在67%以上,预测集变化也不大;同样传感器删选后,对于精品、特级、一级和二级这四个等级样品的模型建立,预测集的识别率没有变化,还是70%左右;精品、一级和二级的三分类模型中,校正集和预测集的判别能力分别从92.11%、90.65%提高到92.83%和92.09%;特级、一级和三级样品等级模型的预测性能虽然有所降低,但还是很接近的,其传感器剔除前后效果基本还在95%左右;精特、一级和三级样品等级模型的预测识别率同样有所提高,用全部传感器建模的92.73%变为15根传感器建模的93.20%。由此可见,经过传感器选择后的等级判别模型的性能并未降低,有的还反而变优,但使传感器的数量得到了减少。
[0129]
[0130] 为了进一步研究传感器被剔除的机理,具体分析这些电子鼻传感器的响应性能。响应性能的衡量主要包括同一传感器对同类样品的响应是否具有良好的内聚性和对不同类样品是否具有较高的区分性。应用方差分析的原理,把每根传感器当作一个因素,不同样品的响应当作水平,进行方差齐性检验,保证数据满足方差分析的条件。应用SPSS数据分析软件对所有等级样品的传感器数据分别进行单因素方差分析的计算F值(表9)。F值表明同一传感器对不同类样品的区分能力,F值越大,区分度则越大。
[0131]
[0132] 虽然所有传感器的F检验结果都大于F0.05=2.60,即所有传感器对四个不同等级的区分度显著,但比较所有传感器的F值,其中LY2/LG、TA/2与T40/1的F值都小于25,而F值倒数第四小的P10/1都是这三根传感器的5倍以上,并且LY2/LG的F值最小只有8.003,因此剔除此传感器。
[0133] 同时在四个等级样品数据经过主成分分析后的载荷图(图11)中,TA/2与T40/1在载荷图中比较接近,属于起到同类效果的传感器,但TA/2在PC2下的载荷值低于T40/1,所以可以剔除传感器TA/2。根据同样原理,传感器P40/1与P10/1在载荷图中几乎处于重叠状态,再根据传感器的组合优化法,最终剔除传感器P40/1。
[0134] 6.2 产地模型中的传感器选择优化与筛选分析
[0135] (1)产地模型的校正集预测集样本划分
[0136] 为了保证产地模型的可比性,在此主要针对同一等级同一树种条件下的不同产地茶叶模型。在所采集的617个茶叶样品中,有以下四个产地模型:(1)产自龙井43#树种特级茶叶的虎跑后山(LHT)与梅家坞(LMT)模型;(2)产自群体树种特级茶叶的杨梅岭(QYT)与梅家坞(QMT)模型;(3)产自龙井43#树种精品茶叶的杨梅岭(LYJ)与翁家山(LWJ)模型(;4)产自群体树种精品茶叶的虎跑后山(QHJ)、龙坞(QLJ)与翁家山(QWJ)模型。对每个模型中的样品,都随机选择三分之二作校正集样品,剩下的三分之一用作预测集样品,具体样品分布如表10所示。
[0137]
[0138] (2)产地模型的电子鼻响应图谱与主成分分析
[0139] 图12是四个产地模型各自的平均响应图谱,由图可知模型LHT-LMT和模型QYT-QMT的图谱区分非常大,模型LYJ-LWJ的图谱在传感器LY2/G、LY2/AA、LY2/GH、LY2/gCTL和P30/2处差异较大,而模型QHJ-QLJ-QWJ中三个产地的平均指纹图谱差异非常小。
[0140] 从主成分得分图13中,也可以看到模型QYT-QMT中每个产地的样品都有各自明显的区域,而且两产地间的样品离散度最大;模型LHT-LWT中虽然每个产地样品也有各自的区域,但两产地之间没有明显的区分界限;模型LYJ-LWJ中两产地不但没有明显的界限,同时还有交叉和重叠的区域;而模型QHJ-QLJ-QWJ中的样品交叉非常多,几乎很难形成各自的产地类别。
[0141] (3)产地模型中的传感器选择
[0142] 在此单独对产地模型(QYT-QMT)的传感器经过3轮遗传算法后,挑选出LY2/G、LY2/AA、T30/1、P10/1、P40/1、T70/2、PA/2这七根传感器,剔除LY2/LG、LY2/GH、LY2/gCTL、LY2/gCT、P10/2、P30/1、P40/2、P30/2、T40/2、T40/1、TA/2这11根被使用频率低的传感器。对所选择的传感器进行产地判别,其效果见表11。剔除11根传感器后,所建群体树种在杨梅岭和梅家坞两产地特级茶叶的产地模型的预测性能还是100%,并且各自的主成分数从5和6都降低到2,使得模型更加简化,并且大大减少了传感器数量。通过此模型的平均指纹图谱和主成分分析图,可以推断各产地间样品差异较大,使得每根传感器性能都较好,只是在保持模型性能不变的基础上,尽可能的简化建模所需要的传感器数。在此,用七根传感器就能很好的建立杨梅岭和梅家坞两产地的群体树种特级茶叶。
[0143] 模型LHT-LWT、模型LYJ-LWJ、模型QHJ-QLJ-QWJ的传感器响应图谱分别经过3轮遗传算法后,发现都是LY2/LG、PA/2、P30/1、TA/2四根传感器在每次遗传过程中被使用的频率最低,因此剔除这四根传感器。对留下的LY2/G、LY2/AA、LY2/GH、LY2/gCTL、LY2/gCT、T30/1、P10/1、P10/2、P40/1、T70/2、P40/2、P30/2、T40/2、T40/1等这14根传感器进行产地模型的建立,其传感器剔除前后的建模效果见表11。
[0144] 对于全谱建模效果本身就不太理想的模型QHJ-QLJ-QWJ(产自虎跑后山、龙坞和翁家山这三个地方的群体树种精品茶叶),经过传感器选择后,校正集和预测集的整体识别率都分别从71.43%、67.35%提高到79.59%和69.39%。虽然传感器剔除前后,模型LYJ- LWJ的校正集识别率还是93.85%,但预测集的判别效果从87.88%提高到90.91%。所建模型的传感器数减少到14根后,模型LHT-LMT的预测效果虽然没有达到原先的100%,但也有96.97%,都超过95%,完全满足推广应用。
[0145]
[0146] 在此模型中应用方差分析的原理,把每根传感器当作一个因素,不同样品的响应当作水平,进行方差齐性检验,表12是产地模型LHT-LMT、LWJ-LYJ对传感器LY2/LG与TA/2的F检验。由于此2个模型的F0.05=3.84,因此这两根传感器对此2个模型的产地区分不显著,因此可以在这2个模型中剔除这两根传感器。
[0147]
[0148] 同时在产地模型LHT-LMT的样品数据经过主成分分析后的载荷图(图14(a))中,PA/2、P30/1分别与各自红色标和蓝色标内的其它两个传感器的效果相近,通过组合优化的效果,在模型LHT-LMT中剔除这两根传感器。根据同样原理在模型LYJ-LWJ的载荷图中可知,PA/2与T70/2在载荷图中比较接近,属于起到同类效果的传感器;P30/1与P40/2非常接近,有相似的Loading值,属于同类效果的传感器,因此也剔除这两根传感器。
[0149] 6.3 树种模型中的传感器选择优化与筛选分析
[0150] (1)树种模型的校正集预测集样本划分
[0151] 为了保证树种模型的可比性,在此研究中主要针对同一等级同一产地条件下的不同树种茶叶模型。在所采集的617个茶叶样品中,有两个树种模型:(1)产自梅家坞特级茶叶的龙井43#(LMT)和群体树种(QMT);(2)产自翁家山精品茶叶的龙井43#(LWJ)和群体树种(QWJ)。对每个模型中的样品,都随机选择三分之二作校正集样品,剩下的三分之一用作预测集样品,具体样品分布如表13所示。
[0152]
[0153] (2)树种模型的电子鼻响应图谱与主成分分析
[0154] 图15是两个树种模型中各自树种的平均响应图谱,在图谱中很难直接区分各自的树种模型。在图16的主成分图中,由于各类树种的样品呈现重叠现象,不能直观的进行树种判断。
[0155] (3)树种模型中的传感器选择
[0156] 对树种模型(LMT-QMT)的传感器响应图谱经过3轮遗传算法后,发现五根传感器LY2/AA、LY2/GH、LY2/gCT、T30/1、TA/2在每次遗传过程中被使用的频率最低,因此剔除这五根传感器,对留下的LY2/LG、LY2/G、LY2/gCTL、P10/1、P10/2、P40/1、T70/2、PA/2、P30/1、P40/2、P30/2、T40/2、T40/1等这13根传感器进行不同树种模型的建立,其传感器剔除前后的建模效果见表14。采用性能优良的13根传感器阵列所建梅家坞特级茶叶的龙井43#和群体树种模型,其整体识别率有所提高,不但校正集从95.38%提高到96.92%,而且预测集从93.94%提高到96.97%,与校正集的识别率非常接近,充分说明此模型非常稳定。
[0157] 对树种模型(LWJ-QWJ)的传感器响应图谱经过3轮遗传算法后,发现四根传感器P10/1、P40/1、T40/1、TA/2在每次遗传过程中被使用的频率最低,因此剔除这四根传感器,对留下的LY2/LG、LY2/G、LY2/AA、LY2/GH、LY2/gCTL、LY2/gCT、T30/1、P10/2、T70/2、PA/2、P30/1、P40/2、P30/2、T40/2等这14根传感器进行不同树种模型的建立,其传感器剔除前后的建模效果见表14。由表可知,尽管传感器从18根减少到14根,但此树种模型的预测性能没变,校正集和预测集还是分别保持原来的92.31%和93.34%。
[0158]
[0159] 通过对每个树种模型的样品传感器数据分别进行单因素方差分析,发现在树种模型(LMT-QMT)中所剔除的这五根传感器的区分度都非常小,其F值都小于F0.05=3.84(表15);树种模型(LWJ-QWJ)中剔除了所有区分度不显著的四根传感器(表16)。
[0160]
[0161] 针对等级、产地和树种这三类不同模型,其原始数据不同,模型性质也不同,因此采用遗传算法后,用于各自建模的传感器数量也不同。所有等级模型所用传感器数都为15根;产地模型中,群体品种特级茶叶在杨梅岭和梅家坞两地生产模型(LHT-LMT)的传感器数减少到7根,其它三个产地模型(LHT-LMT、LYJ-LWJ、QHJ-QLJ-QWJ)都为14根;树种模型中,梅家坞特级茶叶的龙井43#和群体树种模型(LMT-QMT)所用传感器数为13根,翁家山精品茶叶的龙井43#和群体树种模型(LWJ-QWJ)为14根传感器。
[0162] 本发明中利用遗传算法并行寻优和全局收敛的特性,将该方法应用在电子鼻分析茶叶品质的建模传感器筛选上,不仅使建模传感器数量得到有效的减少、简化模型,降低了仪器对传感器数量的要求,节省资源、节约仪器成本;而且保持或进一步提高了预测精度,得到了较好的结果。