一种基于化学计量学方法对不同质量的大曲分类的方法转让专利

申请号 : CN201510587029.9

文献号 : CN105117607B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 汤有宏陆玮李安军刘国英梁绍勋周庆伍胡邦超

申请人 : 安徽瑞思威尔科技有限公司

摘要 :

本发明公开了一种基于化学计量学方法对不同质量大曲的分类方法,其特征是按如下步骤进行:1建立原始数据矩阵;2使用DRAUG算法对原始数据矩阵进行计算,获得主因子数;3利用主成分分析法获得各个曲块的得分序列;4使用聚类分析对所述原始数据矩阵D进行分类;结合所计算的各样本的综合得分,以进一步验证主成分分析对大曲质量分类结果的准确性。本发明能科学、合理、有效地区别出不同质量的大曲,从而提高大曲质量判断结果的准确性。

权利要求 :

1.一种基于化学计量学方法对不同质量的大曲分类的方法,其特征是按如下步骤进行:步骤1:采集同一时间内同一车间出房的m个曲块的n种指标,从而建立一个m×n维的原始数据矩阵D;所述原始数据矩阵D的列向量表示同一指标在不同曲块下的测量数据,所述原始数据矩阵D的行向量表示同一曲块在不同指标下的测量数据;

步骤2:使用DRAUG算法对所述原始数据矩阵D进行计算,获得所述原始数据矩阵D的主因子数;

步骤2.1、由一个m维的随机列向量和一个n维的随机行向量进行b倍相乘,获得一个随机矩阵;将所述随机矩阵与所述原始数据矩阵D相加,获得增广矩阵D_aug;

步骤2.2、对所述原始数据矩阵D与增广矩阵D_aug分别进行奇异值分解,得到原始数据矩阵D的特征值及相应特征值加和以及所述增广矩阵D_aug的特征值及相应特征值加和;

步骤2.3、分别计算原始数据矩阵D与增广矩阵D_aug的方差,记为Var和Var_aug;

步骤2.4、根据所述原始数据矩阵D的方差Var和增广矩阵D_aug的方差Var_aug获得Fisher比例值;

步骤2.5、将所述Fisher比例值转化为显著性水平,根据所述显著性水平获得原始数据矩阵D的主因子数;

步骤3、利用主成分分析法获得各个曲块的得分序列;

步骤3.1、使用主成分分析对所述原始数据矩阵D进行处理,得到所述原始数据矩阵D的特征向量矩阵;

步骤3.2、由所述原始数据矩阵D和所述特征向量矩阵计算获得所述原始数据矩阵D的主成分;

步骤3.3、由所述原始数据矩阵D的特征值和所述原始数据矩阵D特征值的总和获得所述原始数据矩阵D的特征值比值;

步骤3.4、根据所述原始数据矩阵D的主因子数,确定原始数据矩阵D中所要提取的主成分;

步骤3.5、根据所述所要提取的主成分和特征值比值计算获得m个曲块的综合得分并进行降序排序,获得得分序列;

步骤4:使用聚类分析对所述原始数据矩阵D进行分类;

步骤4.1、设置分类数为p;

步骤4.2、从原始数据矩阵D中随机选择p个行向量作为质心,从而获得p个质心;分别计算剩余m-p个行向量与每个质心的距离,从而获得(m-p)×p维的距离矩阵;所述距离矩阵的行向量表示剩余m-p个行向量中的每个行向量分别与p个质心的距离;所述距离矩阵的列向量表示每个质心分别与剩余m-p个行向量的距离;从所述距离矩阵的每个行向量中选取最小值作为最小距离值,共获得m-p个最小距离值;所述m-p个最小距离值所对应的列数,即为所述剩余m-p个行向量所属的质心;

步骤4.3、根据p个质心中的每个质心所包含的行向量,分别计算每个质心中所包含的行向量的均值;以所述均值作为新的质心;

步骤4.4、比较每个质心与其相应的新的质心之间的距离是否小于等于所设定的阈值;

若小于等于所设定的阈值,则完成所述原始数据矩阵D的分类,并获得所述原始数据矩阵D中每个行向量所属的质心;否则;返回步骤4.2顺序执行。

2.根据权利要求1所述的基于化学计量学方法对不同质量的大曲分类的方法,其特征在是:所述n种指标包括水分、酸度、糖化力、发酵力和感官评价得分。

说明书 :

一种基于化学计量学方法对不同质量的大曲分类的方法

技术领域

[0001] 本发明涉及不同质量大曲的分类方法,属酿酒科学与工程技术领域。

背景技术

[0002] 大曲是酿酒发酵的动力,是一种富含酿酒所需要的菌系、酶系、物系的复合载体。目前白酒都是利用大曲作为酿酒的原料,大曲的曲质对出酒率和酒质有很大的影响,因此,科学、合理、有效地判断大曲质量极为重要。目前,我国对于白酒的大曲质量大多是通过感官指标以及部分理化指标来判定的,如目前大多数企业制定的关于大曲质量的内部标准中,通过经验地确定各级质量的大曲对应指标的阈值,来实现对大曲的质量分级。这种评曲方法的科学性有待考究。
[0003] 目前,有研究通过经验地确定判断大曲质量的各指标权重,来计算各块大曲的综合指标。这种方法虽然有效地简化了原始指标,但是经验地确定各指标权重无科学的理论基础作支撑。还有研究应用主成分分析方法对大曲质量的理化指标体系进行综合评价,把原来众多具有一定相关性的多个指标重新组合成一组新的互相无关的综合指标来代替原来的指标。其中综合指标由选取的主成分及相应方差贡献率计算所得,主成分个数的确定有2个标准:方差的累积贡献率在80%以上或特征值大于1。这种主成分个数的确定方法偏于经验,当原始数据中随机噪声较大时,经验地确定主成分个数可能会使综合评价的结果产生误差。因此,选用DRAUG算法确定原始矩阵的主因子数,以科学合理地得到综合得分结果,并使用K-means算法对主成分分析的结果进行分类,以验证主成分分析方法的计算结果。

发明内容

[0004] 本发明是为了克服现有技术存在的不足之处,提供一种基于化学计量学方法对不同质量大曲的分类方法,以期能科学、合理、有效地区别出不同质量的大曲,从而提高大曲质量判断结果的准确性。
[0005] 本发明为解决技术问题采用如下技术方案:
[0006] 本发明一种基于化学计量学方法对不同质量大曲的分类方法的特点是按如下步骤进行:
[0007] 步骤1:采集同一时间内同一车间出房的m个曲块的n种指标,从而建立一个m×n维的原始数据矩阵D;所述原始数据矩阵D的列向量表示同一指标在不同曲块下的测量数据,所述原始数据矩阵D的行向量表示同一曲块在不同指标下的测量数据;
[0008] 步骤2:使用DRAUG算法对所述原始数据矩阵D进行计算,获得所述原始数据矩阵D的主因子数;
[0009] 步骤2.1、由一个m维的随机列向量和一个n维的随机行向量进行b倍相乘,获得一个随机矩阵;将所述随机矩阵与所述原始数据矩阵D相加,获得增广矩阵D(aug);
[0010] 步骤2.2、对所述原始数据矩阵D与增广矩阵D(aug)分别进行奇异值分解,得到原始数据矩阵D的特征值及相应特征值加和以及所述增广矩阵D(aug)的特征值及相应特征值加和;
[0011] 步骤2.3、分别计算原始数据矩阵D与增广矩阵D(aug)的方差,记为Var和Var(aug);
[0012] 步骤2.4、根据所述原始数据矩阵D的方差Var和增广矩阵D(aug)的方差Var(aug)获得Fisher比例值;
[0013] 步骤2.5、将所述Fisher比例值转化为显著性水平,根据所述显著性水平获得原始数据矩阵D的主因子数;
[0014] 步骤3、利用主成分分析法获得各个曲块的得分序列;
[0015] 步骤3.1、使用主成分分析对所述原始数据矩阵D进行处理,得到所述原始数据矩阵D的特征向量矩阵;
[0016] 步骤3.2、由所述原始数据矩阵D和所述特征向量矩阵计算获得所述原始数据矩阵D的主成分;
[0017] 步骤3.3、由所述原始数据矩阵D的特征值和所述原始数据矩阵D特征值的总和获得所述原始数据矩阵D的特征值比值;
[0018] 步骤3.4、根据所述原始数据矩阵D的主因子数,确定原始数据矩阵D中所要提取的主成分;
[0019] 步骤3.5、根据所述所要提取的主成分和特征值比值计算获得m个曲块的综合得分并进行降序排序,获得得分序列;
[0020] 步骤4:使用聚类分析对所述原始数据矩阵D进行分类;
[0021] 步骤4.1、设置分类数为p;
[0022] 步骤4.2、从原始数据矩阵D中随机选择p个行向量作为质心,从而获得p个质心;分别计算剩余m-p个行向量与每个质心的距离,从而获得(m-p)×p维的距离矩阵;所述距离矩阵的行向量表示剩余m-p个行向量中的每个行向量分别与p个质心的距离;所述距离矩阵的列向量表示每个质心分别与剩余m-p个行向量的距离;从所述距离矩阵的每个行向量中选取最小值作为最小距离值,共获得m-p个最小距离值;所述m-p个最小距离值所对应的列数,即为所述剩余m-p个行向量所属的质心;
[0023] 步骤4.3、根据p个质心中的每个质心所包含的行向量,分别计算每个质心中所包含的行向量的均值;以所述均值作为新的质心;
[0024] 步骤4.4、比较每个质心与其相应的新的质心之间的距离是否小于等于所设定的阈值;若小于等于所设定的阈值,则完成所述原始数据矩阵D的分类,并获得所述原始数据矩阵D中每个行向量所属的质心;否则;返回步骤4.2顺序执行。
[0025] 本发明所述的基于化学计量学方法对不同质量的大曲进行分类的方法的特点也在于:
[0026] 所述n种指标包括水分、酸度、糖化力、发酵力和感官评价得分。
[0027] 与已有技术相比,本发明有益效果体现在:
[0028] 1、本发明通过采用DRAUG算法、奇异值分解算法和K-means聚类算法建立了一种综合评价大曲质量的方法,使车间对大曲质量等级的判断不再停留在以感官鉴定为主,解决了现有技术中对大曲质量判断的主观性问题,能更加客观地、科学地、全面地评价大曲质量,从而提高了判断结果的准确性和有效性,具有一定的积极和指导意义。。
[0029] 2、本发明通过采用DRAUG算法来确定需提取的主成分个数,相比于仅按方差贡献率来人为地判断待提取的主成分数,解决了现有技术中的主观性问题,从而使最终计算的综合得分更加准确。
[0030] 3、本发明通过采用主成分分析方法得到的结果以综合得分的形式呈现出来,简化了待判断的指标,解决了现有技术中判断指标过于复杂的问题,仅通过对综合得分的排序即可实现对不同曲块的分类。
[0031] 4、本发明通过采用K-means聚类算法对主成分分析得到的结果进行验证,解决了对原始大曲质量的判断中缺乏验证实验的问题,从而提高了判断结果的客观性、科学性和系统性。
[0032] 5、本发明随机抽取了四组数据进行主成分分析及其验证,发现结果一致,从另一角度证明了此方法的准确性。

附图说明

[0033] 图1是本发明使用主成分分析和K-means算法处理2014年9月22日酿造一部出房高温曲指标数据的验证结果图;
[0034] 图2是本发明使用主成分分析和K-means算法处理2014年10月27日酿造一部出房中高温曲指标数据的验证结果图;
[0035] 图3是本发明使用主成分分析和K-means算法处理2014年9月5日酿造三部出房高温曲指标数据的验证结果图;
[0036] 图4是本发明使用主成分分析和K-means算法处理2014年12月11日酿造三部出房中高温曲指标数据的验证结果图。

具体实施方式

[0037] 本实施例中,一种基于化学计量学方法对不同质量大曲的分类方法是按如下步骤进行:
[0038] 步骤1:采集同一时间内同一车间出房的m个曲块的n种指标,从而建立一个m×n维的原始数据矩阵D;原始数据矩阵D的列向量表示同一指标在不同曲块下的测量数据,原始数据矩阵D的行向量表示同一曲块在不同指标下的测量数据;本实施例中,n=5;即包括水分、酸度、糖化力、发酵力和感官评价得分这5种指标,具体如(1)式所示:
[0039]
[0040] 步骤2:使用DRAUG算法对原始数据矩阵D进行计算,获得原始数据矩阵D的主因子数;DRAUG算法的基本思路是构造一个与原始数据矩阵相同大小、秩为1的矩阵,与原始数据矩阵相加,得到增广矩阵。外加矩阵的信息干扰了原始数据矩阵中的主因子信息,而与随机误差有关的次要因子信息未受影响。对原始矩阵和增广矩阵分别进行PCA,然后在不同因子水平下比较各自残余矩阵的方差,如果不存在显著性差异,说明残余矩阵基本包含全部次要因子信息,此时的因子水平即是主因子数(主成分数)。相比于其它的主因子数估计方法,DRAUG算法在信号重叠程度,组分的微量或痕量程度以及噪声水平方面所能承受的极限较强,是一种较准确的主因子数计算方法。具体的说,
[0041] 步骤2.1、由一个m维的随机列向量和一个n维随机行向量进行b倍相乘,获得一个随机矩阵;将随机矩阵与原始数据矩阵D相加,获得增广矩阵D(aug);本实施例中,b=0.015;即:
[0042] D(aug)=D+b*x*y’           (2)
[0043] 式(2)中x为m维的随机列向量,y’为n维随机行向量,b为加入矩阵的增大强度,为原始数据矩阵均方根的0.015倍,b*x*y’为加入矩阵,它属于无误差矩阵,其秩为1。
[0044] 步骤2.2、对原始数据矩阵D与增广矩阵D(aug)分别进行奇异值分解,得到原始数据矩阵D的特征值及相应特征值加和以及增广矩阵D(aug)的特征值及相应特征值加和。
[0045] 步骤2.3、利用式(3)分别计算原始数据矩阵D与增广矩阵D(aug)的方差,记为Var和Var(aug)。
[0046]
[0047] 式(3)中,λt为因子水平为t时的特征值,s是指m和n中较小的数值,Vark是因子水平为k时的方差。
[0048] 步骤2.4、根据原始数据矩阵D的方差Var和增广矩阵D(aug)的方差Var(aug)利用式(4)获得Fisher比例值。
[0049]
[0050] 式(4)中,γ1=(m-k)(n-k),γ2=(m-k-1)(n-k-1),m为原始矩阵的行数,n为原始矩阵的列数,s为行数和列数中较小的数值,本实验中n为5,λ和λ(aug)为原始矩阵和增广矩阵经主成分分析后的特征值,Vark和Var(aug)k+1为原始矩阵和增广矩阵在因子水平为k时的方差,两者比值为Fisher比例,以Fk(γ1,γ2)表示,该比值用于估测两个残余方差是否存在显著性差异。
[0051] 步骤2.5、将Fisher比例值转化为显著性水平,根据显著性水平获得原始数据矩阵D的主因子数;对于主因子来说,由于各因子之间是不相关的,由F比值得到的显著性较小;对噪声因子来说,由于各因子来源于同一误差源,故其统计显著性很大,由此来判断主因子数。
[0052] 步骤3、利用主成分分析法获得各个曲块的得分序列;主成分分析是处理多样本、多变量数据的有效工具,通过适当的变换,将原始变量降维到一个或少数几个具有代表性的变量,以简化数据结构,同时尽可能保留了原始数据中的信息,它是一种比较合理的降维方法。主成分分析有多种数值计算方法,其中使用较普遍的是奇异值分解,其中心思想是对含有大量相关变量的数据集进行降维,尽可能多地保留数据集的方差(在数值上等于对应特征值)。所得到的方差分为两组,数值较大的一组对应的是具有相关性的数据集,而数值较小的一组对应的是不相关的数据集,即噪声或随机误差,而最终综合得分的主要贡献因素则是具有相关性的数据集。
[0053] 使用主成分分析中的奇异值分解算法,对原始数据进行处理,将水分、酸度、糖化力、发酵力和感官评价得分进行一定的变换,根据步骤2计算的主因子数选取主成分,结合其相应成分的贡献率,最终以综合得分的形式进行排序。图1-图4中的横坐标的样品号是指每块大曲按照原始数据矩阵D中排列所对应的行数,纵坐标总得分即为各曲块的综合得分。
[0054] 对数据矩阵进行主成分分析,即获得原始变量(数据矩阵的全部列向量)的一种组合方式,由此得到的新变量最大限度地携带了原始数据中包含的信息,是原始数据矩阵中的主要成分;而在主成分分析中数据息量的衡量指标是方差,在数值上等于特征值。
[0055] 思路:对于多变量数据,如果只考虑一个变量,分析工作虽然容易完成,但是如果没有使用其他变量的信息,结果的可靠性和客观性就会显著降低。而如果考虑全部变量,数据分析又难以进行。而主成分分析采用降维手段,使用数据表中的主要成分,以突出有效信息,最终以综合得分的形式表示每个样本。
[0056] 步骤3.1、使用主成分分析对原始数据矩阵D进行处理,得到原始数据矩阵D的特征向量矩阵。
[0057]
[0058]
[0059] V5×5a5×1=λa5×1             (7)
[0060] 式(5)中, 是矩阵Dm×5的平均值,它是一个向量,包含矩阵所有列向量的平均值;式(6)中,V5×5是矩阵Dm×5的协方差矩阵,因子水平为1时,特征值和特征向量满足式(7),向量a5×1是原数据矩阵的协方差矩阵的特征向量,其特征值λ最大,由此得到的主成分称为第一主成分,第二主成分是与第一主成分不相关(协方差为0)且最大限度地携带了原始数据中的信息。以此类推。原始数据经过计算,得到协方差矩阵的一系列特征向量,均为5行、1列的向量,这些特征向量按照特征值由大到小的顺序排列,组成矩阵a5×5。
[0061] 步骤3.2、由原始数据矩阵D和特征向量矩阵计算获得原始数据矩阵D的主成分。
[0062] P=Da                  (8)
[0063] 主成分矩阵(得分矩阵)P为数据矩阵与特征向量矩阵的乘积。通过一系列特征向量,即荷载向量,原始数据转换为一系列主成分(得分向量),即对原始数据中的信息进行了重新分配,而没有增减。
[0064] 步骤3.3、由原始数据矩阵D的特征值和原始数据矩阵D特征值的总和获得原始数据矩阵D的特征值比值,即主成分贡献率。
[0065]
[0066] 步骤3.4、根据原始数据矩阵D的主因子数,确定原始数据矩阵D中所要提取的主成分。由DRAUG算法计算出四个样本的主因子数均为3,每个样本提取贡献率排在前三位的主成分进行计算。
[0067] 步骤3.5、根据所要提取的主成分和特征值比值计算获得m个曲块的综合得分并进行降序排序,获得得分序列,综合得分为主成分得分与相应主成分贡献率乘积的加和。
[0068] 步骤4:使用聚类分析对原始数据矩阵D进行分类。而本实施例中,采用聚类分析算法中的K-means算法,该算法是很典型的基于距离的聚类分析算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法包括四个过程:首先是从N个文档中随机选取K个文档(需分类的数量)作为质心,然后对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,然后重新计算已经得到的各个类的质心,最后迭代2-3步直至新的质心与原质心相等或小于指定阈值,算法结束。使用K-means算法对主成分分析处理的同一数据进行分类,以验证主成分分析(奇异值分解)结果的准确性和科学性。图1-图4中各曲块分属于类别1、类别2、类别3,分别以不同标记表示,相同标记的曲块属于同一类。具体的说,
[0069] 步骤4.1、设置分类数为p;即期望将原始数据矩阵D经过聚类得到p个分类。
[0070] 步骤4.2、从原始数据矩阵D中随机选择p个行向量作为质心,从而获得p个质心;分别计算剩余m-p个行向量与每个质心的距离,从而获得(m-p)×p维的距离矩阵;距离矩阵的行向量表示剩余m-p个行向量中的每个行向量分别与p个质心的距离;距离矩阵的列向量表示每个质心分别与剩余m-p个行向量的距离;从距离矩阵的每个行向量中选取最小值作为最小距离值,共获得m-p个最小距离值;m-p个最小距离值所对应的列数,即为剩余m-p个行向量所属的质心。
[0071] 步骤4.3、根据p个质心中的每个质心所包含的行向量,分别计算每个质心中所包含的行向量的均值;以均值作为新的质心。
[0072] 步骤4.4、比较每个质心与其相应的新的质心之间的距离是否小于等于所设定的阈值;若小于等于所设定的阈值,则完成原始数据矩阵D的分类,并获得原始数据矩阵D中每个行向量所属的质心;否则;返回步骤4.2顺序执行。
[0073] 也就是说,新计算的质心和原来的质心之间的距离达到设置的阈值,聚类则达到期望的效果,算法终止;如果新计算的质心和原来的质心之间的距离变化很大,需要继续迭代,直至两质心之间的距离达到设置的阈值。最终原始矩阵D中的每个行向量分属于类别1、2、3。
[0074] 从图1-图4中可知,通过K-means聚类分析,发现主成分分析得到的综合得分处于高分段、中分段、低分段的样本,分属于类别1、类别2、类别3,证明了两者对大曲的排序结果一致。
[0075] 以上所述为仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。