基于adaboost的食源性致病菌拉曼光谱分类模型训练方法转让专利

申请号 : CN202010020498.3

文献号 : CN111274874A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曾万聃黄杰伦夏志平王其

申请人 : 上海应用技术大学

摘要 :

本发明提供了一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,本发明针对大肠杆菌以及布鲁氏菌,提出一种基于adaboost集成算法的拉曼光谱分类法方法。对于两种不同病菌的拉曼光谱先进行数据预处理,包括去毛刺,降噪(Savitzky-Golay滤波器),然后采样成数值型数据,之后对数据采用PCA降维,之后用基于元分类器为决策树的adaboost算法调用网格搜索模型找到最合适的参数,经验证,集成算法adaboost比单一类算法例如KNN、SVM等有更高的分类准确率。

权利要求 :

1.一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,包括:对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;

对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;

对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;

三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。

2.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。

3.如权利要求2所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。

4.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,所述adaboost算法为基于元分类器为决策树的adaboost算法。

5.如权利要求4所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,所述元分类器的个数为200,学习率为0.05。

6.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,调整所述分类模型的参数后重新执行本步骤,包括:通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。

说明书 :

基于adaboost的食源性致病菌拉曼光谱分类模型训练方法

技术领域

[0001] 本发明涉及一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。

背景技术

[0002] 目前,用于食源性致病菌检测的方法主要有:传统的生物学方法,显色培养基方法以及聚合酶链式反应等。但这些方法往往操作周期长,过程复杂,时效性较差。

发明内容

[0003] 本发明的目的在于提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。
[0004] 为解决上述问题,本发明提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:
[0005] 对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
[0006] 对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
[0007] 对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
[0008] 三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
[0009] 进一步的,在上述方法中,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
[0010] 采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。
[0011] 进一步的,在上述方法中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
[0012] Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。
[0013] 进一步的,在上述方法中,所述adaboost算法为基于元分类器为决策树的adaboost算法。
[0014] 进一步的,在上述方法中,所述元分类器的个数为200,学习率为0.05。
[0015] 进一步的,在上述方法中,调整所述分类模型的参数后重新执行本步骤,包括:
[0016] 通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。
[0017] 与现有技术相比,本发明具有如下有益效果:
[0018] 本发明利用机器学习方法,在一定程度上提升了识别两种食源性病菌拉曼光谱的准确率以及时效性,大大减轻了人工负担。

附图说明

[0019] 图1是本发明一实施例的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法的流程图;
[0020] 图2是本发明一实施例的adaboost算法的数学原理图。

具体实施方式

[0021] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0022] 如图1和2所示,本发明提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:
[0023] 步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
[0024] 步骤S2,对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
[0025] 步骤S3,对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
[0026] 步骤S4,三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
[0027] 在此,模型选择以及参数调优方法方面,采用单一算法svm,knn等,以及集成算法adaboost测试数据,利用python的sklearn库设计机器学习流水线,查找各个算法最佳的拟合参数,对比结果,最后发现adaboost的效果最佳。这里主要因为adaboost是一个加法模型,它在每一轮训练当中,会给当前的弱分类器一个权重,如果分类器准确率高,则权重也相对较高,分类器的权重更新公式为 α为分类器的权重,ε为误差率,m表示第几个分类器。同时它的损失函数也是利用样本权重计算的,一旦样本被错误分类,该样本的权重会相应提升,在下个分类器分类时会优先它的分类,样本权重更新公式为w表示样本权重,m表示更新轮次,该算法显示
了更强大的泛化能力。
[0028] 分类准确率的度量指标时,对数据按照2∶1的比例划分训练集和测试集,共三份数据,每次用两份数据训练模型,一份数据作为最终检测,进而获得准确率,循环三次取三个准确率的平均值作为最终的度量指标,即交叉验证衡量最终的结果,保证算法的能力。
[0029] 本发明通过拉曼光谱对病菌的检测可以有效的现有的问题,而且使用模型识别的准确率比人工识别高得多。另外,本发明基于adaboost的集成分类算法,能够提升传统单一分类器分类以及人工分类准确率不高的问题。
[0030] 本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
[0031] 采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。
[0032] 本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
[0033] Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。
[0034] 在此,降噪以及去除荧光背景时,这里主要使用Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法。这种滤波方法最大特点是滤除噪音的同时可以保证信号形状以及宽度不变,这里实际上是拟合了信号中的低频部分,而将高频成分平滑出去,然后对数据进行采样。
[0035] 本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述adaboost算法为基于元分类器为决策树的adaboost算法。
[0036] 本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述元分类器的个数为200,学习率为0.05。
[0037] 在此,模型调优时,采取了基于逻辑回归,感知机以及决策树的adaboost模型,经用数据集测试之后发现,当元分类器为决策树时准确率最高,此时adaboost采用的元分类器的个数为200,学习率为0.05。
[0038] 本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,调整所述分类模型的参数后重新执行本步骤,包括:
[0039] 通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。
[0040] 具体的,对得到的数据进行训练,先用决策树、svm以及adaboost测试数据,发现集成算法adaboost无论元分类器用决策树、感知机还是逻辑回归,结果都比单一算法好。然后用网格结构调优adaboost模型,测试之后发现元分类器选决策树的效果更佳,此时模型选择的元分类器个数为200,单个决策树的深度为5左右,
[0041] 下面是几种算法的对比拟合结果,已经是网格调优之后的结果,首先是感知机,当效果达到最佳时,参数最大迭代次数为200,惩罚函数选择11范数,pea主成分选取前面10个,它的准确率大概是92%。
[0042] Svm效果方面,核函数选择高斯核函数,软间隔惩罚参数C为3,方差选择0.4,选择pca降维得到的前三个主成分,得到最佳结果89%
[0043] KNN效果方面,近邻数量选择4,主成分选择前面10个得到最佳准确率89%[0044] Adaboost效果方面,adaboost的准确率是最高的,它选择的pca主成分是20个,基选择器为200,学习率为0.05。
[0045] 综上所述,本发明针对大肠杆菌以及布鲁氏菌,提出一种基于adaboost集成算法的拉曼光谱分类法方法。对于两种不同病菌的拉曼光谱先进行数据预处理,包括去毛刺,降噪(Savitzky-Golay滤波器),然后采样成数值型数据,之后对数据采用PCA降维,之后用基于元分类器为决策树的adaboost算法调用网格搜索模型找到最合适的参数,经验证,集成算法adaboost比单一类算法例如KNN、SVM等有更高的分类准确率。
[0046] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0047] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0048] 显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。