一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法转让专利

申请号 : CN202111017041.8

文献号 : CN113807215B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄海松陈星燃范青松张卫民胡鹏飞韩正功

申请人 : 贵州大学

摘要 :

本发明公开了一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,包括:初步筛选并预处理茶叶嫩芽图像,建立茶叶嫩芽数据集;基于改进的注意力机制,构建多尺寸卷积块注意力模块,并建立茶叶嫩芽分级模型,预训练茶叶嫩芽分级模型和Resnet32模型,得到两者权重参数;利用结合双迁移学习和知识蒸馏的模型训练策略以训练茶叶嫩芽分级模型;将测试集中待分级的茶叶嫩芽图像导入训练好的茶叶嫩芽分级模型,记录分级结果的各项指标及模型规格参数。本发明可以提取茶叶图像中多尺度特征信息,增强了处理小数据集的能力,能缓解在有限数量数据集上的模型过拟合现象,在保证学生模型轻量高效的同时,进一步强化其分级性能及抗过拟合的能力。

权利要求 :

1.一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于,包括:采集茶叶嫩芽图像并进行初步筛选,预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集;

基于改进的注意力机制,构建多尺寸卷积块注意力模块,并建立茶叶嫩芽分级模型,利用两不同源域数据集预训练所述茶叶嫩芽分级模型和Resnet32模型,得到两者权重参数;

搭建茶叶嫩芽分级模型:在ShuffleNet V2 0.5x的基本单元中引入多尺度卷积块注意力模块和多尺度深度捷径构建一种用以对茶叶嫩芽进行分级的轻量型模型:ShuffletNet V2 0.5x‑MAU;

具体的,搭建通道注意力模块,通过通道注意力模块生成通道注意力特征图的过程如下:

其中,F为输入模块的特征, 为经平均池化处理后的特征, 为经最大池化处理后的特征,σ为Sigmoid激活函数,W1、W2为多层感知机的权重系数;

利用多尺度卷积层替代原空间注意力模块中的传统卷积层,并通过1×1大小的卷积层对通道数目进行调整,生成多尺度空间注意力模块,使模型能够在充分挖掘多尺度特征信息的同时,对茶叶图像中有利于分级的复杂特征信息进行目的性提取,通过所述多尺度空间注意力模块生成多尺度空间特征图的过程如下:

1×1 5×5 9×9

MMS=σ(f (f (AvgPool(F))+f (MaxPool(F))))

1×1 5×5 9×9

其中,f 为1×1卷积核大小的卷积层,f 为5×5卷积核大小的卷积层,f 为9×9卷积核大小的卷积层, 依次为经过平均池化和最大池化处理后的特征;

结合通道注意力模块与多尺度空间注意力模块,构建多尺寸卷积块注意力模块,输入特征经通道注意力模块处理得到加权结果后,再由多尺度空间注意力模块得到输出特征信息,由多尺度空间注意力模块得到输出特征信息的过程包括:其中, 为元素逐点相乘,F'为特征经通道注意力模块处理后生成的特征图与初始输入特征逐点相乘所得的新特征图,F”为特征经多尺度空间注意力模块处理生成的特征图与F'逐元素相乘所得的输出特征图;

搭建ShuffleNet V2 0.5x网络基本单元;

在网格基本单元中以串行的方式嵌入多尺寸卷积块注意力模块,引入三组深度不同的多尺度深度捷径构建多尺度注意力单元,并以此为核心构建茶叶嫩芽分级模型:ShuffletNet V2 0.5x‑MAU;

进一步的,茶叶嫩芽分级模型及Resnet32模型的预训练:以Oxford‑102 flower数据集对ShuffletNet V2 0.5x‑MAU模型进行预训练,以ImageNet数据集对Resnet32模型进行预训练,并保存两者权重参数;

将两个预训练后模型的权重参数迁移至自建的茶叶嫩芽数据集上并引入知识蒸馏技术,形成一种结合双迁移学习和知识蒸馏的模型训练策略以训练所述茶叶嫩芽分级模型;

将测试集中待分级的茶叶嫩芽图像导入训练好的茶叶嫩芽分级模型,记录分级结果的各项指标及模型规格参数。

2.如权利要求1所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:所述采集茶叶嫩芽图像并进行初步筛选包括,利用中科微创ZW‑C3600工业相机、变焦镜头及LED环形补光灯搭建平台实现对茶叶嫩芽图像的采集,并在拍摄过程中固定镜头焦距和距样本的距离,且所有样本使用同一白色A4纸作为底版;

将采摘的茶叶嫩芽按照单芽、一芽一叶、一芽两叶三个级别分为三个独立集合,通过所搭建的图像采集平台进行拍摄,并通过人工对质量较差的数据进行清洗后获取到各级别茶叶嫩芽原始图像数据各400张。

3.如权利要求1或2所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:所述预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集包括,在PyCharm编译器上利用Opencv库实现:将采集到的茶叶嫩芽图像通过中心裁剪为像素大小为224×224的图像后,依次通过翻转、平移、旋转及添加高斯噪声四种方式对数据进行扩容处理。

4.如权利要求1所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:所述结合双迁移学习和知识蒸馏的茶叶嫩芽分级模型训练策略包括,向预训练后的教师模型Resnet32中导入所述自建茶叶嫩芽数据集中的图像数据,并将其所得概率分布依次与温度参数相除达到软化的目的,通过softmax处理后得到软标签;

向预训练后的学生模型ShuffletNet V2 0.5x‑MAU中导入自建茶叶嫩芽数据集中的图像数据进行并行计算,对其采用与Resnet32同样的计算流程获取软预测,并同时通过不设置温度参数直接输入softmax获取硬预测;

采用不同的损失函数依次对所得的软标签和软预测、硬预测和茶叶嫩芽数据集的真实标签两组数据进行对比,获取相对熵和交叉熵损失值,通过调节权重参数的大小控制两部分损失所占比例得到最终的混合损失函数;

‑8

利用lr=0.001,bets=(0.9,0.999),eps=1 的Adam优化器和混合损失函数对学生模型ShuffletNet V2 0.5x‑MAU进行训练,借助梯度反向传播实现教师模型Resnet32暗知识的传授及学生模型参数的更新;

重复进行上述步骤,直至ShuffletNet V2 0.5x‑MAU模型的混合损失函数及分级准确率变化曲线趋于稳定,结束模型的训练。

5.如权利要求4所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:所述硬预测的计算流程如下:

其中,q2i为ShuffletNet V2 0.5x‑MAU模型训练时对应各类茶叶嫩芽级别的概率,x2i为ShuffletNet V2 0.5x‑MAU模型的输出特征图。

6.如权利要求4所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:获取所述最终的混合损失函数过程包括,其中,α=0.8为比例参数,用于调节两部分损失函数的比例,CrossEntropy为交叉熵损失函数,yS为学生模型所得的硬预测,labels为真实标签,KullbackLeibler为相对熵损失函数,y'S为学生模型ShuffletNet V2 0.5x‑MAU所得的软预测, 为教师模型Resnet32的软标签。

7.如权利要求4所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,其特征在于:所述软标签的获取过程包括,

其中,q1i为Resnet32训练时对应各类茶叶嫩芽级别的概率,x1i为Resnet32的输出特征图,t=10为温度参数。

说明书 :

一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法

技术领域

[0001] 本发明涉及图像识别的技术领域,尤其涉及一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法。

背景技术

[0002] 制茶工艺中茶叶嫩芽分级作为一道关键工序从根源上决定了产出茶叶的品质和价值,而在茶叶嫩芽分级领域,目前仍以人工感官评审法为主,以理化检测方法为辅进行综
合评价,该方法不但效率低下,所得结果也易受人员主观性及外界因素等多因素影响,使在
规模化生产下实现对茶产品质量的精准把控面临极大挑战。
[0003] 如今计算机技术与深度学习技术虽不断与农业工程学科交叉并取得了丰富的成果,但就茶叶嫩芽分级问题所开展的研究却仍十分有限。

发明内容

[0004] 本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部
分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
[0005] 鉴于上述现有存在的问题,提出了本发明。
[0006] 因此,本发明解决的技术问题是:目前面向茶叶嫩芽的分级问题多采用深度较深、结构较为复杂的卷积神经网络模型进行,将导致如下诸问题:
[0007] (1)在实际生产中,茶叶嫩芽图像采集的困难性决定了所构建的数据集规模也往往较小,故结构复杂的模型在其上极易产生模型过拟合等不利现象,严重影响分类效果;
[0008] (2)传统方法进行特征提取时,无法实现对茶叶嫩芽图像中有利于分级的复杂特征进行目的性地提取与分析,故面向有限数量的茶叶嫩芽数据集时,无法充分利用其中重
要的特征信息,所得结果往往不够理想;
[0009] (3)传统分级方法多基于复杂网络实现,在轻量性上难以保证,模型规格和其所蕴含的参数量往往较大,会产生庞大的计算冗余对设备要求较高,因而难以通过加载在移动
设备上以达到实际应用的目的。
[0010] 为解决上述技术问题,本发明提供如下技术方案:采集茶叶嫩芽图像并进行初步筛选,预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集;基于改进的注意
力机制,构建多尺寸卷积块注意力模块,并建立茶叶嫩芽分级模型,利用两不同源域数据集
预训练所述茶叶嫩芽分级模型和Resnet32模型,得到两者权重参数;将两个预训练后模型
的权重参数迁移至自建的茶叶嫩芽数据集上并引入知识蒸馏技术,形成一种结合双迁移学
习和知识蒸馏的模型训练策略以训练所述茶叶嫩芽分级模型;将测试集中待分级的茶叶嫩
芽图像导入训练好的茶叶嫩芽分级模型,记录分级结果的各项指标及模型规格参数。
[0011] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:所述采集茶叶嫩芽图像并进行初步筛选包括,利用中科微创ZW‑C3600工业
相机、变焦镜头及LED环形补光灯搭建平台实现对茶叶嫩芽图像的采集,并在拍摄过程中固
定镜头焦距和距样本的距离,且所有样本使用同一白色A4纸作为底版;将采摘的茶叶嫩芽
按照单芽、一芽一叶、一芽两叶三个级别分为三个独立集合,通过所搭建的图像采集平台进
行拍摄,并通过人工对质量较差的数据进行清洗后获取到各级别茶叶嫩芽原始图像数据各
400张。
[0012] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:所述预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集包
括,在PyCharm编译器上利用Opencv库实现:将采集到的茶叶嫩芽图像通过中心裁剪为像素
大小为224×224的图像后,依次通过翻转、平移、旋转及添加高斯噪声四种方式对数据进行
扩容处理。
[0013] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:建立所述茶叶嫩芽分级模型包括,搭建通道注意力模块,通过所述通道注
意力模块生成通道注意力特征图的过程如下:
[0014]
[0015] 其中,F为输入模块的特征, 为经平均池化处理后的特征, 为经最大池化处理后的特征,σ为Sigmoid激活函数,W1、W2为多层感知机的权重系数;
[0016] 利用多尺度卷积层替代原空间注意力模块中的传统卷积层,并通过1×1大小的卷积层对通道数目进行调整,生成多尺度空间注意力模块,通过所述多尺度空间注意力模块
生成多尺度空间特征图的过程如下:
[0017] MMS=σ(f1×1(f5×5(AvgPool(F))+f9×9(MaxPool(F))))
[0018] 其中,f1×1为1×1卷积核大小的卷积层,f5×5为5×5卷积核大小的卷积层,f9×9为9×9卷积核大小的卷积层, 依次为经过平均池化和最大池化处理后的特征;
[0019] 结合所述通道注意力模块与所述多尺度空间注意力模块,构建多尺寸卷积块注意力模块,输入特征经通道注意力模块处理得到加权结果后,再由多尺度空间注意力模块得
到输出特征信息;搭建ShuffleNet V2 0.5x网络基本单元;在所述网格基本单元中以串行
的方式嵌入所述多尺寸卷积块注意力模块,引入三组深度不同的多尺度深度捷径构建多尺
度注意力单元,并以此为核心构建茶叶嫩芽分级模型:ShuffletNet V2 0.5x‑MAU。
[0020] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:所述结合双迁移学习和知识蒸馏的茶叶嫩芽分级模型训练策略包括,向预
训练后的教师模型Resnet32中导入所述自建茶叶嫩芽数据集中的图像数据,并将其所得概
率分布依次与温度参数相除达到软化的目的,通过softmax处理后得到软标签;向预训练后
的学生模型ShuffletNet V2 0.5x‑MAU中导入自建茶叶嫩芽数据集中的图像数据进行并行
计算,对其采用与Resnet32同样的计算流程获取软预测,并同时通过不设置温度参数直接
输入softmax获取硬预测;采用不同的损失函数依次对所得的软标签和软预测、硬预测和茶
叶嫩芽数据集的真实标签两组数据进行对比,获取相对熵和交叉熵损失值,通过调节权重
参数的大小控制两部分损失所占比例得到最终的混合损失函数;利用lr=0.001,bets=
‑8
(0.9,0.999),eps=1 的Adam优化器和混合损失函数对学生模型ShuffletNet V2 0.5x‑
MAU进行训练,借助梯度反向传播实现教师模型Resnet32暗知识的传授及学生模型参数的
更新;重复进行上述步骤,直至ShuffletNet V2 0.5x‑MAU模型的混合损失函数及分级准确
率变化曲线趋于稳定,结束模型的训练。
[0021] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:所述硬预测的计算流程如下:
[0022]
[0023] 其中,q2i为ShuffletNet V2 0.5x‑MAU模型训练时对应各类茶叶嫩芽级别的概率,x2i为ShuffletNet V2 0.5x‑MAU模型的输出特征图。
[0024] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:获取所述最终的混合损失函数过程包括,
[0025]
[0026] 其中,α=0.8为比例参数,用于调节两部分损失函数的比例,CrossEntropy为交叉熵损失函数,yS为学生模型所得的硬预测,labels为真实标签,KullbackLeibler为相对熵
损失函数,y'S为学生模型ShuffletNet V2 0.5x‑MAU所得的软预测, 为教师模型
Resnet32的软标签。
[0027] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:所述软标签的获取过程包括,
[0028]
[0029] 其中,q1i为Resnet32训练时对应各类茶叶嫩芽级别的概率,x1i为Resnet32的输出特征图,t=10为温度参数。
[0030] 作为本发明所述的结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的一种优选方案,其中:由所述多尺度空间注意力模块得到输出特征信息的过程包括,
[0031]
[0032]
[0033] 其中, 为元素逐点相乘,F'为特征经通道注意力模块处理后生成的特征图与初始输入特征逐点相乘所得的新特征图,F″为特征经多尺度空间注意力模块处理生成的特征
图与F'逐元素相乘所得的输出特征图。
[0034] 本发明的有益效果:就注意力机制进行改进,提出一种多尺度卷积块注意力模块,利用多尺度特征提取卷积层代替原固定大小的深度卷积层,不同规格的感知野大小赋予了
模型提取茶叶图像中多尺度特征信息的能力;结合多尺度卷积块注意力模块和
ShuffletNet V2 0.5x网络的基本单元,并通过引入多组多尺度深度捷径构建多尺度注意
力单元,进一步搭建茶叶嫩芽分级模型,在保证模型轻量性的条件下,使盲目性的特征提取
转变为自感知野和网络纵深两个层面对茶叶中蕴含的多尺度信息的目的性提取,增强了其
处理小数据集的能力;在正式开展茶叶嫩芽分级之前,对所提模型进行预训练,随后对其所
习得的权重矩阵进行迁移,在提高模型分级性能的同时,能缓解其在有限数量数据集上的
模型过拟合现象;引入知识蒸馏技术,提出一种结合双迁移学习和知识蒸馏的模型训练策
略,依次以预训练后的茶叶嫩芽分级模型和Resnet32模型作为学生模型与教师模型,利用
梯度反向传播实现两者间暗知识的传授,在强化所提模型分级性能及抗过拟合能力的同
时,保证其轻量高效以期满足实际应用需求。

附图说明

[0035] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它
的附图。其中:
[0036] 图1为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的基本流程示意图;
[0037] 图2为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的图像采集平台示意图;
[0038] 图3为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的原始茶叶嫩芽图像示意图;
[0039] 图4为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的经数据增强操作后茶叶嫩芽图像示意图;
[0040] 图5为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的多尺度卷积块注意力模块示意图;
[0041] 图6为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的多尺度注意力单元示意图;
[0042] 图7为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的结合双迁移学习和知识蒸馏的训练策略示意图;
[0043] 图8为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的茶叶嫩芽分级模型准确率变化曲线示意图;
[0044] 图9为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的茶叶嫩芽分级模型损失值变化曲线示意图;
[0045] 图10为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的茶叶嫩芽分级模型与其他现有技术准确率变化曲线示意图;
[0046] 图11为本发明一个实施例提供的一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的茶叶嫩芽分级模型与其他现有技术损失值变化曲线示意图。

具体实施方式

[0047] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而
不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下
所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0048] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的
情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0049] 其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指
同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0050] 本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本
发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0051] 同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而
不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此
不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解
为指示或暗示相对重要性。
[0052] 本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,
也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人
员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0053] 实施例1
[0054] 参照图1~7,为本发明的一个实施例,提供了一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法,包括:
[0055] S1:采集茶叶嫩芽图像并进行初步筛选,预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集;
[0056] 需要说明的是,采集茶叶嫩芽图像并进行初步筛选包括:
[0057] 如图2所示,利用中科微创ZW‑C3600工业相机、变焦镜头及LED环形补光灯搭建平台实现对茶叶嫩芽图像的采集,并在拍摄过程中固定镜头焦距和距样本的距离,且所有样
本使用同一白色A4纸作为底版;
[0058] 将采摘的茶叶嫩芽按照单芽、一芽一叶、一芽两叶三个级别分为三个独立集合,通过所搭建的图像采集平台进行拍摄,并通过人工对质量较差的数据进行清洗后获取到各级
别茶叶嫩芽原始图像数据各400张。
[0059] 预处理初步筛选得到的茶叶嫩芽图像,建立所需的茶叶嫩芽数据集包括:
[0060] 在PyCharm编译器上利用Opencv库实现:将采集到的茶叶嫩芽图像通过中心裁剪为像素大小为224×224的图像后,依次通过翻转、平移、旋转及添加高斯噪声四种方式对数
据进行扩容处理。
[0061] 将获取到的原始图像裁剪为固定像素大小的矩阵后,选用多种数据增强方法对图像数据进行扩充处理,获取到三种不同级别茶叶嫩芽图像各712张,共计2136张,最后按照
3:1的比例将上述数据划分为训练集与测试集,建立所需的茶叶嫩芽数据集。
[0062] S2:建立茶叶嫩芽分级模型和Resnet32模型,并预训练茶叶嫩芽分级模型和Resnet32模型,得到两者权重参数;
[0063] 需要说明的是,搭建茶叶嫩芽分级模型:在ShuffleNet V2 0.5x的基本单元中引入多尺度卷积块注意力模块和多尺度深度捷径构建一种用以对茶叶嫩芽进行分级的轻量
型模型:ShuffletNet V2 0.5x‑MAU。
[0064] 具体的,搭建通道注意力模块,通过通道注意力模块生成通道注意力特征图的过程如下:
[0065]
[0066] 其中,F为输入模块的特征, 为经平均池化处理后的特征, 为经最大池化处理后的特征,σ为Sigmoid激活函数,W1、W2为多层感知机的权重系数;
[0067] 利用多尺度卷积层替代原空间注意力模块中的传统卷积层,并通过1×1大小的卷积层对通道数目进行调整,生成多尺度空间注意力模块,使模型能够在充分挖掘多尺度特
征信息的同时,对茶叶图像中有利于分级的复杂特征信息进行目的性提取,通过所述多尺
度空间注意力模块生成多尺度空间特征图的过程如下:
[0068] MMS=σ(f1×1(f5×5(AvgPool(F))+f9×9(MaxPool(F))))
[0069] 其中,f1×1为1×1卷积核大小的卷积层,f5×5为5×5卷积核大小的卷积层,f9×9为9×9卷积核大小的卷积层, 依次为经过平均池化和最大池化处理后的特征;
[0070] 结合通道注意力模块与多尺度空间注意力模块,构建多尺寸卷积块注意力模块,输入特征经通道注意力模块处理得到加权结果后,再由多尺度空间注意力模块得到输出特
征信息,由多尺度空间注意力模块得到输出特征信息的过程包括:
[0071]
[0072]
[0073] 其中, 为元素逐点相乘,F'为特征经通道注意力模块处理后生成的特征图与初始输入特征逐点相乘所得的新特征图,F″为特征经多尺度空间注意力模块处理生成的特征
图与F'逐元素相乘所得的输出特征图。
[0074] 搭建ShuffleNet V2 0.5x网络基本单元;
[0075] 在网格基本单元中以串行的方式嵌入多尺寸卷积块注意力模块,引入三组深度不同的多尺度深度捷径构建多尺度注意力单元,并以此为核心构建茶叶嫩芽分级模型:
ShuffletNet V2 0.5x‑MAU。
[0076] 进一步的,茶叶嫩芽分级模型及Resnet32模型的预训练:以Oxford‑102flower数据集对ShuffletNet V2 0.5x‑MAU模型进行预训练,以ImageNet数据集对Resnet32模型进
行预训练,并保存两者权重参数。
[0077] S3:将两个在不同源域数据集上进行预训练后模型的权重参数迁移至自建的茶叶嫩芽数据集上并引入知识蒸馏技术,形成一种结合双迁移学习和知识蒸馏的模型训练策
略;
[0078] 需要说明的是,所提结合双迁移学习和知识蒸馏的模型训练策略包括:
[0079] 向教师模型Resnet32中导入自建茶叶嫩芽数据集中的图像数据,并将其所得概率分布依次与温度参数相除达到软化的目的,通过softmax处理后得到软标签;其中,软标签
的获取过程包括:
[0080]
[0081] 其中,q1i为Resnet32训练时对应各类茶叶嫩芽级别的概率,x1i为Resnet32的输出特征图,t=10为温度参数。
[0082] 向学生模型ShuffletNet V2 0.5x‑MAU中导入自建茶叶嫩芽数据集中的图像数据进行并行计算,对其采用与Resnet32同样的计算流程获取软预测,并同时通过不设置温度
参数直接输入softmax获取硬预测;其中,硬预测的计算流程如下:
[0083]
[0084] 其中,q2i为ShuffletNet V2 0.5x‑MAU模型训练时对应各类茶叶嫩芽级别的概率,x2i为ShuffletNet V2 0.5x‑MAU模型的输出特征图;
[0085] 采用不同的损失函数依次对所得的软标签和软预测、硬预测和茶叶嫩芽数据集的真实标签两组数据进行对比,获取相对熵和交叉熵损失值,通过调节权重参数的大小控制
两部分损失所占比例得到最终的混合损失函数;获取最终的混合损失函数过程包括:
[0086]
[0087] 其中,α=0.8为比例参数,用于调节两部分损失函数的比例,CrossEntropy为交叉熵损失函数,yS为学生模型所得的硬预测,labels为真实标签,KullbackLeibler为相对熵
损失函数,y'S为学生模型ShuffletNet V2 0.5x‑MAU所得的软预测, 为教师模型
Resnet32的软标签;
[0088] 利用lr=0.001,bets=(0.9,0.999),eps=1‑8的Adam优化器和混合损失函数对学生模型ShuffletNet V2 0.5x‑MAU进行训练,借助梯度反向传播实现教师模型Resnet32暗
知识的传授及学生模型参数的更新;
[0089] 重复进行上述步骤,直至ShuffletNet V2 0.5x‑MAU模型的混合损失函数及分级准确率变化曲线趋于稳定,结束模型的训练。
[0090] S4:将测试集中待分级的茶叶嫩芽图像导入训练好的茶叶嫩芽分级模型,记录分级结果的各项指标及模型规格参数。
[0091] 实施例2
[0092] 参照图8~11为本发明另一个实施例,该实施例不同于第一个实施例的是,提供了一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法的验证测试,为对本方法中采用
的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科
学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0093] 采用传统复杂结构卷积神经网络进行茶叶嫩芽分级的方法,将需要大量数据来训练模型,而在实际应用中茶叶嫩芽图像稀缺,所建立数据集的规模也十分有限,故采用传统
方法易出现严重的过拟合现象,影响模型鲁棒性和分级性能,且复杂的结构也导致了模型
规格和所产生的计算负担较大,对硬件要求高,难以投入到实际应用之中。
[0094] 本发明基于ShuffleNet V2 0.5x网络融合所提出多尺度卷积块注意力模块和深度捷径构建用于茶叶嫩芽分级的模型:ShuffletNet V2 0.5x‑MAU,不但可以使模型聚焦有
利于分级的复杂特征并抑制无关特征,还可以从感知野和网络纵深两个角度提取有限数量
茶叶图像中丰富的多尺度特征用于模型训练,增强其处理小数据集的能力;提出一种结合
双迁移学习和知识蒸馏的模型训练策略,将教师模型和学生模型在两个大型数据集上预训
练后所习得的权重参数矩阵迁移至茶叶嫩芽分级问题,充分利用两个源域中的信息,使模
型抵抗过拟合的能力得到很大程度的提升。并借助教师模型暗知识的传递,在增强学生模
型分级能力和分级均衡性的同时也保证了轻量和高效性,满足实际应用需求。在最后的应
用阶段通过与FI‑DenseNet、Alter‑Second Model、AlexNet‑Camelia三种现有技术的比较,
所提方法以100%、92.70%、89.90%的各级准确率和94.19%的平均准确率,以及2.2196×
109次/秒的计算量、1.8269×106个的参数量和7.13MB的模型大小,在抗过拟合能力、分级
性能、分级均衡性、模型规格四个方面上表现出了最为优越的综合性能。
[0095] (1)本发明技术效果展示:
[0096] 如图8~9所示,在所提茶叶嫩芽分级模型的实际应用阶段,设置epoch=100,所提模型最佳准确率为94.94%,最低交叉熵损失值为0.1507。
[0097] (2)与现有技术对比:设置epoch=100,所提茶叶嫩芽分级模型最佳准确率为94.94%,最低交叉熵损失值为0.1507;FI‑DenseNet最佳准确率为91.57%,最低交叉熵损
失值为0.2226;Alter‑Second Model最佳准确率为80.15%,最低交叉熵损失值为0.4151;
AlexNet‑Camelia最佳准确率为92.88%,最低交叉熵损失值为0.6267;
[0098] 本发明方法与其他现有技术的准确率和交叉熵损失变化曲线如图10‑11所示,可见所提模型对应的变化曲线初段表现优异、震荡轻微,且最终分别以94.94%的最高分级准
确率和0.1507的最低交叉熵损失值快速完成收敛,表现出了所有对比模型中最佳的抗过拟
合和处理小样本数据的能力;观察表1,本发明以100%、92.7%、89.89%的各级分级准确率
和94.19%的平均分级分级准确率,表现出了远优于其余对比模型的分级性能和分级均匀
性;观察表2,训练所得茶叶嫩芽分级模型拥有所有模型中最小的计算量、参数量、大小,依
9 6
次仅为2.2196×10次/秒、1.8269×10个、7.13MB,依托最为轻量的模型规格,所提模型产
生的计算负担最小,便于直接加载到移动设备上,对设备要求最低,更利于投入到实际生产
之中。
[0099] 表1:本发明与其他现有技术间各级及平均分级准确率对比表。
[0100]
[0101]
[0102] 表2:本发明与其他现有技术间模型规格对比表。
[0103]
[0104] 应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术
方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发
明的权利要求范围当中。