一种基于观测矩阵变换维度的图像分类方法转让专利

申请号 : CN201811473410.2

文献号 : CN109657707B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 叶心汝王勇

申请人 : 浙江大学

摘要 :

本发明公开了一种基于观测矩阵变换维度的图像分类方法,包括:使用感知压缩对图像进行稀疏编码,得到低维度图像组成的数据集,将包含标签标注的数据集划分为训练集和测试集;构建包括输入层、隐含层与输出层的图像分类网络,所述隐含层为感知机单元;所述图像分类网络至少为两个,分别包含不同节点数感知机单元;将训练集作为输入,在标签的监督下进行训练,得到训练完成后对应的神经网络图像分类模型;使用测试集验证神经网络图像分类模型对图像分类的准确率,选择准确率最高的作为最终的神经网络图像分类模型;将待测图像输入,输出图像分类结果的预测概率。本发明提供的图像分类方法可以在不降低图像分类精度的条件下大大提升模型效率。

权利要求 :

1.一种基于观测矩阵变换维度的图像分类方法,包括以下步骤:(1)使用感知压缩对图像进行稀疏编码,感知压缩后的图像组成数据集,将包含标签标注的数据集划分为训练集和测试集;

所述使用感知压缩对图像进行稀疏编码的方法包括图像的稀疏表示、图像压缩采样和图像重构,所述的图像稀疏表示为:将原信号x在一组稀疏基Ψ上进行表示:

x = Ψs

其中,x为原信号,其大小为N×1,Ψ为一组稀疏基,s为稀疏系数;

所述图像压缩采样的过程为设定或选取一个观测矩阵,对图像进行感知测量,所述观测矩阵选自高斯分布的随机观测矩阵,图像压缩采样后的信号表示为:y=Θs

其中Θ=ΦΨ,Φ为观测矩阵或称测量基,大小为M×N;y的大小为M×1;

所述图像重构包括通过限制矩阵Θ满足有限等距性质,求解方程的最优解,得到重构后的原信号;

(2)构建包括输入层、隐含层与输出层的图像分类网络,所述隐含层为感知机单元;所述图像分类网络至少为两个,分别包含不同节点数感知机单元;

(3)将步骤(1)中的训练集作为输入,在标签的监督下,对步骤(2)构建的图像分类网络进行训练,得到训练完成后对应的神经网络图像分类模型;

(4)使用测试集验证神经网络图像分类模型对图像分类的准确率,选择准确率最高的神经网络图像分类模型作为最终的神经网络图像分类模型;

(5)将待测图像输入步骤(4)得到的最终的神经网络图像分类模型,输出图像分类结果的预测概率。

2.根据权利要求1所述的基于观测矩阵变换维度的图像分类方法,其特征在于,在步骤(2)中,构建六个图像分类网络:输入层以经过步骤(1)感知压缩的mnist手写数字图像作为输入;感知机单元的节点数为50-300,步长为50;输出层的节点个数为10,分别输出图像属于每个类别的预测概率,选取预测概率的最高值对应的类别作为预测结果;组成六个包含不同节点数的图像分类网络;

在步骤(3)中,训练完成后的图像分类网络所对应的神经网络图像分类模型为六个,其网络结构中感知机单元的节点数分别为50、100、150、200、250和300。

3.根据权利要求1或2所述的基于观测矩阵变换维度的图像分类方法,其特征在于,在图像分类网络的训练过程中,所述标签进行独热编码后转化为10×1的向量,通过前向后向传播算法对隐含层参数进行迭代调整。

4.根据权利要求3所述的基于观测矩阵变换维度的图像分类方法,其特征在于,使用测试集验证六个神经网络图像分类模型对图像分类的准确率,选择准确率最高的神经网络图像分类模型作为最终的神经网络图像分类模型。

5.根据权利要求4所述的基于观测矩阵变换维度的图像分类方法,其特征在于,所述最终的神经网络图像分类模型中,感知机单元的节点数为200。

说明书 :

一种基于观测矩阵变换维度的图像分类方法

技术领域

[0001] 本发明属于图像分类的技术领域,特别涉及一种基于观测矩阵变换维度的图像分类方法。

背景技术

[0002] 图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
[0003] 图像空间的分类方法—利用图像的灰度,颜色,纹理,形状,位置等底层特征对图像进行分类;例如:[1]利用灰度直方图特征对图像进行分类;[2] 利用纹理特征对图像进行分类;[3]采用纹理,边缘和颜色直方图混合特征对图像进行分类;[1],[2],[3]均采用SVM作为分类器。[4]用矩阵表示图像, 矩阵元素是相应象素的灰度值,然后用SVD和PCA方法抽取图像特征,BP 网络作为分类器。图像空间的分类方法的共同缺点是数据量大,计算复杂性高,但分类精度一般比较理想。
[0004] 特征空间的分类方法—首先将原图像经过某种变换如K-L变换,小波变换等变换到特征空间,然后在特征空间提取图像的高层特征以实现图像的分类。这类分类方法尤以纹理图像分类和遥感图像分类最多。特征空间的分类方法可降低数据维数,降低计算复杂性,但问题相关性较强,与特征提取的方法和效果有很大关系。
[0005] 传统的数字信号采样严格依照那奎斯特采样定律,即:为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍。普通的信号压缩首先对信号进行离散余弦变换或小波变换等处理,然后舍弃大量接近于0的系数,对少数绝对值较大的系数进行压缩编码。本质上来讲,采样和压缩对应数据的全部采集和部分丢弃。通过全采样后,数字信号的数据量比较大,一方面不利于存储和传输,另一方面该数字信号本身存在很多冗余。而目前在图像分类领域,随着输入数据与模型复杂度的增加,计算量日趋增加,模型调参训练与使用的效率不高。

发明内容

[0006] 本发明的目的在于提供一种基于观测矩阵变换维度的图像分类方法,应用于图像分类任务,可以在不降低图像分类精度的条件下大大提升模型效率。
[0007] 一种基于观测矩阵变换维度的图像分类方法,包括以下步骤:
[0008] (1)使用感知压缩对图像进行稀疏编码,感知压缩后的图像组成数据集,将包含标签标注的数据集划分为训练集和测试集;
[0009] (2)构建包括输入层、隐含层与输出层的图像分类网络,所述隐含层为感知机单元;所述图像分类网络至少为两个,分别包含不同节点数感知机单元;
[0010] (3)以步骤(1)中的训练集作为输入,在标签的监督下,对步骤(2) 构建的图像分类网络进行训练,得到训练完成后对应的神经网络图像分类模型;
[0011] (4)使用测试集验证神经网络图像分类模型对图像分类的准确率,选择准确率最高的神经网络图像分类模型作为最终的神经网络图像分类模型;
[0012] (5)以待测图像作为输入,步骤(4)得到的最终的神经网络图像分类模型输出图像分类结果的预测概率。
[0013] 在步骤(1)中,感知压缩为将高维信号投影成低维信号的过程,即,图像实现从高维到低维的映射。
[0014] 在步骤(1)中,所述使用感知压缩对图像进行稀疏编码的方法包括图像的稀疏表示、图像压缩采样和图像重构,所述的图像稀疏表示为:
[0015] 将原信号x在一组稀疏基Ψ上进行表示:
[0016] x=Ψs
[0017] 其中,x为原信号,其大小为N×1,Ψ为一组稀疏基,s为稀疏系数。
[0018] s是由投影稀疏组成的N×1的列向量,实际上x和s是同一个信号在不同域内的不同表示。
[0019] 所述图像压缩采样的过程为设定或选取一个观测矩阵,对图像进行感知测量,所述观测矩阵选自高斯分布的随机观测矩阵,图像压缩采样后的信号表示为:
[0020] y=Θs
[0021] 其中Θ=ΦΨ,Φ为观测矩阵或称测量基,大小为M×N;y的大小为M×1。
[0022] 图像压缩采样的具体过程如下所示:
[0023] y=Φx
[0024] 其中,Φ为观测矩阵或称测量基,其大小为M×N,对应采样的过程,将高维信号投影成低维信号;y为观测值,其大小为M×1,为亚采样后的结果;
[0025] 若x是可压缩的,将x=Ψs代入y=Φx,可得:
[0026] y=ΦΨs;
[0027] 令ΦΨ=Θ,可得:
[0028] y=Θs。
[0029] 观测矩阵为高斯分布的随机观测矩阵,满足有限等距性质,选择合适的测量矩阵会直接影响重构信号的质量。
[0030] 感知测量矩阵需满足有限等距性质(Restricted Isometry Property,RIP),而服从伯努利分布或高斯分布的矩阵则为普适观测矩阵,本发明选择服从高斯分布的随机观测矩阵。
[0031] 所述图像重构包括通过限制矩阵Θ满足有限等距性质,求解方程的最优解,得到重构后的原信号。
[0032] 在步骤(2)中,构建六个图像分类网络:
[0033] 输入层以经过步骤(1)感知压缩的mnist手写数字图像作为输入;感知机单元的节点数为50-300,步长为50;输出层的节点个数为10,分别输出图像属于每个类别的预测概率,选取预测概率的最高值对应的类别作为预测结果;组成六个包含不同节点数的图像分类网络;
[0034] 在步骤(3)中,训练完成后的图像分类网络所对应的神经网络图像分类模型为六个,其网络结构中感知机单元的节点数分别为50、100、150、 200、250和300。
[0035] 由于采用mnist手写数字图像作为实验数据,其图像内容为0至9共十类手写数字,因此输出层节点个数为10。
[0036] 在图像分类网络的训练过程中,所述标签进行独热编码后转化为10×1 的向量,通过前向后向传播算法对隐含层参数进行迭代调整。
[0037] 使用测试集验证六个神经网络图像分类模型对图像分类的准确率,选择准确率最高的神经网络图像分类模型作为最终的神经网络图像分类模型。
[0038] 所述最终的神经网络图像分类模型中,感知机单元的节点数为200。
[0039] 训练集和测试集的划分方法为将图片根据所述类别乱序排列后再进行划分,划分后的训练集和测试集中的数据分布(类别分布)相同。测试集用于检验神经网络图像分类模型的性能,如分类结果的准确率,为选择最终的神经网络图像分类模型提供依据。
[0040] 感知压缩也可称为压缩采样,其信号处理方式从采样开始有别于传统方法,感知压缩算法主张在一开始就对图像进行随机亚采样。假设图像具有稀疏性,则感知压缩算法能够在很大程度上对原有信息进行还原。也就是说,感知压缩提取了图像的关键特征。因此,本发明利用此优势将其用于图像分类预处理过程,减少模型输入的数据量与模型训练的计算量。
[0041] 与现有技术相比,本发明的有益效果体现在:本发明使用远低于奈奎斯特频率的采样频率,在采样的过程中就完成压缩,省略对无用信息的采样;可以在不降低图像分类精度的条件下大大提升模型效率,降低神经网络训练量和减少训练耗时。

附图说明

[0042] 图1为本发明提供的图像分类方法的流程图;
[0043] 图2为实施例中输入的图像;
[0044] 图3为六个神经网络图像分类模型的准确率分析结果。

具体实施方式

[0045] 下面将结合附图和实施例对本发明作进一步的说明。
[0046] 如图1所示,本实施例提供一种基于观测矩阵变换维度的图像分类方法,包括以下步骤:
[0047] (1)使用感知压缩对图像进行稀疏编码,得到低维度的图像组成的数据集,将包含标签标注的数据集划分为训练集和测试集,划分比例为8:2。
[0048] 使用感知压缩对图像进行稀疏编码的方法包括图像的稀疏表示、图像压缩采样和图像重构。
[0049] (1-1)图像稀疏表示为:
[0050] 将原信号x在一组稀疏基Ψ上进行表示:
[0051] x=Ψs
[0052] 其中,x为原信号,其大小为N×1,Ψ为一组稀疏基,s为稀疏系数。
[0053] s是由投影稀疏组成的N×1的列向量,实际上x和s是同一个信号在不同域内的不同表示。
[0054] (1-2)图像压缩采样的过程为设定或选取一个观测矩阵,对图像进行感知测量,观测矩阵为高斯分布的随机观测矩阵,过程如下所示:
[0055] y=Φx
[0056] 其中,Φ为观测矩阵或称测量基,其大小为M×N,对应采样的过程,将高维信号投影成低维信号;y为观测值,其大小为M×1,为亚采样后的结果;
[0057] 若x是可压缩的,将x=Ψs代入y=Φx,可得:
[0058] y=ΦΨs;
[0059] 令ΦΨ=Θ,可得:
[0060] y=Θs;
[0061] 观测矩阵为高斯分布的随机观测矩阵,满足有限等距性质,选择合适的测量矩阵会直接影响重构信号的质量。
[0062] 感知测量矩阵需满足有限等距性质(Restricted Isometry Property,RIP),而服从伯努利分布或高斯分布的矩阵则为普适观测矩阵,本发明选择服从高斯分布的随机观测矩阵。
[0063] (1-3)图像重构包括通过限制矩阵Θ满足有限等距性质,求解方程的最优解,得到重构后的原信号。
[0064] 本实施例使用的原始数据集为mnist数据集。该数据集是一个数字手写识别领域的标准评测数据集,数据库大小是60000,一共包含10类阿拉伯数字,每类提供5000张图像进行训练,1000张进行测试。mnist的图像大小为28×28,即784维,所有图像手写数字,存在较大的形变。数据集的部分图像如图2所示。
[0065] (2)构建包括输入层、隐含层与输出层的图像分类网络,所述隐含层为感知机单元。
[0066] 构建六个包括不同节点数的图像分类网络,输入层以经过步骤(1) 感知压缩的mnist手写数字图像作为输入;感知机单元的节点数分别为 50、100、150、200、250和300,输出层的节点个数为10,分别输出图像属于每个类别的预测概率,选取预测概率的最高值对应的类别作为预测结果。
[0067] 具体地,采用matlab神经网络构建工具完成基础架构的神经网络。通过matlab的nntool工具对神经网络类型和隐含层的层数和节点数、隐含层及输出层的训练函数进行设置。
[0068] (3)以步骤(1)中的训练集作为输入,在标签的监督下,对步骤(2) 构建的图像分类网络进行训练,得到训练完成后对应的神经网络图像分类模型。
[0069] 在图像分类网络的训练过程中,所述标签进行独热编码后转化为10×1 的向量,通过前向后向传播算法对隐含层参数进行迭代调整。得到训练完成后的图像分类网络所对应的六个神经网络图像分类模型。
[0070] (4)使用测试集验证六个神经网络图像分类模型对图像分类的准确率,选择准确率最高的神经网络图像分类模型作为最终的神经网络图像分类模型。
[0071] 验证结果如图3所示,图3中横坐标为神经网络的神经元数,纵坐标为图片分类准确率。由图3可知,随着神经元数量的增加,模型的复杂度增加,图像分类的准确率在神经元数量为30到100的范围内极速增加,在神经元数大于150后趋于稳定。
[0072] 图3为本实施例提供的图像分类方法与传统方法(未经过图像压缩的图像分类方法)的分类准确率比较,由图3可知,在大部分情况下,经过感知压缩,会使图像分类准确率降低,神经元数为200时,两者准确率相等。可知,可通过调整模型复杂度使得图片经过感知压缩达到原有的准确率。
[0073] 因此,选择感知机单元的节点数为200的神经网络图像分类模型作为最终的神经网络图像分类模型。
[0074] (5)以待测图像作为输入,步骤(4)得到的最终的神经网络图像分类模型输出图像分类结果的预测概率。
[0075] 对本实施例的图像分类网络的训练时长进行了进一步分析,在训练时长方面,未经过感知压缩的图片分类任务总耗时784.819s,而经过感知压缩,图片的大小大大降低,模型运算量也大大降低,以致训练时间降为 247.182s。可见,通过图像感知压缩,能够完成预期目标:在保证图像分类准确率的情况下,降低神经网络训练量,从而减少训练耗时。