基于神经网络的图像处理方法、装置和电子设备转让专利

申请号 : CN201610849620.1

文献号 : CN106548192B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王晓刚王哲李鸿升欧阳万里

申请人 : 北京市商汤科技开发有限公司

摘要 :

本发明实施例公开了一种基于神经网络的图像处理方法、装置和电子设备,其中,图像处理方法包括:获取待处理图像中的各样本的外观特征信息;根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类型中每一类的概率;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;将所述语义统计向量与所述每个样本的外观特征信息进行拼接;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。本发明实施例可以提高神经网络对图像数据解释的准确性。

权利要求 :

1.一种基于神经网络的图像处理方法,其特征在于,包括:

获取待处理图像中的各样本的外观特征信息;

根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率;

根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;

将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。

2.根据权利要求1所述的方法,其特征在于,所述待处理图像中的各样本包括:待处理图像中的各像素或者待处理图像中的各检测框。

3.根据权利要求2所述的方法,其特征在于,所述获取待处理图像中的各样本的外观特征信息的步骤包括:利用VGG卷积神经网络层获取待处理图像中的各像素的外观特征信息;或者利用Faster-具有区域的卷积神经网络RCNN中的区域建议网络RPN层针对待处理图像产生多个检测框,并利用Faster-RCNN中的Fast-RCNN检测器网络层抽取出各检测框的外观特征信息。

4.根据权利要求3所述的方法,其特征在于,所述根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率的步骤包括:利用VGG卷积神经网络层中的卷积核为1×1的卷积层针对所述各像素的外观特征信息产生第一中间阶段各像素属于每一类的概率;或者利用Faster-RCNN中的Fast-RCNN检测器网络层针对其抽取出的各检测框的外观特征信息产生第一中间阶段各检测框属于每一类的概率。

5.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述每一类的各概率区间的概率取值范围是通过所述基于神经网络的图像处理方法学习获得的。

6.根据权利要求1至4中任一权利要求所述的方法,其特征在于,不同类具有的概率区间的数量相同,且所有类的概率区间的概率取值范围并未采用完全相同的概率取值范围。

7.根据权利要求5所述的方法,其特征在于,不同类具有的概率区间的数量相同,且所有类的概率区间的概率取值范围并未采用完全相同的概率取值范围。

8.根据权利要求1至4中任一权利要求所述的方法,其特征在于,同一类的相邻的两个概率区间的概率取值范围存在相交的子集。

9.根据权利要求5所述的方法,其特征在于,同一类的相邻的两个概率区间的概率取值范围存在相交的子集。

10.根据权利要求6所述的方法,其特征在于,同一类的相邻的两个概率区间的概率取值范围存在相交的子集。

11.根据权利要求7所述的方法,其特征在于,同一类的相邻的两个概率区间的概率取值范围存在相交的子集。

12.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

13.根据权利要求5所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

14.根据权利要求6所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

15.根据权利要求7所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

16.根据权利要求8所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

17.根据权利要求9所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

18.根据权利要求10所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

19.根据权利要求11所述的方法,其特征在于,所述根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于预定类别中每一类的概率进行语义统计的步骤包括:针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

针对第一中间阶段所有样本属于每一类的概率确定出的所有权重值进行统计,以获得语义统计向量。

20.根据权利要求12所述的方法,其特征在于,所述各概率区间的概率取值范围使用概率区间的区间中心和概率区间的区间宽度的二分之一表示。

21.根据权利要求20所述的方法,其特征在于,第一中间阶段第x个样本属于第k类的概率相对于第k类的各概率区间的概率取值范围的权重值包括:取0和第一值之间的最大值,所述第一值包括:1与第二值之差,且所述第二值包括:第x个样本属于第k类的概率与第k类的第b个概率区间的区间中心之差的绝对值与第k类的第b个概率区间的区间宽度的二分之一的乘积,0

22.根据权利要求21所述的方法,其特征在于,所述第x个样本属于第k类的概率与第k类的第b个概率区间的区间中心之差的运算通过第一卷积层实现,第一卷积层包括:B个卷积层,第一卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为第k类的第b个概率区间的区间中心的负值,第一卷积层中的每个卷积层的卷积核为固定单位向量,第一卷积层中的每个卷积层的卷积核的第c个位置为:1或者0,且在c为k时,第一卷积层中的每个卷积层的卷积核的第c个位置为1,否则,第一卷积层中的每个卷积层的卷积核的第c个位置为0,

0

23.根据权利要求22所述的方法,其特征在于,所述第一卷积层的各卷积核的非零项与各卷积核的偏移量的各通道不共享。

24.根据权利要求21所述的方法,其特征在于,所述1与第二值之差运算通过第二卷积层实现,所述第二卷积层包括:K×B个卷积层,第二卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为1,第二卷积层中的每个卷积层的卷积核为缩放单位向量,第二卷积层中的每个卷积层的卷积核的第c个位置为:第k类的第b个概率区间的区间宽度的二分之一或者0,且在c为(k-1)B+k时,第二卷积层中的每个卷积层的卷积核的第c个位置为第k类的第b个概率区间的区间宽度的二分之一,否则,第二卷积层中的每个卷积层的卷积核的第c个位置为0,0

25.根据权利要求22所述的方法,其特征在于,在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

26.根据权利要求23所述的方法,其特征在于,在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

27.根据权利要求24所述的方法,其特征在于,在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

28.根据权利要求21所述的方法,其特征在于,所述取0和第一值之间的最大值运算通过校正线性单元ReLU层实现。

29.根据权利要求21所述的方法,其特征在于,所述针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行统计的步骤包括:针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行全局平均池化运算,以获得语义统计向量。

30.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

31.根据权利要求6所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

32.根据权利要求7所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

33.根据权利要求12所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

34.根据权利要求20所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

35.根据权利要求25所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

36.根据权利要求28所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

37.根据权利要求29所述的方法,其特征在于,所述将所述语义统计向量与所述每个样本的外观特征信息进行拼接的步骤包括:对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量,将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;或者将所述语义统计向量与所述每个样本的外观特征信息进行拼接,并对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

38.根据权利要求30所述的方法,其特征在于,所述对语义统计向量进行线性可分处理的步骤包括:对语义统计向量进行全连接处理,以获得线性可分的语义统计向量;

或者

所述对拼接后的每个样本的外观特征信息进行线性可分处理的步骤包括:对拼接后的每个样本的外观特征信息进行全连接处理,以获得线性可分的每个样本的外观特征信息。

39.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

40.根据权利要求6所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

41.根据权利要求7所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

42.根据权利要求12所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

43.根据权利要求20所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

44.根据权利要求25所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

45.根据权利要求28所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

46.根据权利要求29所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

47.根据权利要求30所述的方法,其特征在于,所述根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的步骤包括:将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,并根据所述卷积层输出的信息确定第二中间阶段各样本属于每一类的概率。

48.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述方法还包括:针对图像中的任意一个样本而言,根据第一中间阶段该样本属于每一类的概率和第二中间阶段该样本属于每一类的概率的平均值确定该样本最终属于每一类的概率。

49.根据权利要求1至4中任一权利要求所述的方法,其特征在于,所述方法还包括:根据各样本最终属于每一类的概率对所述待处理图像进行图像分割、物体检测或者图像识别处理。

50.一种基于神经网络的图像处理装置,其特征在于,包括:

获取外观特征模块,用于获取待处理图像中的各样本的外观特征信息;

确定第一阶段概率模块,用于根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率;

语义统计层,用于根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;

拼接模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

确定第二阶段概率模块,用于根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。

51.根据权利要求50所述的装置,其特征在于,所述待处理图像中的各样本包括:待处理图像中的各像素或者待处理图像中的各检测框。

52.根据权利要求51所述的装置,其特征在于,所述获取外观特征模块包括:VGG卷积层,用于利用VGG卷积神经网络层获取待处理图像中的各像素的外观特征信息;或者Faster-RCNN层,用于利用Faster-具有区域的卷积神经网络RCNN中的区域建议网络RPN层针对待处理图像产生多个检测框,并利用Faster-RCNN中的Fast-RCNN检测器网络层抽取出各检测框的外观特征信息。

53.根据权利要求52所述的装置,其特征在于,所述确定第一阶段概率模块包括:VGG卷积层,用于利用VGG卷积神经网络层中的卷积核为1×1的卷积层针对所述各像素的外观特征信息产生第一中间阶段各像素属于每一类的概率;或者Fast-RCNN检测器网络层中的概率产生模块,用于利用Faster-RCNN中的Fast-RCNN检测器网络层针对其抽取出的各检测框的外观特征信息产生第一中间阶段各检测框属于每一类的概率。

54.根据权利要求50至53中任一权利要求所述的装置,其特征在于,所述每一类的各概率区间的概率取值范围是通过所述基于神经网络的图像处理装置学习获得的。

55.根据权利要求50至53中任一权利要求所述的装置,其特征在于,不同类具有的概率区间的数量相同,且所有类的概率区间的概率取值范围并未采用完全相同的概率取值范围。

56.根据权利要求54所述的装置,其特征在于,不同类具有的概率区间的数量相同,且所有类的概率区间的概率取值范围并未采用完全相同的概率取值范围。

57.根据权利要求50至53中任一权利要求所述的装置,其特征在于,同一类的相邻的两个概率区间的概率取值范围存在相交的子集。

58.根据权利要求50至53中任一权利要求所述的装置,其特征在于,所述语义统计层包括:确定权重值子模块,用于针对第一中间阶段任意一个样本属于任意一类的概率而言,确定该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且确定出的各权重值均为非负且非零的权重值;

统计权重值子模块,用于针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行统计,以获得语义统计向量。

59.根据权利要求58所述的装置,其特征在于,所述各概率区间的概率取值范围使用概率区间的区间中心和概率区间的区间宽度的二分之一表示。

60.根据权利要求59所述的装置,其特征在于,所述确定权重值子模块确定第一中间阶段第x个样本属于第k类的概率相对于第k类的各概率区间的概率取值范围的权重值的方式包括:取0和第一值之间的最大值,所述第一值包括:1与第二值之差,且所述第二值包括:第x个样本属于第k类的概率与第k类的第b个概率区间的区间中心之差的绝对值与第k类的第b个概率区间的区间宽度的二分之一的乘积,0

61.根据权利要求60所述的装置,其特征在于,所述确定权重值子模块包括:第一卷积层,用于实现第x个样本属于第k类的概率与第k类的第b个概率区间的区间中心之差的运算,第一卷积层包括:B个卷积层,第一卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为第k类的第b个概率区间的区间中心的负值,第一卷积层中的每个卷积层的卷积核为固定单位向量,第一卷积层中的每个卷积层的卷积核的第c个位置为:1或者0,且在c为k时,第一卷积层中的每个卷积层的卷积核的第c个位置为1,否则,第一卷积层中的每个卷积层的卷积核的第c个位置为0,0

62.根据权利要求61所述的装置,其特征在于,所述第一卷积层的各卷积核的非零项与各卷积核的偏移量的各通道不共享。

63.根据权利要求60所述的装置,其特征在于,所述确定权重值子模块包括:第二卷积层,用于实现1与第二值之差运算;

所述第二卷积层包括:K×B个卷积层,第二卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为1,第二卷积层中的每个卷积层的卷积核为缩放单位向量,第二卷积层中的每个卷积层的卷积核的第c个位置为:第k类的第b个概率区间的区间宽度的二分之一或者0,且在c为(k-1)B+k时,第二卷积层中的每个卷积层的卷积核的第c个位置为第k类的第b个概率区间的区间宽度的二分之一,否则,第二卷积层中的每个卷积层的卷积核的第c个位置为

0,0

64.根据权利要求61所述的装置,其特征在于,所述确定权重值子模块在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

65.根据权利要求62所述的装置,其特征在于,所述确定权重值子模块在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

66.根据权利要求63所述的装置,其特征在于,所述确定权重值子模块在学习每一类的各概率区间的概率取值范围的过程中,锁住第一卷积层的各卷积核以及第二卷积层的各卷积核,且仅对第一卷积层的各卷积核以及第二卷积层的各卷积核中的非零项进行更新。

67.根据权利要求60所述的装置,其特征在于,所述确定权重值子模块包括:ReLU层,用于实现取0和第一值之间的最大值运算。

68.根据权利要求60所述的装置,其特征在于,所述统计权重值子模块包括:全局平均池化运算层,用于针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行全局平均池化运算,以获得语义统计向量。

69.根据权利要求50至53中任一权利要求所述的装置,其特征在于,所述拼接模块包括:第一线性处理子模块,用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量;

第一拼接子模块,用于将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;

或者所述拼接模块包括:

第二拼接子模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

第二线性处理子模块,用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

70.根据权利要求54所述的装置,其特征在于,所述拼接模块包括:第一线性处理子模块,用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量;

第一拼接子模块,用于将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;

或者所述拼接模块包括:

第二拼接子模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

第二线性处理子模块,用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

71.根据权利要求55所述的装置,其特征在于,所述拼接模块包括:第一线性处理子模块,用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量;

第一拼接子模块,用于将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;

或者所述拼接模块包括:

第二拼接子模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

第二线性处理子模块,用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

72.根据权利要求57所述的装置,其特征在于,所述拼接模块包括:第一线性处理子模块,用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量;

第一拼接子模块,用于将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;

或者所述拼接模块包括:

第二拼接子模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

第二线性处理子模块,用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

73.根据权利要求58所述的装置,其特征在于,所述拼接模块包括:第一线性处理子模块,用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量;

第一拼接子模块,用于将所述线性可分的语义统计向量与所述每个样本的外观特征信息进行拼接;

或者所述拼接模块包括:

第二拼接子模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;

第二线性处理子模块,用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。

74.根据权利要求69所述的装置,其特征在于,所述第一线性处理子模块或者第二线性处理子模块具体为全连接层;

所述全连接层对语义统计向量进行全连接处理,以获得线性可分的语义统计向量;或者所述全连接层对拼接后的每个样本的外观特征信息进行全连接处理,以获得线性可分的每个样本的外观特征信息。

75.根据权利要求60所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

76.根据权利要求63所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

77.根据权利要求67所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

78.根据权利要求68所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

79.根据权利要求69所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

80.根据权利要求74所述的装置,其特征在于,所述确定第二阶段概率模块包括:卷积核为1×1的卷积层,用于对接收到的拼接后的每个样本的外观特征信息进行处理,所述卷积层输出的信息用于确定第二中间阶段各样本属于每一类的概率。

81.根据权利要求50至53中任一权利要求所述的装置,其特征在于,所述装置还包括:计算平均值模块,用于针对图像中的任意一个样本而言,根据第一中间阶段该样本属于每一类的概率和第二中间阶段该样本属于每一类的概率的平均值确定该样本属于每一类的概率。

82.根据权利要求50至53中任一权利要求所述的装置,其特征在于,所述装置还包括:图像处理模块,用于根据各样本最终属于每一类的概率对所述待处理图像进行图像分割、物体检测或者图像识别处理。

83.一种数据处理装置,其特征在于,包括:

权利要求50至82任意一项所述的基于神经网络的图像处理装置。

84.一种电子设备,其特征在于,设置有权利要求83所述的数据处理装置。

说明书 :

基于神经网络的图像处理方法、装置和电子设备

技术领域

[0001] 本发明涉及机器学习技术,尤其是一种基于神经网络的图像处理方法、基于神经网络的图像处理装置、数据处理装置以及电子设备。

背景技术

[0002] 深度学习是机器学习研究中的一个新的领域。深度学习的动机包括:建立和模拟人脑进行分析学习的神经网络(如DNN,深度神经网络,Deep Neural Networks),使神经网络可以模仿人脑的机制来解释数据,如解释图像数据、声音数据以及文本数据等。
[0003] 现有的神经网络通常是基于非统计特征来实现图像数据解释的,即神经网络针对输入图像进行特征提取,从而获得输入图像的非统计特征,之后神经网络通过对其获得的非统计特征进行相应的处理,以实现图像数据解释。
[0004] 在实现本发明的过程中,发明人发现,神经网络对图像数据解释的准确性是一个值得关注的焦点问题,现有的神经网络对图像数据解释的准确性有待于进一步提高。

发明内容

[0005] 本发明实施例提供一种图像处理技术方案。
[0006] 根据本发明实施例的一个方面,提供的一种基于神经网络的图像处理方法,包括:获取待处理图像中的各样本的外观特征信息;根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;将所述语义统计向量与所述每个样本的外观特征信息进行拼接;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。
[0007] 根据本发明实施例的另一个方面,提供的一种基于神经网络的图像处理装置,包括:获取外观特征模块,用于获取待处理图像中的各样本的外观特征信息;确定第一阶段概率模块,用于根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率;语义统计层,用于根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;拼接模块,用于将所述语义统计向量与所述每个样本的外观特征信息进行拼接;确定第二阶段概率模块,用于根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。
[0008] 根据本发明实施例的又一个方面,提供的一种数据处理装置,包括:上述任一实施例所述的基于神经网络的图像处理装置。
[0009] 根据本发明实施例的再一个方面,提供的一种电子设备,设置有上述任一实施例所述的数据处理装置。
[0010] 根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:获取待处理图像中的各样本的外观特征信息的指令;根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率的指令;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量的指令;将所述语义统计向量与所述每个样本的外观特征信息进行拼接的指令;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的指令,其中的第二中间阶段各样本属于每一类的概率用于确定各样本最终属于每一类的概率。
[0011] 根据本发明实施例的再一个方面,提供一种电子设备,包括:
[0012] 存储器,存储可执行指令;
[0013] 一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明任一实施例的图像处理方法对应的操作。
[0014] 基于本发明上述实施例提供的基于神经网络的图像处理方法、基于神经网络的图像处理装置、数据处理装置以及电子设备,本发明通过利用神经网络来对待处理图像进行处理,且本发明在对待处理图像的处理过程中引入了语义统计向量,并将语义统计向量与每个样本的外观特征信息进行拼接,使拼接后的样本的外观特征信息能够与实际情况更相符,使神经网络能够将非统计特征和统计特征联合优化,这样,在利用拼接后的样本的外观特征信息来确定第二中间阶段各样本属于每一类的概率时,可以使第二中间阶段各样本属于每一类的概率更具有合理性,进而在利用第二中间阶段各样本属于每一类的概率进行后续的图像处理时,有利于提高图像数据解释的准确性;由此可知,本发明能够提高神经网络对图像数据解释的准确性。
[0015] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

[0016] 构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
[0017] 参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
[0018] 图1为本发明方法一个实施例的流程图;
[0019] 图2A为本发明的确定概率区间的权重值的示意图;
[0020] 图2B为本发明的一个概率区间的示意图;
[0021] 图2C为本发明的直方图向量示意图;
[0022] 图3为本发明另一个方法实施例的流程图;
[0023] 图4为本发明的方法的一个具体应用的示意图;
[0024] 图5为本发明再一个方法实施例的流程图;
[0025] 图6为本发明的可学习的语义统计层的处理流程示意图;
[0026] 图7为本发明装置一个实施例的结构示意图。

具体实施方式

[0027] 现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0028] 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0029] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0030] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0031] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0032] 本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
[0033] 计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
[0034] 本发明是利用神经网络来对图像进行处理的,且本发明通过在神经网络中引入语义统计向量(如语义统计直方图向量或者语义统计饼状图向量或者语义统计甜甜圈图向量或者语义统计气泡图向量等),使神经网络将非统计特征(即待处理图像中的各样本的外观特征信息)和统计特征进行了联合优化,从而有利于提高本发明的神经网络对图像数据解释的准确性。下面结合具体的实施例对本实施例的图像处理的技术方案进行说明。
[0035] 实施例一、基于神经网络的图像处理方法。
[0036] 图1为本发明实施例一的方法流程图。如图1所示,本实施例的方法主要包括:步骤S100、步骤S110、步骤S120、步骤S130以及步骤S140。下面对图1中的各步骤分别进行说明。
[0037] S100、获取待处理图像中的各样本的外观特征信息。
[0038] 作为示例,本实施例的待处理图像通常为通过图像采集设备摄取的图像,当然,待处理图像也可以为绘制的图像等。
[0039] 在本发明的方法应用在对神经网络的图像处理能力的训练(即神经网络训练)过程中时,该待处理图像通常为图像样本集合中的图像样本。而在本发明的方法应用于实际的图像处理过程中时,该待处理图像通常为通过图像采集设备实时摄取的图像。
[0040] 作为示例,本实施例的待处理图像中的样本可以具体为待处理图像中的像素,也可以具体为待处理图像中的检测框。在待处理图像中的样本为检测框的情况下,本实施例中的待处理图像中的检测框可以为利用现有的Faster-RCNN(Faster-Regions with Convolutional Neural Network,具有区域的卷积神经网络)中的RPN(Region Proposal Network,区域建议网络)层等方式针对待处理图像而产生的多个检测框;本实施例不限制针对待处理图像产生检测框的具体实现方式。
[0041] 作为示例,本实施例可以利用现有的卷积神经网络获取图像中的各样本的外观特征信息;一个具体的例子,在待处理图像中的样本为待处理图像中的像素的情况下,本实施例可以利用VGG(Visual Geometry Group)卷积神经网络层获取待处理图像中的各像素的外观特征信息,即将待处理图像作为VGG卷积神经网络层的输入信息,VGG卷积神经网络层可以针对输入的待处理图像生成与该待处理图像具有相同分辨率的外观特征图,其生成的外观特征图即为待处理图像中的各像素的外观特征信息;另一个具体的例子,在待处理图像中的样本为待处理图像中的检测框的情况下,本实施例可以利用Faster-RCNN获取图像中的各检测框的外观特征信息,即将待处理图像作为Faster-RCNN中的RPN层的输入信息,Faster-RCNN中的RPN层可以针对待处理图像产生多个检测框,而Faster-RCNN中的Fast-RCNN检测器网络层可以抽取出RPN层所产生的各检测框的外观特征信息。本实施例不限制获取待处理图像中的各样本的外观特征信息的具体实现方式。另外,本实施例中的外观特征信息可以具体为外观特征图(Appearance Feature Maps)等。
[0042] 需要特别说明的是,在本实施例的方法应用在对神经网络的图像处理能力的训练过程中时,本实施例中的待处理图像通常为经过人工标注过的图像样本,如图像样本中的各像素或者各检测框所属的类(如所属类的概率值)已由人工标注出来,利用标注过的图像样本进行神经网络的训练,有利于提高神经网络对图像数据解释的准确性,如在训练过程中,通过将训练的结果与人工标注出的信息进行对比,在对比结果满足预定准确性要求时,可以认为训练完成,而在对比结果不满足准确性要求时,可以通过调整相应的参数(如各卷积神经网络层中的参数等)继续进行训练,直到训练的结果满足预定准确性要求。另外,本实施例通常会采用在待处理图像中的各样本的外观特征信息上施加监督信号的方式对神经网络的图像处理能力进行训练。
[0043] S110、根据各样本的外观特征信息确定第一中间阶段各样本属于每一类的概率,其中的第一中间阶段也可以称为第一阶段。
[0044] 作为示例,本实施例预先设置有多个类,且每个类所表示的具体内容通常与本实施例的图像处理方法实际应用的场景相关,如在本实施例的图像处理方法应用于自动驾驶领域中的情况下,本实施例中的类通常可以表示行人、车辆、交通指示灯或者路牌等。本实施例不限制类的数量以及类所表示的具体内容,然而,显而易见的是,所有类所表示的具体内容应尽可能多的覆盖图像处理方法所应用的场景涉及到的事物,以使本实施例的方法在实际应用(如安防控制应用以及智能视频监控应用等)时能够对图像数据进行准确解释。
[0045] 作为示例,本实施例可以利用现有的卷积神经网络确定出待处理图像中的各样本分别属于每一类的概率,由于本步骤中确定出的各样本分别属于每一类的概率并不是最终确定出的各样本分别属于每一类的概率,因此,本步骤确定出的各样本分别属于每一类的概率可以称为第一中间阶段各样本属于每一类的概率或者第一阶段各样本属于每一类的概率。
[0046] 本实施例利用现有的卷积神经网络确定出待处理图像中的各样本分别属于每一类的概率的一个具体的例子:在待处理图像中的样本为待处理图像中的像素的情况下,本实施例可以利用VGG卷积神经网络层对待处理图像中的各像素的外观特征信息进行判断处理,以确定第一中间阶段各像素属于每一类的概率,也就是说,将待处理图像中的各像素的外观特征信息作为卷积核大小为1×1的VGG卷积神经网络层的输入信息,该卷积核大小为1×1的VGG卷积神经网络层会针对每一个像素均输出一个K维向量,一个K维向量即为其预测出的第一中间阶段一个像素分别属于K个类的概率,其中的K为类的总数量。另一个具体的例子,在待处理图像中的样本为待处理图像中的检测框的情况下,本实施例可以利用Faster-RCNN中的Fast-RCNN检测器网络层对待处理图像中的各检测框的外观特征信息进行判断处理,以确定第一中间阶段各检测框属于每一类的概率,也就是说,Fast-RCNN检测器网络层在抽取出RPN层所产生的各检测框的外观特征信息后,Fast-RCNN检测器网络层还可以针对其抽取出的每一个检测框的外观特征信息分别进行预测,从而为每一个检测框形成一个K维向量并输出,一个K维向量即为其预测出的第一中间阶段一个检测框分别属于K个类的概率,其中的K为类的总数量。
[0047] 由上述两个具体的例子的描述可知,在待处理图像具有M个样本(如M个像素或者M个检测框),且本实施例预先设置的类的总数量为K的情况下,本实施例可以根据M个样本的外观特征信息获得M个K维向量,且一个K维向量表示一个样本分别属于K个类的概率。
[0048] 作为示例,本实施例所获得的第一中间阶段各样本属于每一类的概率主要用于进行语义统计,以获得待处理图像针对所有类的语义统计向量。当然,本实施例的第一中间阶段各样本属于每一类的概率还可以用于其他方面,如本实施例可以将第一中间阶段各样本属于每一类的概率与第二中间阶段各样本属于每一类的概率结合起来,以确定待处理图像中的各样本最终属于每一类的概率。
[0049] S120、根据每一类的各概率区间的概率取值范围对第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量。
[0050] 具体的,本实施例预先为每一类分别设置了多个概率区间,且为不同类设置的概率区间的数量通常相同,即不同类具有的概率区间的数量相同,以使概率分布较为合理,提高图像数据解释的准确性;如本实施例为每一类均设置了6个概率区间。
[0051] 本实施例中的每一个概率区间均具有一个概率取值范围,且每一个概率区间均具有各自的概率取值范围,一个具体的例子,在每个类均具有6个概率区间的情况下,其中一个类的这6个概率区间的概率取值范围可以分别为:0-0.2、0-0.4、0.2-0.6、0.4-0.8、0.6-1以及0.8-1,其中另一个类的这6个概率区间的概率取值范围可以分别为:0-0.3、0-0.6、0.3-0.7、0.6-0.9、0.6-1以及0.9-1。由上述两个具体的例子可知,本实施例中的任意一个类的所有概率区间中的不同概率区间的概率取值范围可以具有相交的子集,且本实施例为不同类所设置的概率区间的概率取值范围可以不相同,也就是说,本实施例中的任意一个类的所有概率区间的概率取值范围与另一个类的所有概率区间的概率取值范围通常并不完全相同;当然,本实施例并不排除任意一个类的所有概率区间的概率取值范围与某一个类的所有概率区间的概率取值范围完全相同的可能性,然而,任意一个类的所有概率区间的概率取值范围不会与其他所有类的各概率区间的概率取值范围均完全相同,以避免完全相同的概率取值范围不能灵活的适应不同情况的现象。
[0052] 作为示例,本实施例中的概率区间的概率取值范围可以使用区间中心和区间宽度的二分之一来表示,该区间宽度的二分之一通常为区间中心与区间边界值的差值的绝对值。当然,本实施例中的概率区间的概率取值范围也可以使用其他方式来表示,如使用概率区间的两个区间边界值来表示等。
[0053] 作为示例,本实施例中的每一个类的各概率区间的概率取值范围均可以通过对基于神经网络的图像处理的训练获得,也就是说,本实施例可以通过学习方式获得每一个类的各概率区间的概率取值范围;一个具体的例子,在本实施例针对图像样本进行基于神经网络的图像处理训练的过程中,本实施例可以根据每次对图像样本的处理结果与预期的处理结果的差异来调整相应类的相应概率区间的概率取值范围,在本实施例对大量的图像样本的处理结果均符合预期的处理结果时,可以认为成功完成了基于神经网络的图像处理的训练过程,从而本实施例通过训练能够学习到所有类的概率区间的概率取值范围。在基于神经网络的图像处理训练过程中,本实施例可以利用现有的调整方式来调整各概率区间的概率取值范围(如利用随机梯度下降法调整各概率区间的概率取值范围),其具体的调整过程在此不再详细说明。
[0054] 作为示例,本实施例的根据第一中间阶段每一类的各概率区间的概率取值范围对图像中的各样本属于每一类的概率进行语义统计的一个具体例子为:首先,针对待处理图像的第一中间阶段任意一个样本(下述以第x个样本为例进行说明)属于任意一类(下述以第k类为例进行说明)的概率而言,计算第一中间阶段第x个样本属于第k类的概率分别相对于第k类的各概率区间(如6个概率区间)的概率取值范围的权重值,且计算出的6个概率区间的权重值通常均为非负且非零的权重值;利用上述方法可以针对待处理图像的第一中间阶段每一个样本属于每一个类的概率分别计算出6个权重值;其次,在针对待处理图像的第一中间阶段每一个样本属于每一个类的概率均计算出权重值的情况下,即可实现对计算出的所有权重值的语义统计处理,从而获得待处理图像的语义统计向量(如语义统计直方图向量等,且语义统计直方图向量也可以称为语义统计直方图特征向量)。
[0055] 一个更为具体的例子:本实施例可以利用下述公式(1)计算待处理图像的第一中间阶段的第x个样本属于第k类的概率相对于第k类的各概率区间的概率取值范围的权重值,下述公式(1)为逐段线性的基函数;
[0056] Ψk,b(xk)=max{0,1-|xk-uk,b|×wk,b}  公式(1)
[0057] 在公式(1)中,xk表示待处理图像的第一中间阶段的第x个样本属于第k类的概率,Ψk,b(xk)表示待处理图像的第一中间阶段的第x个样本属于第k类的概率在第k类的第b个概率区间的权重值,max{0,*}表示取0和*这两者之间的最大值,uk,b表示第k类的第b个概率区间的区间中心,wk,b表示第k类的第b个概率区间的区间宽度的二分之一,即第b个概率区间的区间中心与第b个概率区间的区间边界值的差值的绝对值,0
[0058] 在语义统计向量为语义统计直方图向量的情况下,设定第A类包括六个的概率区间,这六个概率区间的概率取值范围分别为:0-0.2、0-0.4、0.2-0.6、0.4-0.8、0.6-1以及0.8-1(如图2A所示),如果第x个样本属于第A类的概率位于0.4-0.6之间,即0.44个概率区间对应的直方图中(如图2C所示)。
[0059] 另外,由上述公式(1)可知,本实施例所计算出的待处理图像的第一中间阶段第x个样本属于第k类的概率相对于第k类的各概率区间的概率取值范围的权重值一定为非负且非零的权重值。
[0060] 利用上述公式(1),本实施例可以计算出待处理图像的第一中间阶段任意一个样本属于任意一类的概率相对于该类的各概率区间的概率取值范围的权重值。
[0061] 需要特别说明的是,上述公式(1)仅仅为一个示例,本实施例也可以利用其他方法获得待处理图像的第一中间阶段任意一个样本属于任意一类的概率相对于该类的各概率区间的概率取值范围的权重值,本实施例并不限制获得待处理图像的第一中间阶段任意一个样本属于任意一类的概率相对于该类的各概率区间的概率取值范围的权重值的具体实现方式。另外,由于上述公式(1)位逐段线性的基函数,可以实现误差的后向传递,因此,在本实施例的方法应用在对神经网络的图像处理能力的训练过程中时,可以通过学习获得设置更为合理的uk,b和wk,b。
[0062] 作为示例,在预先设置有K个类,且每个类均设置有B个概率区间的情况下,本实施例所获得的语义统计向量为K×B维向量。
[0063] 作为示例,本实施例可以利用现有的卷积神经网络来实现针对概率的语义统计处理,如上述公式(1)可以通过B个卷积核大小为1×1,且偏移量为-uk,b的卷积层以及K×B个卷积核大小为1×1且偏移量为1的卷积层来实现。实现概率的语义统计的卷积神经网络可以被认为是语义统计层,也就是说,在将待处理图像的第一中间阶段的各样本属于第K类的概率作为语义统计层的输入信息后,该语义统计层可以基于该输入信息输出K×B维的语义统计向量。通过利用卷积神经网络来实现语义统计层,使本实施例的语义统计层具有易于实现以及可靠性高等特点。由于本实施例中的语义统计层所使用的各概率区间的取值范围是通过学习获得的,因此,本实施例中的语义统计层可以称为可学习的语义统计层。
[0064] S130、将语义统计向量与每个样本的外观特征信息进行拼接。
[0065] 作为示例,本实施例中的拼接(Concatenate)是指将语义统计向量与每个样本的外观特征信息连接在一起,如语义统计向量a与外观特征信息b进行拼接后形成(a;b),且拼接后的长度为语义统计向量a的长度与外观特征信息b的长度之和。本实施例将语义统计向量与每个样本的外观特征信息进行拼接的目的包括:对样本的外观特征信息进行修正,以使修正后的样本的外观特征信息能够与实际情况更相符,从而能够更准确的反映样本的外观特征。
[0066] 作为示例,在本实施例中的每个样本的外观特征信息是线性可分性的情况下,本实施例可以先对语义统计向量进行线性可分处理,以使处理后的语义统计向量同样是线性可分的;然后,本实施例再将线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,从而获得图像中的每个样本的新的外观特征信息。对语义统计向量进行线性可分处理的一个具体的例子为:对语义统计向量进行全连接处理,以获得线性可分的语义统计向量;也就是说,将语义统计向量作为全连接层的输入信息,全连接层输出的信息即为线性可分的语义统计向量。另外,本实施例可以采用现有的拼接处理方法对线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,本实施例不限制拼接处理的具体实现方式。
[0067] 作为示例,在本实施例中的每个样本的外观特征信息是线性可分性的情况下,本实施例也可以先对语义统计向量与每个样本的外观特征信息进行拼接处理,然后,再对拼接处理后的每个样本的外观特征信息进行线性可分处理,以使拼接处理后的每个样本的外观特征信息是线性可分的(如对拼接处理后的每个样本的外观特征信息进行全连接处理,以获得线性可分的每个样本的外观特征信息;也就是说,将拼接处理后的每个样本的外观特征信息作为全连接层的输入信息,全连接层输出的信息即为线性可分的每个样本的外观特征信息),拼接处理后的线性可分的每个样本的外观特征信息即为图像中的每个样本的新的外观特征信息。本实施例可以采用现有的拼接处理方式对非线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,本实施例不限制拼接处理的具体实现方式。
[0068] S140、根据拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率。
[0069] 由于本步骤所确定出的各样本分别属于每一类的概率通常并不是最终确定出的各样本分别属于每一类的概率,因此,相对于上述步骤中确定出的第一中间阶段各样本属于每一类的概率而言,本步骤所确定出的各样本分别属于每一类的概率可以称为第二中间阶段各样本属于每一类的概率或者第二阶段各样本属于每一类的概率。另外,由于拼接后的每个样本的外观特征信息能够更准确的反映样本的外观特征,因此,基于拼接后的每个样本的外观特征信息而获得的第二中间阶段各样本属于每一类的概率更具有合理性,从而利用第二中间阶段各样本属于每一类的概率进行后续的图像处理,有利于提高图像数据解释的准确性。
[0070] 作为示例,本实施例可以利用现有的方法将拼接后的每个样本的外观特征信息转化为第二中间阶段各样本属于每一类的概率,如本实施例利用卷积核为1×1的卷积层对拼接后的每个样本的外观特征信息进行处理,以获得第二中间阶段各样本属于每一类的概率;也就是说,本实施例可以将拼接后的每个样本的外观特征信息作为卷积核为1×1的卷积层的输入信息,该卷积层输出的信息即为第二中间阶段各样本属于每一类的概率。本实施例不限制根据拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的具体实现方式。
[0071] 作为示例,本实施例中的第二中间阶段各样本属于每一类的概率主要用于确定各样本最终属于每一类的概率,即最终确定出的图像的各样本属于每一类的概率,且本实施例根据第二中间阶段各样本属于每一类的概率确定出的各样本属于每一类的概率可以称为最终阶段各样本属于每一类的概率。
[0072] 一个具体的例子,本实施例可以根据第一中间阶段各样本属于每一类的概率以及第二中间阶段各样本属于每一类的概率确定最终阶段各样本属于每一类的概率,如计算第一中间阶段各样本属于每一类的概率和第二中间阶段各样本属于每一类的概率的平均值,将计算出的平均值作为最终阶段各样本属于每一类的概率;更具体而言,针对图像中的第一个样本,先计算第一中间阶段第一个样本属于第1个类的概率和第二中间阶段第一个样本属于第1个类的概率的平均值,并将计算出的平均值作为最终阶段第一个样本属于第1个类的概率,之后,计算第一中间阶段第一个样本属于第2个类的概率和第二中间阶段第一个样本属于第2个类的概率的平均值,并将计算出的平均值作为最终阶段第一个样本属于第2个类的概率,依此类推,可以获得最终阶段第一个样本属于每个类的概率,通过针对图像中的每个样本进行上述的计算,本实施例可以获得最终阶段各样本属于每一类的概率;再如,上述计算第一中间阶段各样本属于每一类的概率和第二中间阶段各样本属于每一类的概率的平均值可以修改为根据第一中间阶段各样本属于每一类的概率及其系数以及第二中间阶段各样本属于每一类的概率及其系数进行计算,将计算的结果作为最终阶段各样本属于每一类的概率。另外,本实施例也可以采用其他方式确定最终阶段各样本属于每一类的概率,如本实施例并不排除将第二中间阶段各样本属于每一类的概率直接作为最终阶段各样本属于每一类的概率的可能性。
[0073] 作为示例,本实施例通过利用最终获得的各样本属于每一类的概率进行后续的图像数据解释处理,如根据各样本最终属于每一类的概率对待处理图像进行图像分割、物体检测或者图像识别处理等。
[0074] 实施例二、基于神经网络的图像处理方法。
[0075] 本实施例是针对场景分割任务的图像处理方法,场景分割任务可以获得输入的待处理图像的每个像素所属的类的概率。
[0076] 图3为本发明实施例二的方法的实现过程示意图。
[0077] 图3中,输入的图像被作为VGG卷积神经网络层的输入信息,VGG卷积神经网络层针对输入的图像生成基于像素的外观特征图(即基于像素的外观特征信息),该外观特征图的分辨率与输入图像的分辨率相同;之后,外观特征图被作为卷积核大小为1×1的卷积层的输入信息,该卷积层根据接收到的外观特征图生成第一中间阶段概率图(即基于像素的第一中间阶段概率图,也即上述实施例一中的第一中间阶段各样本属于每一类的概率),该第一中间阶段概率图可以表示出第一中间阶段各像素属于每一类的概率;在该第一中间阶段概率图中,外观特征图的每个像素(也可以认为是输入图像的每个像素)对应一个K维向量(K为类的总数量),且一个K维向量表示相应的像素分别属于这K个类的概率;之后,第一中间阶段概率图被作为可学习的语义统计层的输入信息,该语义统计层针对输入的第一中间阶段概率图进行语义统计,以获得第一中间阶段概率图中的每个类的出现概率,语义统计层输出的信息通常为一个K×B维的语义统计的向量,其中的B是每一个类所包含的概率区间的数量(如每一个类的直方图区间个数);语义统计层输出的信息可以作为全连接层的输入信息,全连接层输出的信息为线性可分的向量,该线性可分的语义统计向量会与上述的外观特征图进行逐像素的拼接,即线性可分的语义统计向量被逐像素的拼接到上述的外观特征图中,从而在拼接后形成一个新的外观特征图;该新的外观特征图被作为卷积核大小为1×1的卷积层的输入信息,该卷积层可以被看作一个分类器,该卷积层输出的信息即为第二中间阶段概率图(即基于像素的第二中间阶段概率图,也即上述实施例一中的第二中间阶段各样本属于每一类的概率)。由于该卷积层输出的第二中间阶段概率图是结合了语义统计特征和非统计特征而获得的,因此,第二中间阶段概率图更符合实际情况,从而更具合理性;一个具体的例子,如图4所示,在语义统计直方图向量中,如果“海”这个类具有很高的响应,则在根据输入图像的外观特征图与语义统计直方图向量拼接后获得的第二中间阶段概率图中,出现在“海”周围的可能性比较低的类的概率会被一定程度的降低,如由于“街灯”这一类出现在“海”这一类周围的可能性比较低,因此,第二中间阶段概率图中的“街灯”这一类的概率会被降低,从而在根据第一中间阶段概率图和第二中间阶段概率图的平均值确定出最终的概率图之后,本实施例在根据该最终的概率图进行后续的图像处理时,更有可能最终判定输入的图像中包含的物体为船;同理,在语义统计直方图向量中,如果“天空”这个类具有很高的响应,则在根据第一中间阶段概率图和第二中间阶段概率图的平均值确定出最终的概率图之后,本实施例在根据该最终的概率图进行后续的图像处理时,更有可能判定输入的图像中包含的物体为鸟。
[0078] 实施例三、基于神经网络的图像处理方法。
[0079] 本实施例是针对物体检测任务的图像处理方法。物体检测任务可以获得输入的待处理图像中的每个检测框的自信度。
[0080] 图5为本发明实施例三的方法的实现过程示意图。
[0081] 输入的图像被作为Faster-RCNN中的RPN层的输入信息,RPN层针对输入的图像产生至少一个检测框,产生的检测框信息被作为fast-RCNN检测器网络层的输入信息,fast-RCNN检测器网络层先针对输入的检测框信息生成外观特征图(即外观特征信息),之后,fast-RCNN检测器网络层根据其生成的外观特征图进行预测,以生成第一中间阶段概率图(即基于检测框的第一中间阶段概率图,也即上述实施例一中的第一中间阶段各样本属于每一类的概率),该第一中间阶段概率图可以表示出第一中间阶段各检测框属于每一类的概率;在该第一中间阶段概率图中,外观特征图的每个检测框(也可以认为是输入的图像的每个检测框)对应一个K维向量(K为类的总数量),且一个K维向量表示相应的检测框分别属于K个类的概率;之后,第一中间阶段概率图被作为可学习的语义统计层的输入信息,该语义统计层针对输入的第一中间阶段概率图进行语义统计处理,以获得第一中间阶段概率图中的每个类的出现概率,语义统计层输出的信息通常为一个K×B维的语义统计向量,其中的B是每一个类所包含的概率区间的数量(如每一个类的直方图区间个数);语义统计层输出的信息可以作为全连接层的输入信息,全连接层输出的信息为线性可分的语义统计向量(如语义统计直方图向量),该线性可分的语义统计向量会与上述的外观特征图进行逐检测框的拼接,即线性可分的语义统计向量被逐检测框的拼接到上述的外观特征图中,从而在拼接后形成一个新的外观特征图;该新的外观特征图被作为卷积核大小为1×1的卷积层的输入信息,该卷积层可以被看作一个分类器,该卷积层输出的信息即为第二中间阶段概率图(即基于检测框的第二中间阶段概率图,也即上述实施例一中的第二中间阶段各样本属于每一类的概率)。由于该卷积层输出的第二中间阶段概率图是结合了语义统计特征和非统计特征而获得的,因此,第二中间阶段概率图更符合实际情况,从而更具合理性。
[0082] 在上述实施例一、实施例二以及实施例三中,均使用了可学习的语义统计层(下述简称为语义统计层),该语义统计层可以通过现有的卷积神经网络层来实现。语义统计层对其接收到的输入信息的处理过程如图6所示。
[0083] 图6中,语义统计层的输入信息为第一中间阶段概率图(也可以称为第一中间阶段概率向量),且该语义统计层的输出信息为一个K×B维的语义统计特征向量,其中,K为类的总数量,B为每一个的概率区间的总数量。
[0084] 首先,将第一中间阶段概率图作为第一卷积层的输入信息,该第一卷积层用于实现xk-μk,b运算。第一卷积层可以包括B个卷积层,每个卷积层的卷积核大小均为1×1,且其偏移量为-μk,b,每个卷积层的卷积核 是一个固定的单位向量,可以使用下述公式(2)来表示:
[0085]
[0086] 在上述公式(2)中, 表示卷积核的第c个位置,0
[0087] 对于第k类的概率图而言,通过与B个卷积层进行卷积运算后,可以获得B个xk-μk,b,一个xk-μk,b可以称为一个分数图。对于所有类(即K类)的概率图而言,本实施例可以利用第一卷积层获得K×B个分数图,每个分数图记录了某一个类在某个区间的计算结果。
[0088] 其次,对卷积层输出的信息进行绝对值运算,以计算获得|xk-uk,b|。
[0089] 再次,将绝对值运算的结果作为第二卷积层的输入信息,该第二卷积层用于实现1-|xk-uk,b|×wk,b运算。第二卷积层可以包括K×B个卷积层,每个卷积层的卷积核大小均为
1×1,且其偏移量为1,每个卷积层的卷积核 是一组缩放的单位向量,以模拟第k类中的第b个区间的区间宽度的二分之一wk,b, 可以使用下述公式(3)来表示:
[0090]
[0091] 在上述公式(3)中, 表示卷积核的第c个位置,0
[0092] 之后,使用神经网络中的ReLU(Rectifier Linear Unit,校正线性单元)层来实现max{0,*}运算。
[0093] 最后,本实施例可以逐通道的对ReLU层输出的运算结果做Global Average Pooling(全局平均池化)运算,其运算结果即为语义统计向量。
[0094] 针对上述语义统计层需要特别说明的是,在本实施例的方法应用在对神经网络的图像处理能力的训练过程中时,通常应锁住第一卷积层的卷积核 以及第二卷积层的卷积核 且只更新卷积核中的非零项,以保持语义统计向量的物理意义。通过实验证明,允许第一卷积层和第二卷积层自由更新其卷积核 和 时,最终获得的图像处理的效果并没有锁住第一卷积层的卷积核 以及第二卷积层的卷积核 时最终获得的图像处理的效果好。另外,上述第一卷积层的卷积核的非零项与偏移量的每个通道都是不共享的,这可以使得每个类的各概率区间的区间中心以及区间宽度的二分之一都是独立学习的。
[0095] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0096] 实施例四、基于神经网络的图像处理装置。
[0097] 图7为本发明装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图7所示,该实施例的装置包括:获取外观特征模块700、确定第一阶段概率模块710、语义统计层720、拼接模块730以及确定第二阶段概率模块740,可选的,该装置还可以包括:计算平均值模块以及图像处理模块(图7中未示出)。
[0098] 获取外观特征模块700主要用于获取待处理图像中的各样本的外观特征信息。
[0099] 作为示例,本实施例的待处理图像通常为通过图像采集设备摄取的图像,当然,待处理图像也可以为绘制的图像等。
[0100] 在本发明的装置应用在对神经网络的图像处理能力的训练(即神经网络训练)过程中时,该待处理图像通常为图像样本集合中的图像样本。而在本发明的装置应用于实际的图像处理过程中时,该待处理图像通常为通过图像采集设备实时摄取的图像。
[0101] 作为示例,本实施例的待处理图像中的样本可以具体为待处理图像中的像素,也可以具体为待处理图像中的检测框。在待处理图像中的样本为检测框的情况下,获取外观特征模块700可以具体为Faster-RCNN层,即本实施例中的待处理图像中的检测框可以为Faster-RCNN层中的RPN层针对待处理图像而产生的多个检测框;本实施例不限制获取外观特征模块700针对待处理图像产生检测框的具体实现方式。
[0102] 作为示例,获取外观特征模块700可以利用现有的卷积神经网络获取图像中的各样本的外观特征信息;一个具体的例子,在待处理图像中的样本为待处理图像中的像素的情况下,获取外观特征模块700可以具体为VGG卷积层,即待处理图像被作为VGG卷积神经网络层的输入信息,VGG卷积神经网络层可以针对输入的待处理图像生成与该待处理图像具有相同分辨率的外观特征图,其生成的外观特征图即为待处理图像中的各像素的外观特征信息;另一个具体的例子,在待处理图像中的样本为待处理图像中的检测框的情况下,获取外观特征模块700可以具体为Faster-RCNN层,即待处理图像被作为Faster-RCNN中的RPN层的输入信息,Faster-RCNN中的RPN层可以针对待处理图像产生多个检测框,而Faster-RCNN中的Fast-RCNN检测器网络层可以抽取出RPN层所产生的各检测框的外观特征信息。本实施例不限制获取外观特征模块700获取待处理图像中的各样本的外观特征信息的具体实现方式。
[0103] 需要特别说明的是,在本实施例的装置应用在对神经网络的图像处理能力的训练过程中时,本实施例中的待处理图像通常为经过人工标注过的图像样本,如图像样本中的各像素或者各检测框所属的类已由人工标注出来,利用标注过的图像样本进行神经网络的训练,有利于提高神经网络对图像数据解释的准确性,如在训练过程中,通过将训练的结果与人工标注出的信息进行对比,在对比结果满足预定准确性要求时,可以认为训练完成,而在对比结果不满足准确性要求时,可以通过调整相应的参数(如各卷积神经网络层中的参数等)继续进行训练,直到训练的结果满足预定准确性要求。
[0104] 另外,本实施例的装置通常会采用在待处理图像中的各样本的外观特征信息上施加监督信号的方式对神经网络的图像处理能力进行训练。
[0105] 确定第一阶段概率模块710主要用于根据各样本的外观特征信息分别确定第一中间阶段各样本属于预定类别中每一类的概率。
[0106] 作为示例,本实施例预先设置有多个类,且每个类所表示的具体内容通常与本实施例的图像处理方法实际应用的场景相关,如在本实施例的图像处理方法应用于自动驾驶领域中的情况下,本实施例中的类通常可以表示行人、车辆、交通指示灯或者路牌等。本实施例不限制类的数量以及类所表示的具体内容,然而,显而易见的是,所有类所表示的具体内容应尽可能多的覆盖图像处理方法所应用的场景涉及到的事物,以使本实施例的装置在实际应用(如安防控制应用以及智能视频监控应用等)时能够对图像数据进行准确解释。
[0107] 作为示例,确定第一阶段概率模块710可以利用现有的卷积神经网络确定出待处理图像中的各样本分别属于每一类的概率,由于确定第一阶段概率模块710确定出的各样本分别属于每一类的概率并不是最终确定出的各样本分别属于每一类的概率,因此,确定第一阶段概率模块710确定出的各样本分别属于每一类的概率可以称为第一中间阶段各样本属于每一类的概率或者第一阶段各样本属于每一类的概率。
[0108] 确定第一阶段概率模块710利用现有的卷积神经网络确定出待处理图像中的各样本分别属于每一类的概率的一个具体的例子:在待处理图像中的样本为待处理图像中的像素的情况下,确定第一阶段概率模块710可以具体为VGG卷积层,即待处理图像中的各像素的外观特征信息被作为VGG卷积神经网络层的输入信息,VGG卷积神经网络层通过对输入的外观特征信息进行判断处理,可以确定出第一中间阶段各像素属于每一类的概率。VGG卷积神经网络层的卷积核大小为1×1。VGG卷积神经网络层会针对每一个像素均输出一个K维向量,一个K维向量即为其预测出的第一中间阶段一个像素分别属于K个类的概率,其中的K为类的总数量。另一个具体的例子,在待处理图像中的样本为待处理图像中的检测框的情况下,确定第一阶段概率模块710可以具体为Fast-RCNN检测器网络层中的概率产生模块,即待处理图像中的各检测框的外观特征信息被作为Fast-RCNN检测器网络层中的概率产生模块的输入信息,Fast-RCNN检测器网络层中的概率产生模块通过对输入的各检测框的外观特征信息进行判断处理,可以确定出第一中间阶段各检测框属于每一类的概率。Fast-RCNN检测器网络层中的概率产生模块可以为每一个检测框形成一个K维向量并输出,一个K维向量即为其预测出的第一中间阶段一个检测框分别属于K个类的概率,其中的K为类的总数量。
[0109] 由上述两个具体的例子的描述可知,在待处理图像具有M个样本(如M个像素或者M个检测框),且本实施例预先设置的类的总数量为K的情况下,确定第一阶段概率模块710可以根据M个样本的外观特征信息获得M个K维向量,且一个K维向量表示一个样本分别属于K个类的概率。
[0110] 作为示例,确定第一阶段概率模块710所获得的第一中间阶段各样本属于每一类的概率主要用于进行语义统计,以获得待处理图像针对所有类的语义统计向量。当然,确定第一阶段概率模块710所获得的第一中间阶段各样本属于每一类的概率还可以用于其他方面,如计算平均值模块可以将第一中间阶段各样本属于每一类的概率与第二中间阶段各样本属于每一类的概率结合起来,以确定待处理图像中的各样本最终属于每一类的概率。
[0111] 语义统计层720主要用于根据每一类的各概率区间的概率取值范围对第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量。
[0112] 具体的,本实施例预先为每一类分别设置了多个概率区间,且为不同类设置的概率区间的数量通常相同,即不同类具有的概率区间的数量相同,以使概率分布较为合理,提高图像数据解释的准确性;如本实施例为每一类均设置了6个概率区间。
[0113] 本实施例中的每一个概率区间均具有一个概率取值范围,且每一个概率区间均具有各自的概率取值范围,每个类的各概率区间的概率取值范围的例子如上述实施例一中的描述,在此不再重复说明。本实施例中的任意一个类的所有概率区间中的不同概率区间的概率取值范围可以具有相交的子集,且本实施例为不同类所设置的概率区间的概率取值范围可以不相同,也就是说,本实施例中的任意一个类的所有概率区间的概率取值范围与另一个类的所有概率区间的概率取值范围通常并不完全相同;当然,本实施例并不排除任意一个类的所有概率区间的概率取值范围与某一个类的所有概率区间的概率取值范围完全相同的可能性,然而,任意一个类的所有概率区间的概率取值范围不会与其他所有类的各概率区间的概率取值范围均完全相同,以避免完全相同的概率取值范围不能灵活的适应不同情况的现象。
[0114] 作为示例,本实施例中的概率区间的概率取值范围可以使用区间中心和区间宽度的二分之一来表示,该区间宽度的二分之一通常为区间中心与区间边界值的差值的绝对值。当然,本实施例中的概率区间的概率取值范围也可以使用其他方式来表示,如使用概率区间的两个区间边界值来表示等。
[0115] 作为示例,本实施例中的每一个类的各概率区间的概率取值范围均可以是通过对基于神经网络的图像处理装置的训练获得,也就是说,本实施例的装置可以通过学习方式获得每一个类的各概率区间的概率取值范围;一个具体的例子,在针对图像样本进行基于神经网络的图像处理训练的过程中,本实施例的装置(如装置中的训练模块)可以根据每次对图像样本的处理结果与预期的处理结果的差异来调整相应类的相应概率区间的概率取值范围,在本实施例的装置对大量的图像样本的处理结果均符合预期的处理结果时,可以认为成功完成了基于神经网络的图像处理的训练过程,从而本实施例的装置通过训练能够学习到所有类的概率区间的概率取值范围。在基于神经网络的图像处理训练过程中,本实施例的装置(如训练模块)可以利用现有的调整方式来调整各概率区间的概率取值范围,训练模块所执行的具体的调整过程在此不再详细说明。
[0116] 语义统计层720可以具体包括:确定权重值子模块以及统计权重值子模块;其中的确定权重值子模块主要用于针对第一中间阶段任意一个样本属于任意一类的概率而言,计算该样本属于该类的概率分别针对于该类的各概率区间的取值范围的权重值,且计算出的各权重值均为非负且非零的权重值;其中的统计权重值子模块主要用于针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行统计,以获得语义统计向量。
[0117] 作为示例,语义统计层720根据第一中间阶段每一类的各概率区间的概率取值范围对图像中的各样本属于每一类的概率进行语义统计的一个具体例子为:首先,确定权重值子模块针对待处理图像的第一中间阶段任意一个样本(下述以第x个样本为例进行说明)属于任意一类(下述以第k类为例进行说明)的概率而言,计算第一中间阶段第x个样本属于第k类的概率分别相对于第k类的各概率区间(如6个概率区间)的概率取值范围的权重值,且确定权重值子模块计算出的6个概率区间的权重值通常均为非负且非零的权重值;确定权重值子模块利用上述方法可以针对待处理图像的第一中间阶段每一个样本属于每一个类的概率分别计算出6个权重值;其次,在确定权重值子模块针对待处理图像的第一中间阶段每一个样本属于每一个类的概率均计算出权重值的情况下,统计权重值子模块可实现对计算出的所有权重值的语义统计处理,从而获得待处理图像的语义统计向量(如语义统计直方图向量,该语义统计直方图向量也可以称为语义统计直方图特征向量)。
[0118] 在语义统计层720利用上述实施例一中的公式(1)计算待处理图像的第一中间阶段的第x个样本属于第k类的概率相对于第k类的各概率区间的概率取值范围的权重值的情况下,上述确定权重值子模块可以包括:第一卷积层、绝对值子模块、第二卷积层以及ReLU层,且统计权重值子模块可以具体为全局平均池化运算层。
[0119] 第一卷积层主要用于实现上述公式(1)中的xk-μk,b运算;第一卷积层包括:B个卷积层,第一卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为-μk,b,第一卷积层中的每个卷积层的卷积核 为固定单位向量,第一卷积层中的每个卷积层的卷积核 表示为上述公式(2)的形式。
[0120] 绝对值子模块主要用于对第一卷积层输出的运算结果取绝对值,并将获得的绝对值提供给第二卷积层。
[0121] 第二卷积层主要用于实现上述公式(1)中的1-|xk-uk,b|×wk,b运算。
[0122] 第二卷积层包括:K×B个卷积层,且第二卷积层中的每个卷积层的卷积核大小均为1×1,偏移量为1,第二卷积层中的每个卷积层的卷积核 为缩放单位向量,第二卷积层中的每个卷积层的卷积核 表示为上述公式(3)的形式。
[0123] ReLU层主要用于实现max{0,*}运算。
[0124] 全局平均池化运算层主要用于针对第一中间阶段所有样本属于每一类的概率计算出的所有权重值进行全局平均池化运算,以获得语义统计向量。作为示例,在预先设置有K个类,且每个类均设置有B个概率区间的情况下,全局平均池化运算层输出的语义统计向量为K×B维向量。
[0125] 拼接模块730主要用于将语义统计向量与每个样本的外观特征信息进行拼接。
[0126] 作为示例,拼接模块730所执行的拼接操作是指将语义统计向量与每个样本的外观特征信息连接在一起,如拼接模块730将语义统计向量a与外观特征信息b进行拼接后形成(a;b),且拼接后的长度为语义统计向量a的长度与外观特征信息b的长度之和。拼接模块730将语义统计向量与每个样本的外观特征信息进行拼接的目的包括:对样本的外观特征信息进行修正,以使修正后的样本的外观特征信息能够与实际情况更相符,从而能够更准确的反映样本的外观特征。
[0127] 拼接模块730可以包括:第一线性处理子模块以及第一拼接子模块;拼接模块730也可以包括:第二线性处理子模块以及第二拼接子模块。
[0128] 上述第一线性处理子模块主要用于对语义统计向量进行线性可分处理,以获得线性可分的语义统计向量。上述第一拼接子模块主要用于将线性可分的语义统计向量与每个样本的外观特征信息进行拼接。上述第二拼接子模块主要用于将语义统计向量与每个样本的外观特征信息进行拼接。上述第二线性处理子模块主要用于对拼接后的每个样本的外观特征信息进行线性可分处理,以获得线性可分的每个样本的外观特征信息。
[0129] 作为示例,在本实施例中的每个样本的外观特征信息是线性可分性的情况下,第一线性处理子模块可以先对语义统计向量进行线性可分处理,以使处理后的语义统计向量同样是线性可分的;然后,第一拼接子模块再将线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,从而获得图像中的每个样本的新的外观特征信息。第一线性处理子模块对语义统计向量进行线性可分处理的一个具体的例子为:第一线性处理子模块可以为全连接层,语义统计向量被作为全连接层的输入信息,全连接层输出的信息即为线性可分的语义统计向量。另外,第一拼接子模块可以采用现有的拼接处理方法对线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,本实施例不限制第一拼接子模块所执行的拼接处理的具体实现方式。
[0130] 作为示例,在本实施例中的每个样本的外观特征信息是线性可分性的情况下,第二拼接子模块也可以先对语义统计向量与每个样本的外观特征信息进行拼接处理,然后,第二线性处理子模块再对拼接处理后的每个样本的外观特征信息进行线性可分处理,以使拼接处理后的每个样本的外观特征信息是线性可分的(如对拼接处理后的每个样本的外观特征信息进行全连接处理,从而获得线性可分的每个样本的外观特征信息;第二线性处理子模块可以具体为全连接层,拼接处理后的每个样本的外观特征信息被作为全连接层的输入信息,全连接层输出的信息即为线性可分的每个样本的外观特征信息),拼接处理后的线性可分的每个样本的外观特征信息即为图像中的每个样本的新的外观特征信息。第二拼接子模块可以采用现有的拼接处理方式对非线性可分的语义统计向量与线性可分的每个样本的外观特征信息进行拼接处理,本实施例不限制第二拼接子模块拼接处理的具体实现方式。
[0131] 确定第二阶段概率模块740主要用于根据拼接后的每个样本的外观特征信息确定第二中间阶段各样本最终属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本属于每一类的概率。
[0132] 由于确定第二阶段概率模块740所确定出的各样本分别属于每一类的概率通常并不是最终确定出的各样本分别属于每一类的概率,因此,相对于上述确定第一阶段概率模块710确定出的第一中间阶段各样本属于每一类的概率而言,确定第二阶段概率模块740所确定出的各样本分别属于每一类的概率可以称为第二中间阶段各样本属于每一类的概率或者第二阶段各样本属于每一类的概率。另外,由于拼接后的每个样本的外观特征信息能够更准确的反映样本的外观特征,因此,第二阶段概率模块740基于拼接后的每个样本的外观特征信息而获得的第二中间阶段各样本属于每一类的概率更具有合理性,从而利用第二阶段概率模块740所确定出的第二中间阶段各样本属于每一类的概率进行后续的图像处理,有利于提高图像数据解释的准确性。
[0133] 作为示例,第二阶段概率模块740可以利用现有的方法将拼接后的每个样本的外观特征信息转化为第二中间阶段各样本属于每一类的概率,如第二阶段概率模块740利用卷积核为1×1的卷积层对拼接后的每个样本的外观特征信息进行处理,以获得第二中间阶段各样本属于每一类的概率;也就是说,第二阶段概率模块740可以具体包括卷积核为1×1的卷积层,该卷积层用于对接收到的拼接后的每个样本的外观特征信息进行处理,该卷积层输出的信息即为第二中间阶段各样本属于每一类的概率。本实施例不限制第二阶段概率模块740根据拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的具体实现方式。
[0134] 作为示例,第二阶段概率模块740所确定出的第二中间阶段各样本属于每一类的概率主要用于确定各样本最终属于每一类的概率,即最终确定出的图像的各样本属于每一类的概率,且本实施例的装置根据第二中间阶段各样本属于每一类的概率确定出的各样本属于每一类的概率可以称为最终阶段各样本属于每一类的概率。
[0135] 一个具体的例子,本实施例的装置可以根据第一中间阶段各样本属于每一类的概率以及第二中间阶段各样本属于每一类的概率确定最终阶段各样本属于每一类的概率,如计算平均值模块计算第一中间阶段各样本属于每一类的概率和第二中间阶段各样本属于每一类的概率的平均值,本实施例的装置将计算平均值模块所计算出的平均值作为最终阶段各样本属于每一类的概率;更具体而言,针对图像中的第一个样本,计算平均值模块先计算第一中间阶段第一个样本属于第1个类的概率和第二中间阶段第一个样本属于第1个类的概率的平均值,并将计算出的平均值作为最终阶段第一个样本属于第1个类的概率,之后,计算平均值模块计算第一中间阶段第一个样本属于第2个类的概率和第二中间阶段第一个样本属于第2个类的概率的平均值,并将计算出的平均值作为最终阶段第一个样本属于第2个类的概率,依此类推,计算平均值模块可以获得最终阶段第一个样本属于每个类的概率,计算平均值模块通过针对图像中的每个样本进行上述的计算,计算平均值模块可以获得最终阶段各样本属于每一类的概率;再如,上述计算第一中间阶段各样本属于每一类的概率和第二中间阶段各样本属于每一类的概率的平均值可以修改为根据第一中间阶段各样本属于每一类的概率及其系数以及第二中间阶段各样本属于每一类的概率及其系数进行计算,本实施例的装置将计算的结果作为最终阶段各样本属于每一类的概率。另外,本实施例的装置也可以采用其他方式确定最终阶段各样本属于每一类的概率,如本实施例的装置并不排除将第二中间阶段各样本属于每一类的概率直接作为最终阶段各样本属于每一类的概率的可能性。
[0136] 作为示例,图像处理模块可以利用上述最终获得的各样本最终属于每一类的概率进行后续的图像数据解释处理,具体的,图像处理模块可以根据各样本最终属于每一类的概率对待处理图像进行图像分割、物体检测或者图像识别处理等。
[0137] 在一个具体示例中,用于实现本发明实施例的电子设备或服务器的计算机系统包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本申请实施例提供的任一项基于神经网络的图像处理对应的操作,例如:获取待处理图像中的各样本的外观特征信息;根据各样本的外观特征信息确定第一中间阶段各样本属于每一类的概率;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;将语义统计向量与所述每个样本的外观特征信息进行拼接;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本属于每一类的概率。
[0138] 此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
[0139] 以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
[0140] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本申请实施例提供的任一项基于神经网络的图像处理方法步骤对应的指令,例如,获取待处理图像中的各样本的外观特征信息;根据各样本的外观特征信息确定第一中间阶段各样本属于每一类的概率;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量;将语义统计向量与所述每个样本的外观特征信息进行拼接;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率,其中的第二中间阶段各样本属于每一类的概率用于确定各样本属于每一类的概率。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。
[0141] 本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:获取待处理图像中的各样本的外观特征信息的指令;根据各样本的外观特征信息确定第一中间阶段各样本属于每一类的概率的指令;根据每一类的各概率区间的概率取值范围对所述第一中间阶段各样本属于每一类的概率进行语义统计,以获得所有类的语义统计向量的指令;将所述语义统计向量与所述每个样本的外观特征信息进行拼接的指令;根据所述拼接后的每个样本的外观特征信息确定第二中间阶段各样本属于每一类的概率的指令,其中的第二中间阶段各样本属于每一类的概率用于确定各样本属于每一类的概率。
[0142] 另外,本发明实施例还提供了一种计算机设备,包括:
[0143] 存储器,存储可执行指令;
[0144] 一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的基于神经网络的图像处理方法对应的操作。
[0145] 可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
[0146] 本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。