图像处理设备、方法转让专利

申请号 : CN201080002046.7

文献号 : CN102084397B

文献日 : 2014-02-05

公开了使得能够更加准确地识别图像中的被摄对象的图像处理设备、方法和程序。被摄对象图生成单元(21)由输入图像产生被摄对象图，被摄对象图指示输入图像的每个区域中被摄对象的区域相似性。梯度图生成单元(22)产生梯度图，梯度图指示被摄对象图中被摄对象相似性的变化度。阈值处理单元(23)和阈值处理单元(24)利用高阈值(THh)和低阈值(THl)二值化梯度图以获得阈值图。假设包含通过具有低阈值(THl)的阈值图被识别为有被摄对象相似性的区域中的通过具有高阈值(THh)的阈值图被识别为有被摄对象相似性的区域的区域是被摄对象的区域，复合图生成单元(25)产生复合图，复合图指示输入图像的每个区域中的被摄对象相似性。本发明适用于图像处理设备。

1.一种图像处理设备，包括：

被摄对象图生成装置，用于从输入图像中提取所述输入图像中被摄对象的区域中包含的特征的特征量，并且产生被摄对象图，所述被摄对象图指示所述输入图像的每个区域是被摄对象的区域的可能性；

第一阈值处理装置，用于通过利用第一阈值执行阈值处理来二值化所述被摄对象图，并且产生用于指定包含被摄对象的连接区域的第一阈值图；

第二阈值处理装置，用于通过利用第二阈值执行阈值处理来二值化所述被摄对象图，并且产生第二阈值图，所述第二阈值图用于指定在基于所述第一阈值图指定的连接区域中并且可能是被摄对象的区域；和复合图生成装置，用于通过在基于所述第一阈值图指定的一个或多个连接区域中，把包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域当作被摄对象的区域，来产生用于指定所述输入图像中被摄对象的区域的复合图。

2.如权利要求1所述的图像处理设备，

其中，所述复合图生成装置通过在包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域中，把具有预定面积或更大面积的连接区域当作被摄对象的区域，来产生所述复合图。

3.如权利要求1所述的图像处理设备，

其中，所述复合图是这样的信息：在所述信息中，与所述输入图像的每个区域相对应地布置指示所述输入图像的每个区域是否被摄对象的区域的二值信息，并且其中，所述图像处理设备还包括被摄对象指定信息生成装置，用于通过获得所述复合图和所述被摄对象图的逻辑″与″并且利用第三阈值执行阈值处理以二值化所述逻辑″与″的运算结果，产生指定所述输入图像中被摄对象的区域的被摄对象指定信息。

4.如权利要求3所述的图像处理设备，

其中，所述被摄对象指定信息生成装置针对与基于所述复合图而指定为被摄对象的区域的被摄对象区域相同的每个区域，基于所述被摄对象图获得所述逻辑″与″的运算结果中的第三阈值。

5.如权利要求1所述的图像处理设备，还包括：

梯度图生成装置，用于基于所述被摄对象图产生梯度图，所述梯度图指示由被摄对象图指示的所述输入图像的每个区域是被摄对象的区域的可能性的变化度，其中，所述第一阈值处理装置和所述第二阈值处理装置执行所述梯度图的阈值处理，并且产生第一阈值图和第二阈值图。

6.如权利要求5所述的图像处理设备，其中，所述第一阈值处理装置和所述第二阈值处理装置基于所述梯度图计算所述第一阈值和所述第二阈值。

7.一种用于图像处理设备的图像处理方法，所述图像处理设备包含被摄对象图生成装置、第一阈值处理装置、第二阈值处理装置和复合图生成装置，所述图像处理方法包括：通过被摄对象图生成装置，从输入图像中提取所述输入图像中被摄对象的区域中包含的特征的特征量，并且产生被摄对象图，所述被摄对象图指示所述输入图像的每个区域是被摄对象的区域的可能性；

通过第一阈值处理装置，借助于利用第一阈值执行阈值处理来二值化所述被摄对象图，并且产生用于指定包含被摄对象的连接区域的第一阈值图；

通过第二阈值处理装置，借助于利用第二阈值执行阈值处理来二值化所述被摄对象图，并且产生第二阈值图，所述第二阈值图用于指定在基于所述第一阈值图指定的连接区域中并且可能是被摄对象的区域；和通过复合图生成装置，借助于在基于所述第一阈值图指定的一个或多个连接区域中，把包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域当作被摄对象的区域，来产生用于指定所述输入图像中被摄对象的区域的复合图。

图像处理设备、方法

技术领域

[0001] 本发明涉及图像处理设备、方法和程序，更具体地涉及使得能够更加准确地指定图像中被摄对象的区域的图像处理设备、方法和程序。

背景技术

[0002] 至今为止，作为用于指定图像中被摄对象的区域的技术，已知有称作视觉注意(visual attention)的技术(例如，参见非专利文献1)。

[0003] 在视觉注意技术中，从已经输入的输入图像中提取亮度信息、颜色信息和边缘信息，并且把基于这些提取的信息项获得的信息图相加以产生一个显著图(Saliency Map)(以下称为被摄对象图)。

[0004] 这个被摄对象图是指示输入图像的每个区域是被摄对象的区域的可能性的信息。也就是说，被摄对象图的像素的像素值指示输入图像的与该像素位置相同的像素(区域)是被摄对象的区域的可能性。因此，能够利用被摄对象图来指定输入图像的包含被摄对象的区域。

[0005] 引用列表

[0006] 非专利文献

[0007] NPL 1：Laurent Itti，Christof Koch，and Ernst Niebur， ″ A Model ofSaliency-Based Visual Attention for Rapid Scene Analysis″

发明内容

[0008] 技术问题

[0009] 然而，上述技术难以更加准确地指定输入图像中被摄对象的区域。具体地，在要利用被摄对象图指定输入图像中被摄对象的区域的情况下，包含被摄对象图的像素中均具有大于或等于预定阈值的像素值的像素的区域被认为是被摄对象的区域。 [0010] 因此，取决于阈值，非被摄对象的区域可能由于例如噪声的因素而被错误地检测为被摄对象的区域，或者应当作为被摄对象的区域的区域可能未被检测为被摄对象的区域。也就是说，为了更加准确地指定被摄对象的区域，有必要针对每个输入图像确定适当的阈值。然而，确定适当的阈值并不是容易做到的。

[0011] 鉴于这些情况做出了本发明，并且本发明使得能够更加准确地指定图像中的被摄对象的区域。

[0012] 问题解决方案

[0013] 根据本发明的一个方面的图像处理设备包含：被摄对象图生成装置，用于从输入图像中提取所述输入图像中被摄对象的区域中包含的特征的特征量，并且产生被摄对象图，所述被摄对象图指示所述输入图像的每个区域是被摄对象的区域的可能性；第一阈值处理装置，用于通过利用第一阈值执行阈值处理来二值化所述被摄对象图，并且产生用于指定包含被摄对象的连接区域的第一阈值图；第二阈值处理装置，用于通过利用第二阈值执行阈值处理来二值化所述被摄对象图，并且产生第二阈值图，所述第二阈值图用于指定在基于所述第一阈值图指定的连接区域中并且可能是被摄对象的区域；和复合图生成装置，用于通过在基于所述第一阈值图指定的一个或多个连接区域中，把包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域当作被摄对象的区域，来产生用于指定所述输入图像中被摄对象的区域的复合图。

[0014] 复合图生成装置可以通过在包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域中，把具有预定面积或更大面积的连接区域当作被摄对象的区域，来产生所述复合图。

[0015] 复合图是这样的信息：在所述信息中，与输入图像的每个区域相对应地布置指示输入图像的每个区域是否被摄对象的区域的二值信息，并且图像处理设备还可以包含被摄对象指定信息生成装置，用于通过获得复合图和被摄对象图的逻辑″与″并且利用第三阈值执行阈值处理以二值化所述逻辑″与″的运算结果，产生指定输入图像中被摄对象的区域的被摄对象指定信息。

[0016] 被摄对象指定信息生成装置可以针对与基于复合图而指定为被摄对象的区域的被摄对象区域相同的每个区域，基于被摄对象图获得所述逻辑″与″的运算结果中的第三阈值。

[0017] 图像处理设备还可以包含梯度图生成装置，用于基于被摄对象图产生梯度图，所述梯度图指示由被摄对象图指示的输入图像的每个区域是被摄对象的区域的可能性的变化度，并且第一阈值处理装置和第二阈值处理装置可以执行梯度图的阈值处理，并且产生第一阈值图和第二阈值图。

[0018] 第一阈值处理装置和第二阈值处理装置可以基于梯度图计算第一阈值和第二阈值。

[0019] 根据本发明的一个方面的信息处理方法或程序包含步骤：从输入图像中提取所述输入图像中被摄对象的区域中包含的特征的特征量，并且产生被摄对象图，所述被摄对象图指示所述输入图像的每个区域是被摄对象的区域的可能性；通过利用第一阈值执行阈值处理来二值化所述被摄对象图，并且产生用于指定包含被摄对象的连接区域的第一阈值图；通过利用第二阈值执行阈值处理来二值化所述被摄对象图，并且产生第二阈值图，所述第二阈值图用于指定在基于所述第一阈值图指定的连接区域中并且可能是被摄对象的区域；和通过在基于所述第一阈值图指定的一个或多个连接区域中，把包含基于所述第二阈值图而指定为可能是被摄对象的区域的区域的连接区域当作被摄对象的区域，来产生用于指定所述输入图像中被摄对象的区域的复合图。

[0020] 根据本发明的一个方面，从输入图像中提取所述输入图像中被摄对象的区域中包含的特征的特征量，并且产生被摄对象图，所述被摄对象图指示所述输入图像的每个区域是被摄对象的区域的可能性。通过利用第一阈值执行阈值处理来二值化被摄对象图，并且产生用于指定包含被摄对象的连接区域的第一阈值图。通过利用第二阈值执行阈值处理来二值化被摄对象图，并且产生第二阈值图，所述第二阈值图用于指定在基于第一阈值图指定的连接区域中并且可能是被摄对象的区域。通过在基于第一阈值图指定的一个或多个连接区域中，把包含基于第二阈值图而指定为可能是被摄对象的区域的区域的连接区域当作被摄对象的区域，来产生用于指定输入图像中被摄对象的区域的复合图。 [0021] 发明的有利效果

[0022] 根据本发明的一个方面，能够更加准确地指定图像中被摄对象的区域。附图说明

[0023] 图1是图解根据本发明的图像处理设备的实施例的配置示例的模块图。 [0024] 图2是图解被摄对象图生成单元的配置示例的图。

[0025] 图3是图解亮度信息提取单元的配置示例的图。

[0026] 图4是图解颜色信息提取单元的配置示例的图。

[0027] 图5是图解边缘信息提取单元的配置示例的图。

[0028] 图6是图解面部信息提取单元的配置示例的图。

[0029] 图7是图解运动信息提取单元的配置示例的图。

[0030] 图8是描述被摄对象框显示处理的流程图。

[0031] 图9是描述被摄对象图产生处理的流程图。

[0032] 图10是描述亮度信息提取处理的流程图。

[0033] 图11是描述颜色信息提取处理的流程图。

[0034] 图12是描述边缘信息提取处理的流程图。

[0035] 图13是描述面部信息提取处理的流程图。

[0036] 图14是描述运动信息提取处理的流程图。

[0037] 图15是描述被摄对象区域专提取处理的流程图。

[0038] 图16是描述梯度图的生成的图。

[0039] 图17是描述阈值的计算的图。

[0040] 图18是描述复合图的生成的图。

[0041] 图19是描述二值化图的生成的图。

[0042] 图20是描述被摄对象区域信息的生成的图。

[0043] 图21是图解计算机的配置示例的图。

具体实施方式

[0044] 下面参考附图详细描述根据本发明的实施例。

[0045] [图像处理设备的配置]

[0046] 图1是图解根据本发明的图像处理设备的实施例的配置示例的模块图。 [0047] 图像处理设备11被安装在例如摄像机的图像捕获设备上，在已经捕获的输入图像中指定被摄对象的区域，并且和输入图像一起显示围绕被摄对象的区域的框。注意，在下文中输入图像中被摄对象的区域也可以被称作被摄对象区域，并且输入图像上显示的围绕被摄对象区域的框也可以被称作被摄对象框。

[0048] 图像处理设备11包括被摄对象图生成单元21、梯度图生成单元22、阈值处理单元23、阈值处理单元24、复合图生成单元25、二值化图生成单元26、矩形整形单元27和显示控制单元28。在图像处理设备11中，已经捕获的输入图像被提供给被摄对象图生成单元21和显示控制单元28。

[0049] 被摄对象图生成单元21基于所提供的输入图像产生被摄对象图并且提供被摄对象图给梯度图生成单元22，被摄对象图是指示输入图像的每个区域是包含被摄对象的区域的可能性的信息。这里，被摄对象是在用户粗略看过输入图像的情况下估计会吸引用户注意力的输入图像中的对象，即估计会捕获用户视线的对象。因此，被摄对象不一定限于人。 [0050] 梯度图生成单元22从提供自被摄对象图生成单元21的被摄对象图中提取是被摄对象的可能性的边缘部分，并且产生指示边缘的大小(边缘强度)的梯度图。这里，是被摄对象的可能性的边缘部分是这样的区域：在该区域中，指示被摄对象图是被摄对象，即被摄对象的像素的像素值的可能性的值突然变化。因此，梯度图的每个像素的像素值指示被摄对象图中像素值(指示是被摄对象的可能性的值)的变化度。

[0051] 梯度图生成单元22把所产生的梯度图提供给阈值处理单元23、阈值处理单元24和二值化图生成单元26。

[0052] 阈值处理单元23和阈值处理单元24利用从梯度图生成单元22提供的梯度图获得阈值，所述阈值用于从梯度图中提取可能是输入图像中的被摄对象的区域。注意，阈值处理单元23和阈值处理单元24获得不同的阈值。

[0053] 阈值处理单元23和阈值处理单元24也通过利用所获得的阈值执行阈值处理来二值化梯度图，产生均指示输入图像中包含被摄对象的区域的阈值图，并且提供所产生的阈值图给复合图生成单元25。这里，在阈值图中，被当作输入图像中包含被摄对象的区域的区域是这样的区域：在所述区域中，梯度图的像素的像素值大于或等于阈值。 [0054] 复合图生成单元25通过利用从阈值处理单元23和阈值处理单元24提供的阈值图来产生复合图，并且提供复合图给二值化图生成单元26。

[0055] 例如，在两个阈值图中的任意一个中，复合图生成单元25把通过连接被当作包含被摄对象的区域的邻接区域(像素)而获得的一个区域当作连接区域。复合图生成单元25把两个阈值图中指示连接区域中的下述连接区域的信息当作复合图：该连接区域指示被当作包含被摄对象的区域的区域。

[0056] 二值化图生成单元26通过利用从梯度图生成单元22提供的梯度图和从复合图生成单元25提供的复合图来产生二值化图，并且把二值化图提供给矩形整形单元27。这里，二值化图是指示这样的区域的信息：在该区域中，在复合图所指示的连接区域中的区域中，梯度图的对应该区域的像素的像素值大于或等于某个阈值。

[0057] 矩形整形单元27把包含由提供自二值化图生成单元26的二值化图指示的区域的矩形区域当作包含被摄对象的被摄对象区域，并且提供指示被摄对象区域的被摄对象区域信息给显示控制单元28。显示控制单元28基于所提供的输入图像和来自矩形整形单元27的被摄对象区域信息控制未示出的显示单元，并且在显示单元上显示输入图像，其中在输入图像上显示有被摄对象框。

[0058] 此外，更具体地，图1中的被摄对象图生成单元21的构造如图2所示。 [0059] 也就是说，被摄对象图生成单元21包括亮度信息提取单元51、颜色信息提取单元52、边缘信息提取单元53、面部信息提取单元54、运动信息提取单元55和图生成单元56。 [0060] 亮度信息提取单元51基于所提供的输入图像产生指示有关输入图像的每个区域中的亮度的信息的亮度信息图，并且提供亮度信息图给图生成单元56。颜色信息提取单元
52基于所提供的输入图像产生指示有关输入图像的每个区域中的颜色的信息的颜色信息图，并且提供颜色信息图给图生成单元56。

[0061] 边缘信息提取单元53基于所提供的输入图像产生指示有关输入图像的每个区域中的边缘的信息的边缘信息图，并且提供边缘信息图给图生成单元56。面部信息提取单元54基于所提供的输入图像产生指示有关输入图像的每个区域中作为被摄对象的人的面部的信息的面部信息图，并且提供面部信息图给图生成单元56。运动信息提取单元55基于所提供的输入图像产生指示有关输入图像的每个区域中的运动的信息的运动信息图，并且提供运动信息图给图生成单元56。

[0062] 注意，在下文中，在不必区分从亮度信息提取单元51到运动信息提取单元55输出的亮度信息图到运动信息图的情况下，它们也被简称为信息图。这些信息图中包含的信息被作为指示特征的特征量的信息，这些特征多数被包含在含有被摄对象的区域中，并且其中与输入图像的每个区域相对应地布置该信息的东西被作为信息图。

[0063] 也就是说，亮度信息提取单元51到运动信息提取单元55从输入图像中提取多数被包含在被摄对象的区域中的特征的特征量，并且产生作为指示输入图像的每个区域中的特征量的信息项的信息图。因此，每个信息图中具有较大量信息的区域，即对应于具有大量信息的区域的输入图像的区域，是更加可能包含被摄对象的区域，并且能够基于每个信息图指定输入图像中的包含被摄对象的区域。

[0064] 图生成单元56线性组合自亮度信息提取单元51到运动信息提取单元55提供的亮度信息图、颜色信息图、边缘信息图、面部信息图和运动信息图，并且产生被摄对象图。也就是说，亮度信息图到运动信息图的每个区域中的信息项(特征量)被根据相同位置的每个区域加权相加，从而产生被摄对象图。图生成单元56把所产生的被摄对象图提供给梯度图生成单元22。

[0065] 下面参考图3到图7描述图2中的亮度信息提取单元51到运动信息提取单元55的更详细配置。

[0066] 图3是图解亮度信息提取单元51的更详细配置的示例的图。

[0067] 亮度信息提取单元51包括亮度图像生成单元81、金字塔图像生成单元82、差计算单元83和亮度信息图生成单元84。

[0068] 亮度图像生成单元81利用所提供的输入图像产生亮度图像并且提供亮度图像给金字塔图像生成单元82，在亮度图像中，输入图像的像素的亮度值作为像素的像素值。这里，亮度图像的任意像素的像素值指示与该任意像素位置相同的输入图像的像素的亮度值。

[0069] 金字塔图像生成单元82利用从亮度图像生成单元81提供的亮度图像产生具有不同分辨率的多个亮度图像，并且把这些亮度图像作为亮度金字塔图像提供给差计算单元83。

[0070] 例如，产生具有从水平L1到水平L8的8个分辨率的层中的金字塔图像。假定水平L1的金字塔图像具有最高分辨率，金字塔图像的分辨率按从水平L1到水平L8的顺序降低。

[0071] 在这样的情况下，亮度图像生成单元81产生的亮度图像作为水平L1的金字塔图像。此外，水平Li(注意，1≤i≤7)的金字塔图像的四个邻接像素的像素值的平均值作为与这些像素对应的水平L(i+1)的金字塔图像的一个像素的像素值。因此，水平L(i+1)的金字塔图像是这样的图像：相对于水平Li的金字塔图像，该图像在垂直和水平方向降低到一半(当不可分时舍去)。

[0072] 差计算单元83从提供自金字塔图像生成单元82的多个金字塔图像中选择不同层的两个金字塔图像，获得所选择的金字塔图像之间的差，并且产生亮度差图像。注意，由于各个层的金字塔图像具有不同尺寸(像素数)，在生成差图像时，根据较大金字塔图像对较小金字塔图像进行上转换。

[0073] 当差计算单元83产生预定数量的亮度差图像时，差计算单元83规格化这些所产生的差图像，并且提供规格化的差图像给亮度信息图生成单元84。亮度信息图生成单元84基于从差计算单元83提供的差图像产生亮度信息图，并且提供亮度信息图给图生成单元56。

[0074] 图4是图解图2中的颜色信息提取单元52的更详细配置的示例的图。 [0075] 颜色信息提取单元52包括RG差图像生成单元111、BY差图像生成单元112、金字塔图像生成单元113、金字塔图像生成单元114、差计算单元115、差计算单元116、颜色信息图生成单元117和颜色信息图生成单元118。

[0076] RG差图像生成单元111利用所提供的输入图像产生RG差图像并且提供RG差图像给金字塔图像生成单元113，在RG差图像中，输入图像的像素的R(红)分量和G(绿)分量之间的差作为像素的像素值。RG差图像的任意像素的像素值指示与该任意像素位置相同的输入图像的像素的R分量和G分量之间的差的值。

[0077] BY差图像生成单元112利用所提供的输入图像产生BY差图像并且提供BY差图像给金字塔图像生成单元114，在BY差图像中，输入图像的像素的B(蓝)分量和Y(黄)分量之间的差作为像素的像素值。BY差图像的任意像素的像素值指示与该任意像素位置相同的输入图像的像素的 B(蓝)分量和Y(黄)分量之间的差的值。

[0078] 金字塔图像生成单元113和金字塔图像生成单元114利用从RG差图像生成单元111和BY差图像生成单元112提供的RG差图像和BY差图像产生具有不同分辨率的多个RG差图像和BY差图像。金字塔图像生成单元113和金字塔图像生成单元114把这些所产生的RG差图像和BY差图像当作RG差金字塔图像和BY差金字塔图像，并且提供BY差金字塔图像和BY差金字塔图像给差计算单元115和差计算单元116。

[0079] 例如，像在亮度金字塔图像的情形中那样，分别产生具有从水平L1到水平L8的8个分辨率的层中的金字塔图像，以作为RG差金字塔图像和BY差金字塔图像。 [0080] 差计算单元115和差计算单元116从提供自金字塔图像生成单元113和金字塔图像生成单元114的多个金字塔图像中选择不同层的两个金字塔图像，获得所选择的金字塔图像之间的差，并且产生RG差差图像和BY差差图像。注意，由于各个层的金字塔图像具有不同尺寸，在生成差图像时，把较小金字塔图像上转换为与较大金字塔图像尺寸相同。 [0081] 当差计算单元115和差计算单元116产生预定数量的RG差差图像和BY差差图像时，差计算单元115和差计算单元116规格化这些所产生的差图像，并且提供规格化的差图像给颜色信息图生成单元117和颜色信息图生成单元118。颜色信息图生成单元117和颜色信息图生成单元118基于从差计算单元115和差计算单元116提供的差图像产生颜色信息图，并且提供颜色信息图给图生成单元56。在颜色信息图生成单元117中，产生RG差颜色信息图。在颜色信息图生成单元118中，产生BY差颜色信息图。

[0082] 图5是图解图2中的边缘信息提取单元53的更详细配置的示例的图。 [0083] 边缘信息提取单元53包括边缘图像生成单元141到边缘图像生成单元144、金字塔图像生成单元145到金字塔图像生成单元148、差计算单元149到差计算单元152、和边缘信息图生成单元153到边缘信息图生成单元156。

[0084] 边缘图像生成单元141到边缘图像生成单元144利用Gabor滤波器对所提供的输入图像应用滤波处理，产生边缘图像并且提供边缘图像给金字塔图像生成单元145到金字塔图像生成单元148，在边缘图像中，例如，沿0度、45度、90度和135度取向的边缘强度作为像素的像素值。

[0085] 例如，边缘图像生成单元141产生的边缘图像的任意像素的像素值指示与该任意像素位置相同的输入图像的像素的0度取向上的边缘强度。注意，每个边缘的取向是指由构成Gabor滤波器的Gabor函数的角分量指示的取向。

[0086] 金字塔图像生成单元145到金字塔图像生成单元148利用从边缘图像生成单元141到边缘图像生成单元144提供的各个取向的边缘图像产生具有不同分辨率的多个边缘图像。金字塔图像生成单元145到金字塔图像生成单元148把所产生的各个取向的边缘图像当作边缘的各个取向的金字塔图像，并且提供边缘的各个取向的金字塔图像给差计算单元149到差计算单元152。

[0087] 例如，像在亮度金字塔图像的情形中那样，分别产生从水平L1到水平L8的8个层中的金字塔图像，以作为边缘的各个取向的金字塔图像。

[0088] 差计算单元149到差计算单元152分别从提供自金字塔图像生成单元145和金字塔图像生成单元148的多个金字塔图像中选择不同层的两个金字塔图像，获得所选择的金字塔图像之间的差，并且产生边缘的各个取向的差图像。注意，由于各个层的金字塔图像具有不同尺寸，在生成差图像时，把较小金字塔图像上转换。

[0089] 当差计算单元149到差计算单元152产生预定数量的边缘的各个取向的差图像时，差计算单元149到差计算单元152规格化这些所产生的差图像，并且提供规格化的差图像给边缘信息图生成单元153到边缘信息图生成单元156。边缘信息图生成单元153到边缘信息图生成单元156基于从差计算单元149到差计算单元152提供的差图像产生各个取向的边缘信息图，并且提供各个取向的边缘信息图给图生成单元56。

[0090] 图6是图解图2中的面部信息提取单元54的更详细配置的示例的图。 [0091] 面部信息提取单元54包括面部检测单元181和面部信息图生成单元182。 [0092] 面部检测单元181在所提供的输入图像中检测作为被摄对象的人的面部的区域，并且提供检测结果给面部信息图生成单元182。面部信息图生成单元182基于来自面部检测单元181的检测结果产生面部信息图，并且提供面部信息图给图生成单元56。 [0093] 图7是图解图2中的运动信息提取单元55的更详细配置的示例的图。 [0094] 运动信息提取单元55包括局部运动向量提取单元211、全局运动向量提取单元212、差计算单元213和运动信息图生成单元214。

[0095] 局部运动向量提取单元211利用所提供的输入图像和图像捕获时间不同于该输入图像的另一输入图像检测输入图像的每个像素的运动向量以作为局部运动向量，并且提供局部运动向量给差计算单元213。全局运动向量提取单元212利用所提供的输入图像和图像捕获时间不同于该输入图像的另一输入图像检测输入图像的每个像素的运动向量，进一步获得各个像素的运动向量的平均值以作为全局运动向量，并且提供全局运动向量给差计算单元213。全局运动向量指示整个输入图像的运动方向。

[0096] 差计算单元213获得来自局部运动向量提取单元211的局部运动向量和来自全局运动向量提取单元212的全局运动向量之间的差的绝对值以产生运动差图像，并且提供运动差图像给运动信息图生成单元214。这里，运动差图像的任意像素的像素值指示与该任意像素位置相同的输入图像的像素的局部运动向量和整个输入图像的全局运动向量之间的差的绝对值。因此，运动差图像的像素的像素值指示在输入图像的该像素处显示的对象(或背景)相对于整个输入图像的相对运动量，即相对于背景的相对运动量。 [0097] 运动信息图生成单元214基于来自差计算单元213的运动差图像产生运动信息图，并且提供运动信息图给图生成单元56。注意，更具体地，在时间上连续地捕获的项目被提供为输入图像的情况下，例如在持续捕获输入图像或输入图像是运动图像的情况下，执行运动信息图的生成。

[0098] [图像处理设备的操作]

[0099] 另外，当输入图像被提供给图像处理设备11时，图像处理设备11指定输入图像中的被摄对象区域，并且启动在输入图像上显示被摄对象框的被摄对象框显示处理。下文中参考图8中的流程图描述由图像处理设备11执行的被摄对象框显示处理。 [0100] 在步骤S11，被摄对象图生成单元21基于所提供的输入图像执行被摄对象图产生处理以产生被摄对象图。在步骤S12，图像处理设备11基于所产生的被摄对象图执行被摄对象区域提取处理以指定被摄对象区域。当指定被摄对象区域时，矩形整形单元27向显示控制单元28提供指示该被摄对象区域的被摄对象区域信息。

[0101] 注意，后面会描述被摄对象图产生处理和被摄对象区域提取处理的细节。 [0102] 在步骤S13，显示控制单元28基于所提供的输入图像和来自矩形整形单元27的被摄对象区域信息在输入图像上显示被摄对象框，并且被摄对象框显示处理结束。也就是说，显示控制单元28向未示出的显示单元提供输入图像以显示输入图像，并且基于被摄对象区域信息在输入图像上显示被摄对象框。

[0103] 以这种方式，图像处理设备11基于输入图像产生被摄对象图，进一步基于被摄对象图指定被摄对象区域，并且在输入图像上显示被摄对象框。

[0104] 下面参考图9中的流程图描述与图8的步骤S11中的处理相对应的被摄对象图产生处理。

[0105] 在步骤S41，亮度信息提取单元51基于所提供的输入图像执行亮度信息提取处理以产生亮度信息图，并且提供亮度信息图给图生成单元56。在步骤S42，颜色信息提取单元52基于所提供的输入图像执行颜色信息提取处理以产生颜色信息图，并且提供颜色信息图给图生成单元56。

[0106] 在步骤S43，边缘信息提取单元53基于所提供的输入图像执行边缘信息提取处理以产生边缘信息图，并且提供边缘信息图给图生成单元56。在步骤S44，面部信息提取单元54基于所提供的输入图像执行面部信息提取处理以产生面部信息图，并且提供面部信息图给图生成单元56。此外，在步骤S45，运动信息提取单元55基于所提供的输入图像执行运动信息提取处理以产生运动信息图，进一步提供运动信息图给图生成单元56。 [0107] 注意，后面会描述这些亮度信息提取处理、颜色信息提取处理、边缘信息提取处理、面部信息提取处理和运动信息提取处理的细节。更具体地，在未有在时间上连续地捕获的输入图像被提供给被摄对象图生成单元21的情况下，不执行运动信息提取处理。 [0108] 在步骤S46，图生成单元56利用自亮度信息提取单元51到运动信息提取单元55提供的亮度信息图到运动信息图产生被摄对象图，并且提供被摄对象图给梯度图生成单元
22。

[0109] 例如，图生成单元56利用作为针对各个信息图预先获得的权重的信息权重Wb线性组合各个信息图，通过把作为线性组合的结果而获得的图的像素值乘以作为预先获得的权重的被摄对象权重Wc来执行规格化，从而产生被摄对象图。

[0110] 也就是说，当假定要获得的被摄对象图上被付予注意力的像素作为被注意像素时，各个信息图的与被注意像素位置相同的像素的像素值被乘以各个信息图的信息权重Wb，并且像素值乘以信息权重Wb的积的和作为被注意像素的像素值。此外，通过把以这种方式获得的被摄对象图的每个像素的像素值乘以针对被摄对象图预先获得的被摄对象权重Wc来执行规格化，从而产生最终的被摄对象图。

[0111] 注意，更具体地，利用RG差颜色信息图和BY差颜色信息图作为颜色信息图，以及利用0度、45度、90度和135度的各个取向的边缘信息图作为边缘信息图，来产生被摄对象图。通过学习预先获得被摄对象权重Wc，并且执行规格化，使得被摄对象图的每个像素的像素值取0和1之间的值。

[0112] 当以这种方式产生被摄对象图时，被摄对象图产生处理结束，之后处理前进到图8的步骤S12。

[0113] 如上所述，被摄对象图生成单元21从所提供的输入图像提取各个特征的特征量，并且产生信息图。被摄对象图生成单元21基于所产生的各个信息图产生被摄对象图。 [0114] 下面参考图10到图14的流程图描述分别与图9的步骤S45到步骤S45中的处理相对应的处理。

[0115] 首先参考图10中的流程图描述与图9的步骤S41中的处理相对应的亮度信息提取处理。

[0116] 在步骤S71，亮度图像生成单元81利用所提供的输入图像产生亮度图像，并且提供亮度图像给金字塔图像生成单元82。例如，亮度图像生成单元81把输入图像的像素的每个分量R、G和B的值乘以针对每个分量预先获得的系数，并且获得各个分量的值乘以系数的积的和，以作为与输入图像的像素位置相同的亮度图像的像素的像素值。也就是说，在包含亮度分量(Y)和色差分量(Cb，Cr)的分量信号中，获得亮度分量。注意，可选地，像素的各个分量R、G和B的值的平均值可以作为亮度图像的像素的像素值。

[0117] 在步骤S72，金字塔图像生成单元82基于从亮度图像生成单元81提供的亮度图像产生从水平L1到水平L8的各个层的金字塔图像，并且提供金字塔图像给差计算单元83。 [0118] 在步骤S73，差计算单元83利用从金字塔图像生成单元82提供的金字塔图像产生差图像，规格化差图像，并且提供规格化的差图像给亮度信息图生成单元84。执行规格化以使得差图像的像素的像素值取例如0和255之间的值。

[0119] 具体地，差计算单元83获得水平L6和水平L3、水平L7和水平L3、水平L7和水平L4、水平L8和水平L4、以及水平L8和水平L5的各个层的组合中包含的金字塔图像之间的差。相应地，获得总共5个亮度差图像。

[0120] 例如，在要产生水平L6和水平L3的组合的差图像的情况下，根据水平L3的金字塔图像的尺寸上转换水平L6的金字塔图像。也就是说，上转换之前水平L6的金字塔图像中像素的像素值作为上转换之后的水平L6的金字塔图像中对应于该像素的若干邻接像素的像素值。获得水平L6的金字塔图像的像素的像素值和与该像素位置相同的水平L3的金字塔图像的像素的像素值之间的差，并且该差作为差图像的像素的像素值。 [0121] 产生这些差图像的处理相当于利用带通滤波器对亮度图像应用滤波处理和从亮度图像提取某个频率分量。以这种方式获得的差图像的像素的像素值指示各个水平的金字塔图像的亮度值之间的差，即输入图像的某个像素的亮度和该像素周围的平均亮度之间的差。

[0122] 通常，图像中相对环境的亮度差大的区域是吸引观察该图像的人的注意力的显眼区域。因而该区域很可能是被摄对象的区域。因此，可以认为，在每个差图像中，具有更大像素值的像素指示很可能是被摄对象的区域的区域。

[0123] 在步骤S74，亮度信息图生成单元84基于从差计算单元83提供的差图像产生亮度信息图，并且提供亮度信息图给图生成单元56。当从亮度信息图生成单元84向图生成单元56提供亮度信息图时，亮度信息提取处理结束，并且处理前进到图9的步骤S42。 [0124] 例如，亮度信息图生成单元84利用作为针对各个差图像预先获得的权重的差权重Wa执行所提供的5个差图像的加权加法，并且获得单个图像。也就是说，各个差图像的位置相同的像素的像素值被乘以相应差权重Wa，并且获得像素值乘以差权重Wa的积的和。 [0125] 注意，在生成亮度信息图时，执行差图像的上转换，使得各个差图像具有相同尺寸。

[0126] 以这种方式，亮度信息提取单元51基于输入图像获得亮度图像，并且基于亮度图像产生亮度信息图。根据以这种方式获得的亮度信息图，在输入图像中，能够容易地检测亮度差大的区域，即可能吸引粗略看过输入图像的观察者的注意力的区域。 [0127] 下面参考图11中的流程图描述与图9的步骤S42中的处理相对应的颜色信息提取处理。

[0128] 在步骤S101，RG差图像生成单元111利用所提供的输入图像产生RG差图像，并且提供RG差图像给金字塔图像生成单元113。

[0129] 在步骤S102，BY差图像生成单元112利用所提供的输入图像产生BY差图像，并且提供BY差图像给金字塔图像生成单元114。

[0130] 在步骤S103，金字塔图像生成单元113和金字塔图像生成单元114利用来自RG差图像生成单元111的RG差图像和来自BY差图像生成单元112的BY差图像产生金字塔图像。

[0131] 例如，金字塔图像生成单元113通过产生具有不同分辨率的多个RG差图像而在从水平L1到水平L8的各个层产生金字塔图像，并且提供金字塔图像给差计算单元115。类似地，金字塔图像生成单元114通过产生具有不同分辨率的多个BY差图像而在从水平L1到水平L8的各个层产生金字塔图像，并且提供金字塔图像给差计算单元116。 [0132] 在步骤S104，差计算单元115和差计算单元116基于从金字塔图像生成单元113和金字塔图像生成单元114提供的金字塔图像产生差图像，规格化差图像，并且提供规格化的差图像给颜色信息图生成单元117和颜色信息图生成单元118。在差图像的规格化中，例如，使像素的像素值取0和255之间的值。

[0133] 例如，差计算单元115获得各个层的RG差金字塔图像中水平L6和水平L3、水平L7和水平L3、水平L7和水平L4、水平L8和水平L4、以及水平L8和水平L5的各个层的组合中包含的金字塔图像之间的差。相应地，获得总共5个RG差差图像。

[0134] 类似地，差计算单元116获得各个层的BY差金字塔图像中水平L6和水平L3、水平L7和水平L3、水平L7和水平L4、水平L8和水平L4、以及水平L8和水平L5的各个层的组合中包含的金字塔图像之间的差。相应地，获得总共5个BY差差图像。

[0135] 产生这些差图像的处理相当于利用带通滤波器对RG差图像或BY差图像应用滤波处理和从RG差图像或BY差图像提取某个频率分量。以这种方式获得的差图像的像素的像素值指示各个水平的金字塔图像的特定颜色分量之间的差，即输入图像的像素的特定颜色分量和该像素周围的平均颜色分量之间的差。

[0136] 通常，图像的具有与环境相比更显眼的颜色的区域，即对于特定颜色分量与环境的差大的区域，是吸引观看图像的人的注意力的显眼区域。因而该区域很可能是被摄对象的区域。因此，可以认为，在每个差图像中，具有较大像素值的像素指示很可能是被摄对象的区域的区域。

[0137] 在步骤S105，颜色信息图生成单元117和颜色信息图生成单元118利用来自差计算单元115的差图像和来自差计算单元116的差图像产生颜色信息图，并且提供颜色信息图给图生成单元56。

[0138] 例如，颜色信息图生成单元117利用针对各个差图像预先获得的差权重Wa执行从差计算单元115提供的RG差差图像的加权加法，并且获得RG差颜色信息图。 [0139] 类似地，颜色信息图生成单元118利用预先获得的差权重Wa执行从差计算单元116提供的BY差差图像的加权加法，并且获得BY差颜色信息图。注意，在生成颜色信息图时，执行差图像的上转换，使得各个差图像具有相同尺寸。

[0140] 当颜色信息图生成单元117和颜色信息图生成单元118向图生成单元56提供以这种方式获得的RG差颜色信息图和BY差颜色信息图时，颜色信息提取处理结束，并且处理前进到图9的步骤S43。

[0141] 以这种方式，颜色信息提取单元52基于输入图像获得特定颜色分量的差图像，并且基于那些图像产生颜色信息图。根据以这种方式获得的颜色信息图，在输入图像中，能够容易地检测特定颜色分量的差大的区域，即可能吸引粗略看过输入图像的观察者的注意力的区域。

[0142] 注意，已经说明了在颜色信息提取单元52提取R(红)分量和绿(G)分量之间的差和B(蓝)分量和Y(黄)分量之间的差，以作为从输入图像提取的颜色信息。然而，例如，可以提取色差分量Cr和色差分量Cb。这里，色差分量Cr是R分量和亮度分量之间的差，色差分量Cb是B分量和亮度分量之间的差。

[0143] 图12是描述与图9的步骤S43中的处理相对应的边缘信息提取处理的流程图。下面描述边缘信息提取处理。

[0144] 在步骤S131，边缘图像生成单元141到边缘图像生成单元144分别利用Gabor滤波器对所提供的输入图像应用滤波处理，产生边缘图像，在边缘图像中，例如，沿0度、45度、90度和135度取向的边缘强度作为像素的像素值。边缘图像生成单元141到边缘图像生成单元144把所产生的边缘图像提供给金字塔图像生成单元145到金字塔图像生成单元148。

[0145] 在步骤S132，金字塔图像生成单元145到金字塔图像生成单元148利用来自边缘图像生成单元141到边缘图像生成单元144的边缘图像产生金字塔图像，并且提供金字塔图像给差计算单元149到差计算单元152。

[0146] 例如，金字塔图像生成单元145通过产生具有不同分辨率的0度取向的多个RG差图像而在从水平L1到水平L8的各个层产生金字塔图像，并且提供金字塔图像给差计算单元149。类似地，金字塔图像生成单元146到金字塔图像生成单元148产生从水平L1到水平L8的各个层的金字塔图像，并且提供金字塔图像给差计算单元150到差计算单元152。 [0147] 在步骤S133，差计算单元149到差计算单元152利用自金字塔图像生成单元145到金字塔图像生成单元148提供的金字塔图像产生差图像，规格化差图像，并且提供规格化的差图像给边缘信息图生成单元153到边缘信息图生成单元156。在差图像的规格化中，例如，使像素的像素值取0和255之间的值。

[0148] 例如，差计算单元149获得从金字塔图像生成单元145提供的各个层的0度取向边缘金字塔图像中，水平L6和水平L3、水平L7和水平L3、水平L7和水平L4、水平L8和水平L4、以及水平L8和水平L5的各个层的组合中包含的金字塔图像之间的差。相应地，获得总共5个边缘差图像。

[0149] 类似地，差计算单元150到差计算单元152获得各个层的金字塔图像中水平L6和水平L3、水平L7和水平L3、水平L7和水平L4、水平L8和水平L4、以及水平L8和水平L5的各个层的组合中包含的金字塔图像之间的差。相应地，对于每个取向的边缘，获得总共5个边缘差图像。

[0150] 产生这些差边缘图像的处理相当于利用带通滤波器对边缘图像应用滤波处理和从边缘图像提取某个频率分量。以这种方式获得的差图像的像素的像素值指示各个水平的金字塔图像的边缘强度之间的差，即输入图像的某个位置的边缘强度和该位置周围的平均边缘强度之间的差。

[0151] 通常，图像中边缘强度相比于环境更大的区域是吸引观察该图像的人的注意力的显眼区域。因而该区域很可能是被摄对象的区域。因此，可以认为，在每个差图像中，具有较大像素值的像素指示很可能是被摄对象的区域的区域。

[0152] 在步骤S134，边缘信息图生成单元153到边缘信息图生成单元156利用来自差计算单元149到差计算单元152的差图像产生相应取向的边缘信息图，并且提供边缘信息图给图生成单元56。

[0153] 例如，边缘信息图生成单元153利用预先获得的差权重Wa执行从差计算单元149提供的差图像的加权加法，并且获得0度取向的边缘信息图。类似地，边缘信息图生成单元154到边缘信息图生成单元156利用差权重Wa执行自差计算单元150到差计算单元152提供的差图像的加权加法，并且获得45度、90度和135度的相应取向的边缘信息图。注意，在生成边缘信息图时，执行差图像的上转换，使得各个差图像具有相同尺寸。当边缘信息图生成单元153到边缘信息图生成单元156把以这种方式获得的各个取向的总共四个边缘信息图提供给图生成单元56时，边缘信息提取处理结束，并且处理前进到图9的步骤S44。 [0154] 以这种方式，边缘信息提取单元53基于输入图像获得特定取向的边缘差图像，并且基于那些差图像产生边缘信息图。根据以这种方式获得的各个取向的边缘信息图，在输入图像中，能够容易地检测与环境相比特定取向的边缘强度大的区域，即可能吸引粗略看过输入图像的观察者的注意力的区域。

[0155] 注意，已经描述了在边缘信息提取处理中Gabor滤波器被用于提取边缘。然而，可以使用边缘提取滤波器，例如Sobel滤波器或Roberts滤波器。

[0156] 下面参考图13中的流程图描述与图9的步骤S44中的处理相对应的面部信息提取处理。

[0157] 在步骤S161，面部检测单元181在所提供的输入图像中检测人的面部的区域，并且提供检测结果给面部信息图生成单元182。例如，面部检测单元181利用Gabor滤波器对输入图像应用滤波处理，并且从输入图像提取例如人的眼睛、嘴和鼻子的特性区域，从而在输入图像中检测面部的区域。

[0158] 在步骤S162，面部信息图生成单元182利用来自面部检测单元181的检测结果产生面部信息图，并且提供面部信息图给图生成单元56。

[0159] 例如，假定作为输入图像中面部的检测结果，已经检测出输入图像中被估计为包含面部的多个矩形区域(下文称作候选区域)。这里，假定在输入图像中某个位置附近可以检测到多个候选区域，并且这些候选区域的部分可以交叠。也就是说，例如，在针对输入图像中面部的单独区域获得包含该面部的多个候选区域的情况下，这些候选区域的部分交叠。

[0160] 针对作为面孔检测的结果而获得的候选区域中的每个，面部信息图生成单元182产生与输入图像尺寸相同的检测图像。这个检测图像是这样的：检测图像的在与所处理的候选区域相同的区域中的像素的像素值所取的值大于在与该候选区域不同的区域中的像素的像素值。

[0161] 由于检测图像的像素与被估计为很可能包含人的面部的候选区域中的像素位置相同，该检测图像的像素的像素值变大。面部信息图生成单元182把以这种方式获得的检测图像相加以产生单个图像，规格化该单个图像，并且获得面部信息图。因此，在面部信息图中，在与输入图像中多个候选区域的部分交叠的区域相同的区域中的像素的像素值变大，这意味着该像素更加可能包含面部。注意，执行规格化以使得面部信息图的像素的像素值取例如0和255之间的值。

[0162] 当产生面部信息图时，面部信息提取处理结束，并且处理前进到图9的步骤S45。 [0163] 以这种方式，面部信息提取单元54检测输入图像中的面部，并且基于检测结果产生面部信息图。根据以这种方式获得的面部信息图，能够容易地检测输入图像中作为被摄对象的人的面部的区域。

[0164] 此外，参考图14中的流程图描述与图9的步骤S45中的处理相对应的运动信息提取处理。

[0165] 在步骤S191，局部运动向量提取单元211利用所提供的输入图像，通过梯度法等等检测输入图像的每个像素的局部运动向量，并且提供局部运动向量给差计算单元213。 [0166] 在步骤S192，全局运动向量提取单元212利用所提供的输入图像检测全局运动向量，并且提供全局运动向量给差计算单元213。

[0167] 在步骤S193，差计算单元213获得来自局部运动向量提取单元211的局部运动向量和来自全局运动向量提取单元212的全局运动向量之间的差的绝对值，并且产生运动差图像。差计算单元213提供所产生的运动差图像给运动信息图生成单元214。 [0168] 在步骤S194，运动信息图生成单元214规格化从差计算单元213提供的差图像以获得运动信息图，并且提供运动信息图给图生成单元56。这里，执行差图像的规格化，使得每个像素的像素值取例如0和255之间的值。当产生运动信息图时，运动信息提取处理结束，并且处理前进到图9的步骤S46。

[0169] 以这种方式，运动信息提取单元55基于输入图像检测运动，并且基于检测结果产生运动信息图。根据以这种方式获得的运动信息图，能够容易地检测输入图像中运动对象的区域。在输入图像中，运动对象的区域是可能吸引粗略看过输入图像的观察者的注意力，即很可能是被摄对象的区域。

[0170] 根据前面描述的亮度信息提取处理到运动信息提取处理，获得各个信息图，并且由这些信息图产生被摄对象图。

[0171] 下面参考图15中的流程图描述与图8的步骤S12中的处理相对应的被摄对象区域提取处理。

[0172] 在步骤S221，梯度图生成单元22利用从被摄对象图生成单元21中的图生成单元56提供的被摄对象图产生梯度图，并且提供梯度图给阈值处理单元23、阈值处理单元24和二值化图生成单元26。

[0173] 例如，当被摄对象图上彼此正交的两个方向作为x方向和y方向时，梯度图生成单元22产生指示被摄对象图的x方向上像素值的变化的x方向梯度图，以及指示被摄对象图的y方向上像素值的变化的y方向梯度图。梯度图生成单元22把所产生的x方向梯度图和y方向梯度图的和当作梯度图。

[0174] 具体地，如图16的左上部分所示，注意在被摄对象图SM的图例中垂直排列的线L1和线L2。线L1上像素的像素值和线L2上像素的像素值之间的差的绝对值作为y方向梯度图的与线L1上像素位置相同的像素的像素值。

[0175] 注意，在图16中，假定图例中的垂直方向作为y方向，并且图例中的水平方向作为x方向。线L1和线L2是沿x方向排列的被摄对象图SM的像素的线。在图16中，在图例中比线L1仅低两个像素的像素的线作为线L2。

[0176] 例如，被摄对象图SM的线L1左端处的像素的像素值与线L2左端处的像素的像素值之间的差的绝对值，作为y方向梯度图的与线L1左端处的像素位置相同的像素的像素值。以这种方式获得的y方向梯度图指示像素的像素值在被摄对象图SM的y方向上的变化度，即是被摄对象的可能性的边缘的强度。

[0177] 这里，线L1和线L2不是两个邻接的线，以防止输入图像的每个位置和该位置处是被摄对象的可能性的变化度，即所获得的差的绝对值之间发生偏移。注意，线L2不限于图例中比线L1仅低两个像素的线，线L2可以是任何线，只要线L2是比线L1低两个或更多像素的线。

[0178] 类似地，如图16的左下部分所示，注意在被摄对象图SM的图例中水平排列的线L3和线L4。线L3上像素的像素值和线L4上像素的像素值之间的差的绝对值作为x方向梯度图的与线L3上像素位置相同的像素的像素值。

[0179] 注意，线L3和线L4是沿y方向排列的被摄对象图SM的像素的线。在图16中，在图例中比线L3仅靠右两个像素的像素的线作为线L4。

[0180] 例如，被摄对象图SM的线L3顶端处的像素的像素值与线L4顶端处的像素的像素值之间的差的绝对值，作为x方向梯度图的与线L3顶端处的像素位置相同的像素的像素值。以这种方式获得的x方向梯度图指示像素的像素值在被摄对象图SM的x方向上的变化度，即是被摄对象的可能性的边缘的强度。

[0181] 注意，线L4不限于图例中比线L3仅靠右两个像素的线，线L4可以是任何线，只要线L4是比线L3靠右两个或更多像素的线。

[0182] 梯度图生成单元22把以这种方式获得的x方向梯度图和y方向梯度图相加以产生梯度图GM。也就是说，当假定被摄对象图GM上被付予注意力的像素作为被注意像素时，x方向梯度图的与被注意像素位置相同的像素的像素值与y方向梯度图的与该被注意像素位置相同的像素的像素值的和作为该被注意像素的像素值。注意，梯度图的像素的像素值越大，则与该像素位置相同的输入图像的像素更加可能是被摄对象区域中包含的像素。 [0183] 当使用以这种方式获得的梯度图时，与被摄对象图相比，能够更加确定地指定图像中被摄对象的位置。

[0184] 例如，被摄对象图中被摄对象的区域内像素的像素值随着像素接近该被摄对象的中央区域而变大，并且随着像素远离被摄对象的中心而变小。现在，假定被摄对象图中被摄对象的区域内的像素值从轮廓部分到被摄对象的中央部分沿相同梯度变化。 [0185] 在这样的情况下，在被摄对象图中，当包含像素值大于或等于预定阈值的像素的区域被当作被摄对象的区域时，被当作被摄对象的区域的尺寸根据阈值的值而变化。因而，变得难以从输入图像中准确地提取被摄对象的区域。具体地，阈值越大，则被当作被摄对象的区域越小。当阈值过小时，由于噪声的影响，不是被摄对象的区域也被当作被摄对象的区域。

[0186] 相对比地，梯度图的每个像素的像素值指示是被摄对象的可能性的变化度，即被摄对象的像素值的梯度。因此，在被摄对象图上被摄对象的区域中的像素值从轮廓部分到被摄对象的中央部分沿相同梯度变化的情况下，被摄对象的区域内所有像素的像素值在梯度图上取基本相同的值。因此，利用梯度图从输入图像提取的被摄对象的区域的尺寸未根据阈值变化太多，并且能够更加准确地提取被摄对象的区域。

[0187] 回来参照图15中的流程图的描述，在步骤S222，阈值处理单元23利用从梯度图生成单元22提供的梯度图计算用于提取被摄对象的高阈值THh。

[0188] 例如，如图17所示，阈值处理单元23基于梯度图GM产生直方图HS，其中以梯度图的像素值的范围作为区间(bin)。

[0189] 具体地，在梯度图GM的像素的像素值可以取的值的范围为0到1的情况下，产生具有100个区间的直方图，其中水平轴是区间的值，垂直轴是梯度图GM的属于每个区间的像素的数目，即像素的频率值。例如，像素值在0到0.01的范围内的梯度图GM的像素属于一个区间，该区间的中值为0.005。

[0190] 接着，阈值处理单元23对所产生的直方图HS的每个区间的频率值进行二值化，并且产生通过把区间的二值化值按照区间的中值的升序排列而获得的信息，作为直方图区间信息HBI。这里，通过在区间的频率值为0的情况下把二值化值取为0并且在区间的频率值为不同于0的正数值的情况下把二值化值取为1，来进行区间的频率值的二值化。因此，例如，在具有最小中值的区间的频率值为5的情况下，直方图区间信息HBI的头的值为1。 [0191] 此外，阈值处理单元23把从直方图区间信息HBI的尾部开始、二值化值为1的预定第a个(例如，第18个)区间的中值作为高阈值THh。例如，假定从尾部开始，直方图区间信息HBI的值按照所列顺序为″1″、 ″0″、″1″和″1″，并且上述a的值为″3″。在这样的情况下，由于从直方图区间信息HBI的尾部开始二值化值为1的第三个区间是与从直方图区间信息HBI的尾部开始的第四个值相对应的区间，该区间的中值被当作高阈值THh。

[0192] 回来参照图15中的流程图，在步骤S223，阈值处理单元24利用从梯度图生成单元22提供的梯度图计算用于提取被摄对象的低阈值THl。

[0193] 例如，阈值处理单元24产生与阈值处理单元23所产生的直方图相同的直方图，并且获得与整个梯度图的像素数目的预定百分比b(例如，百分之12)相对应的像素数目B。阈值处理单元24把梯度图的像素中具有第B最大像素值的像素所属于的直方图的区间的中值作为低阈值THl。

[0194] 也就是说，在整个梯度图中，在具有较大像素值的前百分之b个像素中，选择具有最小像素值的像素，并且该像素所属的区间的中值被当作低阈值THl。

[0195] 如上所述获得的低阈值THl和高阈值THh被用于利用梯度图从输入图像中提取被摄对象区域。

[0196] 低阈值THl是用于从输入图像中提取被认为可能包含被摄对象的区域的阈值。也就是说，在梯度图中，在输入图像的与包含像素值大于或等于低阈值THl的像素的区域位置相同的区域中，存在肯定包含被摄对象的区域，但是也存在不包含被摄对象但包含噪声的区域。

[0197] 高阈值THh是用于提取被认为很可能肯定包含被摄对象的区域，即可能是被摄对象的区域的阈值。也就是说，在梯度图中，输入图像的与包含像素值大于或等于高阈值THh的像素的区域位置相同的区域很可能肯定包含被摄对象，但是该区域可能窄于实际被摄对象的区域。因此，除被当作被摄对象区域的区域之外，输入图像可包含实际包含被摄对象的区域。

[0198] 这里，关于高阈值THh和低阈值THl，预先统计获得用于得到这些阈值的常数a和b，使得高阈值THh成为大于低阈值THl的值。

[0199] 因此，基于低阈值THl被指定为被摄对象的区域的输入图像的区域始终包含基于高阈值THh被指定为被摄对象的区域的输入图像的区域。也就是说，可以认为，与利用低阈值THl检测可能是被摄对象的区域相比，高阈值THh是用于更加肯定地检测可能是被摄对象的区域的阈值。

[0200] 注意，在低阈值THl变得大于高阈值THh的情况下，所获得的低阈值THl可以被用作高阈值THh，并且所获得的高阈值THh可以被用作低阈值THl。常数a和b可以改变为预先获得的其它值，并且可以再次获得高阈值THh和低阈值THl。

[0201] 此外，虽然已经描述了基于梯度图获得高阈值THh和低阈值THl，然而可以预先确定高阈值THh和低阈值THl。

[0202] 在步骤S224，阈值处理单元23和阈值处理单元24利用所获得的高阈值THh和低阈值THl进行梯度图的阈值处理，并且产生阈值图。

[0203] 也就是说，阈值处理单元23把要产生的阈值图上被付予注意力的像素当作被注意像素。在与被注意像素位置相同的梯度图的像素的像素值大于或等于高阈值THh的情况下，阈值处理单元23把被注意像素的像素值取为1。在与被注意像素位置相同的梯度图的像素的像素值小于高阈值THh的情况下，阈值处理单元23把被注意像素的像素值取为0。阈值处理单元23把以这种方式获得阈值图提供给复合图生成单元25。

[0204] 类似地，阈值处理单元24把要产生的阈值图上被付予注意力的像素当作被注意像素。在与被注意像素位置相同的梯度图的像素的像素值大于或等于低阈值THl的情况下，阈值处理单元24把被注意像素的像素值取为1。在与被注意像素位置相同的梯度图的像素的像素值小于低阈值THl的情况下，阈值处理单元24把被注意像素的像素值取为0。阈值处理单元24把以这种方式获得阈值图提供给复合图生成单元25。

[0205] 在步骤S225，复合图生成单元25基于从阈值处理单元23和阈值处理单元24提供的阈值图产生复合图。

[0206] 具体地，复合图生成单元25把从阈值处理单元23提供的阈值图和从阈值处理单元24提供的阈值图相加以产生单个新图。也就是说，当假定要新产生的图上被付予注意力的像素作为被注意像素时，两个阈值图的与被注意像素位置相同的像素的像素值的和作为被注意像素。因此，要新产生的图的像素的像素值取值0、1和2中的任何值。 [0207] 相应地，例如，获得在图18的图的左侧图示的图M。注意，在图18中，一个矩形指示图上的一个像素，并且矩形内的数字指示该矩形表示的像素的像素值。没有数字的矩形表示像素值为0的像素。

[0208] 在图的左侧的图M上，存在多个区域，其中像素值为1或2的像素彼此邻接，这些区域被当作可能包含被摄对象的区域。

[0209] 接着，如图的中心处所示，复合图生成单元25把包含像素值为1或 2的像素并且包含邻接像素的区域作为连接区域。例如，在图例的中心的示例中，四个区域CR1到CR4被当作连接区域。

[0210] 此外，从图M上的连接区域中，复合图生成单元25选择包含像素值为2的像素并且具有三个或更多像素的面积的连接区域。复合图生成单元25把所选择的连接区域内的像素的像素值取为1，把其它像素的像素值取为0，并且把作为此结果而获得的图作为复合图。

[0211] 例如，在图18的示例中，在区域CR1到区域CR4中，面积小于三个像素的连接区域CR3和不包含像素值为2的像素的连接区域CR4被排除，并且如图的右侧所示，选择区域CR1和区域CR2。这些区域CR1和区域CR2是包含像素值为2的像素并且具有三个或更多像素的面积的区域。

[0212] 所选择的区域CR1和区域CR2内的像素的像素值取为1，其它像素的像素值取为0，从而产生复合图。在复合图中，像素值为1的像素是被认为包含在被摄对象区域中的像素，像素值为0的像素是被认为未包含在被摄对象区域中的像素。

[0213] 这里，在产生复合图之前的图M中，被当作连接区域的区域是这样的区域：在梯度图中，该区域包含像素值大于或等于高阈值THh和低阈值THl中至少一个阈值的的像素。因此，可以认为图M的连接区域指示被摄对象区域的候选。

[0214] 在产生复合图时，由于以下原因从图M的连接区域中排除不包含像素值为2的像素和具有小于三个像素的面积的连接区域。

[0215] 也就是说，像素值为2的图M的像素指示与该图M的像素位置相同的梯度图的像素的像素值大于高阈值THh和低阈值THl。也就是说，指示出与该像素位置相同的输入图像的区域很可能是被摄对象区域。

[0216] 相对比地，像素值为1的图M的像素指示与该图M的像素位置相同的梯度图的像素的像素值大于低阈值THl，但是小于高阈值THh。也就是说，指示出与该像素位置相同的输入图像的区域可能是被摄对象区域，尽管不肯定。

[0217] 因此，在图M中，包含更多像素值为2的像素的连接区域更加可能是被摄对象区域，并且只包含像素值为1的像素的连接区域可能是被摄对象区域，但是概率不太高。因而，从被摄对象区域的候选中排除只包含像素值为1的像素的连接区域允许更多准确地从输入图像中提取被摄对象区域。

[0218] 通常，具有小面积的区域非常可能是噪声区域，而不是被摄对象区域。因而，面积小于某个预定面积的连接区域，例如面积小于三个像素的连接区域被从被摄对象区域的候选中排除。相应地，能够更多准确地从输入图像中提取被摄对象区域。 [0219] 当复合图生成单元25如上所述产生复合图时，复合图生成单元25提供所产生的复合图给二值化图生成单元26。

[0220] 回来参照图15中的流程图的描述，在步骤S226，二值化图生成单元26利用来自梯度图生成单元22的梯度图获得针对来自复合图生成单元25的复合图的每个连接区域的阈值。

[0221] 在步骤S227，二值化图生成单元26利用所获得的阈值进行每个连接区域的阈值处理，并且产生二值化图。

[0222] 例如，如图19所示，二值化图生成单元26获得梯度图GM和复合图CM的逻辑″与″。注意，在图19中，一个矩形指示图上的一个像素，并且矩形内的数字指示该矩形表示的像素的像素值。

[0223] 假定基于逻辑″与″获得的图作为图AM，并且图AM上被付予注意力的像素作为被注意像素。在这样的情况下，二值化图生成单元26获得梯度图GM的与被注意像素位置相同的像素的像素值与复合图CM的与被注意像素位置相同的像素的像素值的乘积，并且把作为其结果获得的值当作被注意像素的像素值。

[0224] 由于在复合图CM中只有被当作连接区域的区域CR1和区域CR2的像素的像素值为1，图AM的区域CR1′和区域CR2′中的像素的像素值是梯度图GM的与那些像素位置相同的像素的像素值。图AM的未包含在区域CR1′和区域CR2′中的像素的像素值全部为0。

[0225] 注意，图AM的区域CR1′和区域CR2′是与复合图CM的区域CR1和区域CR2位置相同的区域。下文中这些区域CR1′和区域CR2′也被称作连接区域。

[0226] 接着，二值化图生成单元26获得针对所获得的图AM的每个连接区域的阈值。例如，二值化图生成单元26获得图AM的连接区域内像素的像素值中的最大值，并且把针对该值预先获得的值作为该连接区域的阈值。

[0227] 例如，假定在连接区域内的像素值的最大值为4或更大的情况下该连接区域的阈值为4。在连接区域内的像素值的最大值小于4的情况下，该连接区域的阈值为1。 [0228] 在这样的情况下，由于图AM的区域CR1′内的像素的像素值的最大值为9，二值化图生成单元26把区域CR1′的阈值取为4。类似地，由于图AM的区域CR2′内的像素的像素值的最大值为3，二值化图生成单元26把区域CR2′的阈值取为1。

[0229] 注意，预先统计获得连接区域的阈值。更具体地，由于梯度图的像素的像素值取0和1之间的值，例如，如果连接区域内的像素值的最大值为0.4或越大，则阈值为0.33，如果连接区域内的像素值的最大值小于0.4，则阈值为0.08。

[0230] 此外，设置连接区域的阈值，使得例如随着连接区域内的像素值的最大值变大，阈值也变大。这是由于当具有较大像素值的像素被包含在连接区域中时，能够估计出真正是被摄对象区域的某个部分中包含的像素的像素值，即与该像素位置相同的梯度图GM的像素值也变大。

[0231] 因此，从作为被摄对象区域的候选的连接区域中提取仅包含像素值大于或等于针对该连接区域确定的阈值的像素的区域应当允许提取被真正估计为被摄对象区域的区域。 [0232] 因此，二值化图生成单元26基于分别针对区域CR1′和区域CR2′获得的阈值二值化图AM，并且获得二值化图TM。

[0233] 具体地，在图AM的区域CR1′内的像素中，二值化图生成单元26把像素值大于或等于区域CR1′的阈值4的像素的像素值取为1，并且把像素值小于区域CR1′的阈值4的像素的像素值取为0。此外，在图AM的区域CR2′内的像素中，二值化图生成单元26把像素值大于或等于区域CR2′的阈值1的像素的像素值取为1，并且把像素值小于区域CR2′的阈值1的像素的像素值取为0。

[0234] 例如，在图19的图的右侧的示例中，假定所获得的二值化图TM的两个区域SR1和区域SR2内的像素的像素值为1，并且其它像素的像素值为0。

[0235] [210]也就是说，假定在被当作连接区域的区域CR1′中只有区域SR1内的像素的像素值为1，并且CR1′的其它区域内的像素的像素值为0。假定在被当作连接区域的区域CR2′中，区域CR2′内的像素的像素值全部为 1。

[0236] 在以这种方式获得的二值化图TM中，包含像素值为1的像素的区域是真正估计为被摄对象区域的区域。因此，例如，在输入图像中，与二值化图TM的区域SR1和区域SR2位置相同的区域被当作被摄对象区域。

[0237] 当二值化图生成单元26产生二值化图时，二值化图生成单元26提供所产生的二值化图给矩形整形单元27。

[0238] 回来参照图15中的流程图的描述，在步骤S228，矩形整形单元27基于从二值化图生成单元26提供的二值化图指定被摄对象区域，并且提供指示被摄对象区域的被摄对象区域信息给显示控制单元28。

[0239] 例如，在图20的左侧图示的二值化图TM被提供给矩形整形单元27的情况下，矩形整形单元27在二值化图TM中把包含像素值为1的像素并且包含邻接像素的区域作为连接区域。例如，在处于附图的中心的示例中，两个区域SR1和区域SR2被当作连接区域。 [0240] 如附图的右侧所示，矩形整形单元27把围绕作为连接区域的区域SR1和区域SR2的矩形框W1和矩形框W2作为围绕被摄对象区域的被摄对象框的位置，并且产生指示框W1和框W2的位置的信息作为被摄对象区域信息。矩形整形单元27提供所产生的被摄对象区域信息给显示控制单元28。

[0241] 像在图20的示例中那样，形成指示被摄对象区域矩形的区域，把这些矩形作为框W1和框W2，以及产生指示这些框区域的被摄对象区域信息允许在后续阶段利用应用程序容易地显示被摄对象框。也就是说，基于所指定的被摄对象的区域确定围绕被摄对象的框的处理变得不必要。

[0242] 当以这种方式从矩形整形单元27给显示控制单元28提供被摄对象区域信息时，被摄对象区域提取处理结束，并且处理前进到图8的步骤S13。

[0243] 在上述方式中，图像处理设备11基于被摄对象图产生梯度图，并且基于通过利用两个阈值进行梯度图的阈值处理而获得的图来指定被摄对象区域。

[0244] 以这种方式基于被摄对象图产生梯度图和基于通过利用两个阈值进行梯度图的阈值处理而获得的图来指定被摄对象区域允许更多准确地规定图像中的被摄对象的区域。 [0245] 也就是说，由于如上所述梯度图的像素的像素值被当作这样的值：该值表示指示是被摄对象的可能性的值的变化度，与被摄对象图相比，能够更加肯定地从图像中提取被摄对象区域。

[0246] 把通过下述处理获得的阈值图相加允许排除噪声区域并且更加准确地提取应当作为被摄对象的区域：利用值不同的两个阈值进行梯度图的阈值处理，以及根据是否满足特定条件对作为阈值处理的结果而获得的图的像素进行二值化。

[0247] 上述系列处理可通过硬件或软件执行。在用软件执行所述系列处理的情况下，从程序记录介质把构成软件的程序安装到内置于专用硬件中的计算机中，或者安装到通过在其中安装各种程序而能够执行各种功能的通用个人计算机中。

[0248] 图21是图示了按照程序执行上述系列处理的计算机的硬件配置示例的模块图。 [0249] 在该计算机中，CPU(中央处理器)301、ROM(只读存储器)302和RAM(随机存取存储器)303通过总线304相互连接。

[0250] 此外，输入/输出接口305与总线304连接。包括键盘、鼠标、麦克风等的输入单元306，包括显示器、扬声器等的输出单元307，包括硬盘、非易失性存储器等的记录单元308，包括网络接口等的通信单元309，驱驱动可移除介质，比如磁盘、光盘、磁光盘或半导体存储器的驱动器310与输入/输出接口305连接。

[0251] 在如上所述构成的计算机中，CPU 301通过输入/输出接口305和总线304，把记录在记录单元308中的程序载入RAM 303中，并执行该程序，从而执行上述系列处理。 [0252] 由计算机(CPU 301)执行的程序被记录在用作封装介质的可移除介质311，比如磁盘(包括软盘)，光盘(包括CD至ROM(压缩磁盘只读存储器)、DVD(数字通用磁盘)等)，磁光盘，半导体存储器等中，或借助有线或无线传输介质，比如局域网、因特网或数字卫星广播来提供。

[0253] 通过把可移除介质311装入驱动器310中，可经输入/输出接口305把程序安装到记录单元308中。也可经有线或无线传输介质在通信单元309接收程序，并将其安装到记录单元308中。或者，程序可被预先安装在ROM 302或记录单元308中。 [0254] 由计算机执行的程序可以是借助其按照在说明书中描述的次序，顺序地执行各个处理的程序，或者可以是借助其并行地，或者在需要时(例如，当被调用时)执行各个处理的程序。

[0255] 本发明的实施例并不局限于上述实施例，可以做出各种修改，而不脱离本发明的范围和精神。

[0256] 附图标记列表

[0257] 11图像处理设备，21被摄对象图生成单元，22梯度图生成单元，23阈值处理单元，24阈值处理单元，25复合图生成单元，26二值化图生成单元，27矩形整形单元，28显示控制单元

图像处理设备、方法转让专利

申请号 : CN201080002046.7

文献号 : CN102084397B

文献日 : 2014-02-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 相坂一树 , 木下雅也 , 亀谷敬 , 村山淳 , 横川昌俊

申请人 : 索尼公司

摘要 :

权利要求 :

说明书 :

图像处理设备、方法

技术领域

背景技术

发明内容

具体实施方式