从单个示例学习对象剪切转让专利

申请号 : CN200880018756.1

文献号 : CN101689305A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : Q·杨F·温X·唐

申请人 : 微软公司

摘要 :

描述了用于从单个示例学习视觉对象剪切的系统和方法。在一个实现中,示例性系统确定模式图像中每个块附近的色彩上下文以创建外观模型。该系统还学习跨模型图像中的视觉边缘出现的色彩序列以创建边缘轮廓模型。该示例性系统接着基于外观模型和边缘轮廓模型来推断未知图像中的分割边界。在一个实现中,该示例性系统将图形剪切模型中的能量最小化,其中外观模型用于数据能量而边缘轮廓用于调整边缘。该系统不限于具有几乎相同的前景或背景的图像。比例、旋转和视点上的某些变化是允许的。

权利要求 :

1.一种方法,包括:

接收第一图像;以及

基于所述第一图像中的上下文色彩和边缘轮廓来分割第二图像。

2.如权利要求1所述的方法,其特征在于,所述第一图像被分割成前景对象 和背景。

3.如权利要求1所述的方法,其特征在于,还包括:在所述第一图像中,基于所述第一图像中的上下文色彩来创建前景对象和背 景的外观模型,其中所述外观模型是基于所述第一图像的局部色彩模式的;

基于所学习的所述第一图像中的边缘附近的色彩上下文来创建所述第一图像 的边缘轮廓模型;以及其中所述分割包括至少部分地使用从所述第一图像获得的外观模型和边缘轮 廓模型来优化所述第二图像的前景对象和所述第二图像的背景之间的分割边界。

4.如权利要求3所述的方法,其特征在于,创建所述前景对象的外观模型包 括表示所述前景对象的相似度能量,所述相似度能量用于优化所述第二图像的分割 边界。

5.如权利要求3所述的方法,其特征在于,创建所述边缘轮廓模型包括创建 用于调整在优化所述第二图像的分割边界时使用的平滑度能量的边缘轮廓。

6.如权利要求3所述的方法,其特征在于,优化所述分割边界包括通过经由 最小割/最大流技术将包括相似度能量分量和平滑度能量分量的总能量最小化 来优化二值标记过程;

其中所述外观模型的至少一部分表示所述相似度能量;以及其中所述边缘轮廓模型的至少一部分调整所述平滑度能量。

7.如权利要求6所述的方法,其特征在于,所述最小割/最大流技术包括 其中E数据xp构成所述相似度能量,其编 码了当所述第一图像中的像素p的标记是xp时的成本,而E平滑度(xp,xq)构成所 述平滑度能量,其表示当所述第一图像中的相邻像素p和q的标记被分别标记 为xp和xq时的成本,而α构成在所述相似度能量和所述平滑度能量之间进行 平衡的参数。

8.如权利要求3所述的方法,其特征在于,基于所述第一图像中的上下文色 彩来创建所述前景对象和所述背景的外观模型包括:将所述第一图像分割成各个部分;

将每一部分分割成各个块;

选择从每个块前进的多个方向;

对于每个块:

在所述方向的每一个上前进直至沿着所述方向的样本色彩与所述块的色彩 相差对比阈值;以及记录所述样本色彩和所述块的色彩作为上下文色彩对。

9.如权利要求8所述的方法,其特征在于,还包括记录每个块的多个所述上 下文色彩对,所述数目等于所选方向的数目。

10.如权利要求8所述的方法,其特征在于,所述部分中的至少一个表示前 景对象。

11.如权利要求8所述的方法,其特征在于,还包括经由均值移位技术预先 分割所述第一图像。

12.如权利要求1所述的方法,其特征在于,还包括:在所述第一图像中,基于所述第一图像中的上下文色彩来创建具有相似度能 量的背景和前景对象的外观模型;

在所述第二图像中,创建所述第二图像的可能的前景和可能的背景的外观相 似度模型,所述外观相似度模型包括所述可能的前景的累积相似度能量;

在所述第一图像中,基于所学习到的所述第一图像中的边缘附近的色彩上下 文来创建所述第一图像的边缘轮廓模型;

在所述第二图像中,基于所学习到的所述第二图像中的边缘附近的色彩上下 文来创建所述第二图像的边缘轮廓相似度模型,所述边缘轮廓相似度模型包括可能 的分割边界;

通过经由最小割/最大流技术将包括相似度能量分量和平滑度能量分量的 总能量最小化来优化所述第二图像中可能的分割边界。

13.如权利要求12所述的方法,其特征在于,所述相似度能量是经由上下 文色彩对来计算的,所述第一和第二图像的上下文色彩对是如下获得的:将所述第一和第二图像分割成各个部分;

将每一部分分割成各个块;

选择从每个块前进的多个方向;

对于每个块:

在所述方向的每一个上前进直至沿着所述方向的样本色彩与所述块的色彩 相差对比阈值;

记录所述样本色彩和所述块的色彩作为上下文色彩对;以及记录每个块的多个所述上下文色彩对,所述数目等于所选方向的数目。

14.如权利要求1所述的方法,其特征在于,还包括将所述分割应用于以下 之一:自动分割与所述第一图像相似的图像;自动分割具有与所述第一图像不同前 景或不同背景的图像;自动剪切在视频帧序列之间移动的视频对象;自动检测面部 视图;在基于内容的图像检索期间自动搜索数据库。

15.一种传播来自模型图像的对象剪切的方法,包括:将所述模型图像分成各个块;

将每个块周围的上下文色彩采样到基于对所述模型图像的局部色彩模式的学 习的外观模型;

学习所述模型图像中的边缘的边缘轮廓;

基于所述外观模型和所述边缘轮廓来分割不同的图像。

16.如权利要求15所述的方法,其特征在于,采样每个块周围的上下文色彩 还包括:选择从每个块前进的多个方向;

对于每个块:

在所述方向的每一个上前进直至检测到不同色彩模态的样本色彩;

记录所述样本色彩和所述块的色彩作为上下文色彩对;以及记录每个块的多个所述上下文色彩对,所述数目等于所选方向的数目。

17.如权利要求15所述的方法,其特征在于,还包括:从所述外观模型导出相似度能量;

从所述边缘轮廓导出平滑度能量;

通过将包括所述相似度能量和所述平滑度能量的总能量最小化来优化所述不 同图像中的每个像素的二值标记;

其中所述相似度能量表示当将所述像素标记为前景对象或背景时的成本且经 调整的平滑度能量阻碍被给予不同标记的两个相邻像素,以迫使所述分割边界遵循 真实对象边界。

18.如权利要求1所述的方法,其特征在于,还包括将所述传播对象剪切应 用于以下之一:自动分割与所述第一图像相似的图像;自动分割具有与所述第一图 像不同前景或不同背景的图像;自动剪切在视频帧序列之间移动的视频对象;自动 检测面部视图;在基于内容的图像检索期间自动搜索数据库。

19.一种系统,包括:

用于采样第一图像的每个块周围的局部色彩模式的装置;

用于学习所述第一图像中的边缘的装置;以及用于基于所述第一图像中的局部色彩模式和所学习到的边缘来分割第二图像 的装置。

20.如权利要求19所述的系统,其特征在于,所述用于分割的装置包括:用于优化所述第二图像中的分割边界的装置,其还包括:用于最小化能量的装置,所述能量包括:

从所述第一图像的局部色彩模式导出的相似度能量以及从所述第二图像提取 的局部色彩模式;以及由所学习到的所述第一图像的边缘调整的、所述第二图像的边缘的平滑度能 量。

说明书 :

背景

在计算机视觉中,对象剪切是重要的和基础的问题。用于对图像中的视觉 对象执行剪切或分离的典型机制是二值分割,其中向图像中的每个像素分配第 一值(如果它属于前景对象)或第二值(如果它属于背景)。取决于操作中的 特定过程,该二值标记或者来源于视觉前景和背景之间的分割边界,或者来自 预先知道的先前存在的分割边界。存在多种用于确定用于剪切前景对象的最优 分割边界的常规技术。

在基于内容的图像检索(CBIR)中,通常使用查询图像作为一个示例来检 索具有相似内容的图像。然而,在大多数情况下,常规检索技术仅可以从整体 查询图像中计算低级特征以表示该图像的内容。查询图像中的高级语义信息大 多被丢失。由此,常规检索系统的性能通常是差的。更接近地表示查询图像的 语义内容的一种方式是尝试剪切查询图像和数据库图像两者中的前景对象。然 而,这种对象剪切仍然是一个具有挑战性的问题。

现有的用于分割一般图像集合的自底向上的方法几乎不能实现语义分割, 因为它们主要根据诸如色彩、纹理的一致性或边界轮廓的平滑度等低级特征来 将像素聚集到各部分中。用户交互可以极大地改进分割结果,但是在诸如CBIR 图像数据库等大型数据库中通过用户交互来分割大量的图像的成本高的惊人。 所需的是一种自动地应用来自一个查询图像或一些查询图像的分割结果来推 断可以被传播以分割大型图像集合的分割结果的精确且稳健的方式。接着,通 过循序的传播,少量的用户操作能够实现对多个图像的分割。

尝试将分割结果从一个图像传播到许多图像的常规方法具有严重的局限。 例如,某些方法针对每种类型的图像类别都需要多个训练图像,而这通常是不 可能的。其它方法需要示例图像和测试图像的前景和背景都高度相似。当在表 面照明方面有轻微改变或在形状或阴影方面有改变时,这些常规方法就失败 了。几乎没有自然图像能满足这些常规技术的严格相似性的需求。其它常规方 法简直太慢了(即使预期是缓慢的过程),这些方法需要对于例如图像检索或 视频剪切等应用程序而言实现起来过于复杂的密集处理。还有其它常规方法需 要两个图像具有显著不同的背景,以便跨图像来传播分割。

概述

描述了用于从单个示例学习视觉对象剪切的系统和方法。在一个实现中, 示例性系统确定模型图像中每个块附近的色彩上下文以创建外观模型。该系统 还学习跨模型图像中的视觉边缘出现的色彩序列以创建边缘轮廓模型。该示例 性系统接着基于外观模型和边缘轮廓模型来推断未知图像中的分割边界。在一 个实现中,该示例性系统最小化图形剪切模型中的能量,其中外观模型被用于 数据能量而边缘轮廓被用于调整边缘。该系统不限于具有几乎相同的前景或背 景的图像。比例、旋转和视点上的某些变化是允许的。

提供本概述以介绍在下文的详细描述中进一步描述的从单个示例学习对 象剪切的主题。本概述并不旨在标识要求保护的主题的必要特征,也不旨在用 于确定所要求保护的主题的范围。

附图简述

本专利申请包含至少一幅彩色附图。特别地,图8-12可以是彩色的。具有 彩色附图的本专利申请的副本将在请求并支付了必要的费用之后由(美国)专 利局提供。

图1是示例性分割属性引擎的图示。

图2是包括示例性视觉对象剪切引擎的各个系统的图示。

图3是图2的示例性视觉对象剪切引擎的更为详细的框图。

图4是图3的示例性外观相似度模型和边缘轮廓相似度模型的更为详细的 图示。

图5是关于图像剪切引擎的示例性能量最小化器的图示。

图6是图3的示例性上下文色彩提取器的更为详细的框图。

图7是介绍对上下文色彩的示例性提取的图示。

图8是介绍对边缘轮廓的示例性提取的彩色图示。

图9是前景对象和背景对象之间的示例性区别的彩色图示。

图10是提取局部色彩模式(color pattern)和边缘轮廓的示例性技术的彩 色图示。

图11是示出局部色彩模式和边缘轮廓调整的效果和重要性的彩色图示。

图12是将示例性对象剪切技术与常规对象剪切技术进行比较的彩色图示。

图13是基于第一图像的上下文色彩和边缘轮廓来推断第二图像的分割边 界的示例性方法的流程图。

图14是提取上下文色彩的示例性方法的流程图。

详细描述

概述

本发明描述了用于从单个或几个示例学习视觉对象剪切的系统和方法。示 例性技术可用于例如基于单个示例来在一组相对相似的图像中剪切对象。该示 例性系统使用在色彩模式模型和边缘轮廓模型中示出的“分割属性”来开始从 单个示例学习相似图像的对象剪切。

该示例性系统提取表征色彩的空间配置的局部色彩模式(LCP)。该特征 是通过沿着特定方向搜索显著的色彩/色彩模式来获取的,由此其相对于色彩片 的比例而言是不变的。因为考虑了上下文色彩信息,所以LCP模型与单一色彩 或直方图特征相比也更具区别性。

该示例性系统还在边缘的正常方向上提取边缘轮廓特征,并且使用这些特 征来将沿着前景/背景边界的边缘(“边界边缘”)与前景或背景内部的“内部” 边缘(“内部边缘”)相区别。该边缘特征相对于对象的旋转而言是不变的。 通过增强可能的边界边缘并衰减可能的内部边界,对象剪切更有可能遵循真实 的对象边界。

在一个实现中,该示例性系统将LCP模型与边缘轮廓模型集成到图形剪切 框架中,并由此由于这两个模型互补贡献而在剪切结果中获得更高的精确度和 稳健性。

概括描述

在一个实现中,本文中所述的示例性视觉对象剪切系统和方法跟踪帮助将 精确的分割从一个或多个模型图像传播到其它相关的或有时不相关的图像的 “分割属性”。分割是将图像中的每个像素标记为前景对象和背景的过程。视 觉对象剪切意指从背景中分离或剪切前景对象的过程。

在一个示例系统中,分割属性可以是上下文色彩(例如局部色彩模式 (LCP))和用于边缘调整的边缘外观轮廓。在一个实现中,局部色彩模式信 息和边缘调整提供了用于视觉对象剪切任务的互补信息。

本文中宽松地使用术语“上下文色彩”来指在不同方向上靠近图像(例如 块)的特定部分的色彩,或指图像的一部分(诸如块)的周围或包含图像的该 部分的色彩模式。本文中“上下文色彩”和“局部色彩模式”在某种程度上可 交替使用。更特别地,从一个观点看,示例性过程可以在不同方向上从每一个 块收集上下文色彩以便建立外观模型,和/或可以确定每一个块周围的周围色彩 模式中的变化以建立局部色彩模式,局部色彩模式随后形成外观模型的基础。 在一个实现中,确定色彩模态(color mode)包括找出有多少主色彩组成前景 对象和背景,这些主色彩是什么;以及确定一种色彩与另一种色彩同时出现的 概率。

参考图1,在一个实现中,示例性系统使用基于以上介绍的局部色彩模式 (LCP)模型和边缘轮廓模型126的外观模型114。该示例性系统将这一外观 模型114和边缘轮廓模型126集成到图形剪切框架中。LCP模型通过提取比例 不变色彩模式以表征色彩上下文,来提高外观模型114的区别能力以描述前景 /背景区域。边缘模型126通过增强沿着对象边界的边缘并衰减对象内部的边缘 来有效地调整图像的对比度,由此得出更为合理的剪切结果。与常规的现有技 术算法相比,该示例性系统显示了更高的精确度和经改进的稳健性。

当前景对象和背景具有相似的色彩外观时,上下文色彩和/或局部色彩模式 模型极大地降低了不确定性。对于图像的每个块,示例性系统记录了落入不同 色彩模式的邻近的上下文色彩。这不仅根据其自身的色彩也根据这些邻近的上 下文色彩标识了给定的块。这种示例性上下文色彩提取是用于从背景中识别和 区分出前景的强大工具,而这在仅仅通过前景和背景各自的一般色彩来进行区 别时是难以区别的。例如,如果分割边界出现在图像中有黑色长发的人脸的周 围,则该上下文属性(即面部总是由黑发构造框架)在分割另一具有黑色长发 的脸时可以有极大的帮助。同样地,画出面部轮廓的边缘的示例性外观轮廓是 可以从模型图像学习并且可以被传播来用于分割相似图像的另一分割属 性——即使面部处于不同的角度或是不同的大小。

边缘调整特征补充以上介绍的上下文色彩模式提取,由此进一步增加了分 割的精确度。在一个示例系统中,该系统学习一个或多个模型图像的各个边缘。 该系统提取边缘轮廓:例如,沿着边缘在各个点处通过该边缘在正确的角度处 所取的色带或“元素”。每个色带或元素包括在边缘的任一侧(以及包括该边 缘)上的色彩序列(或灰度级、亮度等)。为了将模型图像的分割传播到其它 图像,边缘调整特征使用这些色素或边缘轮廓来衰减在前景或背景部分内部导 致不需要的分段的强内部边缘。同时,边缘调整特征强化了前景和背景之间的 分割边界。

虽然边缘调整特征通常增强上下文色彩模式特征,但是实际上这两个特征 取决于环境而彼此辅助。在很少的情况下,当所提取的前景对象的上下文色彩 与所提取的背景的上下文色彩相类似时(这发生的概率远低于前景和背景仅具 有相同的一般色彩),接着边缘调整特征通过将内部边缘(在前景对象内部或 背景内部)与前景和背景之间的分割边界加以区别来提供增强。相反地,当内 部边缘和分割边界共享相似的边缘轮廓(例如外观)时,则上下文色彩模式特 征增强这两种类型的边缘之间的区别。即,上下文色彩模式特征不是在边缘自 身上定义,而是在图像的“元素”上定义。由此,上下文色彩模式特征增强由 于以下差异的分割:对于内部边缘,根据上下文色彩模式特征,该边缘两侧的 元素很可能属于对象部分。但是对于分割边界,仅该边缘一侧的元素很可能属 于该对象。这样,上下文色彩和边缘轮廓信息两者可以被有效地集成以提供强 大的、更为精确的和更合乎需要的分割结果。

示例性系统

再次参考图1,示例性分割属性引擎100接收模型图像102(或多个模型 图像),以便获取分割属性以帮助分割类似或相关图像104。“相关”图像104 与模型图像102共享一定程度的背景和/或前景相似性。所示引擎100具有用于 收集模型图像102中的分割实例的上下文色彩属性的色彩上下文划分106以及 用于收集模型图像102中的分割实例的边缘轮廓属性的边缘轮廓划分108。示 例性上下文色彩学习引擎110包括产生包括前景116的模型和背景118的模型 的外观模型114的上下文色彩提取器111和前景/背景鉴别器112。与常规技术 相比,外观模型114为在某些分割计算中使用的数据能量定义了基于上下文色 彩的外观模型,这有助于确定相关图像中的前景和背景。术语“相似度能量” 在某种程度上可以与本文中的“数据能量”互换使用。

在相关图像104中,所提取的上下文色彩几乎总是将自身分解成模型图像 的外观模型114中所表示的有效的前景调色板或背景调色板。

相应地,示例性分割属性引擎100包括具有边缘轮廓器122和边缘分类器 124的边缘学习引擎120。边缘学习引擎120产生边缘轮廓模型126,所检测到 的边缘被分类成前景内部边缘128、背景内部边缘130、或分割边界132。该边 缘轮廓模型126被用于调整最小割/最大流二值标记优化中的平滑度能项(以下 将参考等式(I)描述)。即,边缘分类模型126可用于有效地衰减相关图像 104中的内部强边缘并适度地强化其中的分割(前景/背景)边界104,从而产 生精确和稳健的结果。

附加示例性系统

图2示出了示例性视觉对象剪切引擎200的多个变型,每一个都包括图1 的分割属性引擎100。在一个变型202中,示例性视觉对象剪切引擎200对各 组相似图像执行对象剪切。例如,顺序地取一批相似的照片是常见的。一个组 中的这些照片共享相似的前景和背景。因此,当在一个照片中剪切对象时,视 觉对象剪切引擎200可以自动地帮助剪切该组中所有照片的相似对象,这极大 地减少了手动标记工作。由此,为了从一组相似图像中剪切对象,第一图像被 用作具有预定对象剪切的示例,其接着被用于分割所有其它相似图像。

在第二变型204中,示例性视觉对象剪切引擎200′执行对来自视频的(即 视频帧序列中的)移动对象的自动剪切。在一个实现中,并非依赖于时间信息 或运动估计来预测移动对象在各帧上移动到何处,该视频对象剪切是通过依赖 于所选模型帧中的分割的上下文色彩和边缘轮廓属性来在该帧序列上执行的。 由此,在该第二变型204中,用户无需手动地将视频剪切成各个镜头以使得每 一镜头中的帧是连续的,并且无需按照任何时间或顺序次序来处理各视频帧。 结果,只要色彩模型保持某种程度的固定,视觉对象剪切引擎200′就可以处理 急剧、短暂改变的情况。

在第三变型206中,示例性视觉对象剪切引擎200″执行对诸如侧视图等面 部视图的自动检测。面部的侧视图对于仅使用面部特征的现有面部检测技术而 言是很有挑战性的。但是,即使当头部旋转的角度改变或者面部的大小、视点 或者甚至年龄改变时,视觉对象剪切引擎200″所收集和跟踪的分割属性,诸如 上下文色彩和边缘轮廓也可以被用于检测面部。

示例性引擎

图3更为详细地示出了图2的示例性视觉对象剪切引擎200。所示实现是 一种出于描述目的的示例配置。在本主题的范围内,示例性视觉对象剪切引擎 200的各组件的许多其它排列是可能的。这种示例性视觉对象剪切引擎200可 以用硬件,软件,或硬件、软件、固件的组合等来执行。

示例性视觉对象剪切引擎200包括收集和跟踪模型图像102的分割属性的 模型图像处理器302、收集和跟踪要分割的相关图像104的对应属性的相关图 像处理器304、以及基于模型图像102的分割属性来优化相关图像104的分割 的剪切推断引擎306。这些主要组件的每一个的各个组件将在下文中列出,之 后是视觉对象剪切引擎200的示例性操作的描述。应该注意,在某些实现中, 下文中所列出和描述的用于处理模型图像102并接着处理相关图像104的许多 组件可以是相同的组件或共同的组件。然而,在图3中,为了描述简明起见, 只要可能,处理模型图像102和相关图像104的组件就被示为分开的实体。

模型图像处理器302将诸如上下文色彩和边缘轮廓等分割属性提取到外观 模型114和边缘轮廓模型126中。模型图像处理器302包括图像建模器308并 且包括图1的分割属性引擎100。图像建模器308进而包括模型图像102的马 尔可夫图310表示和包含均值移位(Mean-shift)预分割器314和块生成器316 的图像分割器312。这些将在下文中进一步详细描述。

视觉对象剪切引擎200还包括用于执行要分割的相关图像104的对应图像 建模的相关图像处理器304。由此,相关图像处理器304包括用于分割相关图 像104的一种版本的图像建模器308′,该图像建模器308′包括要处理的每个相 关图像104的对应的马尔可夫图310′表示;以及包含均值移位预分割器314′和 块生成器316′的图像分割器312′。

在一个实现中,用于处理相关图像104的分割属性引擎100′与用于处理模 型图像102的分割属性引擎100具有相似或等效的组件,除使用相关图像104 的“外观相似度318”来代替与模型图像102相关联的类似的“外观模型114” 之外。同样地,使用与相关图像104相关联的“边缘轮廓相似度320”来代替 模型图像102的类似的“边缘轮廓模型126”。这是因为剪切推断引擎306通 过改进相关图像104的外观相似度318和边缘轮廓相似度320来优化相关图像 104的分割边界,而这由模型图像102的外观模型114和边缘轮廓模型126来 辅助。由此,如图4中所示,外观相似度318涵盖可能的前景402、可能的背 景404、以及从可能的前景402导出的区域的累积数据能量406(将在下文中 更全面地描述,即参考该引擎的操作)。边缘轮廓相似度320涵盖可能的前景 内部边缘408、可能的背景内部边缘410、以及可能的分割边界412。

剪切推断引擎306包括执行上述优化的能量最小化器322。在一个实现中, 能量最小化器322执行最小割/最大流技术,该技术通过最小化由与关联于外观 模型114和外观相似度318的上下文色彩属性相关的数据能量324和与关联于 边缘轮廓模型126和边缘轮廓相似度320的边缘轮廓属性相关的平滑度能量 326组成的能量来执行优化。

在一个实现中,边缘调整器328通过衰减前景内部边缘128和背景内部边 缘130并适度地强化分割边缘132来影响能量最小化器322。换言之,边缘调 整器328根据模型图像102的边缘轮廓模型126来使所提出的分割边界在相关 图像104中更加明显。在一个实现中,边缘调整器328包括基于模型图像102 的边缘轮廓模型126的分割边界概率图334,分割边界概率图334进而创建修 改平滑度能量326的经调整的对比图330。平滑度能量326进入能量最小化器 322的优化计算。

在一个实现中,如图5中所示,能量最小化器322可以在图像中一个像素 接一个像素地进行以便优化图形切割引擎134中的分割图502。图形切割引擎 134接着在经优化的分割图502的引导下执行例如从背景分割前景对象。

回头参考图2,分割可用于将分割从一个模型图像102传播到诸如家庭度 假的相似照片等一组相关图像104。在其它实现中,诸如图2的变形204和206 (例如视觉对象剪切引擎200的变型200′和200″)中所示,能量最小化器322 的输出可以被馈送给执行移动视频对象的自动剪切的引擎(204)或馈送给从 不同的视点执行面部自动检测的引擎(206)。

示例性系统和引擎的操作

示例性视觉对象剪切引擎200可以将分割结果的稳健且高效的传播从单个 或少数模型图像102提供给其它类似的图像。

在一个实现中,示例性视觉对象剪切引擎200允许对象或背景中的某些比 例的改变、视角改变以及局部结构改变。为了达到该目的,上下文色彩学习引 擎110导出图像区域的上下文色彩和/或局部色彩模式。在要剪切的对象的内部 和背景中一般存在强色彩上下文,并且该强上下文对于从背景区分对象/前景是 非常有用的,尤其是当对象具有与背景相似的色彩时。例如,在一个人站立在 墙前的图像中,面部肤色的区域可能几乎与墙的色彩完全相同。这使得仅基于 它们的整体一般色彩难以区分这两者。然而,在这种面部周围通常存在强上下 文,例如头发。利用该上下文属性可以极大地帮助区分要剪切的正确的视觉对 象。

上下文色彩和/或局部色彩模式提供了比仅基于前景和背景的一般色彩从 背景中区分出前景的常规方法更为强大的从背景区分出前景的机制。每个块可 以提供其相对于邻近色彩的信息,而不是仅依赖于每个块自身的色彩特性来猜 测该块是前景还是背景。此外,由于前景和背景几乎总是包括不同的调色 板——甚至在前景和背景的总体色彩看起来相似时——关联于每个块的相关 联的邻近上下文色彩几乎总是符合前景调色板或背景调色板的轮廓之一,由此 将块标识为前景或背景。

边缘学习引擎120学习沿着模型图像102内的边缘的外观,并且由此确定 相关图像104中的边缘是内部边缘还是前景/背景边界(在本文中也被称为分割 边界)。有了这个学习到的边缘信息,视觉对象剪切引擎200可以驱使相关图 像104的分割更为精确地找到并遵循它们的“真实”分割边界。例如,前景中 的一件白色衣服可能与同一图像的背景中的一片阳光具有相似的色彩和色彩 上下文。然而,所学习到的边缘外观可以容易地帮助确定相关图像104中的白 色区域的边缘是否可能属于白色衣服的概率。

为了实现基于局部色彩模式的外观模型114,图6更加详细地示出了图1 的上下文色彩学习引擎110的一个实现。在该示例配置中,上下文色彩学习引 擎110包括上下文色彩提取器111,该上下文色彩提取器111进一步包括收集 图像的给定块周围的多个色彩样本,即由此检测局部色彩模式(LCP)的色彩 样本选择器602。距离和方向引擎604基于色彩模态选择器606的设置来确定 是否要获取这些色彩样本。在给定图像中,前景和背景色彩趋于是模态(modal) 的,即关于区分前景和背景的“色彩模式”考虑前景对象或背景是由多少主色 彩组成的以及是哪些主色彩。色彩模态选择器606可以确定一个色彩模态区别 于另一个的灵敏度或阈值。接着,距离和方向引擎604在多个方向中的每一个 上扫描落入与所标志的主题块不同的色彩模态的上下文色彩,这样使得当与外 观模型114中的已知前景和背景色彩模式相比时,这些对比的邻近色彩基于所 采样的色彩来提供主题块的分类。

上下文色彩学习引擎110还包括色彩模态分析器608、色彩依赖性分析器 610、所提取的色彩对612的存储、以及前景/背景鉴别器112。现在将更详细 地描述这些组件。应该注意,所示的上下文色彩学习引擎110仅是这些组件的 一个示例安排。其它版本的上下文色彩学习引擎110可以包括不同安排的不同 组件。

首先在详细描述能项之前描述色彩模态分析器608和色彩依赖性分析器 610。色彩模态和色彩依赖性的概念在上下文色彩和边缘轮廓的描述中扮演重 要的角色。关于区分前景和背景的“色彩模式”考虑前景对象或背景是由多少 主色彩组成的以及是哪些主色彩。“色彩依赖性”描述了一种色彩与另一色彩 同时出现的概率。由此,可以通过色彩模态和色彩依赖性来描述任何色彩对(ci, cj)612。通常,色彩模态分析器608单独地学习前景和背景的色彩模态。色彩 依赖性分析器610从外观模型114的每个上下文色彩或者从边缘轮廓模型126 的每个边缘轮廓学习色彩依赖性。色彩模态和色彩依赖性通常遵循高斯分布并 且可以容易地使用K均值(K-means)或其他GMM拟合方法来从一组示例色 彩中学习。

示例上下文色彩提取

在一个实现中,上下文色彩被如下设计:均值移位预分割器314将图像分 成各部分。如图7中所示,对于给定部分700,图像分割器312首先查找限界 矩形702。块生成器316将限界矩形702分成各个块704,但是这些块无需是 相同大小的。接着,在上下文色彩提取器110中,色彩样本选择器602(图6) 沿着多个预定方向中的每一个来寻找上下文块(图7(b)中示出了四个预定方 向的示例)。为了确保上下文块可以提供可靠的上下文信息,距离和方向引擎 604可以施加上下文样本块离开主题块704不太远以及其均值色彩落入与Bp,mv 的模态不同的模态中的限制。这样,定义了块704的上下文色彩特征,包括均 值色彩和沿着第n个方向上的上下文块(样本)的均值色彩。对于具有Nsv个部 分 S v = { s p v } p = 1 N s v 的图像I,有个色彩上下文特征,其中 y p v = { y p , m v } m = 1 N p v 是部分Spv 700的特征。

边缘轮廓

首先,分割属性引擎100通过学习沿着模型图像102中的边缘的外观—— 边缘轮廓802——来为这三种类型的边缘构建模型424。图8示出了边缘轮廓 802和典型的聚类中心的提取。图8是从中沿着其分割边界提取多个边缘轮廓 802的模型图像102。当被跨边缘的一定距离来提取时,诸如图8(b)所示的分割 边界,每个边缘轮廓802可以包括作为背景特征的一部分(例如Z1和Z2)和 作为前景特征的一部分(例如Z3和Z4)。图8(c)示出了三种类型的边缘的 典型的聚类中心。来自模型图像102的边缘轮廓802的各个部分(Z1、Z2、Z3 和Z4)也可以跨多个实例来进行色彩平均,以便为每种类型的边缘创建平均的 轮廓。接着可以使用混合高斯模型来对边缘进行。

在一个实现中,边缘轮廓器122提取边缘信息以描述沿着边缘的外观,即 通过跨边缘提取具有色彩序列的色带来构成每个轮廓802。例如,边缘轮廓器 122可以沿着公共边界的正常方向以及也沿着其反方向来提取轮廓,直至轮廓 在如图8(a)所示的每个方向上遍历了r个区域。可以提取这些特征来作为它们 所遍历的部分的均值色彩。

详细的示例实现

在一个实现中,视觉对象剪切引擎200将对象剪切公式化为二值标记问题, 并且通过最小化图形G=(v,ε)上马尔可夫随机场(MRF)的吉布斯能量E(X)来求 解:

E ( X ) = Σ i v E 1 ( y i ) + λ Σ ( i , j ) ϵ E 2 ( y i , y j ) - - - ( 1 )

其中v是所有像素的集合,而ε是连接相邻像素的所有弧线的集合。yi∈{0,1} 是每个像素pi∈V的标记,其中yi=0意味着pi属于背景,而yi=1意味着前景。 E1(yi)是指示当用yi标记像素pi时的成本的相似度能量,而E2(yi,yj)是当给予两 个相邻像素不同的标记时提供障碍的平滑度能量。λ是平衡这两项的超参数 (hyper-parameter)。

在这个实现中,基于局部色彩模式(LCP)的外观模型114被用于获取相 似度项,并且学习边缘轮廓模型126以便调整平滑度项。当一起使用这两个组 分时,它们被证明是有效的并且互补地对最终对象剪切结果起作用。

局部色彩模式模型的相似度

局部色彩模式提取

图9示出了基于色彩歧义的减少和边缘信息的前景对象902和背景对象 904的示例性区别。虽然前景902和背景904可以共享相似的色彩,但是它们 共享相似色彩配置的概率低得多,由此如果使用该附加信息则极大地减少了歧 义。“色彩配置”意味着在特定主题色彩周围的预定方向上分布的色彩。例如, 两个图像9(a)和9(b)包含相同的对象,但是具有不同的位置和比例。9(a)中的娃 娃902是前景对象902,而用户希望在9(b)中剪切相同的娃娃902。然而,由于 区域1和3都是蓝色的,因此任务是有歧义的。通过考虑色彩配置,可以容易 地区分对象,因为区域1主要由白色包围;而区域3周围有大量的黄色(头和 肢体)。这种色彩配置不依赖于对象的比例。换言之,虽然图9(b)中的娃娃902 比图9(a)中的娃娃要小得多,但是蓝色区域3周围的色彩配置不变。

对于甚至色彩配置都不能区分前景和背景的、具有相似色彩配置的区域, 即区域2和4(由区域1和3的蓝色包围),边缘信息可以有所帮助。从示例 图像9(a)学习到蓝红配对的边缘仅出现在对象内部,因此示例性技术可以确信 地衰减图9(b)中区域2和4周围的边缘,由此避免沿着这些边缘的分割剪切。

由此,局部色彩模式(LCP)可以被定义为色彩配置,其反应了不同的色 彩的空间分布,例如如图10中由黑色的头发包围的面部的皮肤色彩。

在这种情况下,色彩配置不是上下文色彩,其是沿着离开图像的当前块特 定空间距离来定义的。同样地,配置与诸如均值移位等过分割 (oversegmentation)方法所获取的邻近区域的色彩不同:在过分割的情况下, 一个色彩相同的区域可以被分成许多块(诸如图10中的女孩的面部),并且 同一相同区域内的邻近块不能向彼此提供配置信息;相反,增加色彩半径参数 会由于将具有不同色彩的区域合并在一起而造成欠分割(undersegmentation), 这也是不合需要的。

LCP提取中的一个重要问题是告知哪些色彩是“不同的”。为了避免使用 色彩差异的硬阈值,上下文色彩/LCP提取器111对像素色彩执行高斯混合模型 (GMM)聚类,以获取有关在图像中由多少色彩模式以及它们是哪些(即红、 蓝、黑等)的概览。所有像素的色彩空间C被分成若干个不重叠的色彩模式: C = n C n 。这种划分给出了图像中哪些色彩是接近的(在相同的色彩模式中)或 是不同的(在不同的色彩模式中)的概括和稳健的观点。

预分割器314使用均值移位来过分割图像。考虑到均值移位区域的形状和 大小的大量变化,图像分割器312将每个区域R划分成元素,接着基于所估计 的色彩模式和元素来提取LCP特征。图10(a)中的示例示出了提取过程。

对于具有红色边界的均值移位区域(女孩的部分面部)1002,其限界框(黄 色矩形)1004被分成网格。当将网格覆盖在该区域上时,该区域被分成各个元 素。多数元素是矩形的,除了沿着该区域的边界的那些元素之外。对于比网格 小的区域,将整个区域作为一个元素。与直接将图像剪切成规则网格的方法相 比,该方法避免了沿着区域边界的色彩混合并且维护了具有不同色彩的小型区 域。

对于每个元素e,上下文色彩提取器111沿着D个预定方向搜索上下文元 素,示为e1,...,eD。上下文元素被定义为属于与e所属的色彩模态不同的色彩模 态的最接近元素,由此搜索可以到达均值移位区域边界1002之外,并且达到 形成色彩模式的真正不同的色彩。例如,在图10(a)中,D=4,对于元素e获 取上下文元素e1,...,e4。对e1的搜索到达区域边界之外,并且达到头发的区域, 这是形成“色彩模式”的真实的上下文色彩。

最后,对于每个元素e及其上下文元素e1,...,eD,上下文色彩提取器111 形成元素e的局部色彩模式p:p(e)=[c0,c1,...cD]T,其中c1,...cD是上下文元素 e1,...,eD的均值色彩,而c0是元素e的均值色彩。

推断相似度能量

对局部色彩模式进行建模

对于示例图像,上下文色彩学习引擎110获取所有前景和背景元素的LCP 特征并使用上述GMM来拟合前景LCP相似度模型lF(p)=p(p|ye=1)和背景LCP 相似度模型lB(p)=p(p|ye=0)。此处,ye表示元素e的标记。取前景和背景上的非 信息性先验,使用相同的常数获取与相似度成比例的后验,即pF,B(p)∝lF,B(p)。

在给定中心色彩c0的条件下,在上下文元素的色彩ci;i=1,...,D有条件地彼 此独立的假设下,通过将高维数模型l(p)分解成许多较低维数模型来做出近似 值以给出符合它的更为实用的解决方案:

l ( p ) = p ( c 0 , c 1 , . . . , c n ) p ( c 0 ) Π i = 1 D p ( c i | c 0 ) - - - ( 2 )

可任选地,可以根据所获取的色彩模式进一步削减这一拟合:

l ( p ) = Σ j [ p ( c 0 C j ) Π i = 1 D p ( c i | c 0 C j ) ] - - - ( 3 )

推断相关图像的相似度能量

对于相关(新颖)图像104,对应的分割属性引擎100′提取每个元素的局 部色彩模式,并且用等式(3)从lF,B(p)计算pF,B(p)。

当计算像素pi属于前景/背景的概率时,假设均值移位区域1002中的所有 像素具有相同的值。结果,在一个实现中,上下文色彩学习引擎110在每个区 域R内部执行投票过程,并且取元素概率的中间值作为该区域内部的像素的值 以增强稳健性:

相似度能量最终通过归一化来获得:

E 1 ( y i = 1 ) = log [ p F ( p i ) ] log [ p F ( p i ) ] + log { p B ( p i ) }

 (5)

E 1 ( y i = 0 ) = log [ p B ( p i ) ] log [ p F ( p i ) ] + log [ p B ( p i ) ]

图11(d)示出了来自视觉对象剪切引擎200的示例性概率图。与使用像素 的色彩作为特征的图11(c)相比具有相似色彩的区域(面部和墙)中的歧义减少 了。

边缘轮廓模型进行的对比调整

在基于分割方法的常规图形剪切中使用的平滑度项是基于图像对比度的, 即如等式(6)中:

E 2 ( y i , y j ) = | y i - y j | exp ( - β d ij ) - - - ( 6 )

其中β是对色彩距离dij加权的参数。此处,dij=||Ii-Ij||,并且β=[2]-1,使用 <·>作为期望算子。Ii和Ij是pi和pj的色彩。

该项强制分割遵循强边缘。然而,当在前景或背景内部存在强内部边缘时, 会发生不合需要的分割。使用常规平滑度项的常规技术将因沿着该内部边缘分 割而失败。

接着,将描述提供对沿着强内部边缘的不合需要的分割的上述问题的补救 的边缘轮廓特征提取。在一个实现中,该问题是通过基于旋转不变的边缘轮廓 特征调整dij来解决的。该调整减少内部边缘处的dij并增加和前景和背景之间 的边界边缘(即分割边界)处的dij,由此指导剪切更可能遵循边界边缘。

边缘轮廓特征提取

边缘学习引擎120将均值移位区域1002的共享边界作为边缘部分,并且 沿着它们提取轮廓以描述边缘的标准(垂直)方向上的色彩外观。均值移位区 域1002内部的像素对被直接当作内部边缘,因为对象边界不太可能出现在这 种区域1002内。

例如,在图10(b)中,从两个相邻区域之间的边缘上的像素对开始,分别 在边缘1006朝向两个区域的标准方向上(绿色箭头)找出N个不同色彩。总 共收集到2N个色彩来形成轮廓特征:

ε=[ε-N,...,ε-1,ε1,...,εN]T·在图10中,N=2。

调整平滑度能量

类似于上述用于推断相似度能量的示例性技术,对于lB(ε)(边界边缘)或 lI(ε)(内部边缘),如下在公式(7)中拟合边界边缘412和内部边缘408和410 的相似度模型:

l ( ϵ ) = p ( ϵ 1 ) p ( ϵ - 1 | ϵ 1 ) Π i = 1 N - 1 p ( ϵ i + 1 | ϵ i ) Π i = 1 N - 1 p ( ϵ - i - 1 | ϵ - i ) - - - ( 7 )

该简化是基于边缘轮廓中仅相邻色彩是相关的近似。边缘特征是用对称的 方式在两个方向上提取的,由此该等式中的前两项可以被等效地改成 p(ε-1)p(ε1|ε-1)。

在相关图像104中,对于区域R1和R2之间的边缘处的任何邻近像素对 (pi,pj),可以通过pI,B(ε)∝lI,B(ε)来获取pB(ε)和pI(ε)。

区域R1和R2的共享边界处的像素对(pi,pj)的最终后验是通过R1和R2之间 的共享边界上的所有对的稳健投票来获取的,如在等式(8):

边缘调整器328使用pI(pi,pj)和pB(pi,pj)来调整对比度,如在等式(9)中。当 pI(pi,pj)足够大时,pi和pj之间的边缘非常可能是内部边缘,并且边缘调整器328 减少dij。当pB(pi,pj)足够大时,确信边缘是边界边缘,并且边缘调整器328增 强dij。当在任一情形都不确信时,保持区域不变:

在等式(9)中,λ>0控制调整的强度,并且λ>0是用于稳健性的置信度阈值。

图11(f)示出了示例性对比图330。在调整了对比度之后,与原始对比图(例 如在图11(e)中)相比,前景和背景内部的边缘一般被衰减,而沿着前景/背景 边界的边缘被增强。

机制分析

局部色彩模式模型和边缘调整提供了用于对象剪切任务的互补信息。LCP 模型114被设计成减少由前景对象和背景之间的相似外观所导致的歧义;而边 缘轮廓模型126通过调整平滑度能量来帮助剪切。每个模型影响分割任务的不 同方面,并且将它们组合在一起提供了互补的增强。

图12示出了局部色彩模式模型114和边缘轮廓模型126之间的这种互补 关系。一方面,根据12(a)仅使用局部色彩模式模型114来剪切12(b),对具有 相似上下文的区域(诸如眼睛和手)被错误地分类,如图12(c)中所示。在边缘 信息的协助下,这些部分变得很明显是在前景内部,由此洞被填补,如图12(d) 中。另一方面,在12(f)中的边界边缘和内部边缘两者上都有黑白模式(用圆圈 标记)1202,并且边缘模型126不能区分它们。使用边缘轮廓模型126和单个 色彩特征,获得了诸如12(g)的结果,而使用边缘轮廓模型126和LCP模型114 两者则提供了12(h),其消除了歧义。

示例性方法

图13是出了基于第一图像的上下文色彩和边缘轮廓来推断第二图像中的 分割边界的示例性方法1300。在流程图中,在各个框中概述了操作。示例性方 法1300可以由硬件,软件,或硬件、软件、固件的组合等来执行,例如由视 觉对象剪切引擎200的组件来执行。

在框1302处,确定第一图像的每个块附近的上下文色彩以创建外观模型。 上下文色彩标识示例性外观模型中的每个块。由于前景和背景几乎从不拥有同 样的色彩构造——即使有时在一般总体色彩上相似——这些上下文色彩模式 提供了比仅根据它们的单个一般色彩从背景区分前景的常规技术更为强大的 用于从背景区分前景的机制。

在图像块的更细微的级别上,对上下文色彩的示例性提取成为比常规技术 更加强大的用于从背景块区分前景块的技术。常规技术将块自身的诸如色彩、 亮度等属性做比较。但是当前景和背景在色彩上有些相似时,块自身的属性会 导致有歧义的区别。在本文中所描述的上下文色彩的示例性提取中,在给定块 和对比邻近色彩之间形成的色彩模式(例如通过所提取的色彩对可用的以及与 每个块相关联的)提供了用于从背景块区分前景块的更多信息。

前景或背景块位于相同的上下文色彩组是极不可能的,因为前景部分和背 景部分往往拥有其自己相应的色彩调色板。因此,与给定块相关联的上下文色 彩成为提供作为前景或背景的精确标识的指纹。

应该注意,图像的给定块的上下文色彩不必是紧靠该块的那些色彩。实际 上,示例性方法1300可以从该块在每个方向上遍历某一距离以找出对比色彩 来提供上下文。

在框1304处,学习第一图像的视觉边缘附近的色彩序列以创建边缘轮廓 模型。在一个实现中,示例性方法1300在多个点处扫描模型图像的已知分割 边界,在扫描边缘的任一侧上的色彩期间从在前景对象内部向外前进并且前进 到背景中。例如,方法1300可以在正确的角度上对分割边缘进行线性扫描。 这些边缘扫描提供了色彩的轮廓,以及更具体地,提供了特性上在分割边缘附 近、内部和/或外部的色彩序列。该信息被编译到边缘轮廓模型中。该模型提供 了用于在其它图像中识别什么是真正的分割边界以及什么仅是前景对象内或 背景内的视觉边缘的强大工具。

在框1306处,基于外观模型和边缘轮廓模型来推断第二图像中的分割边 界。外观模型和边缘轮廓模型可以使用许多方式来推断测试图像104中的、外 观模型和边缘轮廓模型的分割属性所传播到的精确分割边界。在一个实现中, 将模型前景的数据能量与未知测试图像的可能的前景部分进行比较,并且将数 据能量最小化以优化分割边界。可以将包括与外观模型相关联的数据能量和与 边缘轮廓模型相关联的平滑度能量的总能量最小化以提供分割边界优化。模型 图像的边缘轮廓模型可用于调整平滑度能量分量,后者转化成弱化对内部边缘 的效果并且强化分割边界边缘的效果。

图14示出了提取上下文色彩的示例性方法1400。在流程图中,在各个框 中概述了操作。示例性方法1400可以由硬件,软件,或硬件、软件、固件的 组合等来执行,例如由视觉对象剪切引擎200的组件来执行。

在框1402处,对于图像的每个块,从给定块的多个方向中的每一个上的 扫描相应距离(例如扫描色彩检测技术所遍历的),直至在沿着每个方向的某 一距离处找到样本色彩,这样使得样本色彩落入与主题块的色彩模态不同的色 彩模态中。

在框1404处,记录块的色彩和在每个方向上获取的样本色彩作为该块的 上下文色彩对。如果选择四个方向来提供每个块的上下文色彩信息,则四个色 彩对与图像的每个块相关联。

结论

尽管用对结构特征和/或方法动作专用的语言描述了示例性系统和方法,但可 以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述 具体特征和动作是作为实现所要求保护的方法、设备、系统等的示例性形式公开的。