用于扩增实境应用程序的有效混合方法转让专利

申请号 : CN201280035272.4

文献号 : CN103650000B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丘衡一百永基金秉苏

申请人 : 高通股份有限公司

摘要 :

在移动装置中使用光学字符辨识OCR随着移动装置的增加使用而变得普遍。OCR在移动装置中的一个重要应用是辨识文本且将文本翻译为用户可理解的语言。提供用于替换图像中的符号同时减少由于背景图像的重新呈现产生的伪像的技术。

权利要求 :

1.一种用于替换第一图像中的至少一个符号的方法,所述方法包括:获得包括表示所述至少一个符号的多个像素和表示背景区的多个像素的所述第一图像;

界定所述第一图像中的第一和第二边界,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;

产生表示所述至少一个符号的至少一个经翻译符号的多个像素;

通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素;以及构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像,其中界定所述第一图像中的所述第一和第二边界包括遮蔽具有所述至少一个符号的大部分的区域,以在所述至少一个符号的相对侧上界定第一带和第二带。

2.根据权利要求1所述的方法,其中将所述第一和第二边界中的每一者界定为沿着所述至少一个符号的一侧的像素串。

3.根据权利要求2所述的方法,其中将所述像素串界定为像素的路径,其使与所述路径相关联的成本最小化。

4.根据权利要求3所述的方法,其中将与所述路径相关联的所述成本界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。

5.根据权利要求1所述的方法,其中界定所述第一图像中的所述第一和所述第二边界包括:选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径;

通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本;以及从所述第一带选择具有最低成本的路径作为所述第一边界,且从所述第二带选择具有最低成本的路径作为所述第二边界。

6.根据权利要求1所述的方法,其中内插背景像素值利用线性内插。

7.根据权利要求1所述的方法,其中内插背景像素值利用非线性内插。

8.根据权利要求1所述的方法,其中所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。

9.一种用于替换第一图像中的至少一个符号的装置,其包括:处理器;

输入装置,其耦合到所述处理器;

输出装置,其耦合到所述处理器;以及

耦合到所述处理器的存储装置,其中所述处理器经配置以:获得包括表示所述至少一个符号的多个像素和表示背景区的多个像素的所述第一图像;

界定所述第一图像中的第一和第二边界,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;

产生表示所述至少一个符号的至少一个经翻译符号的多个像素;

通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素;以及构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像,其中界定所述第一图像中的所述第一和第二边界包括遮蔽具有所述至少一个符号的大部分的区域,以在所述至少一个符号的相对侧上界定第一带和第二带。

10.根据权利要求9所述的装置,其中所述第一和第二边界中的每一者经界定为沿着所述至少一个符号的一侧的像素串。

11.根据权利要求10所述的装置,其中所述像素串经界定为像素的路径,其使与所述路径相关联的成本最小化。

12.根据权利要求11所述的装置,其中与所述路径相关联的所述成本经界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。

13.根据权利要求9所述的装置,其中界定所述第一图像中的所述第一和所述第二边界包括:选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径;

通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本;以及从所述第一带选择具有最低成本的路径作为所述第一边界,且从所述第二带选择具有最低成本的路径作为所述第二边界。

14.根据权利要求9所述的装置,其中内插背景像素值利用线性内插。

15.根据权利要求9所述的装置,其中内插背景像素值利用非线性内插。

16.根据权利要求9所述的装置,其中所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。

17.一种用于替换第一图像中的至少一个符号的设备,所述设备包括:用于获得包括表示所述至少一个符号的多个像素和表示背景区的多个像素的所述第一图像的装置;

用于界定所述第一图像中的第一和第二边界的装置,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;

用于产生表示所述至少一个符号的至少一个经翻译符号的多个像素的装置;

用于通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素的装置;以及用于构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像的装置,其中用于界定所述第一图像中的所述第一和第二边界的装置包括用于遮蔽具有所述至少一个符号的大部分的区域,以在所述至少一个符号的相对侧上界定第一带和第二带的装置。

18.根据权利要求17所述的设备,其中所述第一和第二边界中的每一者经界定为沿着所述至少一个符号的一侧的像素串。

19.根据权利要求18所述的设备,其中所述像素串经界定为像素的路径,其使与所述路径相关联的成本最小化。

20.根据权利要求19所述的设备,其中与所述路径相关联的所述成本经界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。

21.根据权利要求17所述的设备,其中界定所述第一图像中的所述第一和所述第二边界包括:用于选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径的装置;

用于通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本的装置;以及用于从所述第一带选择具有最低成本的路径作为所述第一边界且从所述第二带选择具有最低成本的路径作为所述第二边界的装置。

22.根据权利要求17所述的设备,其中内插背景像素值利用线性内插。

23.根据权利要求17所述的设备,其中内插背景像素值利用非线性内插。

24.根据权利要求17所述的设备,其中所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。

说明书 :

用于扩增实境应用程序的有效混合方法

[0001] 相关申请案的交叉参考
[0002] 本申请案主张2011年6月30日申请的题为“用于扩增实境应用程序的有效混合方法(Efficient Blending Methods for AR Applications)”的第61/503,421号美国临时申请案的优先权。第61/503,421号美国临时申请案被转让给本发明的受让人,且在此通过引用而并入。

技术领域

背景技术

[0003] 本发明的实施例涉及扩增实境的领域。扩增实境允许例如移动装置等装置来扩增用户的周围的实境。通过使用光学字符辨识(OCR)而辨识安装在移动装置上的相机的视场中的文本通过向用户提供关于文本及其语境的更多信息而实现扩增实境领域中的重要应用。在移动装置中使用OCR随着移动装置的增加使用而变得普遍。OCR在移动装置中的重要应用是辨识文本且将文本翻译为用户可理解的语言。
[0004] 翻译文本且重新呈现所述文本和文本背景的障碍之一是在背景中引入了由于背景的重新呈现产生的不良且讨厌的伪像。此外,移动装置上的计算能力是有限的,因此用经翻译文本来替换所述文本而不留下伪像的过程一定不能是计算上复杂的且不能消耗过量的功率。

发明内容

[0005] 提供用于替换图像中的符号同时减少由于背景图像的重新呈现产生的伪像的技术。大体来说,此技术可应用于图像处理。
[0006] 在本发明的一个实施例中,在翻译且替换文本的同时,通过使用内插来重新产生背景而减少背景上的伪像的效应。在一个方面,使用线性内插。或者,还可使用非线性内插。在另一实施例中,本发明描述查找避免噪声路径的优化路径的过程,且因此允许在很少的讨厌的伪像的情况下的内插。
[0007] 一种用于替换第一图像中的至少一个符号的方法的实例包含:获得包括表示所述至少一个符号的多个像素和表示背景区的多个像素的所述第一图像;界定所述第一图像中的第一和第二边界,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;产生表示所述至少一个符号的至少一个经翻译符号的多个像素;通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素;以及构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像。在一个方面,所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。
[0008] 在一些实施例中,可将所述第一和第二边界中的每一者界定为沿着所述至少一个符号的一侧的像素串。另外,可将所述像素串界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。
[0009] 界定所述第一图像中的所述第一和所述第二边界的实施可包含:在所述至少一个符号的相对侧处界定第一和第二带;选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径;通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本;以及从所述第一带选择具有最低成本的路径作为所述第一边界,且从所述第二带选择具有最低成本的路径作为所述第二边界。
[0010] 在一些实施方案中,内插背景像素值利用线性内插。在其它实施方案中,内插背景像素值利用非线性内插。另外,所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。
[0011] 实施系统的实例装置可包含:处理器;输入装置,其耦合到所述处理器;输出装置,其耦合到所述处理器;以及非暂时性计算机可读存储媒体,其耦合到所述处理器,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的代码,所述方法包括:获得包括表示至少一个符号的多个像素和表示背景区的多个像素的第一图像;界定所述第一图像中的第一和第二边界,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;产生表示所述至少一个符号的至少一个经翻译符号的多个像素;通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素;以及构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像。在一些方面,所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。
[0012] 此类装置的实施可包含以下特征中的一者或一者以上。所述第一和第二边界中的每一者可经界定为沿着所述至少一个符号的一侧的像素串另外,所述像素串可经界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。界定所述第一图像中的所述第一和所述第二边界的步骤可包含:在所述至少一个符号的相对侧处界定第一和第二带;选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径;通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本;以及从所述第一带选择具有最低成本的路径作为所述第一边界,且从所述第二带选择具有最低成本的路径作为所述第二边界。背景像素值的内插可利用线性或非线性内插来完成。
[0013] 一种实例非暂时性计算机可读存储媒体,其耦合到处理器,其中所述非暂时性计算机可读存储媒体包括可由所述处理器执行以用于实施方法的计算机程序,所述方法包含:获得包括表示至少一个符号的多个像素和表示背景区的多个像素的第一图像;界定所述第一图像中的第一和第二边界,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;产生表示所述至少一个符号的至少一个经翻译符号的多个像素;通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素;以及构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像。在一些方面,计算机程序中的所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。
[0014] 此类计算机程序产品的实施可包含以下特征中的一者或一者以上。所述第一和第二边界中的每一者可经界定为沿着所述至少一个符号的一侧的像素串另外,所述像素串可经界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。界定所述第一图像中的所述第一和所述第二边界的步骤可包含:在所述至少一个符号的相对侧处界定第一和第二带;选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径;通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本;以及从所述第一带选择具有最低成本的路径作为所述第一边界,且从所述第二带选择具有最低成本的路径作为所述第二边界。背景像素值的内插可利用线性或非线性内插来完成。
[0015] 一种用于替换第一图像中的至少一个符号的实例设备,所述设备包括:用于获得包括表示所述至少一个符号的多个像素和表示背景区的多个像素的所述第一图像的装置;用于界定所述第一图像中的第一和第二边界的装置,其中所述第一和所述第二边界定位在表示所述第一图像的所述至少一个符号的相对侧上;用于产生表示所述至少一个符号的至少一个经翻译符号的多个像素的装置;用于通过将多个背景像素值内插在所述第一与所述第二边界之间而产生表示所述背景区的扩增版本的多个像素的装置;以及用于构造包括表示所述至少一个经翻译符号的所述多个像素和表示所述背景区的所述扩增版本的所述多个像素的第二图像的装置。在一个方面,所述至少一个符号包括按第一人类语言的至少一个文本字符,且所述至少一个经翻译符号包括按第二人类语言的至少一个文本字符。
[0016] 在上述实例系统中,界定所述第一图像中的所述第一和所述第二边界的步骤可包含:用于在所述至少一个符号的相对侧处界定第一和第二带的装置;用于选择横穿过所述第一带的至少第一路径和横穿过所述第二带的至少第二路径的装置;用于通过对沿着每一路径的多个像素的像素颜色的梯度变化求和而得到针对所述至少第一路径和所述至少第二路径的成本的装置;以及用于从所述第一带选择具有最低成本的路径作为所述第一边界且从所述第二带选择具有最低成本的路径作为所述第二边界的装置。
[0017] 此类系统的实施可包含以下特征中的一者或一者以上。所述第一和第二边界中的每一者可经界定为沿着所述至少一个符号的一侧的像素串另外,所述像素串可经界定为像素的路径,其使沿着所述路径的多个像素的像素颜色的梯度变化的总和最小化。背景像素值的内插可利用线性或非线性内插来完成。
[0018] 前文已相当广泛地概述了根据本发明的实例的特征和技术优势以便可更好地理解下文的详细描述。下文将描述额外特征和优点。可将所揭示的概念和特定实例容易地用作修改或设计其它结构的基础以用于进行本发明的相同目的。此类等效构造并未背离随附权利要求书的精神和范围。当结合附图考虑时,自以下描述将更好地理解被认为是本文所揭示概念的特性的特征(关于其组织和操作方法两者)以及相关联优点。提供特征中的每一者仅用于说明和描述目的而非作为权利要求书的限制的界定。

附图说明

[0019] 参看图式来提供以下描述,其中在全文中相同参考标号用以指代相同元件。虽然在本文中描述一个或一个以上技术的各种细节,但其它技术也是可能的。在其它例子中,以框图形式展示众所周知的结构和装置以便有助于描述各种技术。
[0020] 本发明所提供实例的性质和优点的进一步理解可通过参考说明书的剩余部分和图式来实现,其中相同参考标号在若干图式中用以指代类似组件。在一些例子中,子标签与参考标号相关联以指示多个类似组件中的一者。当参考未说明现有子标签的参考标号时,所述参考标号指代所有此类类似组件。
[0021] 图1是简化框图,其说明在根据本发明的各种实施例而配置的移动装置内的混合系统的实例。
[0022] 图2是图形图像,其说明相机装置所捕捉的图像的变换。
[0023] 图3是图形图像,其说明使用线性内插在多种语言之间翻译的实例实施例的步骤。
[0024] 图4是简化流程图,其说明用于替换图像中的符号同时使用线性内插而减少由于背景图像的重新呈现产生的伪像的过程。
[0025] 图5是另一简化流程图,其说明用于替换图像中的符号同时使用非线性内插而减少由于背景图像的重新呈现产生的伪像的过程。
[0026] 图6是另一简化流程图,其说明用于替换图像中的符号同时在优化路径上使用内插而减少由于背景图像的重新呈现产生的伪像的过程。
[0027] 图7是简化流程图,其说明用于得到消除噪声路径的优化路径的过程。
[0028] 图8是简化流程图,其说明具有文本的图像经过得到优化路径的过程的进展。
[0029] 图9是像素的图解表示,其说明选择邻近像素集且计算所述像素周围的梯度变化的实施例。
[0030] 图10说明并有装置的用于实践本发明的实施例的部分的示范性计算机系统。

具体实施方式

[0031] 本发明的实施例包含用于替换图像中的符号同时减少由于背景图像的重新呈现产生的伪像的技术。所述技术允许移动电话具有将符号翻译为用户可容易辨识的符号的能力。大体来说,此技术可应用于图像处理。
[0032] 图1是简化框图,其说明在根据本发明的各种实施例而配置的装置100内的混合系统120的非限制性实例。在一个实施例中,装置100是能够执行混合系统120的移动装置,所述混合系统120翻译且替换符号,同时减少由于背景图像的重新呈现产生的伪像。在一些实施例中,移动装置具有相机单元102、混合缓冲器116、图像缓冲器118以及混合系统120。混合系统120具有检测模块104、路径查找器106、背景内插器108、翻译器110、文本像素产生器112和像素混合器114。装置相机102捕捉在背景上包含符号的图像,且将所述图像存储在图像缓冲器118中用于进一步处理。图像具有可为任何图形表示的符号,包含文本、字符和标志。检测模块104检测图像中包含符号和背景区的翻译区。路径查找器106查找使所述符号隔离的两路径(垂直地)。这些边界可为所检测框的上部和下部边界,或其可为最优路径(其将进行论述)。边界可为消除了噪声在图像中的分散的直线或优化路径。背景内插器108通过将像素值内插在第一与第二边界之间而重新呈现背景。背景内插器108可使用线性内插、非线性内插,或适合于重新呈现背景图像且产生用于背景的像素的任何方式。翻译器110可使用OCR功能性来辨识符号。翻译器110接着对所述符号进行翻译。文本像素产生器112产生用于经翻译文本的像素。像素混合器114将经翻译符号嵌入于混合缓冲器116中的背景区中。像素混合器114用经混合图像来替换来自图像缓冲器118的所捕捉图像,然后在输出装置上将其显示给用户。
[0033] 图2是图形图像,其说明相机102所捕捉的图像的变换。参看图2,2(A)是装置的相机所检测到的图像。在图像被检测和捕捉之后,用户可通过功能菜单或其它适合的装置来命令所述装置翻译装置上的通过其输出单元可见的文本。或者,装置可在于输出屏幕上显示图像之前在没有用户干预的情况下翻译文本。用户可在装置根据装置的意思而开始翻译符号之前通过使用功能菜单或任何其它适合的装置来将装置置于翻译模式中。用户还可具有选择用户需要符号被翻译成的语言或系统的选项。举例来说,用户可将装置设置为翻译为英语语言(美国)和美国语系(system)。当用户在日本旅行时,装置将装置的视场中可见的日语翻译为英语,且将在装置的视场中可见的具有日语符号的道路标志翻译为用户可辨识的美国道路标志,从而允许美国用户在日本舒适地旅行。
[0034] 参看图2,装置将图像中的符号从英语翻译为德语。图1中所述的混合系统120处理含有英文“CAUTION SITE TRAFFIC CROSSING”的图像2(A)。装置相机102捕捉包含文本和背景的图像,且将所述图像存储在图像缓冲器118中用于进一步处理。检测模块104从图像检测用于翻译的短语。路径查找器106查找使符号隔离的两路径(垂直地)。这些路径可为所检测框的上部和下部边界,或其可为最优路径。背景内插器108通过将像素值内插在第一与第二边界之间而重新呈现背景。翻译器110使用OCR功能性来辨识文本。翻译器110接着将英文翻译为德文。文本像素产生器112产生用于经翻译文本的像素。像素混合器114将经翻译符号嵌入于混合缓冲器116中的背景区中。像素混合器114用经混合图像来替换来自图像缓冲器118的所捕捉图像。经混合图像(即2(B))在输出装置上以所翻译的德语“WARNUNG BAU VERKEHR KREUZUNG”显示给用户。
[0035] 图3是图形图像,其说明使用线性内插来示范背景的翻译和重新呈现的步骤的非限制性实施例。在步骤1,检测模块104将含有用于翻译的文本和背景的图像的一段框出来。选择表示文本的顶部和底部边缘的边界的两直线。如步骤2中所示,背景内插器108通过在顶部和底部直线上使用线性内插而重新产生内部区域。背景内插器108可使用线性滤波机制,其使用移动平均滤波器来去除噪声。在步骤3,翻译器将英语单词“CAUTION”翻译为德语单词“WARNUNG”。像素混合器114将所得文本嵌入于在步骤2中产生的背景中。在步骤4,像素混合器114用来自混合缓冲器的数据来替换来自步骤1的框出的区域。
[0036] 图4是简化流程图,其说明用于替换图像中的符号同时减少由于背景图像的重新呈现产生的伪像的方法400。方法400通过处理包括硬件(电路、专用逻辑等)、软件(例如在通用计算系统或专用机器上运行)、固件(嵌入式软件)或其任何组合的逻辑来执行。在一个实施例中,方法400通过图10的装置1000来执行。
[0037] 参看图4,在方框402,装置相机102获得包括表示至少一个符号的多个像素和表示背景区的多个符号的图像。举例来说,图像可为公告板、街道标志、书籍封面,或具有需要翻译的符号的任何事物。在方框404,路径查找器106将第一和第二直线边界定位在符号的相对侧上,垂直地隔离所述符号。路径查找器106可检测具有符号的区域与正好在符号之后的区域之间的梯度变化,用于将线放置在符号的每一边缘上。在方框406,翻译器110将符号从一种语言或语系翻译为另一语言或语系。翻译器可使用OCR技术以将符号首先转换为表示符号的机器可辨识格式。翻译器还可使用词典和其它各种适合的装置以用于将语言和符号从一种语言或语系翻译为另一语言或语系。在方框406,文本像素产生器112还产生表示至少一个符号的经翻译符号的多个像素。在方框408,背景内插器108通过将背景像素值线性内插在第一与第二边界之间而产生表示背景区的扩增版本的多个像素。此方法将内部区域内插在符号周围的两边界之间。由于两边界处的颜色是已知的,所以可内插含有边界的框内部的颜色。可使用利用移动平均滤波器的线性滤波机制来去除噪声。线性滤波较不复杂且快速,然而,其仍可能在所得经翻译图像中产生一些讨厌的伪像。最后,在方框410,像素产生器产生包括表示至少一个符号的翻译的多个像素和表示背景区的扩增版本的多个像素的新图像。在一些实施例中,表示经翻译符号的像素替换背景像素。
[0038] 应了解,根据本发明的实施例,图4中说明的特定步骤提供在操作模式之间切换的特定方法。还可在替代实施例中相应地执行其它顺序的步骤。举例来说,本发明的替代实施例可以不同次序来执行上文概述的步骤。为了进行说明,用户可选择从第三操作模式改变到第一操作模式,从第四模式改变到第二模式,或模式之间的任何组合。此外,图4中说明的个别步骤可包含多个子步骤,所述子步骤可以适于所述个别步骤的各种顺序来执行。此外,可取决于特定应用而添加或去除额外的步骤。所属领域的技术人员将认识且了解方法400的许多变化、修改和替代。
[0039] 图5是另一简化流程图,其说明用于替换图像中的符号同时减少由于背景图像的重新呈现产生的伪像的方法500。方法500通过处理包括硬件(电路、专用逻辑等)、软件(例如在通用计算系统或专用机器上运行)、固件(嵌入式软件)或其任何组合的逻辑来执行。在一个实施例中,方法500通过图10的装置1000来执行。
[0040] 参看图5,在方框502,装置相机102获得包括表示至少一个符号的多个像素和表示背景区的多个符号的图像。举例来说,图像可为公告板、街道标志、书籍封面,或具有需要翻译的符号的任何事物。在方框504,路径查找器106将第一和第二直线边界定位在符号的相对侧上。路径查找器106可检测具有符号的区域与正好在符号之后的区域之间的梯度变化,用于将线放置在符号的每一侧上。在方框506,翻译器110将符号从一种语言或语系翻译为另一语言或语系。翻译器可使用OCR技术以将符号首先转换为表示符号的机器可辨识格式。翻译器还可使用词典和其它各种适合的装置以用于将语言和符号从一种语言或语系翻译为另一语言或语系。在方框506,文本像素产生器112还产生表示至少一个符号的经翻译符号的多个像素。在方框508,背景内插器108通过将背景像素值非线性内插在第一与第二边界之间而产生表示背景区的扩增版本的多个像素。在非线性滤波中,用估计的背景颜色来替换背景颜色中的离群值(例如,噪声、反射和相邻文本中的文本颜色)。此方法可用少量的计算开销来显著降低伪像。最后,在方框510,像素产生器产生包括表示至少一个符号的翻译的多个像素和表示背景区的扩增版本的多个像素的新图像。在一些实施例中,表示经翻译符号的像素替换背景像素。
[0041] 应了解,根据本发明的实施例,图5中说明的特定步骤提供在操作模式之间切换的特定方法。还可在替代实施例中相应地执行其它顺序的步骤。举例来说,本发明的替代实施例可以不同次序来执行上文概述的步骤。为了进行说明,用户可选择从第三操作模式改变到第一操作模式,从第四模式改变到第二模式,或模式之间的任何组合。此外,图5中说明的个别步骤可包含多个子步骤,所述子步骤可以适于所述个别步骤的各种顺序来执行。此外,可取决于特定应用而添加或去除额外的步骤。所属领域的技术人员将认识且了解方法500的许多变化、修改和替代。
[0042] 图6是另一简化流程图,其说明用于替换图像中的符号同时在优化路径上使用内插而减少由于背景图像的重新呈现产生的伪像的过程。方法600通过处理包括硬件(电路、专用逻辑等)、软件(例如在通用计算系统或专用机器上运行)、固件(嵌入式软件)或其任何组合的逻辑来执行。在一个实施例中,方法600通过图10的装置1000来执行。
[0043] 各种内插和滤波机制允许通过减少噪声效应和所得伪像来更好地实现背景。然而,另一方法是查找作为边界的最优路径,所述最优路径消除了具有噪声的不当分散的路径且产生具有少得多的伪像的背景图像。符号序列在所有四侧上具有间隔。此间隔提供可从符号消除噪声的路径。因此,代替仅依赖于内插算法来抵消噪声,一个方法将完全消除具有失真的噪声路径。将用于内插所述背景的内部的两边界界定为一像素串,其使沿着所述像素串的像素值的变化最小化。换句话说,此实施例集中在查找沿着符号的相对侧的优化路径,所述优化路径消除了路径中的符号和噪声。所述优化路径用以将像素值内插在两边界之间。使用优化路径进行的内部像素的(线性和非线性)内插显著减少了最终图像中的伪像。
[0044] 参看图6,在方框602,装置相机102获得包括表示至少一个符号的多个像素和表示背景区的多个符号的图像。举例来说,图像可为公告板、街道标志、书籍封面,或具有需要翻译的符号的任何事物。在方框604,路径查找器106通过查找符号的相对侧处的最优路径而将第一和第二边界定位在符号的相对侧上。路径查找器106查找消除噪声路径且产生具有较少伪像的背景图像的最优路径。在图7、图8和图9中进一步论述用于查找最优路径的示范性实施例。
[0045] 在方框606,翻译器110将符号从一种语言或语系翻译为另一语言或语系。翻译器可使用OCR技术以将符号首先转换为表示符号的机器可辨识格式。翻译器还可使用词典和其它各种适合的装置以用于将语言和符号从一种语言或语系翻译为另一语言或语系。在方框606,文本像素产生器112还产生表示至少一个符号的经翻译符号的多个像素。在方框608,背景内插器108通过将背景像素值内插在第一与第二边界之间而产生表示背景区的扩增版本的多个像素。背景内插器108可使用线性内插、非线性内插,或适合于重新呈现背景的任何方式来进行内插。最后,在方框610,像素产生器产生包括表示至少一个符号的翻译的多个像素和表示背景区的扩增版本的多个像素的新图像。在一些实施例中,表示经翻译符号的像素替换背景像素。
[0046] 应了解,根据本发明的实施例,图6中说明的特定步骤提供在操作模式之间切换的特定方法。还可在替代实施例中相应地执行其它顺序的步骤。举例来说,本发明的替代实施例可以不同次序来执行上文概述的步骤。为了进行说明,用户可选择从第三操作模式改变到第一操作模式,从第四模式改变到第二模式,或模式之间的任何组合。此外,图6中说明的个别步骤可包含多个子步骤,所述子步骤可以适于所述个别步骤的各种顺序来执行。此外,可取决于特定应用而添加或去除额外的步骤。所属领域的技术人员将认识且了解方法600的许多变化、修改和替代。
[0047] 图7是简化流程图,其说明用于得到消除噪声的优化路径的方法700。方法700通过处理包括硬件(电路、专用逻辑等)、软件(例如在通用计算系统或专用机器上运行)、固件(嵌入式软件)或其任何组合的逻辑来执行。在一个实施例中,方法700通过图10的装置1000来执行。
[0048] 为了进行说明,虽然在图7中论述边界,但两边界可被称为被水平放置在符号的相对侧处的顶部和底部空间,且从左向右地产生优化路径。然而,所属领域的技术人员将良好地理解,可垂直地放置边界从而约束每一侧上符号的顺序。举例来说,对于垂直书写的一些亚洲字符和符号,可在两侧上从顶部到底部垂直地绘制边界。类似地,对于从右向左书写的一些中东手稿,可能有利于搜索且产生表示从右向左的边界的优化路径。
[0049] 参看图7,在方框702,混合系统将搜索区域划分为顶部和底部水平带,遮蔽具有大部分被符号覆盖的区的区域(如804中可见)。遮蔽具有大部分被符号覆盖的区的区域可指代在计算优化路径时忽视遮蔽区中的像素。在符号的两相对边缘产生两个带显著减少了沿着图像的可能路径的数目。
[0050] 在方框704,混合系统选择水平地横穿过每一水平带的路径。所述路径被界定为从文本的左边缘开始且延伸到文本的右边缘的一串像素。在下文方程式(1)中,每一pi表示像素在第i列上的垂直位置,n为路径长度,且(a,b)为从文本的左边缘开始且延伸到右边缘的路径的搜索范围(带)。
[0051]
[0052] 在方框706,混合系统计算沿着路径的在个别像素周围的梯度。在下文论述图9的同时进一步论述计算梯度变化的一个实施例。在方框708,系统通过对沿着选定路径的像素的梯度变化求和来计算路径的成本。用于计算路径的成本的成本函数由以下方程式表示,[0053]
[0054] 其中D(i,pi)表示像素(i,pi)周围的梯度变化。因此,以上方程式表示沿着所选择路径的所有像素周围的梯度变化的总和。一旦混合系统计算出路径的成本,便将所述成本与其它路径的成本比较。在方框710,如果混合系统确定其未找到优化路径,那么混合例程横穿一新的路径以查找具有表示较低梯度变化的较低成本的路径(返回方框704处开始)。
[0055] 来自动态编程的概念可用于实施图7中所述的混合系统,其通过将问题分为若干较小子问题以查找文本上方和下方的水平带且还有水平带中的优化路径。动态编程模型可指示路径的大小和方向(方框704),以及放弃或继续计算沿着所选择路径的梯度变化(方框710)的决策频率。
[0056] 应了解,根据本发明的实施例,图7中说明的特定步骤提供在操作模式之间切换的特定方法。还可在替代实施例中相应地执行其它顺序的步骤。举例来说,本发明的替代实施例可以不同次序来执行上文概述的步骤。为了进行说明,用户可选择从第三操作模式改变到第一操作模式,从第四模式改变到第二模式,或模式之间的任何组合。此外,图7中说明的个别步骤可包含多个子步骤,所述子步骤可以适于所述个别步骤的各种顺序来执行。此外,可取决于特定应用而添加或去除额外的步骤。所属领域的技术人员将认识且了解方法700的许多变化、修改和替代。
[0057] 图8是具有文本的图像的流程图,其说明用于沿着图像的顶部和底部区域查找优化路径的转变步骤。在方框802,捕捉具有文本的图像。在方框804,遮蔽具有大多数文本的区域以在文本的底部和顶部边缘形成两狭窄带。所述带为具有很少或没有来自符号的噪声的区域。识别带帮助减小最优路径的搜索空间。遮蔽具有大部分被符号覆盖的区的区域有效地在文本的任一侧上产生两个带。这导致在计算优化路径的同时忽视遮蔽区中的像素。混合系统可基于较狭窄带内的梯度变化的总成本或通过使用其它适合技术而将顶部和底部区域进一步分为较狭窄的带(未图示)。一旦混合系统选择文本的顶部边缘和底部边缘处的狭窄带,便沿着每一带产生优化路径,如方框806处所展示。这些优化路径用于将区域的背景颜色内插在两路径之间,如参看图7所描述。在符号的相对侧上产生这些带是有利的,这是因为其显著减少了混合系统在找到优化路径之前必须搜索的路径数目(方框704-710的重复)。
[0058] 图9是邻近像素的图解表示,其说明选择邻近像素集且计算所述像素周围的梯度变化的非限制性实例实施例。在此实施例中,通过选择关注像素周围的邻近像素集来计算像素周围的梯度变化。将像素周围的梯度变化计算为关注像素与每一邻近像素之间的差的绝对值的总和。查找像素周围的梯度变化的方法由以下方程式表示,
[0059]
[0060] 其中D(u,v)表示像素(u,v)周围的梯度变化。 意味(m,n)为的(u,v)的领域。 为(u,v)处像素的颜色,且 为领域系统。参看图9,在像素904周围计算梯度变化。像素904为关注像素且位于(u,v)处。在902、906、908、910和912处的像素为904周围的像素集。在一个实施例中,优化例程仅选择908、910和912处的像素以形成领域像素集,从而计算梯度变化。
[0061] 如图10中所说明的计算机系统可作为先前描述的计算机化装置的部分而并入。举例来说,计算机系统1000可代表手持型装置的组件中的一些。手持型装置可为具有如相机和显示单元等输入传感单元的任何计算装置。手持型装置的实例包含(但不限于)视频游戏控制台、平板计算机、智能电话和移动装置。图10提供计算机系统1000的一个实施例的示意说明,其可如本文所述而执行各种其它实施例所提供的方法,和/或可充当主机计算机系统、远程信息亭/终端、销售点装置、移动装置、机顶盒和/或计算机系统。图10仅意味提供各种组件的广义说明,所述组件中的任一者或全部可在适当时加以利用。因此,图10广泛地说明个别系统元件可以相对分离或相对较集成方式实施的方式。
[0062] 展示计算机系统1000包括硬件元件,所述硬件元件可经由总线1005(或可以其它方式通信,在适当的情况下)而电耦合。硬件元件可包含:一个或一个以上处理器1010,包含(但不限于)一个或一个以上通用处理器和/或一个或一个以上专用处理器(例如,数字信号处理芯片、图形加速处理器和/或类似者);一个或一个以上输入装置1015,其可包含(但不限于)相机、鼠标、键盘和/或类似者;以及一个或一个以上输出装置1020,其可包含(但不限于)显示单元、打印机和/或类似者。
[0063] 计算机系统1000可进一步包含(和/或与其通信)一个或一个以上非暂时性存储装置1025,其可包括(但不限于)本地和/或网络可存取存储器,和/或可包含(但不限于)磁盘驱动器、驱动器阵列、光学存储装置、固态存储装置(例如,随机存取存储器(“RAM”)和/或唯读存储器(“ROM”)),所述非暂时性存储装置1025可为可编程的、可快闪更新的和/或类似者。此类存储装置可经配置以实施任何适当数据存储,包含(但不限于)各种文件系统、数据库结构和/或类似者。
[0064] 计算机系统1000还可包含通信子系统1030,其可包含(但不限于)调制解调器、网络卡(无线或有线)、红外线通信装置、无线通信装置和/或芯片组(例如,BluetoothTM装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设施等),和/或类似者。通信子系统1030可准许与网络(例如,下文描述的网络(作为实例来说明))、其它计算机系统和/或本文所述的任何其它装置交换数据。在许多实施例中,计算机系统1000将进一步包括非暂时性工作存储器1035,其可包含RAM或ROM装置,如上文所述。
[0065] 计算机系统1000还可包括软件元件,所述软件元件经展示为当前位于工作存储器1035内,其包含操作系统1040、装置驱动程序、可执行库、和/或其它代码(例如一个或一个以上应用程序1045),所述应用程序1045可包括各种实施例提供的计算机程序和/或可经设计以实施其它实施例所提供的方法和/或配置系统,如本文所述。仅举例来说,关于上文论述的方法而描述的一个或一个以上程序可实施为可由计算机(和/或计算机内的处理器)执行的代码和/或指令;在一方面,接着,此类代码和/或指令可用以配置和/或调适通用计算机(或其它装置)以执行根据上述方法的一个或一个以上操作。
[0066] 这些指令和/或代码集合可存储在计算机可读存储媒体上,例如上文描述的存储装置1025。在一些情况下,存储媒体可并入在计算机系统内,例如计算机系统1000。在其它实施例中,存储媒体可与计算机系统(例如,可移除媒体,例如光盘)分开,和/或设置在安装程序包中,使得所述存储媒体可用以通过其上存储的指令/代码来编程、配置和/或调适通用计算机。这些指令可采用可执行代码的形式,所述可执行代码可由计算机系统1000执行和/或可采用源代码和/或可安装代码的形式,所述源代码和/或可安装代码在编译和/或安装在计算机系统1000(例如,使用多种一般可用编译器、安装程序、压缩/解压缩设施等中的任一者)上后即采用可执行代码的形式。
[0067] 可根据特定要求来进行实质变化。举例来说,还可使用定制硬件,和/或特定元件可以硬件、软件(包含便携式软件,例如小程序等)或两者来实施。此外,可采用与例如网络输入/输出装置等其它计算装置的连接。
[0068] 一些实施例可采用计算机系统(例如,计算机系统1000)来执行根据本发明的方法。举例来说,上述方法中的程序中的一些或全部可通过计算机系统1000响应于处理器1010执行工作存储器1035中所含的一个或一个以上指令的一个或一个以上序列(其可并入到操作系统1040和/或其它代码中,例如应用程序1045)而执行。可从另一计算机可读媒体来将此类指令读取到工作存储器1035中,例如存储装置1025中的一者或一者以上。仅举例来说,执行含于工作存储器1035中的指令序列可致使处理器1010执行本文所述方法的一个或一个以上程序。
[0069] 如本文所使用,术语“机器可读媒体”和“计算机可读媒体”是指参与提供致使机器以特定方式操作的数据的任何媒体。在使用计算机系统1000而实施的实施例中,各种计算机可读媒体可涉及提供指令/代码给处理器1010用于执行,和/或可用以存储和/或运载此类指令/代码(例如,作为信号)。在许多实施方案中,计算机可读媒体为物理和/或有形存储媒体。此类媒体可采用许多形式,包含(但不限于)非易失性媒体、易失性媒体和传输媒体。非易失性媒体包含(例如)光盘和/或磁盘,例如存储装置1025。易失性媒体包含(而非限制)动态存储器,例如工作存储器1035。传输媒体包含(而非限制)同轴电缆、铜线和光纤(包含包括总线1005的线),以及通信子系统1030的各种组件(和/或通信子系统1030借以提供与其它装置的通信的媒体)。因此,传输媒体还可采用波的形式(包含(但不限制)无线电、声波和/或光波,例如在无线电波和红外线数据通信期间产生的那些波)。
[0070] 物理和/有形计算机可读媒体的常见形式包含(例如):软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡、纸带、具有孔图案的任何其它物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或匣、如下文描述的载波、或计算机可读取指令和/或代码的任何其它媒体。
[0071] 各种形式的计算机可读媒体可涉及运载一个或一个以上指令的一个或一个以上序列到处理器1010用于执行。仅举例来说,所述指令可最初在远程计算机的磁盘和/或光盘上运载。远程计算机可将指令载入到其动态存储器,且经由传输媒体而发送所述指令作为信号以由计算机系统1000接收和/或执行。根据本发明的各种实施例,这些信号(其可呈电磁信号、声学信号、光学信号和/或类似者的形式)是可在其上编码指令的载波的所有实例。
[0072] 通信子系统1030(和/或其组件)通常将接收信号,且总线1005接着可将所述信号(和/或信号所运载的数据、指令等)运载到工作存储器1035,处理器1010从工作存储器1035检索和执行所述指令。工作存储器1035所接收的指令可在由处理器1010执行之前或之后任选地存储在非暂时性存储装置1025上。
[0073] 上文所论述的方法、系统和装置是实例。各种实施例可在适当时省略、代替或添加各种程序或组件。举例来说,在替代配置中,所述方法可以不同于所描述的次序的次序来执行,和/或可添加、省略和/或组合各种阶段。而且,可在各种其它实施例中组合关于某些实施例而描述的特征。可以类似的方式来组合所述实施例的不同方面和元件。而且,技术发展且因此许多元件是并未将本发明的范围限于那些特定实例的实例。
[0074] 在描述中给出特定细节以提供对实施例的透彻理解。然而,所述实施例可在没有这些特定细节的情况下进行实践。举例来说,众所周知的电路、过程、算法、结构和技术并未以不必要的细节来展示,以便避免模糊所述实施例。此描述仅提供实例实施例,且并不希望限制本发明的范围、适用性或配置。相反,实施例的先前描述将为所属领域的技术人员提供赋能描述以用于实施本发明的实施例。可在不脱离本发明的精神和范围的情况下在元件的功能和布置方面进行各种改变。
[0075] 而且,将一些实施例描述为被描绘为流程图或框图的过程。尽管每一流程图或框图可将操作描述为顺序过程,但可并行或同时执行许多操作。另外,可重新布置操作的次序。过程可具有图式中未包含的额外步骤。此外,方法的实施例可通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码来实施时,可将用以执行相关联任务的程序代码或代码段存储在计算机可读媒体中,例如存储媒体。处理器可执行相关联任务。
[0076] 已描述若干实施例后,可在不偏离本发明的精神的情况下使用各种修改、替代构造和等效物。举例来说,上述元件可仅为较大系统的组件,其中其它规则可优先于本发明的应用或以其它方式修改本发明的应用。而且,可在考虑上述元件之前、期间或之后采取许多步骤。因此,以上描述并未限制本发明的范围。