借助签名曲线的AV延迟测量和校正转让专利

申请号 : CN201010536741.3

文献号 : CN102244805B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : D·G·贝克

申请人 : 特克特朗尼克公司

摘要 :

本发明的实施例提供了以非侵入、“使用中”的方式作AV延迟检测和校正的系统和方法。这些系统和方法不修改音频信号或视频信号,也不依赖于经由传输路径随音频信号或视频信号传送的任何元数据。代替的是,位于沿传输路径分布的各种位置处的代理者生成音频信号和视频信号的非常小的签名曲线并经除了传输路径以外的单独的数据路径将这些曲线传输给管理者。管理者根据这些签名曲线计算由传输路径导致的被测的AV延迟,并且随后可选地,通过调整传输路径内的串联延迟来校正被测的AV延迟。

权利要求 :

1.一种用于基于音频和视频签名曲线测量和校正音频/视频AV延迟的代理者装置(105,205),包含:输入端,用于在沿着传输路径的位置处接收音频/视频AV节目,该AV节目具有音频信号和视频信号;

处理器,用于处理所述音频信号以生成音频签名曲线,并且用于处理所述视频信号以生成视频签名曲线,其中所述处理器包含:

用于根据所述视频信号的相邻帧差值的协方差生成所述视频签名曲线的装置;以及所述代理者装置进一步包含输出端,用于经所述传输路径(100,200)以外的单独的数据路径(115,215)传输所述音频签名曲线和视频签名曲线。

2.如权利要求1所述的代理者装置(105,205),其中所述用于根据所述视频信号的相邻帧差值的协方差生成所述视频签名曲线的装置被配置为按照下列方式计算帧差值序列:,

并且配置为按照下列方式计算相邻帧差值的协方差:

3.如权利要求1所述的代理者装置(105,205),其中所述处理器包含:用于在存储于代理者(105,205)装置之前对所述音频和视频签名曲线作时间戳记的装置。

4.一种用于基于音频和视频签名曲线测量和校正音频/视频AV延迟的管理者装置(120,210),包含:输入端,用于从如权利要求1-3中任意一项所述的代理者装置(105,205)接收经传输路径(100,200)以外的单独的数据路径(115,215)传输的音频签名曲线和视频签名曲线;以及处理器,用于根据所述接收的音频签名曲线和视频签名曲线计算音频/视频AV节目的被测的AV延迟。

5.如权利要求4所述的管理者装置(120,210),进一步包括用于通过调整所述传输路径内的串联延迟来校正所述被测的AV延迟的装置。

6.如权利要求5所述的管理者装置(120,210),其中所述用于校正所述被测的AV延迟的装置被进一步配置为应用修正的AV延迟校正值并且回复到预先确定的预设值,该修正的AV延迟校正值被设定为保持一个预先确定的时间。

7.如权利要求5所述的管理者装置(120,210),其中处理器通过下列方式计算所述被测的AV延迟:使两条音频签名曲线对准以生成音频对准偏移量;

使两条视频签名曲线对准以生成视频对准偏移量;以及

根据所述音频对准偏移量和视频对准偏移量计算所述被测的AV延迟。

8.一种在用于基于音频和视频签名曲线测量和校正音频/视频AV延迟的代理者装置(105,205)处的方法,包含下列步骤:在沿着传输路径的位置处接收音频/视频AV节目,该AV节目具有音频信号和视频信号;

从所述音频信号生成音频签名曲线;

从所述视频信号,根据所述视频信号的相邻帧差值的协方差生成视频签名曲线;以及经所述传输路径(100,200)以外的单独的数据路径(115,215)传输所述音频签名曲线和视频签名曲线。

9.如权利要求8所述的方法,其中根据所述视频信号的相邻帧差值的协方差生成所述视频签名曲线的步骤包括:按照下列方式计算帧差值序列:

按照下列方式计算相邻帧差值的协方差:

10.如权利要求8所述的方法,其中进一步包含在存储于代理者(105,205)装置之前对所述音频和视频签名曲线作时间戳记的步骤。

11.一种在用于基于音频和视频签名曲线测量和校正音频/视频AV延迟的管理者装置(120,210)内的方法,包含以下步骤:从如权利要求1-3中任意一项所述的代理者装置(105,205)接收经传输路径(100,200)以外的单独的数据路径(115,215)传输的音频签名曲线和视频签名曲线;以及根据所述接收的音频签名曲线和视频签名曲线计算音频/视频AV节目的被测的AV延迟。

12.如权利要求11所述的管理者装置(120,210)内的方法,进一步包括通过调整所述传输路径内的串联延迟来校正所述被测的AV延迟的步骤。

13.如权利要求12所述的管理者装置(120,210)内的方法,其中校正所述被测的AV延迟的步骤包括应用修正的AV延迟校正值并且回复到预先确定的预设值,该修正的AV延迟校正值被设定为保持一个预先确定的时间。

14.如权利要求11所述的管理者装置(120,210)内的方法,其中计算被测的AV延迟的步骤包含下列步骤:使两条音频签名曲线对准以生成音频对准偏移量;

使两条视频签名曲线对准以生成视频对准偏移量;以及

根据所述音频对准偏移量和视频对准偏移量计算所述被测的AV延迟。

15.如权利要求14所述的管理者装置(120,210)内的方法,其中进一步包括下列步骤:如果所述签名曲线的互相关关系对于任何的偏移量都一直根本未使音频和视频变得接近,则经单独的数据路径提供和监视内容标识和节目结束验证。

说明书 :

借助签名曲线的AV延迟测量和校正

[0001] 相关申请的交叉引用
[0002] 本申请对2009年10月25日提交的题为“借助签名曲线的AV延迟测量和校正”的美国临时专利申请No.61/254733)主张权益。发明领域
[0003] 本发明涉及视频测试和测量仪器,并且特别涉及音频/视频(AV)延迟的测量和校正。

背景技术

[0004] 经卫星和其它陆基传输路径来传输或以流方式传送(streaming)模拟、数字或压缩数据形式的节目音频和视频可能会导致音频信号相对于视频信号有定时或延迟扭曲,从而形成众所周知的“唇音同步(lip-sync)”问题。导致的原因有各种各样,但是通常是在将音频相对于具有不同的处理或传输延迟的视频分开来处理时发生。例如,视频可能经卫星路径发送,而音频可能经较低延迟的陆基路径传送,这产生了在某些共同的终点位置处使音频和视频再同步的需要。而且压缩的多声道音频连同视频的各自的编码和解码(CODEC)延迟产生了使音频相对于视频再同步的需要。
[0005] 在许多情况下,在某些始发位置,与节目视频信号相关联的多声道节目音频已经具有了正确的定时关系,并且需要通过使音频或视频在终点位置延迟来重新生成该关系,以为不同的传播或CODEC延迟作校正。这可以通过在“停止使用”时,为始发位置处的节目音频插入音频音调脉冲猝发(audio tone burst)或等效信号完成,该音频音调脉冲猝发与视频闪存、转轮、电子影音对号板(electronic clap-board)或等效工具同步,使得AV延迟可以在终点位置测量和校正。
[0006] 但是这种方法有两个主要的缺点。首先它需要为测试而使正常的节目音频和视频停止使用。其次,由于CODEC变化和路由变化,AV处理延迟可能随时间而变化,这使得停止使用方式下测得的校正值不再有效。
[0007] 题为“视频信号中的数据的透明嵌入”的美国专利No.6246439(“‘439专利”)描述了一种不同的方法,其中为了向用于测量和校正的解码器发送音频包络“签名曲线”,向视频信号加入不可见的水印或其它一些元数据路径。在这种方式下,音频和视频可以连续地调整为同步状态。该方法用于可从俄勒冈州比弗顿的特克特朗尼克公司商购的AVDC100音频-视频延迟校正器(现在已停止生产)。但是对视频信号作水印处理有时候是不能接受的并且水印可能在视频效果和调节(scaling)之后无法被检测到。
[0008] 可替换地,为了按照与‘439专利相同的方式测量和校正AV延迟,可以将视频签名曲线作为元数据嵌入音频声道或借助某些形式的音频水印嵌入音频声道。但是音频信号水印修改可能是无法接受的并且元数据路径在传输链(distribution chain)范围内常常得不到保护。
[0009] 所需要的是一种测量和校正AV延迟的方法,其克服了这里前面所述的方法的不足之处。

发明内容

[0010] 因此,本发明的实施例提供了以非侵入、“使用中(in service)”的方式作AV延迟检测和校正的系统和方法。这些系统和方法不修改音频信号或视频信号,也不依赖于经由传输路径随音频信号或视频信号传送的任何元数据。代替的是,位于沿传输路径的各种位置处的代理者(agents)生成音频信号和视频信号的非常小的签名曲线并经除了传输路径以外的单独的数据路径将这些曲线传输给管理者(manager)。管理者根据这些签名曲线计算由传输路径导致的被测的AV延迟,并且随后可选地,通过调整传输路径内的串联(in-line)延迟来校正被测的AV延迟。
[0011] 一种方法,包含下列步骤:
[0012] 在沿着传输路径的位置处接收音频/视频(AV)节目,该AV节目具有音频信号和视频信号;以及
[0013] 根据所述音频信号生成音频签名曲线并且根据所述视频信号生成视频签名曲线。
[0014] 在上述方法中,进一步包含经所述传输路径以外的单独的数据路径传输所述音频签名曲线和视频签名曲线的步骤。
[0015] 在上述方法中,根据所述视频信号的相邻帧的协方差生成所述视频签名曲线。
[0016] 在上述方法中,根据所述视频信号的相邻帧差值的协方差生成所述视频签名曲线。
[0017] 在上述方法中,通过下列步骤生成所述音频签名曲线:
[0018] 滤波所述音频信号的左声道以生成滤波后的左声道;
[0019] 检测所述滤波后的左声道的包络;
[0020] 滤波所述音频信号的右声道以生成滤波后的右声道;
[0021] 检测所述滤波后的右声道的包络;
[0022] 将所述滤波后的左声道的包络与所述滤波后的右声道的包络相加以生成总和;
[0023] 滤波所述总和以生成滤波后的总和;以及
[0024] 以帧速或场速采样所述滤波后的总和以生成所述音频签名曲线。
[0025] 一种方法,包含以下步骤:
[0026] 接收音频签名曲线和视频签名曲线;以及
[0027] 根据所述音频签名曲线和视频签名曲线计算音频/视频(AV)节目的被测的AV延迟。
[0028] 在上述方法中,进一步包括通过调整所述传输路径内的串联延迟来校正所述被测的AV延迟的步骤。
[0029] 在上述方法中,计算被测的AV延迟的步骤包含下列步骤:
[0030] 使两条音频签名曲线对准以生成音频对准偏移量;
[0031] 使两条视频签名曲线对准以生成视频对准偏移量;以及
[0032] 根据所述音频对准偏移量和视频对准偏移量计算所述被测的AV延迟。
[0033] 一种方法,包括下列步骤:
[0034] 生成多个音频签名曲线和视频签名曲线对,每对与位于沿着传输路径的位置处的音频/视频(AV)节目对应;以及
[0035] 经由除了所述传输路径以外的单独的数据路径收集所述签名曲线对。
[0036] 在上述方法中,进一步包含根据所述签名曲线对来计算AV节目的被测的AV延迟的步骤。
[0037] 当结合所附权利要求和附图阅读时,本发明的目标、优点和其它的新特征通过以下详细的描述变得显而易见。

附图说明

[0038] 图1描述了按照本发明的测量和校正AV延迟的系统和方法的第一实施例。
[0039] 图2描述了按照本发明的测量和校正AV延迟的系统和方法的第二实施例。
[0040] 图3A描述了利用美国专利No.6751360中所述的方法产生的视频签名曲线。
[0041] 图3B描述了利用按照本发明实施例的帧差值方法产生的视频签名曲线。
[0042] 图4描述了图3A的视频签名曲线与接收的自身副本的互相关关系以及图3B的视频签名曲线与接收的自身副本的互相关关系。
[0043] 图5描述了生成音频签名曲线的系统和方法。
[0044] 图6描述了音频信号和利用图5的系统和方法从该音频信号生成的音频签名曲线。
[0045] 图7描述了计算被测的AV延迟的方法。

具体实施方式

[0046] 图1示出了按照本发明的测量和校正AV延迟的系统和方法的第一实施例。AV节目由音频信号和视频信号组成。称为“代理者”的第一装置105位于始发位置,它在输入端接收AV节目,在各种实施例中,AV节目可包含音频/视频压缩编码器输入等。代理者105随后利用处理器(未画出)处理音频信号以生成音频签名曲线(ASCo)并处理视频信号以生成视频签名曲线(VSCo)。AV节目随后从始发位置经传输路径100向终点位置传输。位于终点位置的第二装置110(也称为“代理者”)接收AV节目并且根据接收的音频信号生成音频签名曲线(ASCr)并根据接收的视频信号生成视频签名曲线(VSCr)。可选地,第二代理者110具有内置的、可调整的、串联的节目音频和/或视频延迟(未画出)。
[0047] 称为“管理者”的第三装置120完成下列操作:(1)经由单独的数据路径115收集来自代理者105和110的ASCo、VSCo、ASCr和VSCr;(2)根据ASCo、VSCo、ASCr和VSCr计算由传输路径100导致的AV节目的被测的AV延迟;以及(3)可选地,通过经由单独的数据路径115调整代理者110的串联延迟来校正被测的AV延迟。单独的数据路径115是除了传输路径100以外的任何数据路径。例如,在各种实施例中,单独的数据路径115可以是诸如因特网、私网或专用数据路径之类的分布式网络。代理者105和110以及管理者120具有适于经单独的数据路径115通信的通信终端(即输入端和输出端)。例如在单独的数据路径115是因特网的实施例中,代理者105和110以及管理者120可能各自具有因特网协议(IP)终端。在一些实施例中,管理者120以运行于远程个人计算机上的软件应用程序的方式实现。
[0048] 签名曲线(SC)是非常简单的、简洁的数据集合,远远小于其所基于的实际的音频或视频数据集合。因此可以非常快速地生成、传输和处理SC,为实时AV延迟测量和校正创造了条件。用于本发明目的的SC的关键特征是SC是简洁的,然而包含了足够的音频或视频时域特征,有助于按所需的定时分辨率作时域对准(temporal alignment)。以下详细描述具有关键特征的SCs的生成和处理。
[0049] 在一些实施例中,代理者105和110被并入视频测试和测量装置,例如可从俄勒冈州比弗顿的特克特朗尼克公司商购的WFM8000系列波形监视器。在其它实施例中,代理者105和110是用于监视节目音频和视频的专用的、独立的装置。
[0050] 在一些实施例中,特别是在单独的数据路径115是诸如因特网之类的分布式网络(distributed network)时,管理者120以及代理者105和110可以经诸如简单网络管理协议(SNMP)之类的协议进行通信。在那些实施例中,管理者120可以“SNMP管理者”的方式实现,并且代理者105和110可以“SNMP代理者”的方式实现。将会理解的是,也可以采用其它的通信协议。
[0051] 图2示出了按照本发明的测量和校正AV延迟的系统和方法的第二实施例。如同在图1中的那样,AV节目由音频信号和视频信号组成。位于始发位置的第一装置205根据音频信号生成音频签名曲线(ASCo)并根据视频信号生成视频签名曲线(VSCo)。音频信号和视频信号从始发位置经由传输路径200向终点位置传输。位于终点位置的第二设备210根据接收的音频信号生成音频签名曲线(ASCr)并根据接收的视频信号生成视频签名曲线(VSCr)。可选地,第二装置210具有内置的、可调整的、串联的节目音频和/或视频延迟(未画出)。但是与图1中的不同,没有第三装置充当管理者。代替的是,装置205或201之一兼具代理者和管理者的作用。
[0052] 在第一装置205兼具管理者和代理者的作用的实施例中,第一装置205完成下列操作:(1)收集来自第二装置210的ASCr和VSCr;(2)根据ASCo、VSCo、ASCr和VSCr计算由传输路径200导致的AV节目的被测的AV延迟;以及(3)可选地,通过调整第二装置210的串联延迟来校正被测的AV延迟。在第二装置210兼具管理者和代理者的作用的实施例中,第二装置210完成下列操作:(1)收集来自第一装置205的ASCo和VSCo;(2)根据ASCo、VSCo、ASCr和VSCr计算由传输路径200导致的AV节目的被测的AV延迟;以及(3)可选地,通过调整第二装置210的串联延迟来校正被测的AV延迟。在一些实施例中,第一装置205和第二装置210可以改变角色,根据需要起着管理者或代理者的作用。
[0053] 视频签名曲线(VSC)的生成
[0054] 在一些实施例中,利用题为“快速视频时域对准估计”的美国专利No.6751360(“‘360专利”)中所述的方法生成VSCs。以下提供该方法的概要。
[0055] 首先计算一组视频帧范围内的每个图像或视频帧的平均值。
[0056] mf:=mean(Tf)
[0057] 这里T为图像或视频帧,并且f为遍及一组帧的帧记号。
[0058] 接着计算相邻帧的协方差:
[0059]
[0060] 接着,可选地计算归一化的差值(最大值-最小值)以确定VSC内是否存在足够的AC能量或时域变化用于确定相对于音频的对准。
[0061]
[0062] 在其它实施例中,利用改进的方法来生成VSCs,该方法操作于相邻帧差值上而非相邻帧(“帧差值”方法)。该改进的方法描述如下。
[0063] 首先计算帧差值序列:
[0064] Tdf:=Tf-Tf-1
[0065] 接着计算相邻帧差值的协方差:
[0066]
[0067] 帧差值方法有利的是,由于求差值将平均值设置为零,因此不需要象‘360专利中所述的方法那样计算帧的平均值。这简化了协方差计算。
[0068] 图3A示出了利用‘360专利中所述的方法而生成的用于13幅交谈头部视频序列帧的VSC 300(只有亮度)。图3B示出了利用帧差值方法而生成的用于同样的13幅帧的VSC 305。请注意利用帧差值方法生成的VSC 305没有偏移量,使得更易于为传输而进行压缩。
[0069] 如下所述,在AV延迟确定期间,将VSCo与VSCr互相关以寻找优化的时域对准位置。图4示出了利用‘360专利的方法产生的VSCo与VSCr的互相关关系400和利用帧差值方法产生的VSCo与VSCr的互相关关系405。帧13处的最大值410表明这是VSCo与VSCr之间的优化的时域对准位置。请注意用来生成图4的互相关关系的方法是普通的皮尔逊相关,其计算方式为,通过用单独的标准偏差和序列长度使协方差归一化而产生协方差的单位最大值。对VSCo和VSCr施行互相关的其它方法可以用来寻找优化的时域对准。请注意利用帧差值方法产生的互相关关系405与利用‘360专利的方法产生的互相关关系400相比更窄并且具有更低的旁侧波瓣(side-lobes),从而提供了改进的时间分辨率。
[0070] 两种生成VSVs的方法的优点是可以对节目视频信号进行深度压缩、噪声化(noisy)、旋转、调节、拉伸、修剪、作对比度/亮度的调整或者用图形覆盖图遮掩,并且VSCo与VSCr的互相关关系仍然可以在终点位置处精确地与一幅帧或者更小尺度的对象(one frame or less)对准。
[0071] 音频签名曲线(ASC)的生成
[0072] 图5示出了在AVDC 100中所用的生成ACSs的系统和方法。音频信号的左声道用第一带通滤波器500滤波。随后利用第一包络检测器505来检测滤波后的左声道的包络。类似地,音频信号的右声道用第二带通滤波器510滤波。随后利用第二包络检测器515来检测滤波后的右声道的包络。随后用加法器520将左声道的包络和右声道的包络相加在一起。随后用10Hz的低通滤波器525对所得到的总和进行滤波并且用采样器530以帧速或场速对所得到的总和进行采样,从而产生ASC。
[0073] 图6示出了语音600的两秒钟长的样本和利用图5所示的系统和方法从该样本得到的ASC 605。请注意ASC按照与VSC相同的速率(场速或帧速)被采样。
[0074] AV延迟的确定
[0075] 代理者通过将相应的ASCs和VSCs按照它们生成时的顺序存储为有序对,为AV节目设置音频-视频关联。随后可以将共同采样的AVSCs视为复数,其中实部对应于一个分量而虚部对应于另一个分量。例如实部可能对应于VSC的帧样本而虚部可能对应于在时间上处于同一瞬间的ASC帧样本,反之亦然。
[0076] 现在参见图7,管理者处理ASCo、VSCo、ASCr和VSCr以按照下列方式计算被测的AV延迟:首先(700)管理者通过使VSCr与VSCo互相关并且定位结果的最大值,将接收的视频信号与传输的视频信号对准(“视频-视频”),最大值的位置表示优化的时域对准位置。视频对准的结果是视频对准偏移量(在上面的例子中为13幅帧)。接着(705)管理者通过使ASCr与ASCo互相关并且定位结果的最大值,将接收的音频信号与传输的音频信号对准(“音频-音频”),最大值的位置表示优化的时域对准位置。音频对准的结果是音频对准偏移量。最后(710)将被测的AV延迟计算为视频对准偏移量与音频对准偏移量之间的差值(正的或负的值)。将会理解的是,可以在视频-视频对准之前进行音频-音频对准从而产生等价的结果。还将理解的是,可替换地,可以将AV延迟计算为音频对准偏移量与视频对准偏移量之间的差值,从而产生负的但是在其它方面是等价的结果。在某些实施例中,利用归一化的相关系数从结果中去除接收的增益误差和音频缓和感觉(audio sweetening affects)的效应。由于AV延迟被计算为帧数,所以AV延迟测量的分辨率为一幅帧。另外,在某些实施例中,对VSCo和VSCr作插值以提供子帧的分辨率。
[0077] 其它的实施例
[0078] 虽然所示的传输路径100和200仅具有一个终点位置,但是传输路径也可以具有多个终点位置(即多个输出端)。在那些情况下,系统可在每个终点位置所在的位置有一个代理者,所有的代理者被单个管理者管理。传输路径还可沿着始发位置与终点位置之间的传输路径有一个或更多的中间位置。在那些情况下,系统可在每个中间位置所在的位置有一个代理者,使得可以在中间位置处测量和校正AV延迟。
[0079] 在某些实施例中,代理者在发源地(source)对AV的成对的SCs作时间戳记并且将它们存储起来,成对的SCs以节目ID名称作为标记。对于流媒体,在每个显示位置处生成的SCs同样可以存储起来并且作时间戳记或者用ID方式标记。
[0080] 在某些实施例中,除非音频包络和帧差值AC能量二者超过预设的阈值,否则不抓取ASCo和VSCo。在这种方式下,只有易于互相关以实现时域对准的签名被发送。(请注意,如果AC能量是低的,则由于没有视频运动或爆破音的音频,因此无论如何也不需要调整嘴唇发音同步。)
[0081] 在某些实施例中,签名曲线被作了时间戳记并且被保存一个长的时间间隔(若干分钟或甚至若干小时),从而即使在传输路径的延迟非常长时也能完成相关关系操作。
[0082] 在某些实施例中,当较弱的相关关系发生时,可以将修正的AV延迟校正值设定为保持一个预先确定的时间并且回复到预先确定的预设值。所计算的AV延迟也可以被滤波(取中值和平均值),以在被用于校正AV延迟之前去除伪值。
[0083] 在某些实施例中,除了对SCs作时间戳记以外,可以向管理者或代理者发送其它关于材料ID的元数据。
[0084] 如果SCs的互相关关系对于任何的偏移量都一直根本未使音频和视频变得接近,则接收的音频或视频可能是错误的节目。因此,在某些实施例中,还经单独的数据路径提供和监视内容标识和节目结束验证。
[0085] 在某些实施例中,可以远程监视AV延迟测量和校正值并且可以由管理者手工操控(override)延迟校正值。
[0086] 在某些实施例中,可以为鉴权而编码SNMP数据并且使之成为私有的,从而防止未经授权的使用或篡改。
[0087] 这里所述的代理者和管理者被描述为具有处理器。将会理解的是,该处理器可以硬件、软件或者二者的组合的方式实现,并且可以包含通用微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等和/或在通用微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等上执行。
[0088] 从上面的讨论可见,本发明代表了在视频测试和测量仪器领域内的显著进步。虽然为示意目的已经阐释和描述了本发明的具体实施例,但是将会理解的是,可以在不偏离本发明的精神和范围的前提下作出各种修改。因此本发明除了所附权利要求以外不应受到限制。