使用动态向量的视频搜寻方法及其装置转让专利

申请号 : CN201010220461.1

文献号 : CN101996229B

文献日 : 2013-11-06

相似专利: 请登录后查看

一种使用动态向量的视频搜寻方法及其装置。在此视频搜寻方法中，包括对一输入检索视频文件与多个欲进行检索的视频文件的比特流进行剖析，而取出对应的多个移动向量。根据所述移动向量在时间轴上建立多个对应的移动向量地图。根据所述检索视频文件的移动向量地图与所述视频文件的移动向量地图，得到相关(Correlation)程度，藉以根据此相关程度得到视频搜寻的结果。

1.一种视频搜寻方法，包括：

选择具有一时间长度的视频文件，作为一检索视频文件，对该检索视频文件与多个欲进行检索的视频文件的比特流进行剖析，而取出对应的多个移动向量；

根据这些移动向量在时间轴上依序建立多个对应的移动向量地图，其中，每一个所述移动向量地图由一数量的移动向量构成；

通过将在该检索视频文件的所述移动向量地图中的移动向量与在由视频搜寻装置欲进行检索的视频文件的移动向量地图中的移动向量进行差值运算，并依照运算差值分布情况进行比对的结果，得到该检索视频文件的所述移动向量地图与该多个欲进行检索的视频文件中的视频文件的所述移动向量地图之间的相关程度，以及藉以根据这些相关程度得到视频搜寻的结果。

2.如权利要求1所述的视频搜寻方法，其中该检索视频文件为使用者选择一时间长度的视频文件。

3.如权利要求1所述的视频搜寻方法，其中该检索视频文件为经由一使用者接口连结选择一时间长度的视频文件。

4.如权利要求1所述的视频搜寻方法，其中该检索视频文件与这些欲进行检索的视频文件在时间轴上同步。

5.如权利要求1所述的视频搜寻方法，其中该检索视频文件与这些欲进行检索的视频文件在取出这些移动向量前先经由转换运算而转换为具有相同格式的视频文件。

6.如权利要求5所述的视频搜寻方法，其中该相同格式为该检索视频文件与这些欲进行检索的视频文件对应其移动向量的数量相同。

7.如权利要求5所述的视频搜寻方法，其中该转换运算为针对该检索视频文件与这些欲进行检索的视频文件内的多个图框中，具有不同数量的这些移动向量，利用上采样或是下采样的方式进行改变为一致。

8.如权利要求7所述的视频搜寻方法，其中该转换运算对这些图框选择调整为一定数量的这些移动向量方式，为对以一画面群组GOP为基本单位，找出在该画面群组中的所有这些图框的所有这些移动向量的数量，如果超过一临界值的数量则作为调整的依据。

9.如权利要求1所述的视频搜寻方法，其中这些欲进行检索的视频文件存储在区域网络的主机、搜寻引擎的主机数据库、或是云端数据库。

10.如权利要求1所述的视频搜寻方法，其中根据这些移动向量在时间轴上建立多个对应的移动向量地图，是以一定比例在该时间轴上挑选在该检索视频文件与这些欲进行检索的视频文件内的图框，而针对所挑选的这些图框的这些移动向量产生该移动向量地图。

11.如权利要求10所述的视频搜寻方法，其中该一定比例为在该时间轴上挑选在该检索视频文件与这些欲进行检索的视频文件内每隔N张的这些图框，其中N为整数，且N大于等于一。

12.如权利要求11所述的视频搜寻方法，其中这些移动向量地图为挑选的这些图框填入一运算矩阵而得到一2-D移动向量地图，而加上这些图框是依照该时间轴挑选，则可建立一3-D移动向量地图。

13.如权利要求1所述的视频搜寻方法，其中根据该检索视频文件的移动向量地图与这些视频文件的移动向量地图得到相关程度，是比较根据该检索视频文件的移动向量地图内每两相邻图框移动向量的运算差值，与每一这些视频文件的移动向量地图内每两相邻图框移动向量的运算差值，依照其分布进行比对，并根据比对的结果得到相关程度。

14.如权利要求13所述的视频搜寻方法，其中每两相邻图框移动向量的运算差值为根据均方根运算或是差值绝对值运算。

15.一种视频搜寻装置，包括：

一串流剖析器，用以对多个欲进行检索的多个视频文件的比特流和检索视频文件的比特流进行剖析，并且取出多个移动向量数据；

一3D移动向量地图产生器，用以根据这些移动向量建构具有时间轴数据的一3D移动向量地图，其中，每一个所述移动向量地图由一数量的移动向量构成；

一3D移动向量地图比较器，用以通过将在该检索视频文件的所述移动向量地图中的移动向量和在由欲进行检索的对应视频文件的移动向量地图中的移动向量进行差值运算，并依照运算差值分布情况进行比对的结果，得到该检索视频文件的所述移动向量地图与该多个欲进行检索的视频文件中的视频文件的所述移动向量地图之间的相关程度，以及根据这些相关程度从欲进行检索的视频文件中得到视频搜寻的结果。

16.如权利要求15所述的视频搜寻装置，还包括一视频格式转换器，用以选择性地对一检索视频文件与多个欲进行检索的视频文件转换为这些视频文件，输出至该串流剖析器进行剖析。

17.如权利要求16所述的视频搜寻装置，其中该检索视频文件为使用者选择一时间长度的视频文件。

18.如权利要求16所述的视频搜寻装置，其中该检索视频文件为经由一使用者接口连结选择一时间长度的视频文件。

19.如权利要求16所述的视频搜寻装置，其中该检索视频文件与这些欲进行检索的视频文件在时间轴上同步。

20.如权利要求16所述的视频搜寻装置，其中这些欲进行检索的视频文件存储在区域网络的主机、搜寻引擎的主机数据库、或是云端数据库。

21.如权利要求16所述的视频搜寻装置，其中该串流剖析器对这些视频文件内的多个图框中，具有不同数量的这些移动向量，利用上采样或是下采样的方式进行改变为一致。

22.如权利要求21所述的视频搜寻装置，其中该串流剖析器对这些图框选择调整为一定数量的这些移动向量方式，为对以一画面群组GOP为基本单位，找出在该画面群组中的所有这些图框的所有这些移动向量的数量，如果超过一临界值的数量则作为调整的依据。

23.如权利要求15所述的视频搜寻装置，其中该3D移动向量地图产生器根据这些移动向量在时间轴上建立多个对应的移动向量地图，是以一定比例在该时间轴上挑选在这些视频文件内的这些图框，而针对所挑选的这些图框的这些移动向量产生该移动向量地图。

24.如权利要求23所述的视频搜寻装置，其中该一定比例为在该时间轴上挑选在该检索视频文件与这些欲进行检索的视频文件内每隔N张的这些图框，其中N为整数，且N大于等于一。

25.如权利要求23所述的视频搜寻装置，其中该3D移动向量地图产生器将挑选的这些图框填入一运算矩阵而得到一2-D移动向量地图，而加上这些图框是依照该时间轴挑选，则可建立一3-D移动向量地图。

26.如权利要求15所述的视频搜寻装置，其中该3D移动向量地图比较器是根据这些视频文件的移动向量地图，比较根据该检索视频文件的移动向量地图内每两相邻图框移动向量的运算差值，依照其分布进行比对，并根据比对的结果得到相关程度。

27.如权利要求26所述的视频搜寻装置，其中每两相邻图框移动向量的运算差值为根据均方根运算或是差值绝对值运算。

28.一种视频播放装置，具有一主机与一控制器，其中该主机具有如权利要求15所述的视频搜寻装置，该控制器具有一功能控制装置，其中该功能控制装置用以让使用者选择该主机播放的视频数据中的其中一段，作为该视频搜寻装置的一检索视频文件。

29.如权利要求28所述的视频播放装置，其中该主机为一电视机，而该控制器为一无线遥控器，用以无线方式控制该电视机。

30.如权利要求28所述的视频播放装置，其中该主机为一计算机主机，而该控制器为鼠标。

使用动态向量的视频搜寻方法及其装置

技术领域

[0001] 本发明涉及一种视频搜寻方法及其装置，且特别涉及一种以视频内容作为搜寻输入条件来进行视频搜寻的搜寻方法及其装置。

背景技术

[0002] 目前网络上的搜寻目前网络上的搜寻技术，全都以文字(Text)为主的技术，例如Google、Yahoo、Youtube或是国内的无名小站等等搜寻引擎，都是以文字搜寻为主。虽然各搜寻引擎都希望能突破文字的限制，例如在相同关键字下，可搜寻繁体中文或是简体中文、甚至其他语言的内容，但毕竟还是受到文字关键字的限制。例如，如果希望能搜寻相关的多媒体数据，包括声音文件或是图像文件，常常因为没有足够的文字内容可作为搜寻的依据，或是各国家采用不同的翻译名称，造成徒有关键字却无法找出正确或者更多相关的数据。

[0003] 搜寻引擎Google在2009年4月份推出以照片找照片的服务，是全世界第一个以照片内容(Content)找具有相关内容(Content)数据的服务。例如，请参照图1A，当在输入框120输入“apple”关键字110时，会出现跟“apple”有关的相关数据，但此时包括以苹果造型所有的图像，以及商标的相关产品手机“iPhone”。此时，如果再进一步点选时，就可以排除许多不适用数据。例如图1B，使用者选取与苹果造型相关的图像后，搜寻引擎进一步显示与此类水果(苹果)相关的图像。而又例如图1C，使用者选取与商标相关产品手机“iPhone”图像后，则显示与此产品相关的其他图像，更精确地找出使用者所要搜寻的照片。但此技术很显然是用图像(Image)内容来搜寻图像(Image)，但仅限于相关照片图档的搜寻，对于多媒体文件，并没有任何方法可以搜寻。

[0004] 为突破此限制，在活动图像专业人员组织(Motion Picture Expert Group，以下简称MPEG)制定的技术协议MPEP-7中，提出一种具有对内容提供补充信息的标准，特别是针对多媒体数字内容。在此MPEP-7标准中，对于多媒体可以提供相关对应的内容描述(Multimedia Content Description)，而且可以独立于其他的MPEP标准，而此数字内容描述甚至可以附加在模拟的电影文件中。如图2所示，对于每一个视听内容(Audio-visual Content，如图式的“AV Content”)，都可赋予对应的内容描述(Content Description)，此内容描述主要是提出此视听内容的相关特征值。而其文件编排的方式，则是例如图示的：

[0005] AV+Descript+AV+Descript+AV+Descript+...

[0006] 此“AV”即代表视听内容(Audio-visual Content)，而“Descript”则是代表对应的内容描述(Content Description)。

[0007] 但这样的架构过于复杂，必须对于所有的多媒体文件进行重新编排，不适合既有的文件与架构。另外，虽然可以经由特征值，通过类似关键字的搜寻，而找出相关的多媒体文件，但是，却无法跳脱以文字搜寻造成不同语言之间的隔阂。

[0008] 此外，随着网络与TV的结合日渐普及，在电视上要进行视频搜寻将不可避免会碰到关键字输入的问题。一般人看电视手头上所握的都是一个遥控器，以遥控的大小与功能是无法取代键盘作为文字输入的装置，因此在网络TV上利用遥控器来控制视频搜寻是未来此类应用的一个问题点所在。

发明内容

[0009] 在一实施范例中，提出一种视频搜寻方法，包括对一输入检索视频文件与多个欲进行检索的视频文件的比特流进行剖析，而取出对应的多个移动向量。根据所述移动向量在时间轴上建立多个对应的移动向量地图。根据所述检索视频文件的移动向量地图与所述视频文件的移动向量地图，得到相关(Correlation)程度，藉以根据此相关程度得到视频搜寻的结果。

[0010] 在一实施范例中，提出一种视频搜寻装置，包括一串流剖析器、一3D移动向量地图产生器与一3D移动向量地图比较器。此串流剖析器用以对一个视频文件的比特流进行剖析(Parsing)，并且根据不同比例取出位元流中的移动向量(MV)数据。此3D移动向量地图产生器，用以根据所述移动向量建构具有时间轴数据的一3D移动向量地图(3D-MV Map)。而3D移动向量地图比较器用以根据所述3-D移动向量地图进行运算，根据运算结果而找出视频文件的相关(Correlation)程度，藉以根据相关程度得到视频搜寻的结果。

[0011] 在一实施范例中，提出一种视频播放装置，具有一主机与一控制器。此主机具有一种视频搜寻装置，此视频装置包括一串流剖析器、一3D移动向量地图产生器与一3D移动向量地图比较器。此控制器具有一功能控制装置，其中功能控制装置用以使用者选择主机播放的视频数据中的其中一段，作为视频搜寻装置的一检索视频文件。

[0012] 为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

[0013] 图1A～图1C是已知的一种以名称找图像的检索方法示意图。

[0014] 图2是显示MPEP-7标准中对于视听内容(AV Content)与内容描述(Content Description)的相关示意图。

[0015] 图3是说明本发明一实施范例的针对网络上进行视频搜寻的方法流程图。

[0016] 图4是说明本发明另一实施范例的针对网络上进行视频搜寻的方法流程图。

[0017] 图5A是说明本发明一实施范例的电路实施方块示意图。

[0018] 图5B是说明本发明一实施范例中选取检索影片片段的应用方法示意图。

[0019] 图6A是说明在一图框中所具有的移动向量(MV)示意图。

[0020] 图6B则是在视频文件中，根据时间轴而有一系列连续的画框，以及其移动向量的示意图。

[0021] 图6C则是显示微区块MB的移动向量所属的不同区块尺寸(Block Size)示意图。

[0022] 图7A与图7B是分别说明相同电影而不同解析度的片段与显示的连续图框示意图。

[0023] 图8A是分别找出不同影片，包括影片A(QCIF格式)、影片A(CIF格式)与影片B(CIF格式)的示意图。

[0024] 图8B则是说明如图8A中的三种不同影片经过本实施所提出针对网络上进行视频搜寻的方法计算后，得到的差值示意图。

[0025] 图8C、图8D与图8E，分别为图8A的影片A(QCIF格式)、影片A(CIF格式)与影片B(CIF格式)所得到的3D-MV地图分布示意图。

[0026] 【主要元件符号说明】

[0027] 530：串流剖析器(Stream Parser)

[0028] 540：3-D移动向量(3D-MV)地图产生器

[0029] 550：3-D移动向量(3D-MV)地图比较器

[0030] 552：网络

[0031] 554：数据库

[0032] 560：显示器

[0033] 610、620、622、624、626与628：图框

[0034] 710、730：影片片段

[0035] 720、722、724、726、728：图框

[0036] 740、742、744、746、748：图框

[0037] 810：影片A(QCIF格式)

[0038] 820：影片A(CIF格式)

[0039] 830：影片B(CIF格式)

[0040] 812：影片A(QCIF)的差值分布

[0041] 822：影片A(CIF)的差值分布

[0042] 832：影片B(CIF)的差值分布

具体实施方式

[0043] 本发明实施范例提出一种新的视频搜寻技术，突破目前以文字为主的搜寻技术，建立一个以视频内容作为搜寻条件的技术，达到以视频找视频的搜寻结果。

[0044] 在本发明实施范例其中之一，是选择其中一段视频文件作为检索信息(Query Message)，此选择方式不论是通过使用者选择任一时间长度的视频文件，或是经由使用者接口自动选取其中一段固定或特定期间的视频文件等等方式皆可运用在此范例中。

[0045] 上述的使用者选择方式，在一实施例中，可内建于控制影片播放的遥控器中，例如电视或是DVD的播放器等等。或是内建于触控显示器或屏幕上的使用者接口，能让使用者方便且简单的方式停住一端时间的影片作为检索信息即属本发明的应用。

[0046] 针对选择作为检索条件的视频文件，由于其名称或是影片格式，甚至画面大小与品质可能有所不同，但若为同一部影片，其剧情是相同的，但其动态向量(Motion Vector，MV)分布会相同或类似，如图7A或7B所示，稍后介绍。，所以，只要针对所选择的视频文件，建立检索索引(SearchIndex)，即可找出相同或是相似剧情的影片。例如对作为检索条件的视频文件以及欲进行检索的所有其他视频文件，可先经由格式转换而转换为具有相同格式的视频文件。由于本实施例加入了时间轴(Time Domain)的特征，因此，可在所欲进行检索的所有其他视频文件中找出相同时间轴区段的对应视频文件，而后，经由运算转换为具有相同格式的视频文件。在一实施例中，所有欲进行检索的其他视频文件可以是存在区域网络的主机、搜寻引擎的主机数据库、或是云端数据库等等。而此格式转换的运算，可在个人主机、在区域网络的系统服务器、搜寻引擎的主机或是云端运算系统等进行皆可。

[0047] 在此实施范例中，转换为相同格式的用意在于取得作为检索条件的视频文件，以及欲进行检索的所有其他视频文件的移动向量(Motion Vector，底下简称MV)。也就是说，对所有压缩的视频文件的多个图框取出其移动向量(MV)，据以建立检索索引。在一实施例中，可采用串流剖析器(StreamParser)，对所有压缩的视频文件的数据比特流进行剖析(Parsing)，并且取出其移动向量(MV)。而对于不同解析度的移动向量，在本实施例中，提出一种对移动向量(MV)的统计方法，例如以图像群组(Group of Pictures，GOP)为基本单位，针对其所有图框的区块(Macro Block，MB)，其移动向量所属的区块大小(Block Size)所占的比率，以例如一临限值(Threshold)决定采用哪一种移动向量(MV)进行建立检索索引。

[0048] 针对不同的视频文件，虽然其名称或是影片格式，甚至画面大小与品质有所不同，如果为同一部影片，其剧情是相同的，所以其动态向量(MV)分布会相同或类似，如图7A或7B所示，也就是在时间轴上图框的变化不大。因此，可以选择性的以一定比例(例如1∶2、
1∶4、1∶N，N为整数)取得对应画框(Frame)的移动向量(MV)值。因此，所建立的3-D移动向量地图可以达到一定精确程度即可。

[0049] 而后，在本发明实施范例其中之一，根据所述3-D移动向量地图进行判断，而找出相关的视频文件。并且根据相关的程度而显示搜寻的成果。在一实施例中，可以将所选择的视频文件(也就是检索标的)的3-D移动向量地图中所有微方块(Micro Block，MB)的MV值，与所有欲进行检索的视频文件的3-D移动向量地图中所对应的微方块(Micro Block，MB)的MV值进行差值运算，其分布情况进行比对，并根据比对的结果得到相关(Correlation)的程度，作为显示结果的依据。

[0050] 在本发明所提出一种针对新的视频搜寻的方法，在实施范例其中之一，请参照图3的流程图，建立一个以视频内容作为搜寻条件的技术，达到以视频找视频的搜寻结果。

[0051] 首先，步骤310中，开始进行以视频找视频的操作。在步骤320，选择其中一段视频文件作为检索信息(Query Message)。此选择方式不论是通过使用者通过视频播放软件播放时，选择其中一时间长度的视频文件(从正在播放中的影片中使用遥控器或其他方式停住一端时间的影片作为检索信息)，或是经由一使用者接口，在使用者点选其中一个功能按钮后，自动选取其中一段固定或特定期间的视频文件，或是其他可达到选择其中一时段视频文件的方式，皆在此范例可运用的范围中。

[0052] 在选择作为检索条件的视频文件后，如步骤330，由于其名称或是影片格式，甚至画面大小与品质有所不同，因此，例如对作为检索条件的视频文件以及欲进行检索的所有视频文件，可选择性地经由格式转换而转换为具有相同格式的视频文件，但此步骤若是在视频文件格式相同的条件下，是不需要进行。由于本实施例加入了时间轴(Time Domain)的特征，因此，可在所欲进行检索的所有视频文件中找出相同时间轴区段的对应视频文件，而后，经由运算转换为具有相同格式的视频文件。在一实施例中，所有欲进行检索的视频文件可以是存在区域网络的主机、搜寻引擎的主机数据库、或是云端数据库等等。而此格式转换的运算，可在个人主机、在区域网络的系统服务器、搜寻引擎的主机或是云端运算系统进行皆可。

[0053] 在步骤340中，对所有视频文件，通常为已经过压缩的数据，其比特流(Bitstream)进行剖析(Parsing)，可以选择性的以一定比例(例如1∶2、1∶4、1∶N，N为画框的数目)取得对应画框的移动向量(MV)值，其目的是为了弹性调整时间轴的采样率。本实施例将所有视频文件(包括作为检索条件的视频文件)转换为相同格式的用意，在于所有视频文件内图框的移动向量。也就是说，对所有压缩的视频文件取出其移动向量，据以建立检索索引。

[0054] 而对于不同解析度的移动向量，在本实施例中，可以利用上采样(Up-Sampling)或是下采样(Down-Sampling)的方式进行改变。例如，一般视频文件是由很多依照时间轴顺序连续排列的画框(Frame)所组成，而每个画框是由很多个微区块(MicroBlock，MB)编码而成，而每个微区块MB为例如是16×16为单位，而对于每个微区块MB具有的移动向量，有可能一个，也可能具有16个(一个MB可再切割成16块4*4的子方块)，因此不同格式的影片光一个MB中可能就有1～16个MV值在其中，对于后面的MV差值运算会造成无法对应运算；所以为了统一解析度，则必须将每个微区块MB所具有的移动向量数量调整成一致，在一实施例中，如果是要将n个移动向量调整成一个，可以采用例如平均法，将n个移动向量的值做一平均数的计算。

[0055] 另外，如果是要将仅有1个移动向量转为具有n个移动向量的作法，可以将1个移动向量转为n个相同值的移动向量。

[0056] 另外，针对如何决定微区块MB所具有的移动向量是一个转n个或是n个转一个的方式，可采用统计法完成。例如针对MPEP的视频编码格式，通常在架构上会定义画面群组(Group of Pictures，GOP)，例如在MPEP-4协议处理连续动态图像时，为达到比较好的压缩效果，会定义此画面群组(GOP)，可以获得图像数据内的随机存取动作，例如在MPEP-4协议是包括九张画面(一个I画面、两个向前预测的P画面与六个双向预测的B画面)。因此，如果欲知道采用那个移动向量数量比较适合，则在一例子中，可以画面群组(GOP)为基本单位，针对其微区块MB的移动向量所属的区块大小(Block Size)所占的比率，以例如一临限值(Threshold)来决定采用那个数量的移动向量进行建立检索索引。

[0057] 接着请参照步骤350，根据由移动向量(MV)所建构的3D移动向量地图(3D-MV Map)，经过运算后即可得到相关值，而根据相关值排列即可找出相关视频的文件，并且依照相关程度显示其结果。

[0058] 在选择作为检索条件的视频文件后，由于其名称或是影片格式，甚至画面大小与品质有所不同，但若为同一部影片，其剧情是相同的，所以其动态向量(MV)分布会相同或类似，如图7A或7B所示。所以，只要针对所选择的视频文件，建立检索索引(Search Index)，即可找出相同或是相似剧情的影片。在实施范例其中之一，对于检索索引(Search Index)建立的方式，可以根据所取得的移动向量(MV)，存入一运算矩阵中，而得到一个2-D移动向量地图(2D-MV Map)。而根据所选择的视频文件的时间区间，例如是30秒或是一分钟，而根据连续显示的画框(Frame)产生不同的2-D移动向量地图，此考虑时间轴的关系，即可建立一个称为3-D移动向量地图(3D-MVMap)的数据。但由于在一时间区间内的画框相当多，例如一秒达30张画面，而一分钟可达1800张画框。因此，如果是将其对应的移动向量填入，将会需要大量的计算，可能会延迟处理的时间。

[0059] 针对不同的视频文件，虽然其名称或是影片格式，甚至画面大小与品质有所不同，但若为同一部影片，其剧情是相同的，所以其动态向量(MV)分布会相同或类似，如图7A或7B所示。也就是在时间轴上画面的变化不大。因此，可以选择性的以一定比例(例如1∶2、
1∶4、1∶N，N为整数)取得对应画框(Frame)的移动向量(MV)值。因此，所建立的3-D移动向量地图可以达到一定精确程度即可。

[0060] 而后，在本发明实施范例其中之一，根据所述3-D移动向量地图进行判断，而找出相关的视频文件。并且根据相关的程度而显示搜寻的成果。在一实施例中，可以将所选择的视频文件(也就是检索标的)的3-D移动向量地图中所有微方块(Micro Block，MB)的MV值，与所有欲进行检索的视频文件的3-D移动向量地图中所对应的微方块(Micro Block，MB)的MV值进行差值运算，而后依照运算差值分布情况进行比对，并根据比对的结果得到相关(Correlation)的程度，作为显示结果的依据。例如，在一实施例中，可以根据两个进行比较的视频文件，其第N个画框(Frame)的移动向量值，以及另一个的视频文件第N个画框的移动向量值进行例如均方根(Root-Mean-Square，RMS)计算或是差值绝对值的计算，而取得差值(Distance)，根据这些差值的分布作为相关(Correlation)程度的结果，并显示得到的结果。

[0061] 在本发明所提出新的视频搜寻的方法，在另一实施范例中，请参照图4的流程图，用以详细说明如何建立一个以视频内容作为搜寻条件的技术，达到以视频找视频的搜寻结果。

[0062] 首先，步骤410中，开始进行以视频找视频的操作。在步骤420，选择其中一段视频文件作为检索信息(Query Message)。此选择方式不论是通过使用者通过视频播放软件播放时停住一段时间的影片，选择其中一时间长度的视频文件，或是经由一使用者接口，在使用者点选其中一个功能按钮后，自动选取其中一段固定或特定期间的视频文件，或是其他可达到选择其中一时段视频文件的方式，皆在此范例可运用的范围中。

[0063] 在选择作为检索条件的视频文件后，如步骤430，由于其名称或是影片格式，甚至画面大小与品质有所不同，因此，例如对作为检索条件的视频文件以及欲进行检索的所有视频文件，可选择性地经由格式转换而转换为具有相同格式的视频文件，但此步骤若是在视频文件格式相同的条件下，是不需要进行。

[0064] 由于本实施例加入了时间轴(Time Domain)的特征，因此，可在所欲进行检索的所有视频文件中找出相同时间轴区段的对应视频文件，而后，经由运算转换为具有相同格式的视频文件。而此相同格式，是可以经由事先预定的格式，例如所有使用此方法中统一运用的格式，或是系统业者所预定的格式皆可，以能够最佳化搜寻效率与结果为设计上主要的考量。

[0065] 在此实施例中，所有欲进行检索的视频文件可以是存在数据库432中，例如可以是区域网络的主机、搜寻引擎的主机数据库、或是云端数据库等等。而此格式转换的运算，可在个人主机、在区域网络的系统服务器、搜寻引擎的主机或是云端运算系统进行皆可。

[0066] 在步骤440中，对所有或部分视频文件，通常为已经过压缩的数据，其比特流(Bitstream)进行剖析(Parsing)，并且可以选择性的以一定比例(例如1∶2、1∶4或是1∶N，其中N为画框的数目)取得对应画框(Frame)的移动向量(MV)值，其目的是为了弹性调整时间轴的采样率。本实施例将所有视频文件(包括作为检索条件的视频文件)转换为相同格式的用意，在于所有视频文件的移动向量。也就是说，对所有压缩的视频文件取出其移动向量，据以建立检索索引。

[0067] 而对于不同检索条件下的解析度，也就是不同解析度的移动向量，在本实施例中，可以利用上采样(Up-Sampling)或是下采样(Down-Sampling)的方式进行改变。例如，一般视频文件是由很多连续的画框所组成，而每个画框(Frame)是由很多个微区块(MB)编码而成，而每个微区块MB为例如是16×16为单位，而对于每个微区块MB具有的移动向量，有可能一个，也可能具有16个，对于不同的格式有不同的移动向量数量。而若是为了统一解析度，则必须将每个微区块MB所具有的移动向量数量调整成一致，在一实施例中，如果是n个移动向量调整成一个，可以采用例如平均法，将n个移动向量的值做一平均数的计算，例如：

[0068]

[0069] 另外，如果是要将仅有1个移动向量转为具有n个移动向量的作法，可以将1个移动向量转为n个相同值的移动向量，例如：

[0070] MV＝MV1＝MV2＝MV3＝MV4＝....＝MVn

[0071] 另外，针对如何选择微区块MB所具有的移动向量数量，可采用统计法完成。例如针对MPEP的视频编码格式，通常在架构上会定义画面群组(Group of Pictures，GOP)，例如在MPEP-4协议处理连续动态图像时，为达到比较好的压缩效果，会定义此画面群组(GOP)，可以获得图像数据内的随机存取动作，例如在MPEP-4协议是包括九张画面(一个I画面、两个向前预测的P画面与六个双向预测的B画面)。因此，如果欲知道采用那个移动向量数量比较适合，则在一例子中，可以画面群组(GOP)为基本单位，针对其微区块MB的移动向量所属的区块尺寸(Block Size)所占的比率，以例如一临限值(Threshold)来决定采用那个数量的移动向量进行建立检索索引。

[0072] 例如，在统计画面群组(GOP)内，具有底下的区块尺寸(Block Size)及其所占的比率：

[0073] BS＝16×16占了50％

[0074] BS＝16×8占了15％

[0075] BS＝8×8占了25％

[0076] BS＝8×4占了3％

[0077] BS＝4×4占了7％

[0078] 在此例子中，将临限值(Threshold)订在至少50％，因此，区块尺寸为16×16就占了50％，因此符合条件，于是就选择区块尺寸BS＝16×16，以此比特流(Bitstream)的移动向量作为接下来产生移动向量地图解析度(MVmap Resolution)的大小。也就说不管原MB中的MV有几个，根据MV＝MV1＝MV2＝MV3＝MV4＝....＝MVn方式，都调整成一个。但若是没有任何一个区块尺寸所占的比率超过临界值，则可以改以某一固定大小的区块尺寸，例如BS＝16×16中的移动向量作为接下来产生移动向量地图解析度的大小，并接着进行调整；也就是若MB中有9个MV值，则检索条件中的MV也就调整成9个，且区块尺寸对应大小也要相同。

[0079] 接着请参照步骤450，根据移动向量(MV)建构具有时间轴数据的3D移动向量地图(3D-MV Map)，经过运算后即可得到相关值，而根据相关值排列即可找出相关视频的文件，并且依照相关程度显示其结果。

[0080] 在选择作为检索条件的视频文件后，由于其名称或是影片格式，甚至画面大小与品质有所不同，但若为同一部影片，其剧情是相同的，所以其动态向量(MV)分布会相同或类似，如图7A或7B所示。所以，只要针对所选择的视频文件，建立检索索引(Search Index)，即可找出相同或是相似剧情的影片。在实施范例其中之一，对于检索索引(Search Index)建立的方式，可以根据所取得的移动向量(MV)，存入一运算矩阵中，而得到一个2-D移动向量地图(2D-MV Map)。

[0081] 例如：

[0082](2，3) (2，5，2) (2，4) .......... 画框1
(4，3) (4，1) (7，4) .......... 画框2
(6，4) (5，2) (5，5) .......... 画框3

[0083] 而根据所选择的视频文件的时间区间，例如是30秒或是一分钟，而根据连续显示的画框产生不同的2-D移动向量地图，此考虑时间轴的关系，即可建立一个称为3-D移动向量地图(3D-MV Map)的数据。但由于在一时间区间内的画面相当多，例如一秒达30张画面，而一分钟可达1800张画面。因此，如果是将其对应的移动向量填入，将会需要大量的计算，可能会延迟处理的时间。

[0084] 针对不同的视频文件，虽然其名称或是影片格式，甚至画面大小与品质有所不同，但若为同一部影片，其剧情是相同的，所以，其动态向量(MV)分布会相同或类似，如图7A或7B所示。也就是在时间轴上画面的变化不大。因此，可以选择性的以一定比例(例如1∶2、
1∶4、1∶N，N为整数)取得对应画框的移动向量(MV)值。因此，所建立的3-D移动向量地图可以达到一定精确程度即可。

[0085] 而后，在本发明实施范例其中之一，如步骤460，根据所述3-D移动向量地图进行判断，而找出相关的视频文件。并且根据相关的程度而显示搜寻的成果。在一实施例中，可以所选择的视频文件(也就是检索标的)的3-D移动向量地图中所有微方块(Micro Block，MB)的MV值，与所有欲进行检索的视频文件的3-D移动向量地图中所对应的微方块(Micro Block，MB)的MV值进行差值运算，而后根据其分布情况进行比对，并根据比对的结果得到相关(Correlation)的程度，作为显示结果的依据。例如，在一实施例中，可以根据两个进行比较的视频文件，取其中一个的视频文件第N个画框(Frame)与第N-1个画框(Frame)的移动向量差值，以及另一个的视频文件第N个画框(Frame)与第N-1个画框(Frame)的移动向量差值，两者进行例如均方根(Root-Mean-Square，RMS)计算或是差值绝对值的计算，而取得差值(Distance)，根据这些差值的分布作为相关(Correlation)程度的结果，并显示得到的结果。

[0086] 例如差值(Distance)为底下的值：

[0087]

[0088] 也就是采用均方根的计算方式，或是：

[0089] D＝|frame(n)MV-frame(n-1)MV|

[0090] 根据所计算得到的差值(Distance)，其不同移动向量的差值分布情况，即可得到与检索标的相关程度，并根据排序而可得到结果，并可找出最相关的例如前十个或是前二十个视频文件，而将其结果显示回应给使用者。

[0091] 本实施所提出新的视频搜寻的方法，可以运用在软件上的设计。在另一实施例中，也可运用在固件上的设计，例如搭配部分的硬件，以及配合软件上的设计与操作，也可运用本实施所提出针对网络上进行视频搜寻的方法。另外，也可将本实施所提出新的视频搜寻方法，部分运算放置在个人主机或区域网络，而另外部分则是可放置在远端的系统，例如搜寻引擎的主机或是云端的设计。

[0092] 本实施所提出新的视频搜寻的方法，可以采用如图1A～1C的方式，先采用一粗略选择(Coarse Selection)的方式，先找到多个相关的视频文件，回应给使用者，而后接着再以一精确选择(Fine Selection)的方式(更近一步提高比对条件)，找到更相关的视频，此亦为本实施例的应用方式之一。

[0093] 而针对硬件上的应用，在多个实施例其中之一，可以参照图5A的电路方块图示说明，但并非以此为限制。

[0094] 在此电路应用中，包括串流剖析器(Stream Parser)530、3-D移动向量(3D-MV)地图产生器540与3-D移动向量(3D-MV)地图比较器550。

[0095] 在串流剖析器530的架构中，可对多个已经过压缩的视频文件的比特流(Bitstream)进行剖析(Parsing)，并且取出其移动向量(MV)数据。

[0096] 而对于不同检索条件下的解析度，也就是不同解析度的移动向量，串流剖析器530可以利用上采样(Up-Sampling)或是下采样(Down-Sampling)的方式进行改变。另外，为了统一搜寻索引(Search Index)的解析度，串流剖析器530可以将每个微区块MB所具有的移动向量数量调整成一致，例如若欲将n个移动向量调整成一个，可以采用例如平均法，将n个移动向量的值做一平均数的计算。而若是要将仅有1个移动向量转为具有n个移动向量的作法，可以将1个移动向量转为n个相同值的移动向量。

[0097] 另外，串流剖析器530可以针对如何选择微区块MB所具有的移动向量数量，采用统计法完成。例如，以画面群组(GOP)为基本单位，针对其微区块MB的移动向量所属的区块尺寸(Block Size)所占的比率，以例如一临限值(Threshold)来决定采用那个数量的移动向量进行建立检索索引。

[0098] 而3D-MV地图产生器540则可根据移动向量建构具有时间轴数据的3D移动向量地图(3D-MV Map)。此3D-MV地图产生器540根据所取得的移动向量(MV)，存入一运算矩阵中，而得到一个2-D移动向量地图(2D-MVMap)。而根据所选择的视频文件的时间区间，以及连续显示的画框(Frame)产生不同的2-D移动向量地图，再加入时间轴的参数，则可建立一个称为3-D移动向量地图的数据。

[0099] 由于在一时间区间内的画面相当多，因此，3D-MV地图产生器540可以选择以一定比例(例如1∶2、1∶4、1∶N，N为整数)取得对应画面(Frame)的移动向量(MV)值。因此，所建立的3-D移动向量地图可以达到所设定的精确程度即可。在一实施例中，也可采用两阶段，包括粗略选择(CoarseSelection)的方式，以及再以一精确选择(Fine Selection)的方式，找到最相关的视频。

[0100] 而3D-MV地图比较器550则是根据所述3-D移动向量地图进行判断，而找出相关的视频文件。并且根据相关的程度而显示搜寻的成果。此3D-MV地图比较器550连接到网络552或是数据库554以读取3D-MV地图。此3D-MV地图比较器550可以根据两个进行比较的视频文件，取其中一个的视频文件第N个画框(Frame)与第N-1个画框(Frame)的移动向量差值，以及另一个的视频文件第N个画框(Frame)与第N-1个画框(Frame)的移动向量差值，两者进行例如均方根(Root-Mean-Square，RMS)计算或是差值绝对值的计算，而取得差值(Distance)，根据这些差值分布作为相关(Correlation)程度的结果，并将得到的结果显示在显示器560上。

[0101] 在本实施例所公开的电路中，亦进一步包括视频格式转换器520，对作为检索的视频文件510，以及所欲进行检索的所有视频文件中找出相同时间轴区段的对应视频文件，而后，经由运算转换为具有相同格式的视频文件。此为选择性地运算，可经由格式转换而转换为具有相同格式的视频文件，但若是在视频文件格式相同的条件下，是不需要进行，直接将作为检索的视频文件510传送到串流剖析器530。

[0102] 对于上述视频文件510的取得，在一实施范例中，是从播放中的视频文件，取出其中一段作为检索信息(Query Message)，此选择方式不论是通过使用者选择任一时间长度的视频文件，或是经由使用者接口自动选取其中一段固定或特定期间的视频文件等等方式皆可运用在此范例中。

[0103] 在一实施例中，提供一种视频播放装置，具有一主机与一控制器。此主机具有如图5A所示的视频搜寻装置。而控制器具有一功能控制装置，其中功能控制装置用以让使用者选择主机播放的视频数据中的其中一段，作为视频搜寻装置的检索视频文件。在一实施例中，此主机可以是电视机，而控制器为一无线遥控器，用以无线方式控制电视机。在另外一实施例中，此主机可以是一计算机主机，而控制器为无线或是有线的鼠标。

[0104] 例如，请参照图5B，可将选择一段影片的功能内建于控制影片播放的遥控器580中，而当影片在电视570中播放时，使用者可以从第一时间T1开始，而到第二时间T2结束，以选取从时间T1～T2的这段影片作为检索信息。而在另外一个实施范例中，也可通过个人计算机的使用者输入接口，如鼠标或是触控屏幕上的使用者界面，让使用者以方便且简单的方式停住一端时间的影片作为检索信息。

[0105] 请参照图6A，为说明在一图框610中所具有的移动向量(MV)，而图6B则是在视频文件中，根据时间轴而有一系列连续的画框，以及其移动向量的示意图。而这些画框620、622、624、626与628，则可以作为本实施例所提到的画面群组(GOP)。

[0106] 图6C则是显示微区块MB的移动向量所属的不同区块尺寸(BlockSize)，例如630则显示区块尺寸为16×16，而具有一个移动向量。631则显示区块尺寸为16×8，而具有二个移动向量。632则是另一个不同方向的区块尺寸8×16。633则显示区块尺寸为8×8，而每个具有四个移动向量。634则显示区块尺寸为8×8，而具有一个移动向量。635与636则分别为不同方向的区块尺寸8×4与4×8，分别具有二个移动向量。而637则显示区块尺寸为4×4，每个具有一个移动向量。

[0107] 请参照图7A与图7B，分别为相同电影(片名为Top Gun)，但具有不同解析度，如高解析度(High-Definition，HD)的影片片段710与较低解析度的通用图像格式(Common Image Format，CIF)格式的影片片段730(相同时段4分18秒)。而根据影片的剧情(也就是时间轴的变化)，分别有如图示720、722、724、726、728的图框，以及740、742、744、746、748的图框。但从此内容可知，针对不同的视频文件，虽然其名称或是影片格式，甚至画面大小与品质有所不同，但若为同一部影片，其剧情是相同的，也就是在时间轴上画面的变化不大。

[0108] 在具体验证的实例中，请参照图8A，分别找出影片A(QCIF格式)810、影片A(CIF格式)820与另一个不相关的影片B(CIF格式)830。此通用图像格式(Common Image Format，CIF)一般大小为352×288像素，而QCIF则称为四分之一通用图像格式(Quarter Common Image Format，QCIF)，一般大小为176×144像素。而采用本实施所提出针对网络上进行视频搜寻的方法计算后，得到的差值如图8B所示，标号812为影片A(QCIF)的差值，标号822为影片A(CIF)的差值，标号832为影片B(CIF)的差值。从此结果可以了解，影片A(QCIF)的差值分布与影片A(CIF)的差值十分类似，但前两者与影片B(CIF)的差值差异甚大，因此可以找出其相关程度。

[0109] 另外，请分别参照图8C、8D与8E，分别为影片A(QCIF格式)、影片A(CIF格式)与3
影片B(CIF格式)在2 ＝8取一张的条件下，所得到的3D-MV地图分布，则可以更清楚看出影片A(QCIF)的3D-MV地图分布与影片A(CIF)的3D-MV地图分布十分类似，但前两者与影片B(CIF)的3D-MV地图分布差异甚大。

[0110] 从上述实证结果可知，本实施所提出新的视频搜寻的方法，可根据计算得到的差值分布，即可得到与检索标的相关程度的值，并根据排序而可得到结果，而可将其结果显示回应给使用者。

[0111] 虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书所界定者为准。

使用动态向量的视频搜寻方法及其装置转让专利

申请号 : CN201010220461.1

文献号 : CN101996229B

文献日 : 2013-11-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 高荣扬 , 涂日升

申请人 : 财团法人工业技术研究院

摘要 :

权利要求 :

说明书 :