媒体播放装置及其相关方法转让专利

申请号 : CN200710107457.2

文献号 : CN101159839B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 辜赫·贺福

申请人 : 联发科技(美国)股份有限公司

摘要 :

本发明提供一种播放媒体源的媒体播放装置及其相关方法。该播放媒体源的方法包含如下步骤:从媒体源中撷取出一参考字幕流,参考字幕流与媒体源中的多媒体数据流同步;将利用字符串对比来将所述参考字幕流与一字幕源的中介字幕流对比以找出相同或相似的字幕;使用时间戳记同步来将所述中介字幕流与所述字幕源的替代字幕流同步;结合所述相同或相似的字幕以及所述同步的结果来产生输出字幕流;以及合并多媒体数据流与输出字幕流。该播放媒体源的媒体播放装置包含:一多路分配器,一字幕引擎和一混合器。由于本发明提供的播放媒体源的方法和装置可在另一集合内选择所需要的字幕文件,所以可以提高系统的可选择性,并可使播放媒体源装置适用更多的用户。

权利要求 :

1.一种播放媒体源的方法,所述方法包含有:从所述媒体源中撷取出一参考字幕流,所述参考字幕流与所述媒体源的一多媒体数据流同步;

利用字符串对比来将所述参考字幕流与一字幕源的中介字幕流对比以找出相同或相似的字幕;

使用时间戳记同步来将所述中介字幕流与所述字幕源的替代字幕流同步;

结合所述相同或相似的字幕以及所述同步的结果来产生一输出字幕流;以及合并所述多媒体数据流与所述输出字幕流。

2.根据权利要求1所述的方法,其特征在于,所述中介字幕流与所述参考字幕流使用第一语言,而所述替代字幕流使用第二语言。

3.根据权利要求2所述的方法,其特征在于,所述中介字幕流使用所述第一语言中的第一次要语言,而所述参考字幕流使用所述第一语言中的第二次要语言,以及所述方法还包含有:当将所述参考字幕流与所述中介字幕流进行对比以找出相同或相似的字幕时,对所述第一次要语言与所述第二次要语言进行对比以找出相同或相似的字幕。

4.根据权利要求1所述的方法,其特征在于,所述字幕源为来自一远程服务器的数据,以及所述方法还包含有:连接至所述远程服务器以撷取所述中介字幕流与所述替代字幕流。

5.根据权利要求1所述的方法,其特征在于,所述多媒体数据流包含有一视频流。

6.根据权利要求1所述的方法,其特征在于,所述媒体源包含有一数字激光视盘片。

7.根据权利要求1所述的方法,其特征在于,所述方法还包含:从一广播源接收所述媒体源。

8.根据权利要求1所述的方法,其特征在于,所述方法还包含:从一服务器接收所述媒体源。

9.根据权利要求1所述的方法,其特征在于,所述媒体源为一硬盘。

10.根据权利要求1所述的方法,其特征在于,所述字幕源可以是电子文件或字幕数据库。

11.根据权利要求1所述的方法,其特征在于,利用字符串对比来将所述参考字幕流与所述字幕源的中介字幕流对比以找出相同或相似的字幕;以及使用时间戳记同步来将所述中介字幕流与所述字幕源的替代字幕流同步,是在离线状态下执行。

12.根据权利要求1所述的方法,其特征在于,利用字符串对比来将所述参考字幕流与所述字幕源的中介字幕流对比以找出相同或相似的字幕;以及使用时间戳记同步来将所述中介字幕流与所述字幕源的替代字幕流同步,是在从所述媒体源接收到数据时实时执行。

13.一种播放媒体源的媒体播放装置,所述装置包含有:一多路分配器,用于从所述媒体源中撷取出与所述媒体源中的多媒体数据流同步的参考字幕流;

一字符串对比模块,用于使用字符串对比将所述参考字幕流与一字幕源的一中介字幕流进行对比以找出相同或相似的字幕;

一时间戳记同步模块,用于利用时间戳记将所述中介字幕流与所述字幕源的一替代字幕流同步;

一结合模块,用于结合所述相同或相似的字幕以及所述同步的结果来产生一输出字幕流;以及一混合器,用于合并所述多媒体数据流与所述输出字幕流。

14.根据权利要求13所述的媒体播放装置,其特征在于,所述装置还包含有:一调谐器,从一广播源接收所述媒体源。

15.根据权利要求13所述的媒体播放装置,其特征在于,所述装置还包含有:一网络接口,从一服务器接收所述媒体源。

16.根据权利要求13所述的媒体播放装置,其特征在于,所述媒体源为一硬盘。

说明书 :

技术领域

本发明有关于一种字幕显示机制,尤其有关于一种将一组字幕切换为外部数据源中另一语言的字幕的媒体播放装置及其相关方法。

背景技术

字幕是适用于许多形式的视频播放的一种普通特征,通常来说,字幕是逐字显示出电影及电视节目中的人物对白,以帮助观赏者了解并明白视频(也就是电影及电视节目)的内容;字幕可以是与视频原本所使用的语言对应或是与其它语言对应,而字幕也可帮助听觉损伤的观赏者,使其了解并领会屏幕上显示的对话的内容。目前,电视、数字电视、数字激光视盘及卫星广播,还包含有一参考字幕流,来搭配主要的影音数据流,其中参考字幕流包括利用视频中所使用的语言,以与显示于屏幕上的字幕同步,举例来说,音乐录像带中可能具有用以显示出与音乐录像带同步的歌曲的歌词字幕,而在电影中的字幕则可能仅用来显示出每位人物的谈话内容。
此外,字幕的另一用途在于将一影音流中的影音内容,由原本的语言文字转译成另一语言文字,此将使得原先不熟悉影音内容所使用的语言的观赏者在观看影音内容时能够了解并同时明白影音内容的对白,举例来说,对于一名熟悉英语的观赏者在观看法语电影时,英语字幕将有助于他/她了解并明白电影中的法语对白。
另外,由于目前视频储存媒介(例如数字激光视盘、光盘、录像带等等)的储存空间有限,大部分视频的可选择的字幕文件有限;再者,视频广播也因为传输带宽的限制或是本身并不支持某些语言,而仅传送属于一个有限的字幕文件集合,因此,当从储存媒介中观看视频时,除非可以从视频储存媒介中撷取另一可供选择的字幕文件集合,否则的话,观赏者将无法选择属于另一集合内的字幕文件。另一方面,当从一视频广播观看视频时,除非同时传输另一集合内的字幕文件与视频广播,否则观赏者也将无法选择属于另一集合内的字幕文件。

发明内容

有鉴于此,需要提供一种可以从另一集合内选择所需要的字幕文件的播放源媒体的方法和媒体播放装置。
本发明提供一种播放媒体源的方法,包含从媒体源中撷取出一参考字幕流,其中参考字幕流使用一预设语言并与一多媒体数据流同步(例如该媒体源的视频部分);此外,该方法还包括有利用字符串对比来将参考字幕流与一字幕源的中介字幕流对比以找出相同或相似的字幕;使用时间戳记同步来将中介字幕流与字幕源的替代字幕流同步;结合相同或相似的字幕以及同步的结果来产生一输出字幕流以取代原本的参考字幕流;然后,合并该多媒体数据流与该输出字幕流。实作上,可使用一中介字幕流来作为关联于参考字幕流的媒介。另外,也可使用时间戳记来使参考字幕流与替代字幕流同步。
本发明还提出一种用以播放媒体源的媒体播放装置,包含有:多路分配器,从媒体源中撷取出与媒体源中的一多媒体数据流同步的一参考字幕流;一字符串对比模块,用于使用字符串对比将参考字幕流与字幕源中的中介字幕流进行对比以找出相同或相似的字幕;一时间戳记同步模块,用于利用时间戳记将中介字幕流与替代字幕流同步;一结合模块,用于结合相同或相似的字幕以及同步的结果来产生一输出字幕流;以及一混合器,用于合并多媒体数据流与输出字幕流。
由于本发明提供的播放媒体源的方法和装置可以从另一集合内选择所需要的字幕文件,所以可以提高系统的可选择性,并可使播放源媒体装置适用更多的用户。

附图说明

图1为本发明媒体播放的广义架构的示意图;
图2为具有图1所示的媒体播放广义架构的第一实施例的示意图;
图3a为图2所示的第一实施例的运作示意图;
图3b为图3a的延续示意图;
图4为具有图1所示的媒体播放广义架构的第二实施例的示意图;
图5为图4所示的第二实施例的运作示意图;
图6为本发明一实施例的媒体播放装置的示意图;
图7为图6所示的媒体播放装置的运作流程图;
图8为分割成一连串场景的参考字幕流的示范性示意图;
图9为参考字幕流与中介字幕流的对应关系的简化示意图;
图10为储存有中介字幕流与数个可被选为替代字幕流的候选字幕流的一文件的示范性示意图;
图11为参考字幕流、中介字幕流与替代字幕流之间关联的示范性示意图;
图12a为本发明应用于数字电视的示范性示意图;
图12b为本发明应用于数字激光视盘机的示范性示意图;
图12c为本发明应用于因特网视频装置的示范性示意图;
图12d为本发明应用于模拟有线电视的示范性示意图。

具体实施方式

请参阅图1,图1是本发明媒体播放的广义架构的示意图。如图1所示,媒体源121(例如一电视广播信号)用来提供包括有参考字幕流与多媒体数据流的数据流,其中参考字幕流已经与多媒体数据流彼此同步,而多路分配器141用来从媒体源121中撷取出参考字幕流131与多媒体数据流133,字幕引擎(engine)142则用来将参考字幕流131与从字幕源122所输出的替代字幕流132进行对比以产生输出字幕流135,以及混合器(mixer)143用来合并输出字幕流135与多媒体数据流133,以产生一多媒体输出15(例如是使用者可看到字幕的视频节目)。请注意,上述多路分配器141、字幕引擎142及混合器143皆可利用纯硬件、纯软件或是任何的软硬件组合来加以实现,以提供上述所说的功能。
请参阅图2,图2是具有图1所示的媒体播放广义架构的第一实施例的示意图。在本实施例中,媒体源221包含有参考字幕流2211及多媒体数据流2212,多路分配器241则用来从媒体源221中撷取出参考字幕流2211与多媒体数据流2212(也就是多路分配器241分别输出所撷取的参考字幕流231与所撷取的多媒体数据流233)。除了所撷取出的参考字幕流231之外,字幕引擎242还会从字幕源222接收中介字幕流2221与替代字幕流2222,而中介字幕流2221与撷取出的参考字幕流231使用第一语言(例如是英语),替代字幕流2222则使用不同于第一语言的第二语言(例如是法语),因此,字幕引擎242会产生使用第二语言的输出字幕流235来取代原本使用第一语言的字幕。
为了实现不同语言之间的字幕替换,字幕引擎242中还包含有三个功能模块,如图所示,字符串对比模块2421用来将撷取出的参考字幕流231与中介字幕流2221进行对比,这是因为参考字幕流231与中介字幕流2221使用相同的语言,所以字符串对比模块2421可将参考字幕流231与中介字幕流2221进行关联,而即使参考字幕流231与中介字幕流2221并非相同,字符串对比模块2421同样可用来找出参考字幕流231与中介字幕流2221之间相同的字幕片段;时间戳记同步(time synchronization)模块2422则用来识别出中介字幕流2221与替代字幕流2222之间的关系,在本实施例中,中介字幕流2221已经与替代字幕流2222同步并使用相同的时间戳记,因此,通过检查时间戳记,即可得知中介字幕流2221与替代字幕流2222之间的关联。如上所述,由于已得知参考字幕流231与中介字幕流2221之间的关联,同样地,也可得知中介字幕流2221与替代字幕流2222之间的关联,因此,使用结合模块2423来结合上述两关联并产生使用第二语言的输出字幕流235,以取代最后由混合器243所产生的使用第一语言的参考字幕流231。
请参阅图3a与图3b,其显示图2所示的第一实施例的运作示意图。视频节目321包含有视频部分3212及参考字幕3211,而字幕源则包含有中介字幕3221及替代字幕3222(中介字幕3221与替代字幕3222显示于图3b中),其中参考字幕3211已经与视频部分3212同步,且参考字幕3211与中介字幕3221皆使用英语,且中介字幕3221已经与替代字幕3222同步。因此,综上所述,利用字符串对比将可找出参考字幕3211与中介字幕3221之间的关联(如对比结果3421所示);显然,如图所示,在此例子中虽然参考字幕3211与中介字幕3221并非相同,然而经由字符串对比却可找出其所具有的相同的字符串子集合(string subset),除此之外,通过使用上述的时间戳记则将会使得中介字幕3221与替代字幕3222同步(如对比结果3422所示),而其中时间戳记的一例子则如图3a与图3b中所示的字幕片段“00:22:10 435-00:22:11.612”。如上所述,通过参考字幕3211、中介字幕3221与替代字幕3222之间的关联,可找出与视频部分3212同步的输出字幕3423,并将其与视频部分3212结合来产生一多媒体输出35。
在上述的实施例中,中介字幕流作为连结替代字幕流与参考字幕流的媒介,然而,如果替代字幕流已包括可用来使替代字幕流与参考字幕流同步的时间戳记信息,则可不需使用到中介字幕流。
请参阅图4,图4是具有图1所示的媒体播放广义架构的第二实施例的示意图。请注意,图4中具有与图2的功能模块相同编号的功能模块在本说明书中表示相同的功能模块,其详细运作则不再重述。在本实施例中,不需使用上述的中介字幕流,字幕源422仅包含有替代字幕流4222,其中替代字幕流4222与所撷取出的参考字幕流231同步,故通过在字幕引擎442中的时间戳记同步模块4421的运作,替代字幕流4222会取代撷取出的参考字幕流231,而混合器243则会将替代字幕流4222与该多媒体数据流进行结合。
图5为图4所示的第二实施例的运作示意图。请注意,在此实施例中,使用英语的参考字幕51直接与使用法语的替代字幕52同步,以提供使用法语作为字幕的视频输出。
为了能够清楚地体现本发明的精神,其较为详尽的例子则描述于下述的说明中。请搭配参阅图6与图7,图6是本发明一实施例的可提供另一替代字幕而非使用原本媒体源中预设字幕的媒体播放装置60的简化示意图,而图7则是图6所示的媒体播放装置60的运作流程图。如图所示,媒体播放装置60中包含有调谐器(tuner)600、MPEG译码器602、字幕引擎604以及混合器606,以播放媒体源621的内容。举例来说,媒体源621可以是包含有多媒体数据流(例如视频部分63)与参考字幕流631的电视广播数据流,然而,其也可以是使用有限种语言字幕的数字激光视盘(DVD)或蓝光光盘(Blu-ray disc),例如是具有英语、西班牙语、法语等字幕但却不具备韩语字幕的数字激光视盘。
在数字电视系统标准(例如美国ATSC标准,Advanced Television SystemsCommittee standard)中,参考字幕流631与多媒体数据流63是一同传送的,而终端接收机(未图示)则会依据使用者的设定来选择是否直接播放出参考字幕流631与多媒体数据流63,因此,即使参考字幕直接重叠在多媒体数据流63之上或是参考字幕以图片而非文字数据的方式来传送,仍可应用光学文字辨识(optical character recognition)技术来将该参考字幕解析成文字数据。
而在调谐器600接收媒体源621之后,MPEG译码器602会从媒体源621中撷取出参考字幕流623(步骤702),请参阅图8,图8为显示参考字幕流623的示范性示意图,其中参考字幕流623被分割成多个参考字幕片段(也就是说场景1-4),接着即可产生参考字幕流623并将参考字幕流623与多媒体数据流625同步。如图8所示,在此例子中,时间戳记(例如00:01:04,274->00:01:06,390)用来将参考字幕流623与多媒体数据流625同步,举例来说,在影片时间00:01:04,274->00:01:06,390的期间内,多媒体数据流625中的一视频片段(video clip)即会对应于字幕流“Thebes:City of the Living”。
接着,字幕引擎604会利用参考字幕流623、中介字幕流627及替代字幕流629来找出参考字幕流623与中介字幕流627之间的对应关系(步骤704),而除了上述的对应关系之外,也可同时查询出中介字幕流627与替代字幕流629之间的关联以使得字幕引擎604能够产生一输出字幕流630(步骤706),接着,输出字幕流630与多媒体数据流625被混合器606合并之后则会同时进行播放(步骤708)。
在此例子中,参考字幕流623与中介字幕流627使用第一语言(例如英语),替代字幕流629与输出字幕流630则使用第二语言(例如西班牙语),而媒体源621的预设字幕则为英语字幕,因此,举例来说,在图6中最后实际输出的将会是视频部分65与使用西班牙语的输出字幕651,换言之,对于不懂英语的观赏者来说,即使英语电视节目中并无西班牙语字幕,而观赏者仍可依据本发明所输出的西班牙语字幕来欣赏此电视节目。
在下列说明中则描述如何找出上述所提到的字幕之间的对应关系及关联性。请参阅图9,图9是参考字幕流910与中介字幕流920的对应关系的简化示意图。在此例子中,参考字幕流910包含有多个字幕片段930(也就是一连串的影片场景),其中字幕片段930中某些片段也对应于属于相同语言的中介字幕流920的相同文字字符串,这些文字字符串可储存于一字幕文件中(例如,SRT文件)并可通过网络下载下来。倘若媒体源为电视节目,则由电视业者(TVoperator)所附加的字幕片段940(例如广告)将不会存在于中介字幕流920中,同时在电视节目中也可存在由电视业者所剪接的影片场景;然而,参考字幕流910与中介字幕流920之间仍存在相同的字符串子集合,因此,可使用多种已知的字符串对应算法来将参考字幕流910与中介字幕流920进行对比,其中一个例子即为计算两字符串之间的编辑距离(Levenshtein distance)来进行字符串对比。
依据维基百科(Wikipedia)上的说明(请参照http://en.wikipedia.org/wiki/Levenshtein_distance),在信息理论(information theory)中,两字符串之间的编辑距离(Levenshtein distance)是指将一字符串转换成另一字符串所需最小的运算次数,其中进行一次运算指的是将单一字符进行插入、删除或是取代,而编辑距离则由Vladimir Levenshtein在公元1965年所发明的,并适用于需要决定出两字符串的相似程度的应用(例如拼字检查)中。
举例来说,字符串“kitten”与字符串“sitting”的编辑距离为3,其原因为将一字符串转换成另一字符串至少需要执行三次运算,而任何少于三次运算的转换方式则无法将一字符串转换成另一字符串,其详细运算过程可参考下面的例子:
kitten→sitten(将‘k’取代成‘s’)
sitten→sittin(将‘e’取代成‘i’)
sittin→sitting(在整个字符串的最后插入‘g’)
编辑距离可以看作是广义的汉明码距离(Hamming distance),其中汉明码距离是用于相同长度的字符串并仅考虑执行单一字符的取代运算;当然,也有编辑距离的其它广义形式,举例来说,可将两字符的交换看作单一运算(例如Damerau-Levenshtein距离算法),换句话说,即使参考字幕流910与中介字幕流920之间有微小的用语差异,仍可通过编辑距离的运作来将两字幕流进行对比以找出相似的字幕。
因此,如果上述两字符串皆具有多个子集合,则使用字符串对比可有效地找出这些子集合,也就是说,已经与电视节目同步的参考字幕流910可被中介字幕流920适当取代,以使得中介字幕流920能够与电视节目同步,换言之,此一对应关系将有助于使中介字幕流920与参考字幕流910同步;再加上中介字幕流与下述说明中一个或多个替代字幕流之间的关联,将可使得参考字幕流910与一个或多个替代字幕流彼此同步。
请参阅图10,图10是利用时间戳记对比方式来找出中介字幕流与一个或多个候选字幕流的关联的示范性示意图。在此例子中,假设有N组候选字幕储存在字幕文件9250中,其中字幕文件9250可在因特网上下载或是由使用者自己生成或修改,若一字幕流与参考字幕流使用相同的语言则可作为中介字幕流920,其它一个或多个字幕流则选定为替代字幕流9320。通常来说,每一字幕可被分割成一连串的字幕片段(例如图10中所示的场景1-场景M),而不同字幕中的字幕片段则是同步的,用以同步这些字幕的方法是使用一连串的时间戳记,而此一连串的时间戳记可被所有的字幕共享。同时,每一字幕本身也可具有一连串的时间戳记,而通过对这些时间戳记进行对比,可将这些字幕关联以找出中介字幕与所选定的替代字幕之间的关联;而除了上述例子之外,不同的字幕可能具有不同数目的场景,例如,使用英语所显示的两行字在转换成使用法语显示时可能需要占用三行字,因此,必须将原本的场景分割成两个场景,也就是说,法语字幕中会包含有具有两行字的场景以及具有一行字的场景,而也可以对上述所提及的算法进行修改以适用于这种字幕。举例来说,在图10中,替代字幕可能具有M’个场景,而第N个字幕集合则可能具有Mn个场景。
请参阅图11,图11显示结合对应关系与关联性以通过中介字幕流920来使替代字幕流9320与参考字幕流910同步的示范性示意图。因此,如果有替代字幕流9320的话,则其可以有效地与参考字幕流910进行同步来提供给使用者观赏(其同步的方式例如可使用字符串对比来实现)。
与直接从参考字幕流进行翻译(经常需要耗费某些系统资源)相比较来说,上述提供替代字幕流的方式显然较有效率,并仅需较低计算量及较低复杂度,而即使采用翻译的方式,本发明也可用来减少原先翻译时所需要的时间,例如,原先的参考字幕可通过上述的技术先转换成较容易翻译的语言。
而目前有许多的方式来提供中介字幕流与替代字幕流。举例来说,中介字幕流与该替代字幕流可储存于一电子文件中(例如是SRT文件或是数据库中),另外,中介字幕流与替代字幕流也不需要放置于相同文件或是相同数据库。再者,其它字幕则可间接地连结至中介字幕流与替代字幕流,举例来说,第一文件中可包含有一英语字幕与一西班牙语字幕,而第二文件中可包括一墨西哥语字幕与一法语字幕,使用第一文件将可关联英语参考字幕与西班牙语字幕,而通过执行字符串对比,则可关联西班牙语字幕与墨西哥语字幕,而墨西哥语字幕则已利用时间戳记来与法语字幕同步,在此情形下,使用英语的参考字幕最后将会对应至法语字幕,故即使替代字幕(也就是说法语字幕)与中介字幕(也就是说英语字幕)并非位于相同的文件中,仍可实现字幕的对照与取代运作。
媒体播放装置60也可通过配置一网络接口(例如是无线/有线网络卡)来连接至一远程服务器以存取中介字幕流与替代字幕流,当然,也可利用软件程序及/或控制逻辑电路来从一广播流中解析出电视节目名称并从因特网中自动地搜寻出所需要的字幕(也就是说主要字幕流与替代字幕流)。
通过上述说明的教导,所属领域技术人员应可实现具有本发明的精神的装置。除了上述实施例与范例之外,本发明还提出在不同应用下的设计变化,请参阅图12a-图12d,图12a-图12d为分别应用于数字电视、数字激光视盘机、因特网视频(Video over IP)装置与模拟有线电视的示范性示意图。
此外,将参考字幕取代成替代字幕可在离线状态下或是实时状态下执行,换言之,如果硬件/软件的处理能力够强大,则将参考字幕取代成替代字幕便可实时地执行,否则的话,本发明便需结合已记录的视频文件来进行离线状态下的处理。
综上所述,参考字幕流与中介字幕流使用相同的语言(也就是说第一语言),然而,第一语言也可具有两种次要语言,也就是说,参考字幕流与中介字幕流并不需要完全使用相同语言;举例来说,参考字幕流使用美式英语,中介字幕流则使用英式英语,而在参考字幕流与中介字幕流之间执行字符串对比之前会进行美式英语与英式英语之间的转换,而此也可应用于繁体中文与简体中文或是其它具有相似特性的语言。再者,也可将本说明书中所指的“语言”一词推广而使其具有较广泛的意义,例如,第一语言使用于电影的英文对话中,而第二语言则使用于电影的导演讲评(director commentary)中。
甚至,也可提供使用者一操作接口来设定对应的配置设定,例如是设定预设次要语言、电视台名称、远程服务器地址与存取密码与字幕大小以及同时显示参考字幕与替代字幕或是显示多个替代字幕等配置设定。此外,也可将上述所提到的过程撰写成对应的计算机程序以通过光盘片或是服务器来提供给客户。