信息记录再现装置和视频摄像机转让专利

申请号 : CN200910134649.1

文献号 : CN101715142B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丸森宏晋

申请人 : 株式会社日立制作所

摘要 :

本发明涉及信息记录再现装置和视频摄像机。随着视频摄像机的大容量化,虽然进行了拍摄但却不观看其内容的用户越来越多,进而检索目标影像时消耗大量时间。因此,需要有一种能够增加观赏影像时乐趣的功能。不增加工序仅在摄像机本体中通过声音识别而能够生成带字幕的盘,故而能够利用通用播放器欣赏带字幕的影像。此外,通过利用进行脸部识别后的信息而生成能够以人物区别的菜单,能够提高影像的检索性能。因此能够迅速在影像内容中检索出场人物。

权利要求 :

1.一种信息记录再现装置,搭载有与多个记录介质对应的多个驱动器装置,能够进行依照对应于所述记录介质的标准的记录再现,其特征在于,具备:脸部和人物识别装置,从输入至所述信息记录再现装置内的影像信号识别出脸部或人物;

从输入的声音信号识别出人声的声音识别装置;

对来自所述脸部和人物识别装置和所述声音识别装置的所识别的结果进行管理的识别控制部;

将由所述声音识别装置识别的语言文本化的声音文本化装置;和对多个介质彼此之间的数据交换进行管理的转录管理装置,在转录时根据声音生成字幕。

2.如权利要求1所述的信息记录再现装置,其特征在于:所述多个记录介质是BD、DVD、HDD、SD卡中的任一种,进而在其为SD卡和DVD时还按照AVCHD标准的格式进行记录。

3.如权利要求1或者2所述的信息记录再现装置,其特征在于:在记录中,对由所述脸部识别装置识别出脸部的位置和大小的信息,由所述识别控制部按每个记录进行管理。

4.如权利要求3所述的信息记录再现装置,其特征在于:所述脸部和人物识别装置具有能够判断事先登记的脸部的功能,由所述识别控制部所管理的信息是,在该摄像的场景中是否存在脸部的信息、记录有脸部的期间、和能够识别已登记的人名的信息。

5.如权利要求4所述的信息记录再现装置,其特征在于:一边对转录源的影像进行再现一边由用所述声音识别装置识别声音,利用所述声音文本化装置将所述识别出的声音文本化。

6.如权利要求5所述的信息记录再现装置,其特征在于:在所述转录管理装置进行转录时,对所述文本化后的数据以依照标准的格式进行多路复用。

7.如权利要求6所述的信息记录再现装置,其特征在于:将记录有被所述识别控制部管理的所述脸部的期间的影像作为新的场景,或将其分割而作为独立的场景。

8.如权利要求7所述的信息记录再现装置,其特征在于:仅将所述独立的场景利用所述转录装置进行转录。

9.如权利要求8所述的信息记录再现装置,其特征在于:在由所述转录装置进行了转录之后,将被所述识别控制部管理的所述已登记的名字添加到菜单中。

10.一种视频摄像机,搭载有与BD、DVD、HDD、SD卡对应的多个驱动器装置,能够进行依照标准的记录再现,其特征在于,包括:脸部和人物识别装置,从输入至所述视频摄像机内的影像信号识别出脸部或人物;

存储装置,在对HDD进行记录时,保持脸部或人物被识别出的位置和其期间作为管理信息;和声音文本化装置,根据所述被保持的管理信息,通过声音分析对脸部或人物所存在的影像部分的声音进行文本化,其中,对进行文本化而得到的数据进行多路复用,并将其转录到BD、DVD、或者SD卡,由此生成能够利用通用播放器根据进行文本化而得到的所述数据进行字幕的再现的盘。

11.一种视频摄像机,其特征在于,具有:对被摄体进行摄像而生成影像信号的摄像单元;

收集声音而生成声音信号的集音单元;

对该影像信号和该声音信号在第1记录介质中进行记录再现的第1记录再现单元;

对该影像信号和该声音信号在第2记录介质中进行记录再现的第2记录再现单元;

根据该影像信号来识别指定被摄体的识别单元;

将所述声音信号中与所述识别单元所识别的特定的被摄体相对应的声音转换成字符的转换单元;和控制单元,对所述第1、第2记录再现单元、所述识别单元和所述转换单元进行控制,从所述第1记录介质再现所述影像信号和声音信号,并将该再现的影像信号和声音信号与根据由所述转换单元转换的字符生成的字幕信号记录在所述第2记录介质中。

说明书 :

信息记录再现装置和视频摄像机

技术领域

[0001] 本发明涉及一种搭载BD和HDD等多介质的盘记录再现装置。

背景技术

[0002] 作为本技术领域的背景技术例如有:日本专利特开2007-027990(专利文献1)。在该公报中记载如下内容:“技术课题:使对话气球或者字幕叠加的生成、编辑容易。解决手段:将动画数据输入到脸部检测单元103而检测出脸部特征量和脸部位置,并将动画数据输入至声音识别单元104而检测出声音特征量。将检测出的各个特征量传送至说话者确定单元107,与登记在声音·脸部对应数据存储单元106中的说话者特征量进行比较,从而确定该说话者的位置。将所确定的说话者的声音,利用声音识别单元105文本化。利用对话气球生成单元112根据说话者位置和文本数据来实现对话气球效果,利用运动图像生成单元114来将动画数据、声音数据以及对话气球数据整合到一起作成新的动画数据。”(参考其摘要)。
[0003] 此外,作为本技术领域的背景技术还有:日本专利特开2007-266793(专利文献2)。在该公报中记载了如下内容:“技术课题:在图像中的适当位置合成与声音对应的显示数据。解决手段:在再现动画时判断是否存在声音(步骤S325);在存在的时候,判断是否存在嘴(步骤S326)。在存在嘴的时候,判断是否存在多张嘴(步骤S328)。在该判断为否(NO),即显示出只有一张嘴的情况下,实施对话气球合成处理(步骤S332)。此外,在存在多张嘴的情况下,判断是否存在运动的嘴(步骤S329),以及判断运动的嘴是否只有1张(步骤S330);在运动的嘴只有1张的情况下,实施对话气球合成处理(步骤S332)。通过该对话气球合成处理,在对话气球物内合成文本数据从而形成对话气球文本数据,将该对话气球文本数据合成于上述被判断为一张嘴或者活动的嘴的嘴附近的背景之中”(参考其摘要)。
[0004] 专利文献1:日本专利特开2007-027990
[0005] 专利文献2:日本专利特开2007-266793

发明内容

[0006] 现如今,在视频摄像机市场中,考虑到不用担心盖写或使影像检索更容易等因素,记录介质的发展正在从磁带转向盘片。此外,作为记录介质而言,也不止是DVD一种方式,也出现了一些具有HDD(硬盘驱动器:Hard Disc Driver)或半导体存储器的产品。而且近来为了实现大容量化和高画质化,也出现了采用由Blu-rayDisc Association(蓝光盘协会:BDA)制定的次世代光盘标准Blu-rayDisc(蓝光盘)的记录设备。而且还有混合使用了HDD和BD等方式的混合型视频摄像机,这种视频摄像机能够使数据的交换等容易。不过,随着介质的大容量化,虽然进行了拍摄但却不观看其内容的用户越来越多,进而检索目标影像时消耗大量时间。应考虑到今后这种倾向也会持续下去。
[0007] 另一方面,在数字摄像机市场上,脸部识别的应用程序的应用已经成为了一种趋势。例如,已知具有检测脸部位置并配合该脸部而进行曝光控制和聚焦控制的产品。近来,在摄像机中也可以应用采用脸部识别技术的应用程序。例如,不仅是脸部检测曝光控制和聚焦控制,还出现了利用图像识别来辅助摄像(全景拍摄是否过早或过暗之类)的摄像机。对于这类摄像机而言,已知其识别技术成为了它的差别化技术的趋势所在。此外,今后,也可预想到不止是影像还可以应用对声音的识别。而且在实际便携领域内将声音进行文本化这样的应用程序等等也已经得到了应用。此外,在其它电视节目等中将被拍摄对象的会话等作为字幕展现的技术也很常见了,这种技术使得观看更加愉快。
[0008] 按照上述说明,考虑到随着存储容量的大容量化而增加了很多问题,为了解决这些问题,如何让人对所摄像的影像更感兴趣成为被关注的焦点。人们应该都希望能制作出那种让人想要再一次观看,而且无论看多少次都让人高兴的影像。而现况是,虽然在PC上可以对影像进行编辑,但是其还需要花费心力,而且如果没有一定经验和知识等的话,就很难编辑出那种颇具有重复观赏性的影像。
[0009] 这里提出了一种用便携式摄像机本体制作让人欣赏的影像的技术方案。具体而言,对于以HDD和BD作为介质的摄像机,在摄像时,尤其是在并非特意地以HDD方式摄像的情况下、在对BD转录时将摄像下的会话和语音文本化,将该信息还原制成带有字幕的影像。通过让该字幕符合BD标准的格式,即使用通用播放器也能欣赏带有字幕的影像。在TV等程序中如果能够在便携式摄像机本体上实现带有配好字幕显示的影像的话,那么用户就总能够欣赏到让人愉悦的影像。此外,通过结合脸部识别等方式,还实现了对出场人物的识别。如果利用其信息生成根据不同人显示的菜单的话,那么还可实现提高影像检索时的检索性能。
[0010] 本发明中提供了一种信息记录再现装置,其仅利用摄像机本体生成基于声音识别的带字幕的盘,且通过脸部识别生成能够按人物区别菜单,由此提高用户使用的方便性。
[0011] 为了实现上述装置,采用了如权利要求中所记载的结构。
[0012] 例如,本发明的信息记录再现装置,搭载有与多个记录介质对应的多个驱动器装置,能够进行依照对应于所述记录介质的标准的记录再现,具备:脸部和人物识别装置,从输入至所述信息记录再现装置内的影像信号识别出脸部或人物;从输入的声音信号识别出人声的声音识别装置;对来自所述脸部和人物识别装置和所述声音识别装置的所识别的结果进行管理的识别控制部;将由所述声音识别装置识别的语言文本化的声音文本化装置;和对多个介质彼此之间的数据交换进行管理的转录管理装置,在转录时根据声音生成字幕。
[0013] 根据本发明能够提供了一种使用方便性号的信息记录再现装置。例如,由于无需花多少功夫而能够只利用摄像机本体生成带字幕的盘,故而在通用播放器中就能欣赏带字幕的影像。此外,利用脸部识别的信息生成了按照不同人显示的菜单,故提高了影像检索性能。因此,能够对影像内容中的出场人物进行迅速检索。

附图说明

[0014] 图1是本系统的结构图。
[0015] 图2是表示记录时动作的图。
[0016] 图3是表示转录动作的图。
[0017] 图4是表示再现带字幕的内容的图。
[0018] 图5是表示转录源和转录目的之间关系的图。
[0019] 图6是表示符合标准的菜单的图。
[0020] 符号说明
[0021] 100操作部
[0022] 101系统控制部
[0023] 110影像输入部
[0024] 111AD/DA
[0025] 112信号处理部
[0026] 113影像压缩扩展部
[0027] 114显示部
[0028] 120麦克风
[0029] 121AMP
[0030] 122AD/DA
[0031] 123声音压缩扩展部
[0032] 124扬声器
[0033] 130大容量存储器
[0034] 131多路复用分离部
[0035] 132ATAPI/ATA部
[0036] 133介质R/W控制部
[0037] 134MMC控制部
[0038] 141DVD/BD
[0039] 142HDD
[0040] 143SD卡
[0041] 150人物脸部识别部
[0042] 151声音识别部
[0043] 160识别管理部
[0044] 170转录管理部
[0045] 180文本生成部
[0046] 190菜单生成部
[0047] 200第1场景
[0048] 201第2场景
[0049] 202第3场景
[0050] 203第1场景的管理信息
[0051] 204第2场景的管理信息
[0052] 205第3场景的管理信息
[0053] 300第1场景
[0054] 301第2场景
[0055] 302第3场景
[0056] 303第1场景的声音识别期间
[0057] 304第2场景的声音识别期间
[0058] 305第3场景的声音识别期间
[0059] 306第1场景的文本化
[0060] 307第2场景的文本化
[0061] 308第3场景的文本化
[0062] 400带字幕的显示
[0063] 401字幕
[0064] 500转录源的第1场景
[0065] 501转录源的第2场景
[0066] 502转录源的第3场景
[0067] 503转录目的的第1场景
[0068] 504转录目的的第2场景
[0069] 505转录目的的第3场景
[0070] 600菜单
[0071] 601第1场景的缩略图
[0072] 602第2场景的缩略图
[0073] 603第3场景的缩略图
[0074] 604显示条
[0075] 605命令菜单
[0076] 具体实施方式
[0077] 下面,参考附图对本发明的第一实施例进行说明。
[0078] 图1是摄像一体型记录装置的方框图。
[0079] 图1中,100是用户进行操作的操作部,是用于进行识别用的按键,其也包括录像/停止键和缩放键、记录模式的选择键等。101是系统控制部,其进行多路复用/分离处理和各种格式控制、对介质的读写控制、以及对其它各个部件的统一控制。110是用于对被摄体的图像进行成像用的光学透镜和将成像光转换成电子信号用的光电转换设备CCD传感器或者CMOS传感器,111是将影像的电子信号转换成数字信号的A/D转换器,112是用于实施转换处理以将被转换成为数字信号的图像信息转换成影像信号的信号处理部,113是按照MPEG2或者H.264那样的规定编码方式对影像信号进行压缩以及扩展处理的影像压缩扩展部。114是显示影像的显示部。而且,该显示部114还可以分为取景器内的显示部和设置在摄像机壳体外侧的可动式显示部。此外,120是将收集的声音转换成电子声音信号的麦克风,124是发出声音的扬声器,121是放大声音信号的放大器,122是将声音电子信号转换成数字信号的A/D转换器(D/A转换器),123是按照杜比数字(DolbyDigital)或Mpeg那样的规定编码方式对数字声音进行压缩和扩展处理的声音压缩扩展部,131是将在影像压缩扩展部113中生成的动画压缩流以及在声音压缩扩展部123中生成的声音压缩流多路复用的多路复用部,130是对由影像压缩扩展部113进行了压缩处理的图像数据、由声音压缩扩展部123进行了压缩处理的声音数据,以及它们的多路复用数据进行临时存储的大容量存储器,其作为缓冲用缓存使用。此外,ATAPI/ATA部132是按指定的标准的接口部,141是光盘,例如是BD、DVD等。此外,142是HDD(硬盘)等记录介质。介质R/W控制部133对记录介质141或142中记录再现用的动画图像的数据文件进行在指定文件形式下读写的控制。
[0080] 150是获取来自信号处理部的影像信号,识别脸部或人物的脸部人物识别部,151是根据声音压缩扩展部123的输入或者输出PCM数据进行声音识别的声音识别部。160是管理人物识别部150和声音识别部151的识别结果的管理部,170是管理转录的管理部,180是生成文本的文本生成部,190是生成依照标准的菜单的菜单生成部。
[0081] 134是MMC控制部,其使用于在具有SD卡那样的MMC接口的介质143中记录的场合。虽然一般是进行静止图像的记录,但是也可以将多路复用/分离部的结果转换成规定格式来进行动画数据记录。尤其是进行AVCHD的记录。
[0082] 这里,影像压缩扩展部113、声音压缩扩展部123、多路复用/分离部131、格式控制部150以及系统控制部100的各种功能,优选在微处理器中用程序实施的方式来实现,还可以将上述部件的一部分或者全部以硬件构成。此外,图1中控制线和信息线表示了从说明需要的角度考虑的部件,而并不仅限于表示产品上必需的所有控制线和信息线。实际上应考虑将基本所有的构成单元相互连接。
[0083] 图2是表示在记录中识别脸部或人物时的场景和管理信息之间的对应情况的图。将一次记录的单位称为一个场景,200就是场景1,201和202分别表示第2场景和第3场景。此外,203表示在第1场景中通过脸部和人物识别获取的管理信息。204和205分别表示第2场景和第3场景的管理信息。这里示出了在第1场景的A帧到B帧期间识别出一个登记名为“瞳”的状态。第2场景是一个没有识别出脸部或者人物的场景。第3场景是脸部或人物出场部分有两处的状态。该识别出的场景中一个是“佐藤和田中”,另一个是“百合子”。
[0084] 接着,使用图1和图2对记录时的识别动作进行说明。
[0085] 通过图1操作部100的操作选择为动画摄像模式时,系统控制部100识别到该选择之后对整个系统进行如下控制。利用驱动部(未图示)让CCD或者CMOS传感器110驱动为动画信号产生模式。然后,将通过光学透镜成像的图像在CCD或者CMOS传感器110中转换成电子信号,在A/D转换器111中转换成数字信号之后,用信号处理部112进行向影像数据的转换处理,之后,影像数据经影像压缩扩展部113的压缩处理,该压缩处理与在存储器130和影像压缩扩展部113之间的压缩行程中的影像数据进行交换,并且,进行转换处理成为顺序动画压缩流。在压缩同时,从来自信号处理部112的影像信号由人物脸部识别部150检测出图像中的脸部或者人物。此时的图像是以1帧为单位的影像,也可以将其尺寸重新调整为识别所需要的尺寸,以便于进行识别。识别结果送至识别管理部160,按照每个场景进行管理。例如,在第1场景中识别到1处脸部或者人物时,其管理信息就成为图2的
203信息。是否识别到的信息用1(有)、0(无)的方式来管理,此外,按照每个识别区间的最初和最后影像的帧信息进行了记录,在与事先登记的脸部一致的时候记录该名字。按照这里所述的方式进行识别的话,可见识别区间是从A到B帧(也可以是流中的时间信息),所识别出来的脸部或者说人物叫“瞳”。204是第2场景的信息,其中没有识别到任何对象。
205是第3场景的管理信息,此时,识别到的脸部或者人物的出场部分有两处,其中一个是在C到D帧期间内识别到“佐藤和田中”的场景,另一个显示的是从E到F帧期间内仅识别到“百合子”的状态。记录时记录图2那样的管理信息。
[0086] 另一方面,在麦克风120中集音的声音,经由AMP121和A/D转换器122在声音压缩扩展部123中进行压缩处理之后,临时存储在存储器130中。之后,将存储在存储器130中的由影像压缩扩展部113生成的动画压缩流和由声音压缩扩展部123生成的声音压缩流用多路复用/分离部131进行多路复用处理,将该多路复用处理数据临时存储在存储器130中。此时,格式控制部构建符合标准的格式,最后,将多路复用处理数据从存储器130中输出,经由介质R/W控制部133和ATAPI/ATA部132,以规定记录格式存储于存储介质141以及142中。本实施例中,是将其记录在HDD中。
[0087] 下面,使用图1和图3对以记录时的管理信息为基础,生成在转录时带字幕的光盘的操作进行说明。
[0088] 图3是对在转录时的文本化处理进行说明的图。
[0089] 300是第1场景,301和302分别表示第2场景和第3场景。此外,303表示了在第1场景中,在由脸部和人物识别获得的期间进行声音识别,将其结果文本化之后的状态。304和305分别示出了在第2场景和第3场景中的声音识别及其文本化处理过程。
[0090] 转录是一种可实现将HDD上存在的内容拷贝或者转移(移动)到光盘以及SD卡上的操作功能。更详细地说,是暂时读出HDD上的数据,将其分离成影像和声音等,之后,适合于转录目的的格式而再次压缩、多路复用,由此实现转录。在对该分离后的数据进行扩展的时间进行声音识别,并执行文本化处理,在再次多路复用时将该结果多路复用于影像和声音。所谓多路复用是,附加再现时间等信息而使其成为包(packet)的处理。此外,对于该多路复用方法而言,如果是BD,那么就要按照符合蓝光光盘协会(BDA)的标准的方法来进行,才能实现在通用播放器上显示字幕,故而这种方法必须使其符合一定标准。例如,在DVD、SD卡中,就需要分别符合AVCHD等的标准来进行记录。如果系统性能有富余,也可以在记录时与获取管理信息同时地进行声音识别。
[0091] 利用图1和图3对从HDD142转录到光盘141的动作进行具体说明。图1的操作部100中如果得到转录的支持,系统控制部101向转录管理部170通知要记录到何种光盘上。
指示并非只能从操作部发出,也可以是通过下拉菜单这样的指示方式来给出。转录管理部
170在转录之前,如果是BD就按照符合BD的标准进行多路复用处理的准备工作(准备所需的数据库等)。之后,根据介质R/W控制部133的指示将来自HDD142的内容经由ATAPI/ATA部132送至多路复用/分离部131。这里,虽然临时将影像和声音分离开来,但是分离的信息存储在临时大容量存储器中。此外,在想要改变影像和声音码率(rate)等情况下,也可临时通过影像压缩扩展部113或声音压缩扩展部123来将其再次压缩为所需要的码率。这里系统控制部101参考识别管理部160记录时生成的管理信息,获得了场景中哪些范围的帧中存在脸部和人物的信息。例如图3的声音识别区间303就与上述情况相当。在进行该帧部分的分离时,在多路复用分离部131中分离的声音压缩流经由大容量存储器,在声音压缩扩展部中转换为PCM(无压缩数据)。用声音识别部151对该转换后的PCM数据进行声音识别以识别出谈话内容。该识别信息在识别管理部160中进行临时管理之后,在文本生成部180中将该谈话内容文本化。这里,不能良好地识别的对话等也能够放弃。多路复用/分离部将文本化的对话内容字幕化,然后将影像和声音多路复用。对于BD而言,按照TS(传送流)形式多路复用,对于字幕将其作为显示图像(PG)流多路复用即可。同样,对图
3的声音识别区间304、305,对应地生成了文本化的307和308,用于再多路复用之际。DVD的情况下,也应该能生成符合标准的字幕,从而与该情况对应。
[0092] 下面在图4中示出了所生成的带字幕的盘的效果。
[0093] 图4是示出了字幕再现的例子的图。400是在符合标准的通用播放器上再现的画面,401是进入播放器的字幕再现功能后,显示字幕的图。
[0094] 如图4所示,如果是符合标准的通用的播放器,通过在播放器加入所附带的字幕再现功能能够确认字幕。这里虽然假定是图2的管理信息205的(佐藤、田中)两个人的情况,但也应明白会话出字幕的情况。尽管此次有关该期间时并未特别涉及,但是也可以对会话和字幕的时间进行严密管理从而实现嘴唇同步。
[0095] 如上所述,根据在记录中生成的管理信息,在转录时进行所期望期间的声音分析和文本化,将该文本化信息作为字幕而再多路复用,由此能够生成可在通用的播放器上欣赏的带字幕的光盘。由于会话以字幕形式表现,所以观赏充满乐趣。
[0096] 下面参考图1、图5和图6对本发明的第2实施例进行说明。
[0097] 图5是示出了在生成与脸部或人物相一致的菜单时的转录源和转录目的之间关系的图。500是转录源的第1场景。501和502分别表示转录源的第2场景和第3场景。503表示转录目的的第1场景,以“瞳”出场的部分作为第1场景。同样的,503和504分别表示,将“佐藤和田中”及“百合子”作为转录目的的第2场景及第3场景的图。
[0098] 图6是符合BD或DVD标准的菜单画面。该菜单可在符合标准的通用播放器上显示。
[0099] 600示出了菜单整体,601是与图5的503相当的场景的缩略图,同样的602和603是与图5中504和505相当的场景的缩略图。605表示菜单的命令。
[0100] 当利用图1的操作部100来支持菜单生成功能时,从系统控制部101向菜单生成部190发出指示,准备所需要的缩略图和背景等,利用多路复用/分离部进行符合标准的多路复用,并且,在光盘中记录菜单数据。
[0101] 在一般的菜单中,虽然对于摄像的每个场景均显示有缩略图,但是在这里,不仅如此,能够生成汇集了脸部或人物出场画面的菜单。具体而言,可如图5的503、504、505那样将人出场的部分识别为一个新的场景,例如从转录源的500,根据记录时的管理信息,对脸部、人物的登场部分进行分割并提取。同样地,准备504和505。如第一实施例所示,对如上所述新场景进行转录。此时,可以附加字幕也可以不附加字幕。之后,相对于转录目的的新场景,生成符合标准的菜单,由此,能够生成汇集另外人物或脸部的菜单。
[0102] 对于符合标准的菜单的生成方法虽然没有进行特别说明,但是只要是最终能够符合标准即可,因此无需使用特别的方法。
[0103] 尽管按照上述方式可实现,但在图6中,对于缩略图下的显示的制作方法并没有一定限制,可在菜单生成时追加类似“小姐”或“响声”的称谓。
[0104] 如上所述,由于能够生成脸部和人物出场部分的菜单,用户在通用播放器上就能够迅速发现其关注的被摄体。