一种视频内容同步新配音音频内容的方法及装置转让专利

申请号 : CN202210880783.1

文献号 : CN114945075B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 肖笛刘振颖李梓申赵少华赵磊刘孟卫

申请人 : 中广智诚科技(天津)有限公司

摘要 :

一种视频内容同步新配音音频内容的方法及装置,该方法通过对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;对翻译得到的目标语种文字内容进行目标语种语音合成;将前后配音时长进行比较;定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。本发明提高原语种视频转译为新配音语种视频的效率,节约了制作时间,降低人工成本,且使新配音语种视频观赏更加流畅。

权利要求 :

1.一种视频内容同步新配音音频内容的方法,其特征在于,包括:对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;

对视频的帧率进行识别,获得视频的帧率;

将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;

对翻译得到的目标语种文字内容进行目标语种语音合成;

将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;

定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;

根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;

对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频;

根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理;

进行帧数增加处理的步骤包括:

获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;

将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;

采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;

对插帧处理后的视频进行视频码率调整得到拉长视频片段;

将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频;

前后帧差别过大则判断为场景切换,不进行过渡插帧,而是插入重复帧拉长,否则计算前后帧差别,插入过渡帧,过渡帧由算法模型依据前后帧生成;

SSIM基于不同的窗口做计算,假设窗口的x,y的大小是N*N,则存在以下关系:其中:μx是x的平均值;μy是x的平均值; 是x的方差; 是y的方差;σxy是x和y的协方

2 2

差;c1=(k1L) c2=(k2L) 是维持稳定的两个变量;

视频码率为fps=int(2*exp*fps/rate);其中,exp为插帧指数1或2,根据拉长程度改变,1为插入1个过渡帧,最多拉长1倍,2为插入3个过渡帧,最多拉长4倍;rate为拉长比率:视频需要长度/视频原长度。

2.根据权利要求1所述的一种视频内容同步新配音音频内容的方法,其特征在于,还包括,对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。

3.根据权利要求1所述的一种视频内容同步新配音音频内容的方法,其特征在于,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;

采用语音合成系统将目标语种文字内容合成为目标语种语音。

4.一种视频内容同步新配音音频内容的装置,其特征在于,包括:音频内容识别模块,用于对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;

视频帧率识别模块,用于对视频的帧率进行识别,获得视频的帧率;

目标语种文字获取模块,用于将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;

目标语种语音合成模块,用于对翻译得到的目标语种文字内容进行目标语种语音合成;

配音时长比较模块,用于将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;

时间点定位模块,用于定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;

插帧处理模块,用于根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;

新配音视频生成模块,用于对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频;

所述插帧处理模块中,根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理;

所述插帧处理模块包括:

拉长信息获取子模块,用于获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;

视频切割子模块,用于将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;

视频帧对比子模块,用于采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;

视频码率子模块,用于对插帧处理后的视频进行视频码率调整得到拉长视频片段;

插帧视频生成子模块,用于将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频;

前后帧差别过大则判断为场景切换,不进行过渡插帧,而是插入重复帧拉长,否则计算前后帧差别,插入过渡帧,过渡帧由算法模型依据前后帧生成;

SSIM基于不同的窗口做计算,假设窗口的x,y的大小是N*N,则存在以下关系:其中:μx是x的平均值;μy是x的平均值; 是x的方差; 是y的方差;σxy是x和y的协方

2 2

差;c1=(k1L) c2=(k2L) 是维持稳定的两个变量;

视频码率为fps=int(2*exp*fps/rate);其中,exp为插帧指数1或2,根据拉长程度改变,1为插入1个过渡帧,最多拉长1倍,2为插入3个过渡帧,最多拉长4倍;rate为拉长比率:视频需要长度/视频原长度。

5.根据权利要求4所述的一种视频内容同步新配音音频内容的装置,其特征在于,还包括人工校对模块,用于对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。

6.根据权利要求4所述的一种视频内容同步新配音音频内容的装置,其特征在于,所述目标语种文字获取模块中,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;

所述目标语种语音合成模块中,采用语音合成系统将目标语种文字内容合成为目标语种语音。

说明书 :

一种视频内容同步新配音音频内容的方法及装置

技术领域

[0001] 本发明属于视频处理技术领域,具体涉及一种视频内容同步新配音音频内容的方法及装置。

背景技术

[0002] 目前,在将某一语种的视频配音转译为另一语种配音的视频文件制作过程中,为保持语义的完整通顺且符合当地语言习惯,新转译语种中一些配音文件时间长度会超过视频中相应画面的时间长度。
[0003] 现有技术中,视频编辑人员通过缩短、替换文字等方式,调整新转译语种的文字数量,或加快新转译语种的配音语速,以求新转译语种配音与视频画面时间长度的匹配,存在效率低、耗时长、易出错、人工成本高等问题

发明内容

[0004] 为此,本发明提供一种视频内容同步新配音音频内容的方法及装置,以全部或部分解决背景技术中的问题。
[0005] 为了实现上述目的,本发明提供如下技术方案:一种视频内容同步新配音音频内容的方法,包括:
[0006] 对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;
[0007] 对视频的帧率进行识别,获得视频的帧率;
[0008] 将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;
[0009] 对翻译得到的目标语种文字内容进行目标语种语音合成;
[0010] 将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;
[0011] 定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;
[0012] 根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;
[0013] 对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。
[0014] 作为视频内容同步新配音音频内容的方法的优选方案,还包括,对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。
[0015] 作为视频内容同步新配音音频内容的方法的优选方案,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;
[0016] 采用语音合成系统将目标语种文字内容合成为目标语种语音。
[0017] 作为视频内容同步新配音音频内容的方法的优选方案,根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理。
[0018] 作为视频内容同步新配音音频内容的方法的优选方案,进行帧数增加处理的步骤包括:
[0019] 获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;
[0020] 将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;
[0021] 采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;
[0022] 对插帧处理后的视频进行视频码率调整得到拉长视频片段;
[0023] 将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频。
[0024] 本发明还提供一种视频内容同步新配音音频内容的装置,包括:
[0025] 音频内容识别模块,用于对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;
[0026] 视频帧率识别模块,用于对视频的帧率进行识别,获得视频的帧率;
[0027] 目标语种文字获取模块,用于将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;
[0028] 目标语种语音合成模块,用于对翻译得到的目标语种文字内容进行目标语种语音合成;
[0029] 配音时长比较模块,用于将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;
[0030] 时间点定位模块,用于定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;
[0031] 插帧处理模块,用于根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;
[0032] 新配音视频生成模块,用于对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。
[0033] 作为视频内容同步新配音音频内容的装置优选方案,还包括人工校对模块,用于对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。
[0034] 作为视频内容同步新配音音频内容的装置优选方案,所述目标语种文字获取模块中,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;
[0035] 所述目标语种语音合成模块中,采用语音合成系统将目标语种文字内容合成为目标语种语音。
[0036] 作为视频内容同步新配音音频内容的装置优选方案,所述插帧处理模块中,根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理。
[0037] 作为视频内容同步新配音音频内容的装置优选方案,所述插帧处理模块包括:
[0038] 拉长信息获取子模块,用于获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;
[0039] 视频切割子模块,用于将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;
[0040] 视频帧对比子模块,用于采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;
[0041] 视频码率子模块,用于对插帧处理后的视频进行视频码率调整得到拉长视频片段;
[0042] 插帧视频生成子模块,用于将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频。
[0043] 本发明具有如下优点:通过对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;对视频的帧率进行识别,获得视频的帧率;将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;对翻译得到的目标语种文字内容进行目标语种语音合成;将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。本发明提高了原语种视频转译为新配音语种视频的效率,节约了制作时间,降低了人工成本,且使新配音语种视频观赏更加流畅。

附图说明

[0044] 为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
[0045] 图1为本发明实施例1中提供的视频内容同步新配音音频内容的方法流程示意图;
[0046] 图2为本发明实施例1中提供的视频内容同步新配音音频内容的方法中插帧示意图;
[0047] 图3为本发明实施例2中提供的视频内容同步新配音音频内容的装置架构示意图。

具体实施方式

[0048] 以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049] 相关技术中,解决视频与新配音声画同步的方式是通过视频编辑人员人工手动调整来完成,通常包括以下步骤:
[0050] 第一步,视频编辑人员将原语种视频配音字幕内容翻译为新语种配音字幕内容;
[0051] 第二步,视频编辑人员通过语音合成软件将新语种配音字幕文件生成为配音音频文件;
[0052] 第三步,视频编辑人员将配音音频文件放入视频编辑器的音轨中;
[0053] 第四步,视频编辑人员通过观看视频判断,找出视频画面与音频内容时长不匹配的时段,然后通过提高语音合成的语速缩短配音音频文件的时长来实现音频内容与视频画面的时长匹配;或者视频编辑人员重新对新语种的文字数量进行调整,然后通过语音合成生成时间长度较短的配音文件与视频画面进行时长匹配;
[0054] 第五步,视频编辑人员利用视频编辑软件将新语种配音音频文件与视频画面文件进行合并生成新语种的视频。
[0055] 现有通过视频编辑人员人工校对的方式完成视频画面和配音音频时长的同步,存在效率低、耗时长,易出错,人工成本高的缺点。大多数情况下,视频编辑人员通过反复调整语音合成语速或反复调整配音内容字数才可以将配音音频文件的时长与视频画面时长进行匹配。视频文件较长且视频画面与音频文件时长不匹配的时段较多时,视频编辑人员容易遗漏未匹配画面的音频文件,造成编辑失误。视频编辑人员在调整一个视频配音文件时花费的时间较长,造成单位时间成本提高。对不同语种的配音内容进行不改变原意的情况下完成配音内容字数调整,大多需要专业的翻译人员才可以完成,额外增加了人工成本。
[0056] 有鉴于此,本发明提供一种视频内容同步新配音音频内容的方法及装置,以实现调整视频画面与新配音音频时长不同步或不匹配,解决现有技术存在效率低、耗时长、易出错、人工成本高等问题。
[0057] 实施例1
[0058] 参见图1和图2,本发明实施例提供一种视频内容同步新配音音频内容的方法,包括以下步骤:
[0059] S1、对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;
[0060] S2、对视频的帧率进行识别,获得视频的帧率;
[0061] S3、将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;
[0062] S4、对翻译得到的目标语种文字内容进行目标语种语音合成;
[0063] S5、将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;
[0064] S6、定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;
[0065] S7、根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;
[0066] S8、对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。
[0067] 本实施例中,还包括,对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。为了确保原语种文字内容和原语种配音音频出现的时间段的准确性,人工对原语种文字内容和原语种配音音频出现的时间段进行核对,避免出错。当然,此处的人工核对相比传统的人工处理,只是进行核对这一步,并不会消耗太长时间和增加成本。
[0068] 本实施例中,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;采用语音合成系统将目标语种文字内容合成为目标语种语音。
[0069] 具体的,机器翻译系统能够实现机器翻译,通常包括机器词典、句法语义分析规则、原语译转换规则、译语生成规则以及翻译支援系统等。机器翻译系统有直译式机器翻译系统、规则式机器翻译系统、中介语式机器翻译系统、知识库式机器翻译系统、统计式机器翻译系统、范例式机器翻译系统,可以根据需要进行选择使用。
[0070] 具体的,语音合成系统能将任意文字信息实时转化为标准流畅的语音朗读出来,通过计算机语音合成可以将任意文本转换成具有高自然度的语音。如科大讯飞语音合成系统、百度AI语音合成系统。
[0071] 本实施例中,根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理。
[0072] 其中,步骤S7中,进行帧数增加处理的步骤包括:
[0073] S71、获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;
[0074] S72、将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;
[0075] S73、采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;
[0076] S74、对插帧处理后的视频进行视频码率调整得到拉长视频片段;
[0077] S75、将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频。
[0078] 具体的,接收视频拉长信息,格式包括需拉长视频开始时间,结束时间,需拉长至多长时间,单位毫秒。将视频补帧切割,补帧是因为一般视频格式都是关键帧格式,即关键帧保留完整图片,后若干帧只记录图片变化,节省存储空间,将视频每一帧补全,并将视频每段需拉长的部分及中间不需要处理的部分都切割成段。
[0079] 步骤S73中,采用MS‑SSIM损失函数对视频前后帧进行比对,SSIM的全称为structural similarity index,即为结构相似性,是一种衡量两幅图像相似度的指标。
[0080] 具体的,SSIM可以基于不同的窗口做计算,假设窗口的x,y的大小是N*N,则存在以下关系:
[0081]
[0082] 其中:
[0083] μx是x的平均值;μy是x的平均值; 是x的方差; 是y的方差;σxy是x和y的协方2 2
差;c1=(k1L) c2=(k2L) 是维持稳定的两个变量。
[0084] L是像素的动态范围即2bitsperpixel‑1(如果是常用的真彩24bit图像,bitsperpixel=8),k1=0.01和k2=0.03是默认值。
[0085] 具体的,根据对比结果判断如何对视频进行插帧,如前后帧差别过大则判断为场景切换,不进行过渡插帧,而是插入重复帧拉长,否则计算前后帧差别,插入过渡帧,过渡帧由算法模型依据前后帧生成。
[0086] 具体的,视频码率为fps=int(2*exp*fps/rate);其中,exp为插帧指数(1或2),根据拉长程度改变,1为插入1个过渡帧,则可以最多拉长1倍,2为插入3个过渡帧则可以最多拉长4倍;rate为拉长比率(视频需要长度/视频原长度)。
[0087] 具体的,步骤S74中,处理经过插帧后的视频,使用ffmpeg改变为视频码率为原码率,得到所需拉长视频片段。
[0088] 综上所述,本发明通过对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;对视频的帧率进行识别,获得视频的帧率;将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;对翻译得到的目标语种文字内容进行目标语种语音合成;将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。本发明提高了原语种视频转译为新配音语种视频的效率,节约了制作时间,降低了人工成本,且使新配音语种视频观赏更加流畅。
[0089] 需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0090] 需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0091] 实施例2
[0092] 参见图3,本发明实施例2还提供一种视频内容同步新配音音频内容的装置,包括:
[0093] 音频内容识别模块1,用于对视频中的音频内容进行识别,识别出每段音频的原语种文字内容和原语种配音音频出现的时间段;
[0094] 视频帧率识别模块2,用于对视频的帧率进行识别,获得视频的帧率;
[0095] 目标语种文字获取模块3,用于将识别出的每段音频的原语种文字内容进行翻译,获得目标语种文字内容;
[0096] 目标语种语音合成模块4,用于对翻译得到的目标语种文字内容进行目标语种语音合成;
[0097] 配音时长比较模块5,用于将每段音频的原语种配音时长和目标语种语音合成后的配音时长进行比较;
[0098] 时间点定位模块6,用于定位目标语种语音合成后的配音时长超出原语种配音时长的音频在视频时间轴上的视频时间点位置,计算出超出时长;
[0099] 插帧处理模块7,用于根据定位的视频时间点、计算的超出时长和对应的视频帧率,对视频的画面进行视频帧数增加处理;
[0100] 新配音视频生成模块8,用于对视频画面进行帧数增加处理后,将视频画面与目标语种音频文件合并,获得新配音视频。
[0101] 本实施例中,还包括人工校对模块,用于对识别出的每段音频的原语种文字内容和原语种配音音频出现的时间段进行人工校对。
[0102] 本实施例中,所述目标语种文字获取模块3中,采用机器翻译系统将识别出的每段音频的原语种文字内容翻译为目标语种文字内容;
[0103] 所述目标语种语音合成模块4中,采用语音合成系统将目标语种文字内容合成为目标语种语音。
[0104] 本实施例中,所述插帧处理模块7中,根据定位的视频时间点、计算的超出时长和对应的视频帧率确定视频插帧的数量,在原语种配音音频结束时间点开始对视频的画面进行帧数增加处理。
[0105] 本实施例中,所述插帧处理模块7包括:
[0106] 拉长信息获取子模块71,用于获取视频拉长信息,所述拉长信息包括需拉长视频开始时间,视频结束时间,视频需拉长时间;
[0107] 视频切割子模块72,用于将视频进行补帧切割,并将视频中每段需拉长的部分及不需要处理的部分切割成段;
[0108] 视频帧对比子模块73,用于采用MS‑SSIM损失函数对视频的前后帧进行比对,根据比对结果判断对视频进行插帧的方式;
[0109] 视频码率子模块74,用于对插帧处理后的视频进行视频码率调整得到拉长视频片段;
[0110] 插帧视频生成子模块75,用于将拉长视频片段和所相邻的不需要处理的视频片段拼接生成完整的插帧视频。
[0111] 需要说明的是,上述装置各模块之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
[0112] 实施例3
[0113] 本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有视频内容同步新配音音频内容的方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的视频内容同步新配音音频内容的方法的指令。
[0114] 计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk、SSD))等。
[0115] 实施例4
[0116] 本发明实施例4提供一种电子设备,包括:存储器和处理器;
[0117] 所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的视频内容同步新配音音频内容的方法。
[0118] 具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
[0119] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
[0120] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0121] 虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。