一种视频的脚本化方法转让专利
申请号 : CN202111519420.7
文献号 : CN113923521B
文献日 : 2022-03-08
发明人 : 严华培 , 王红星
申请人 : 深圳市大头兄弟科技有限公司
摘要 :
权利要求 :
1.一种视频的脚本化方法,其特征在于,所述方法包括:获取待处理的视频文件;
对所述视频文件进行镜头拆分,得到若干个分镜文件,其中,所述分镜文件包括分镜镜头以及分镜音频;
针对每一个所述分镜文件,对该分镜文件中的分镜镜头进行信息提取,得到该分镜镜头对应的镜头信息,其中,所述镜头信息包括镜头标签,所述镜头标签包括第一属性标签和第二属性标签,所述第一属性标签包括人物标签,所述第二属性标签包括动作标签和/或表情标签,其中,在针对每一个所述分镜文件,对该分镜文件中的分镜镜头进行信息提取,得到该分镜镜头对应的镜头信息之后,还包括:对所有所述第一属性标签为人物标签的元素图像进行聚类,得到若干个人物图像集;
根据预设的角色标签集,确定每一个所述人物图像集对应的角色标签;以及,对该分镜文件中的分镜音频进行音频处理,得到该分镜音频对应的音频信息,其中,所述音频信息包括音乐信息和/或人声信息,所述对该分镜文件中的分镜音频进行音频处理,得到该分镜音频对应的音频信息包括:对每一个所述分镜音频进行语音识别,得到所述分镜音频对应的文本信息;
当基于预设的音乐识别模型确定该分镜音频中存在音乐时,对所述分镜音频进行歌曲识别,得到该分镜音频中的音乐信息,其中,所述音乐信息包括音乐歌词;
根据所述音乐歌词,对所述文本信息进行过滤,得到所述分镜音频对应的人声文本;
针对每一个所述分镜音频,提取该分镜音频中的声纹特征;
根据所述声纹特征,确定所述人声文本中与每一个所述角色标签对应的对白文本;
其中,所述根据所述声纹特征,确定所述人声文本中与每一个所述角色标签对应的对白文本包括:
将所述声纹特征与所述角色标签对应,得到角色声纹关系,其中,所述将所述声纹特征与所述角色标签对应,得到角色声纹关系包括:根据所述角色标签和所述声纹特征对应的时间,生成若干个所述角色标签对应的候选关系;
针对每一个所述角色标签,选择该角色标签对应的数量最多的候选关系作为该角色标签对应的角色声纹关系;
根据所述角色声纹关系以及每一个所述声纹特征对应的时间段,确定每一个所述角色标签对应的对话时间段;
针对每一个所述角色标签,将该角色标签对应的对话时间段内的人声文本作为该角色标签对应的对白文本;
根据所述镜头信息以及所述音频信息,生成与所述视频文件对应的分镜脚本。
2.根据权利要求1所述视频的脚本化方法,其特征在于,所述对所述视频文件进行镜头拆分,得到若干个分镜文件包括:对所述视频文件进行分轨,得到图像轨道以及音频轨道;
针对所述图像轨道中的第N帧图像,计算该第N帧图像与第N+1帧图像之间的帧差,其中,N为小于或等于M的正整数,M为所述图像轨道中帧图像的数量;
当所述帧差大于预设的帧差阈值时,确定该第N帧图像为镜头结束帧,该第N+1帧图像为镜头起始帧,其中,第一帧图像为镜头起始帧,第M帧为镜头结束帧;
根据所述镜头起始帧与所述镜头结束帧,对所述图像轨道进行拆分,得到若干个分镜镜头,以及对所述音频轨道进行拆分,得到与所述分镜镜头对应的分镜音频。
3.根据权利要求2所述视频的脚本化方法,其特征在于,所述针对所述图像轨道中的第N帧图像,计算该第N帧图像与第N+1帧图像之间的帧差包括:计算所述第N帧图像对应的第一色阶直方图,以及计算所述第N+1帧图像对应的第二色阶直方图;
计算所述第一色阶直方图以及所述第二色阶直方图之间的差异面积,得到所述第N帧图像与所述第N+1帧图像之间的帧差。
4.根据权利要求3所述视频的脚本化方法,其特征在于,所述针对每一个所述分镜文件,对该分镜文件中的分镜镜头进行信息提取,得到该分镜镜头对应的镜头信息包括:针对每一个所述分镜镜头中的每一个帧图像,对该帧图像进行物体识别,得到该帧图像对应的若干个元素图像,以及每一个所述元素图像对应的第一属性标签;
针对每一个所述第一属性标签为人物标签的元素图像,对该元素图像进行状态识别,得到该元素图像对应的第二属性标签;
对每一个所述元素图像对应的第一属性标签和第二属性标签进行查重,得到该分镜镜头对应的镜头标签。
5.根据权利要求4所述视频的脚本化方法,其特征在于,所述第一属性标签还包括动物标签和/或物体标签。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~5任意一项所述的视频的脚本化方法中的步骤。
7.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~5任意一项所述的视频的脚本化方法中的步骤。
说明书 :
一种视频的脚本化方法
技术领域
背景技术
据脚本拍摄后的成果。一段视频的脚本具有重要的学习价值,其采用的分镜、对话的进行方
式、素材的选用等方面都可以为学习者提供巨大的帮助。精彩的视频,其脚本可以作为学习
对象,糟糕的视频,其脚本可以作为反面教材以及改进的对象。
量的时间以及精力。因此,目前对于视频的脚本化,需要大量的人力物力,效率极低。
发明内容
括:
化方法中的步骤。
分镜文件中的分镜镜头,也就是图像集,以及分镜音频进行信息的提取,得到对应的镜头信
息和音频信息,最后根据镜头信息以及音频信息,生成该视频文件对应的镜头脚本。本方案
能够自动对输入的视频文件进行脚本化,不再需要复杂的人工记录,例如截屏、对白翻译,
方便用户对脚本内容进行修改以及学习。
附图说明
具体实施方式
体实施例仅用以解释本发明,并不用于限定本发明。
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元
件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在
中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的
意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义
来解释。
镜头进行切换实现的。例如第一个镜头为A说话,第二个镜头为B说话,第三个镜头又轮到A
说话,结合音频辅助,呈现出A与B进行对话的表象。脚本既是对每一个镜头的内容进行记
录。因此,为了生成分镜脚本,先对视频文件进行拆分,得到分镜文件。这一拆分不仅是对视
频文件的帧图像进行拆分,得到分镜镜头,还包括对视频文件的音频进行拆分,得到分镜音
频。因此,一个分镜文件中包括若干张帧图像组成的分镜镜头,还包括由一段音频组成的分
镜音频。
其主要是通过计算边界的变化程度来确定镜头的边界。先对每一个帧图像进行边缘化,得
到边缘帧图像。然后计算第N边缘帧图像与第N+1边缘帧图像之间的总体位移,并根据总体
位移,对第N边缘帧图像以及第N+1边缘帧图像进行配准,其中,N为小于或的等于M的正整
数,M为所述图像轨道中帧图像的数量。然后计算相邻第N边缘帧图像与第N+1边缘帧图像中
边缘的数量和位置。将边缘变化的比例作为帧差,即边缘从第N边缘帧到第N+1边缘帧图像
发生偏移的比例。帧差越大,镜头发生偏移得越大,越可能为分镜得节点。
应的第N帧图像为镜头结束帧。
像之间发生镜头改变时,其在灰度以及亮度上常常会发生骤变。因此,先计算第N帧图像对
应的第一色阶直方图,以及计算所述第N+1帧图像对应的第二色阶直方图。然后计算第一色
阶直方图以及第二色阶直方图之间的差异面积,得到两个帧图像之间的帧差。第一色阶直
方图与第二色阶直方图的差异面积越小,说明两个帧图像之间的相似度越高,不存在镜头
转换的概率越高;第一色阶直方图与第二色阶直方图的差异面积越大,说明两个帧图像之
间的相似度越低,不存在镜头转换的概率越低。这种方式相较于第一种而言,计算量更小且
更为通用。
算第N帧图像与第N+1帧图像之间的帧差,从而确定镜头起始帧以及镜头结束帧。
道对应的时间段相同,因此,可以根据镜头起始帧对应的时间戳,以及镜头结束帧对应的时
间戳,将音频轨道拆分为多段,得到与每一个分镜镜头对应的分镜音频。将彼此对应的分镜
镜头以及分镜音频作为一个分镜文件。
音频对应的音频信息。
应的镜头信息。
比较图像之间的综合帧差,其中,比较图像为该分镜镜头中该帧图像以外的帧图像。综合帧
差为对该帧图像与各个比较图像之间的帧差进行统计分析后的数值,该综合帧差用于衡量
各个帧图像之间的变化,可为平均值、中位数、方差等。确定最小的综合帧差对应的帧图像
为该分镜镜头对应的标识图像。
信息过于繁杂,若视频较长,不利于信息的整理,因此在本实施例的第二种信息提取的方式
中,是以镜头标签等形式作为镜头信息。其具体过程为:
像输入该物体识别模型中,该物体识别模型提取该帧图像中每一个物体所在的区域,得到
与该物体对应的元素图像。并基于预先设定的分类类别,确定每一个元素图像可能对应的
分类类别,作为其对应的第一属性标签。第一属性标签即物体的第一层类别标签,例如人物
标签、动物标签、物体标签。此外,还可以更细化,例如标签为“猫”、“椅子”、“男人”等。
镜文件中,存在人物A和人物B,包含人物A的元素图像以及包含人物B的元素图像都对应的
第一属性标签为人物标签。先将所有第一属性标签为人物标签的元素图像进行聚类,得到
多个人物图像集。然后根据预设的角色标签集,为每一个人物图像集确定一个角色标签,用
于区分不同所有视频文件中的人物。聚类的方式可采用K‑means等算法,以用于后续对人物
对话进行区分。预先设定的角色标签集可以为用户自行设定的标签,也可以为默认设置的
标签,例如直接以角色A和角色B命名。例如人物A对应的角色标签为角色A,人物B对应的角
色标签为角色B。
作、表情等状态进行识别,得到该元素对应的第二属性标签。第二属性标签即可包括动作标
签和/或表情标签。
素图像输入该状态识别模型中,状态识别模型对该元素图像进行状态识别,得到该元素图
像对应的第二属性标签。例如某一元素图像对应的角色标签为角色A,对应的第二属性标签
为微笑,则可以提取得到“角色A在微笑”这一信息。
音乐,对分镜音频进行歌曲识别以及语音识别,因此音频信息包含旁白的文字以及背景音
乐的名称等信息。以MV(音乐短篇,Music Vedio)为例,分镜音频为歌曲,对分镜音频进行歌
曲识别,因此音频信息为歌曲的歌词。以电视剧为例,分镜音频为对话,因此,对分镜音频进
行语音识别,得到的音频信息为对白文本。
一个分镜镜头为10s,带有人声的音乐播放3秒,后续7s人物A在与人物B对话。因此,为了提
高对白文本的精确度,本实施例提供一种音频处理方式,如图4所示,具体如下:
再对降噪音频进行语音识别,得到文本信息,从而提高文本信息的准确度。
种音乐识别模型可以基于音频指纹实现,例如对音频做FFT(Fast Fourier Transform,快
速傅里叶变换),在频域上取极值点作为特征点,把每隔一段时间内、一定频率范围内极值
点进行配对。预先设定一个匹配阈值,将最为匹配的歌曲作为该分镜音频对应的分镜歌曲,
当匹配的数量小于匹配阈值,则确定为该分镜音频中不存在音乐。匹配到分镜歌曲后,在预
设的数据库中提取该分镜音频的音乐信息,该音乐信息可包括分配歌曲的音乐名称、音乐
歌词等信息。
声纹特征以确定对话具体是哪一个人物说出的。其过程包括:
镜音频中不同来源的对话。因此先提取每一个所述分镜音频中的声纹特征,提取方式可高
斯混合模型等方式。
话时间段。再根据对话时间段对应的人声文本作为该角色标签对应的对白文本。在确定角
色声纹关系方面,在第一种确定角色声纹关系的方式中,在一个分镜文件中,实际情况为角
色A在说话,然后角色B走进镜头来说话,因此该分镜文件的角色标签为角色A和角色B,声纹
特征为声纹特征A以及声纹特征B,该分镜文件对应的初始关系为“角色A对应声纹特征A”、
“角色B对应声纹特征A”以及“角色B对应声纹特征B”。
应声纹特征A”以及“角色B对应声纹特征B”。
征之间的关系作为候选关系,然后基于整个视频文件对应的所有候选关系,确定候选关系
中角色声纹关系。
系为“角色A对应声纹特征A”和“角色对应声纹特征C”。
声纹特征A”、“角色A对应声纹特征B”、“角色B对应声纹特征A”以及“角色B对应声纹特征B”。
分镜对应的候选关系为“角色A对应声纹特征B”。
量为3,数量最多,因此,将“角色A对应声纹特征A”确定为角色声纹关系。
对白文本。
对应的信息都写入该脚本文件后,生成所述视频文件对应的分镜脚本。
(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接
口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户
引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令,以执行上
述实施例中的方法。
22中的软件程序、命令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方
法。
外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动
硬盘、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,
RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态计算机可读存储介质。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。