一种视频的脚本化方法转让专利

申请号 : CN202111519420.7

文献号 : CN113923521B

文献日 : 2022-03-08

本发明公开了一种视频的脚本化方法，所述方法包括获取待处理的视频文件；对所述视频文件进行镜头拆分，得到若干个分镜文件，其中，所述分镜文件包括分镜镜头以及分镜音频；针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息；对该分镜文件中的分镜音频进行音频处理，得到该分镜音频对应的音频信息；根据所述镜头信息以及所述音频信息，生成与所述视频文件对应的分镜脚本。本发明能够自动将视频转换为脚本文件，方便快捷。

1.一种视频的脚本化方法，其特征在于，所述方法包括：获取待处理的视频文件；

对所述视频文件进行镜头拆分，得到若干个分镜文件，其中，所述分镜文件包括分镜镜头以及分镜音频；

针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息，其中，所述镜头信息包括镜头标签，所述镜头标签包括第一属性标签和第二属性标签，所述第一属性标签包括人物标签，所述第二属性标签包括动作标签和/或表情标签，其中，在针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息之后，还包括：对所有所述第一属性标签为人物标签的元素图像进行聚类，得到若干个人物图像集；

根据预设的角色标签集，确定每一个所述人物图像集对应的角色标签；以及，对该分镜文件中的分镜音频进行音频处理，得到该分镜音频对应的音频信息，其中，所述音频信息包括音乐信息和/或人声信息，所述对该分镜文件中的分镜音频进行音频处理，得到该分镜音频对应的音频信息包括：对每一个所述分镜音频进行语音识别，得到所述分镜音频对应的文本信息；

当基于预设的音乐识别模型确定该分镜音频中存在音乐时，对所述分镜音频进行歌曲识别，得到该分镜音频中的音乐信息，其中，所述音乐信息包括音乐歌词；

根据所述音乐歌词，对所述文本信息进行过滤，得到所述分镜音频对应的人声文本；

针对每一个所述分镜音频，提取该分镜音频中的声纹特征；

根据所述声纹特征，确定所述人声文本中与每一个所述角色标签对应的对白文本；

其中，所述根据所述声纹特征，确定所述人声文本中与每一个所述角色标签对应的对白文本包括：

将所述声纹特征与所述角色标签对应，得到角色声纹关系，其中，所述将所述声纹特征与所述角色标签对应，得到角色声纹关系包括：根据所述角色标签和所述声纹特征对应的时间，生成若干个所述角色标签对应的候选关系；

针对每一个所述角色标签，选择该角色标签对应的数量最多的候选关系作为该角色标签对应的角色声纹关系；

根据所述角色声纹关系以及每一个所述声纹特征对应的时间段，确定每一个所述角色标签对应的对话时间段；

针对每一个所述角色标签，将该角色标签对应的对话时间段内的人声文本作为该角色标签对应的对白文本；

根据所述镜头信息以及所述音频信息，生成与所述视频文件对应的分镜脚本。

2.根据权利要求1所述视频的脚本化方法，其特征在于，所述对所述视频文件进行镜头拆分，得到若干个分镜文件包括：对所述视频文件进行分轨，得到图像轨道以及音频轨道；

针对所述图像轨道中的第N帧图像，计算该第N帧图像与第N+1帧图像之间的帧差，其中，N为小于或等于M的正整数，M为所述图像轨道中帧图像的数量；

当所述帧差大于预设的帧差阈值时，确定该第N帧图像为镜头结束帧，该第N+1帧图像为镜头起始帧，其中，第一帧图像为镜头起始帧，第M帧为镜头结束帧；

根据所述镜头起始帧与所述镜头结束帧，对所述图像轨道进行拆分，得到若干个分镜镜头，以及对所述音频轨道进行拆分，得到与所述分镜镜头对应的分镜音频。

3.根据权利要求2所述视频的脚本化方法，其特征在于，所述针对所述图像轨道中的第N帧图像，计算该第N帧图像与第N+1帧图像之间的帧差包括：计算所述第N帧图像对应的第一色阶直方图，以及计算所述第N+1帧图像对应的第二色阶直方图；

计算所述第一色阶直方图以及所述第二色阶直方图之间的差异面积，得到所述第N帧图像与所述第N+1帧图像之间的帧差。

4.根据权利要求3所述视频的脚本化方法，其特征在于，所述针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息包括：针对每一个所述分镜镜头中的每一个帧图像，对该帧图像进行物体识别，得到该帧图像对应的若干个元素图像，以及每一个所述元素图像对应的第一属性标签；

针对每一个所述第一属性标签为人物标签的元素图像，对该元素图像进行状态识别，得到该元素图像对应的第二属性标签；

对每一个所述元素图像对应的第一属性标签和第二属性标签进行查重，得到该分镜镜头对应的镜头标签。

5.根据权利要求4所述视频的脚本化方法，其特征在于，所述第一属性标签还包括动物标签和/或物体标签。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～5任意一项所述的视频的脚本化方法中的步骤。

7.一种终端设备，其特征在于，包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1～5任意一项所述的视频的脚本化方法中的步骤。

一种视频的脚本化方法

技术领域

[0001] 本发明涉及交互系统，特别涉及一种视频的脚本化方法。

背景技术

[0002] 脚本是电影、戏剧创作中的重要一环，它不仅确定整个故事发展的大纲，还可以用来确定视频最终呈现的效果。脚本是拍摄视频的重要依据。用户最终所能看到的视频是根
据脚本拍摄后的成果。一段视频的脚本具有重要的学习价值，其采用的分镜、对话的进行方
式、素材的选用等方面都可以为学习者提供巨大的帮助。精彩的视频，其脚本可以作为学习
对象，糟糕的视频，其脚本可以作为反面教材以及改进的对象。

[0003] 目前，对于获取的视频，想要得到其脚本，只有官方公布以及自己制作两个方面，而官方公布的数量较少，仅一些非常著名的影视作品才会公布，而自己制作则需要花费大
量的时间以及精力。因此，目前对于视频的脚本化，需要大量的人力物力，效率极低。

发明内容

[0004] 本发明要解决的技术问题在于现有的对视频脚本化的方法主要还是采用人工分析制作，针对现有技术的不足，提供一种视频的脚本化方法。

[0005] 为了解决上述技术问题，本发明所采用的技术方案如下：

[0006] 一种视频的脚本化方法，所述方法包括：

[0007] 获取待处理的视频文件；

[0008] 对所述视频文件进行镜头拆分，得到若干个分镜文件，其中，所述分镜文件包括分镜镜头以及分镜音频；

[0009] 针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息；以及，

[0010] 对该分镜文件中的分镜音频进行音频处理，得到该分镜音频对应的音频信息；

[0011] 根据所述镜头信息以及所述音频信息，生成与所述视频文件对应的分镜脚本。

[0012] 所述视频的脚本化方法，其中，所述对所述视频文件进行镜头拆分，得到若干个分镜文件包括：

[0013] 对所述视频文件进行分轨，得到图像轨道以及音频轨道；

[0014] 针对所述图像轨道中的第N帧图像，计算该第N帧图像与第N+1帧图像之间的帧差，其中，N为小于或等于M的正整数，M为所述图像轨道中帧图像的数量；

[0015] 当所述帧差大于预设的帧差阈值时，确定该第N帧图像为镜头结束帧，该第N+1帧图像为镜头起始帧，其中，第一帧图像为镜头起始帧，第M帧为镜头结束帧；

[0016] 根据所述镜头起始帧与所述镜头结束帧，对所述图像轨道进行拆分，得到若干个分镜镜头，以及对所述音频轨道进行拆分，得到与所述分镜镜头对应的分镜音频。

[0017] 所述视频的脚本化方法，其中，所述针对所述图像轨道中的第N帧图像，计算该第N帧图像与第N+1帧图像之间的帧差包括：

[0018] 计算所述第N帧图像对应的第一色阶直方图，以及计算所述第N+1帧图像对应的第二色阶直方图；

[0019] 计算所述第一色阶直方图以及所述第二色阶直方图之间的差异面积，得到所述第N帧图像与所述第N+1帧图像之间的帧差。

[0020] 所述视频的脚本化方法，其中，所述镜头信息包括镜头标签；所述针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息包
括：

[0021] 针对每一个所述分镜镜头中的每一个帧图像，对该帧图像进行物体识别，得到该帧图像对应的若干个元素图像，以及每一个所述元素图像对应的第一属性标签；

[0022] 针对每一个所述第一属性标签为人物标签的元素图像，对该元素图像进行状态识别，得到该元素图像对应的第二属性标签；

[0023] 对每一个所述元素图像对应的第一属性标签和第二属性标签进行查重，得到该分镜镜头对应的镜头标签。

[0024] 所述视频的脚本化方法，其中，所述第一属性标签包括人物标签、动物标签和/或物体标签；所述第二属性标签包括动作标签和/或表情标签。

[0025] 所述视频的脚本化方法，其中，所述音频信息包括音乐信息和/或人声信息；所述对该分镜文件中的分镜音频进行音频处理，得到该分镜音频对应的音频信息包括：

[0026] 对每一个所述分镜音频进行语音识别，得到所述分镜音频对应的文本信息；

[0027] 当基于预设的音乐识别模型确定该分镜音频中存在音乐时，对所述分镜音频进行歌曲识别，得到该分镜音频中的音乐信息，其中，所述音乐信息包括音乐歌词；

[0028] 根据所述音乐歌词，对所述文本信息进行过滤，得到所述分镜音频对应的人声文本。

[0029] 所述视频的脚本化方法，其中，在所述针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息之后，还包括：

[0030] 对所有所述第一属性标签为人物标签的元素图像进行聚类，得到若干个人物图像集；

[0031] 根据预设的角色标签集，确定每一个所述人物图像集对应的角色标签。

[0032] 所述视频的脚本化方法，其中，所述根据所述音乐歌词，对所述文本信息进行过滤，得到所述分镜音频对应的人声文本之后，还包括：

[0033] 针对每一个所述分镜音频，提取该分镜音频中的声纹特征；

[0034] 根据所述声纹特征，确定所述人声文本中与每一个所述角色标签对应的对白文本。

[0035] 一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的视频的脚本
化方法中的步骤。

[0036] 一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

[0037] 所述通信总线实现处理器和存储器之间的连接通信；

[0038] 所述处理器执行所述计算机可读程序时实现如上任一所述的视频的脚本化方法中的步骤。

[0039] 有益效果：本方法首先获取视频文件，然后对视频文件进行镜头拆分，将视频文件拆分成多个分镜文件。脚本是由一个个分镜内容组成的，因此，得到分镜文件后，分别针对
分镜文件中的分镜镜头，也就是图像集，以及分镜音频进行信息的提取，得到对应的镜头信
息和音频信息，最后根据镜头信息以及音频信息，生成该视频文件对应的镜头脚本。本方案
能够自动对输入的视频文件进行脚本化，不再需要复杂的人工记录，例如截屏、对白翻译，
方便用户对脚本内容进行修改以及学习。

附图说明

[0040] 图1为本发明提供的视频的脚本化方法的总体流程图。

[0041] 图2为本发明提供的视频的脚本化方法中第一种脚本文件示意图。

[0042] 图3为本发明提供的视频的脚本化方法中第二种脚本文件示意图。

[0043] 图4为本发明提供的视频的脚本化方法中提取人声文本的流程图。

[0044] 图5为本发明提供的终端设备的结构原理图。

具体实施方式

[0045] 本发明提供一种视频的脚本化方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具
体实施例仅用以解释本发明，并不用于限定本发明。

[0046] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元
件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在
中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0047] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的
意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义
来解释。

[0048] 举例说明，本发明实施例可以由服务器、终端、软件程序或者视频播放软件的插件等方式实行。

[0049] 需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

[0050] 下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

[0051] 如图1所示，本实施提供了一种视频的脚本化方法，本实施例以PC端为执行主体，对该脚本化过程进行描述，视频的脚本化方法包括以下步骤：

[0052] S10、获取待处理的视频文件。

[0053] 具体地，PC端读取本地的文件，从而获取待处理的视频文件。对该视频文件的格式、大小等参数无具体限定。

[0054] S20、对所述视频文件进行镜头拆分，得到若干个分镜文件。

[0055] 具体地，视频文件本质是由若干张按照顺序排列的帧图像以及音频组成，随着时间的推移，帧图像与音频发生改变，呈现出动态的视频效果。而内容的展示是同一过一个个
镜头进行切换实现的。例如第一个镜头为A说话，第二个镜头为B说话，第三个镜头又轮到A
说话，结合音频辅助，呈现出A与B进行对话的表象。脚本既是对每一个镜头的内容进行记
录。因此，为了生成分镜脚本，先对视频文件进行拆分，得到分镜文件。这一拆分不仅是对视
频文件的帧图像进行拆分，得到分镜镜头，还包括对视频文件的音频进行拆分，得到分镜音
频。因此，一个分镜文件中包括若干张帧图像组成的分镜镜头，还包括由一段音频组成的分
镜音频。

[0056] 先将视频文件进行分轨，得到图像轨道和音频轨道，因为图像和音频的输出轨道不同，因此可直接进行拆分。

[0057] 进行镜头拆分主要是确定帧图像中的镜头起始帧和镜头结束帧。在本实施例提供的一种确定镜头起始帧和镜头结束帧的方式中，采用边缘轮廓变化的方式实现镜头分割，
其主要是通过计算边界的变化程度来确定镜头的边界。先对每一个帧图像进行边缘化，得
到边缘帧图像。然后计算第N边缘帧图像与第N+1边缘帧图像之间的总体位移，并根据总体
位移，对第N边缘帧图像以及第N+1边缘帧图像进行配准，其中，N为小于或的等于M的正整
数，M为所述图像轨道中帧图像的数量。然后计算相邻第N边缘帧图像与第N+1边缘帧图像中
边缘的数量和位置。将边缘变化的比例作为帧差，即边缘从第N边缘帧到第N+1边缘帧图像
发生偏移的比例。帧差越大，镜头发生偏移得越大，越可能为分镜得节点。

[0058] 预先设置一个帧差阈值，当第N边缘帧图像与第N+1边缘帧图像之间的帧差大于所述帧差阈值，则确定第N+1边缘帧图像对应的第N帧图像为镜头起始帧，且第N边缘帧图像对
应的第N帧图像为镜头结束帧。

[0059] 在第二种确定镜头起始帧和镜头结束帧的方式中，计算每一个帧图像对应的色阶直方图。色阶是指亮度，色阶直方图能够直观得体现每一个帧图像的灰度以及亮度，当帧图
像之间发生镜头改变时，其在灰度以及亮度上常常会发生骤变。因此，先计算第N帧图像对
应的第一色阶直方图，以及计算所述第N+1帧图像对应的第二色阶直方图。然后计算第一色
阶直方图以及第二色阶直方图之间的差异面积，得到两个帧图像之间的帧差。第一色阶直
方图与第二色阶直方图的差异面积越小，说明两个帧图像之间的相似度越高，不存在镜头
转换的概率越高；第一色阶直方图与第二色阶直方图的差异面积越大，说明两个帧图像之
间的相似度越低，不存在镜头转换的概率越低。这种方式相较于第一种而言，计算量更小且
更为通用。

[0060] 与前一种方式类似，预先设置一个帧差阈值，当所述帧差大于预设的帧差阈值时，确定该第N帧图像为镜头结束帧，该第N+1帧图像为镜头起始帧。

[0061] 此外，当N等于1时，即第一帧图像，默认为镜头起始帧，当N=M时，即最后一张帧图像，默认为镜头结束帧。除了上述两种方式外，还可基于X2直方图、X2直方图分块等方式计
算第N帧图像与第N+1帧图像之间的帧差，从而确定镜头起始帧以及镜头结束帧。

[0062] 最后，利用镜头起始帧和镜头结束帧，将图像轨道进行拆分，得到若干个分镜镜头。由于图像轨道中每一个帧图像都有对应的时间戳，而图像轨道对应的时间段与音频轨
道对应的时间段相同，因此，可以根据镜头起始帧对应的时间戳，以及镜头结束帧对应的时
间戳，将音频轨道拆分为多段，得到与每一个分镜镜头对应的分镜音频。将彼此对应的分镜
镜头以及分镜音频作为一个分镜文件。

[0063] S30、针对每一个所述分镜文件，对该分镜文件中的分镜镜头进行信息提取，得到该分镜镜头对应的镜头信息；以及，对该分镜文件中的分镜音频进行音频处理，得到该分镜
音频对应的音频信息。

[0064] 具体地，由于一个脚本是以单个镜头为单位，因此对每一个分镜文件进行单独处理。以某一个分镜文件为例，针对该分镜文件中的分镜镜头进行信息提取，得到分镜镜头对
应的镜头信息。

[0065] 如图2所示，在本实施例的第一种信息提取的方式中，直接提取分镜镜头中的具有代表性的标识图像作为镜头信息。针对分镜镜头中的每一个帧图像，计算该帧图像与各个
比较图像之间的综合帧差，其中，比较图像为该分镜镜头中该帧图像以外的帧图像。综合帧
差为对该帧图像与各个比较图像之间的帧差进行统计分析后的数值，该综合帧差用于衡量
各个帧图像之间的变化，可为平均值、中位数、方差等。确定最小的综合帧差对应的帧图像
为该分镜镜头对应的标识图像。

[0066] 第一种方式采用的标识图像作为镜头信息虽然在很多脚本中会使用，主要是用于给摄影等工作人员使用，方便他们在拍摄过程中以该图像为标准进行拍摄。但是图像中的
信息过于繁杂，若视频较长，不利于信息的整理，因此在本实施例的第二种信息提取的方式
中，是以镜头标签等形式作为镜头信息。其具体过程为：

[0067] A10、针对每一个所述分镜镜头中的每一个帧图像，对该帧图像进行物体识别，得到该帧图像对应的若干个元素图像，以及每一个所述元素图像对应的第一属性标签。

[0068] 具体地，物体识别技术是目前较为常用的一种图像识别技术，其包括多种算法和模型。本实施例可采用任意一种物体识别算法或模型实现识别功能。

[0069] 以物体识别模型为例，预先设定要给物体识别模型，该物体识别模型用于对图像进行物体识别，从而提取输入的图像中的物体。针对每一个分镜镜头中的帧图像，将该帧图
像输入该物体识别模型中，该物体识别模型提取该帧图像中每一个物体所在的区域，得到
与该物体对应的元素图像。并基于预先设定的分类类别，确定每一个元素图像可能对应的
分类类别，作为其对应的第一属性标签。第一属性标签即物体的第一层类别标签，例如人物
标签、动物标签、物体标签。此外，还可以更细化，例如标签为“猫”、“椅子”、“男人”等。

[0070] 进一步地，提取所有的分镜镜头中帧图像的元素图像后，剧情主要是通过角色推进，因此为了脚本更为细化，可对人物标签进行进一步的划分，得到角色标签，例如一个分
镜文件中，存在人物A和人物B，包含人物A的元素图像以及包含人物B的元素图像都对应的
第一属性标签为人物标签。先将所有第一属性标签为人物标签的元素图像进行聚类，得到
多个人物图像集。然后根据预设的角色标签集，为每一个人物图像集确定一个角色标签，用
于区分不同所有视频文件中的人物。聚类的方式可采用K‑means等算法，以用于后续对人物
对话进行区分。预先设定的角色标签集可以为用户自行设定的标签，也可以为默认设置的
标签，例如直接以角色A和角色B命名。例如人物A对应的角色标签为角色A，人物B对应的角
色标签为角色B。

[0071] A20、针对每一个所述第一属性标签为人物标签的元素图像，对该元素图像进行状态识别，得到该元素图像对应的第二属性标签。

[0072] 具体地，若帧图像中存在人物，那么人物的表情、动作都是推动剧情发展的关键要素。因此，当某一个元素图像的第一属性标签为人物标签时，需要对图像中的人物进行动
作、表情等状态进行识别，得到该元素对应的第二属性标签。第二属性标签即可包括动作标
签和/或表情标签。

[0073] 仍以状态识别模型为例，该状态识别模型可以是由已训练的动作识别模型和表情识别模型组合而成，也可以是由单个模型经过训练得到。将第一属性标签为人物标签的元
素图像输入该状态识别模型中，状态识别模型对该元素图像进行状态识别，得到该元素图
像对应的第二属性标签。例如某一元素图像对应的角色标签为角色A，对应的第二属性标签
为微笑，则可以提取得到“角色A在微笑”这一信息。

[0074] A30、对每一个所述元素图像对应的第一属性标签和第二属性标签进行查重，得到该分镜镜头对应的镜头标签。

[0075] 具体地，由于分镜镜头中包括多个帧图像，而在同一个分镜镜头中的帧图像都存在一定相似，因此，需要对第一属性标签和第二属性标签进行查重。

[0076] 当第一属性标签为物品标签或动物标签，例如“椅子”，若存在多个“椅子”这一标签，只保留一个“椅子”标签。

[0077] 更进一步地，可计算每一个帧图像中的“椅子”这一物体标签的数量，例如为3。当所有帧图像中的“椅子”的数量相同，则确定物体标签“椅子”对应的数量为3。

[0078] 当第一属性标签为人物标签，则对该元素图像对应的角色标签，对第二属性标签进行查重。

[0079] 例如依照帧图像的顺序，包含A的元素图像对应的第二属性标签包括微笑、微笑、微笑……，将该元素图像相同的第二属性标签只保留一个，从而精简分镜镜头的标签数量。

[0080] 如图2所示，最后一个分镜镜头中的镜头标签可为“椅子（3）；角色A‑举手，微笑；角色B‑微笑”，其中，括号中为标签的数量。

[0081] 针对分镜音频而言，对这一个分镜文件中的分镜音频进行音频处理，提取该分镜音频中包含的信息，即音频信息。以视频文件为纪录片为例，分镜音频包含了旁白以及背景
音乐，对分镜音频进行歌曲识别以及语音识别，因此音频信息包含旁白的文字以及背景音
乐的名称等信息。以MV（音乐短篇，Music Vedio）为例，分镜音频为歌曲，对分镜音频进行歌
曲识别，因此音频信息为歌曲的歌词。以电视剧为例，分镜音频为对话，因此，对分镜音频进
行语音识别，得到的音频信息为对白文本。

[0082] 进一步地，仍以视频文件为电视剧为例，其分镜音频中包含的音乐可能存在一些歌词，语音识别后的对白文本可能与歌词的内容相连，影响对对白文本和歌词的区别。例如
一个分镜镜头为10s，带有人声的音乐播放3秒，后续7s人物A在与人物B对话。因此，为了提
高对白文本的精确度，本实施例提供一种音频处理方式，如图4所示，具体如下：

[0083] B10、对每一个所述分镜音频进行语音识别，得到所述分镜音频对应的文本信息。

[0084] 具体地，以单个分镜音频为例，先对该分镜音频进行语音识别，以提取分镜音频中的对话、旁白等信息，得到分镜音频对应的文本信息。

[0085] 进一步地，有时候在播放带有人声的背景音乐时人物也在说话，为了提高文本信息的准确度，可先对分镜音频进行降噪处理，以降低背景音乐的声音，得到降噪音频。然后
再对降噪音频进行语音识别，得到文本信息，从而提高文本信息的准确度。

[0086] 语音识别可采用基于神经网络的语音识别，例如基于长短时记忆模块、卷积神经网络、循环神经网络，也可采用隐马尔可夫模型、高斯混合模型等。

[0087] B20、当基于预设的音乐识别模型确定该分镜音频中存在音乐时，对所述分镜音频进行歌曲识别，得到该分镜音频中的音乐信息。

[0088] 具体地，预先设定一个音乐识别模型，用于判断分镜音频中是否存在音乐。若存在音乐，则说明之前提取得到的文本信息可能存在歌词，需要将歌词与人声部分进行区分。这
种音乐识别模型可以基于音频指纹实现，例如对音频做FFT（Fast Fourier Transform，快
速傅里叶变换），在频域上取极值点作为特征点，把每隔一段时间内、一定频率范围内极值
点进行配对。预先设定一个匹配阈值，将最为匹配的歌曲作为该分镜音频对应的分镜歌曲，
当匹配的数量小于匹配阈值，则确定为该分镜音频中不存在音乐。匹配到分镜歌曲后，在预
设的数据库中提取该分镜音频的音乐信息，该音乐信息可包括分配歌曲的音乐名称、音乐
歌词等信息。

[0089] B30、根据所述音乐歌词，对所述文本信息进行过滤，得到所述分镜音频对应的人声文本。

[0090] 具体地，得到音乐歌词后，根据音乐歌词，将文本信息中的音乐歌词进行过滤，即可得到仅为人物对话的人声文本。

[0091] 进一步地，虽然提取的人声文本可以展示该视频中人物对话的内容，但是无法表现具体是哪一个人物说的话，因此，为了提供内容更为清晰的脚本，本实施例中，通过提取
声纹特征以确定对话具体是哪一个人物说出的。其过程包括：

[0092] C10、针对每一个所述分镜音频，提取该分镜音频中的声纹特征。

[0093] 具体地，首先提取分镜音频中的声纹特征，声纹特征具有一定的特定性，哪怕说话者故意模仿他人的声音和语气，其声纹都是固定不变的。因此，声纹特征可以用于区分人分
镜音频中不同来源的对话。因此先提取每一个所述分镜音频中的声纹特征，提取方式可高
斯混合模型等方式。

[0094] C20、根据所述声纹特征，确定所述人声文本中与每一个所述角色标签对应的对白文本。

[0095] 具体地，得到声纹特征后，将声纹特征与角色标签进行对应，得到角色声纹关系。然后根据角色声纹关系以及每一个声纹特征对应的时间段，确定每一个角色标签对应的对
话时间段。再根据对话时间段对应的人声文本作为该角色标签对应的对白文本。在确定角
色声纹关系方面，在第一种确定角色声纹关系的方式中，在一个分镜文件中，实际情况为角
色A在说话，然后角色B走进镜头来说话，因此该分镜文件的角色标签为角色A和角色B，声纹
特征为声纹特征A以及声纹特征B，该分镜文件对应的初始关系为“角色A对应声纹特征A”、
“角色B对应声纹特征A”以及“角色B对应声纹特征B”。

[0096] 在确定的第一种确定的实施方式中，先将每一个声纹特征对应的音频时间段与每一个角色标签对应的角色时间进行对应，得到该分镜文件对应的角色声纹关系为“角色A对
应声纹特征A”以及“角色B对应声纹特征B”。

[0097] 这种方式仅能应用于镜头中人物出现以及说话是依次进行的，但是在一些特殊的场景中无法适用。在本实施例的第二种实现方式中，将通过时间确定的角色标签和声纹特
征之间的关系作为候选关系，然后基于整个视频文件对应的所有候选关系，确定候选关系
中角色声纹关系。

[0098] 本实施例具体以下四种情况为例进行描述：

[0099] 在一个分镜文件中，实际情况为角色A在说话，因此该分镜文件的角色标签为角色A，声纹特征为声纹特征A。该分镜文件对应的候选关系为“角色A对应声纹特征A”。

[0100] 在一个分镜文件中，实际情况为旁白先介绍一段背景，角色A再进行说话，因此存在角色标签仅为角色A，声纹特征包括声纹特征A和声纹特征C。则该分镜文件对应的候选关
系为“角色A对应声纹特征A”和“角色对应声纹特征C”。

[0101] 在一个分镜文件中，实际情况为角色A在于角色B进行对话，角色标签为角色A以及角色B，声纹特征包括声纹特征A和声纹特征B，则该分镜文件对应的候选关系为“角色A对应
声纹特征A”、“角色A对应声纹特征B”、“角色B对应声纹特征A”以及“角色B对应声纹特征B”。

[0102] 在一个分镜文件中，场景为角色B在于角色A说话，但镜头仅给了角色A，用于通过角色A的表情凸显角色A的心理变化，因此，角色标签为角色A，声纹特征为声纹特征B，则该
分镜对应的候选关系为“角色A对应声纹特征B”。

[0103] 这对这些候选关系，计算每一种候选关系的数量，并选择数量最多的候选关系为角色声纹关系，例如针对角色A，上述场景总共候选关系为8，由“角色A对应声纹特征A”的数
量为3，数量最多，因此，将“角色A对应声纹特征A”确定为角色声纹关系。

[0104] 其中，当确定每一个角色标签对应的声纹特征后存在无法与角色标签对应的声纹特征时，将该声纹特征作为旁白的声纹特征，并将该声纹特征对应的对白文本作为旁白的
对白文本。

[0105] 确定角色声纹关系后，根据角色声纹关系以及声纹特征与人声文本的对应关系，可确定每一个角色标签对应的对白文本。

[0106] S40、根据所述镜头信息以及所述音频信息，生成与所述视频文件对应的分镜脚本。

[0107] 具体地，得到镜头信息以及音频信息后，如图2和图3所示，根据预先设定的脚本格式，将该分镜文件对应的镜头信息以及音频信写入预设的脚本文件中。当所有的分镜文件
对应的信息都写入该脚本文件后，生成所述视频文件对应的分镜脚本。

[0108] 在脚本文件中，镜头信息包括镜头标签外，还可包括标识图像、镜头视频（即该分镜文件对应时段的图像轨道）、镜头时长，音频信息包括人声文本、音乐名称等。

[0109] 基于上述视频的脚本化方法，本发明还提供了一种终端设备，如图5所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口
（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接
口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户
引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令，以执行上
述实施例中的方法。

[0110] 此外，上述的存储器22中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。

[0111] 存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序命令或模块。处理器20通过运行存储在存储器
22中的软件程序、命令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方
法。

[0112] 存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此
外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动
硬盘、只读存储器(Read‑Only Memory，ROM)、随机存取存储器(Random Access Memory，
RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态计算机可读存储介质。

[0113] 此外，上述计算机可读存储介质以及终端设备中的多条命令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

[0114] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

一种视频的脚本化方法转让专利

申请号 : CN202111519420.7

文献号 : CN113923521B

文献日 : 2022-03-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 严华培 , 王红星

申请人 : 深圳市大头兄弟科技有限公司

摘要 :

权利要求 :

说明书 :