一种基于AI识别的音画随行控制方法转让专利

申请号 : CN201911226602.8

文献号 : CN111417064B

文献日 : 2021-08-10

本发明公开了一种基于AI识别的音画随行控制方法，该方法包括如下步骤：识别画面中物体的位置和运动轨迹，将画面设置为层叠的一级区域和二级区域，确定发声区域，并对发声单元进行物理配制；根据决策算法，确定识别物体当前使用一级区域中的哪个一级子区域的对应数据；持续监测，直至被监测物体在屏幕中消失；通过决策算法实时分配声音数据；根据屏幕画面中各个被监测物体的位置，分配不同的音频数据权重比例。本发明可以让听众明显感觉到声音的输出是随着画面运动而有实际的运动的，虽然发声物体不变，但发声的位置的确在屏幕上进行了空间的运动，从而达到音画随行发声的直观感受。

1.一种基于AI识别的音画随行控制方法，其特征在于，该方法包括如下步骤：步骤1)：识别画面中物体的位置和运动轨迹，将画面设置为层叠的一级区域和二级区域，所述一级区域将画面划分为M*N个一级子区域，在一级区域的基础上，建立二级区域，所述二级区域划分为(M‑1)*(N‑1)个二级子区域，步骤2)：确定发声区域，并对发声单元进行物理配制；

确定被监测物体位置及大小，根据决策算法，确定识别物体当前使用一级区域中的哪个一级子区域的对应数据；并进行2次查询：确定被监测物体位置及大小，根据决策算法，确定识别物体当前使用二级区域中的哪个二级子区域的对应数据；

持续监测，直至被监测物体在屏幕中消失；

所述决策算法指的是：为一级区域和二级区域设置不同的权重，计算识别物体在各区域面积占比，取权重与面积占比的加权和，并进行比较，取值最大区域为最终结果；

步骤3)：通过决策算法实时分配声音数据；根据步骤1)、2)中配制好的区域，根据屏幕画面中各个被监测物体的位置，重新分配音频数据，对不同的被监测物体，依据其所处位置变化的不同，分配不同的音频数据权重比例。

2.根据权利要求1所述的基于AI识别的音画随行控制方法，其特征在于，还包括步骤

4)：进行临场级DSP处理优化声音数据，调整相位，增强音频效果的整体临场感。

3.根据权利要求1所述的基于AI识别的音画随行控制方法，其特征在于，在步骤1)中，一级区域和二级区域的中心点相互重合。

一种基于AI识别的音画随行控制方法

技术领域

[0001] 本发明涉及一种音画随行控制方法，尤其涉及一种基于AI识别的音画随行控制方法。

背景技术

[0002] 现有技术的终端设备(例如，智能电视、智能手机等)的喇叭一般安装在屏幕下方或屏幕两侧，在播放音视频节目时，喇叭的配制和发声逻辑并不是根据图像内部的物品来
追踪的。现有技术的通常做法是，屏幕上的物体居于左边时左边的喇叭发声较多，屏幕上的
物体居于右边时，右边的喇叭发声较多，这样会导致屏幕上的物体和发声位置不相匹配，降
低了用户体验感。

发明内容

[0003] 本发明的目的在于提供一种基于AI识别的音画随行控制方法，在终端设备的后面安装喇叭，并通过算法来确定屏幕上物体的位置在哪里区域，将该区域的喇叭同步激活发
声，从而达到声音和发声物体位置相互匹配的效果。

[0004] 解决现有技术存在的缺憾。

[0005] 本发明采用如下技术方案实现：

[0006] 一种基于AI识别的音画随行控制方法，其特征在于，该方法包括如下步骤：

[0007] 步骤1)：识别画面中物体的位置和运动轨迹，将画面设置为层叠的一级区域和二级区域，所述一级区域将画面划分为M*N个一级子区域，在一级区域的基础上，建立二级区
域，所述二级区域划分为(M‑1)*(N‑1)个二级子区域，

[0008] 步骤2)：确定发声区域，并对发声单元进行物理配制；屏幕上的被监测物体的位置信息为坐标值，被监测物体的大小为所占屏幕的面积，面积值为识别物体的高度值和宽度
值的乘积。

[0009] 确定被监测物体位置及大小，根据决策算法，确定识别物体当前使用一级区域中的哪个一级子区域的对应数据；并进行2次查询：确定被监测物体位置及大小，根据决策算
法，确定识别物体当前使用二级区域中的哪个二级子区域的对应数据；

[0010] 持续监测，直至被监测物体在屏幕中消失；

[0011] 所述决策算法指的是：为一级区域和二级区域设置不同的权重，计算识别物体在各区域面积占比，取权重与面积占比的加权和，并进行比较，取值最大区域为最终结果。

[0012] 步骤3)：通过决策算法实时分配声音数据；根据步骤1)、2)中配制好的区域，根据屏幕画面中各个被监测物体的位置，重新分配音频数据，对不同的被监测物体，依据其所处
位置变化的不同，分配不同的音频数据权重比例。

[0013] 进一步的，还包括步骤4)：进行临场级DSP处理优化声音数据，调整相位，增强音频效果的整体临场感。

[0014] 进一步的，在步骤1)中，一级区域和二级区域的中心点相互重合。

[0015] 本发明的有益技术效果是：在终端设备的后面安装喇叭，并通过算法来确定屏幕上物体的位置在哪里区域，将该区域的喇叭同步激活发声，从而达到声音和发声物体位置
相互匹配的效果，可以让听众明显感觉到声音的输出是随着画面运动而有实际的运动的，
虽然发声物体不变，但发声的位置的确在屏幕上进行了空间的运动，从而达到音画随行发
声的直观感受。

附图说明

[0016] 图1是AI算法识别声场与画面的关系。

[0017] 图2是M和N分别为2的时候采取2*2分割方案的示意图。

[0018] 图3是M和N分别为2的时候仅监测小鸟的示意图。

[0019] 图4是识别物体位置并确定发声区域的示意图。

[0020] 图5是发声单元的物理配制分区原理框图。

[0021] 图6是SP配制图例和分区信息原理框图。

[0022] 图7是持续4秒的视频。

[0023] 图8是AI算法实时分配声音数据的示意图。

[0024] 图9是AI算法实时分配声音数据第2秒的示意图。

[0025] 图10是本发明控制方法的流程图。

具体实施方式

[0026] 通过下面对实施例的描述，将更加有助于公众理解本发明，但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制，任何对部件或技术特征的定义
进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定的
保护范围。

[0027] 首先借助片上系统SOC上集成的嵌入式神经网络处理器NPU的运算能力，搭载AI算法根据当前画面源数据中的图像和声音信息去识别当前画面中各发声物体的发声频率和
位置信息。追踪画面播放中的各发声物体的运动轨迹和发声时间，实时产生备用数据。

[0028] 一种基于AI识别的音画随行控制方法，该方法包括如下步骤：

[0029] 步骤1)：识别画面中物体的位置和运动轨迹，将画面设置为层叠的一级区域和二级区域，一级区域将画面划分为M*N个一级子区域，在一级区域的基础上，建立二级区域，二
级区域划分为(M‑1)*(N‑1)个二级子区域，一级区域和二级区域的中心点相互重合。

[0030] 步骤2)：确定发声区域，并对发声单元进行物理配制；屏幕上的被监测物体的位置信息为坐标值，被监测物体的大小为所占屏幕的面积，面积值为识别物体的高度值和宽度
值的乘积。

[0031] 确定被监测物体位置及大小，根据决策算法，确定识别物体当前使用一级区域中的哪个一级子区域的对应数据；

[0032] 并进行2次查询：确定被监测物体位置及大小，根据决策算法，确定识别物体当前使用二级区域中的哪个二级子区域的对应数据；

[0033] 持续监测，直至被监测物体在屏幕中消失；

[0034] 决策算法指的是：为一级区域和二级区域设置不同的权重，计算识别物体在各区域面积占比，取权重与面积占比的加权和，并进行比较，取值最大区域为最终结果。在本实
施例中，为一级区域设置权重A1，二级区域设置权重A2。计算识别物体在各区域面积占比
Bn，取权重与面积占比的加权和，并进行比较，取值最大区域为最终结果。

[0035] 步骤3)：通过AI算法实时分配声音数据；根据步骤1)、2)中配制好的区域，根据屏幕画面中各个被监测物体的位置，重新分配音频数据，对不同的被监测物体，依据其所处位
置变化的不同，分配不同的音频数据权重比例。

[0036] 如图所示，将画面划分成2*2区域，记为1级区域的一、二、三、四级子区域，以相邻1级区域的中心点为顶点，创建矩形区域，记为2级区域，二级区域个数为(N‑1)*(M‑1)，在本
实施例中为1个，记为2级子区域，设定一级区域的权重为A1，二级区域权重为A2，确定识别
物体位置及大小[x1,y1]*[h1,w1]，并进行2次查询，根据决策算法，确定当前使用一级区域
第三子区域对应的数据，确定识别物体位置及大小[x2,y2]*[h2,w2]，并进行2次查询，根据
决策算法，确定当前使用二级子区域一对应数据，持续监测，直至被监测物体在画面中消
失。

[0037] 步骤4)：进行临场级DSP处理优化声音数据，调整相位，增强音频效果的整体临场感。

[0038] 如图6所示，在本实施例中，依据不同诉求和实际成本要求，进行后端的发声系统配制，下面以4个SP的配制为例进行说明：4个SP将整个电视机切割为4块区域，我们简单的
将其命名为区域一、二、三、四。SP配制好了后，在驱动回路上也需要进行相应的配制，我们
这里使用DSP为例(不仅局限于此配制)，分别使用两个DSP去驱动L/R和L/R‑piezo，相应的
前端数据也会分割成Data L/R和Data piezo L/R，这部分的数据是由SOC经过处理后提供
的。根据配制好的发声区域，片上系统SOC针对他所收集到的数据，进行识别后重新分配音
频数据，具体的做法如下所示：

[0039] 第一秒，根据画面中各发声物体的位置，进行音频数据进行如下表的分配

[0040] 音频数据分配表

[0041]

[0042] 第二秒，SOC侦测到闪电已经消失，所以相应的音频数据比例为0％，此时小鸟飞到了位置②处，根据小鸟在整个电视机的位置进行了左表的数据分配，同理应用于高铁列车。

[0043] 音频数据分配表音频

[0044]

[0045] 第三秒，此时小鸟飞到了位置③处，根据小鸟在整个屏幕的位置进行了数据分配，如下表所示，同理应用于高铁列车。

[0046] 音频数据分配表

[0047]

[0048] 第四秒，此时小鸟飞到了位置④处，根据小鸟在整个屏幕的位置进行了数据分配，如下表所示，增加了左侧喇叭的数据配比，高铁列车也已经从画面中消失，所以删除了相关
音频数据

[0049] 音频数据分配表

[0050]

[0051] 通过对第一秒至第四秒的上述处理，可以让听众明显感觉大到，声音的输出是随着画面运动而有实际的运动的，虽然发声物体还是那个发声物体，但发声的位置的确在屏
幕上进行了空间的运动。从而达到音画随行发声的直观感受。

[0052] 通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质
上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品
可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备
(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的
某些部分所述的方法。

[0053] 以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单
元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造
性劳动的情况下，即可以理解并实施。

[0054] 本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶
盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的
分布式计算环境等等。

[0055] 本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组
件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由
通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以
位于包括存储设备在内的本地和远程计算机存储介质中。

[0056] 在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施
例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。
而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合
适的方式结合。

[0057] 当然，本发明还可以有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可以根据本发明做出各种相应的改变和变形，但这些相应的改变和
变形都应属于本发明所附的权利要求的保护范围。

一种基于AI识别的音画随行控制方法转让专利

申请号 : CN201911226602.8

文献号 : CN111417064B

文献日 : 2021-08-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈智 , 游坤 , 赵贤磊

申请人 : 南京智芯胜电子科技有限公司

摘要 :

权利要求 :

说明书 :