用于在视频会议中管理媒体流的方法和设备转让专利

申请号 : CN201380071830.7

文献号 : CN105191295B

文献日 : 2018-04-17

公开了一种用于在多方视颜会议中管理包括至少视频数据和音频数据的媒体流的方法和决策器。该视频会议涉及一个或多个节点的一个或多个组，所述一个或多个节点分别从多个相关联端点中的每一个接收媒体流。在所述一个或多个组中的每一个的所述一个或多个节点中的每一个中，确定接收自各个多个相关联端点的媒体流的最响亮音频。进一步地，相应的一个或多个组的所述一个或多个节点中的每一个将确定的最响亮音频的音量指示和与该最响亮音频相关联的节点的身份传输到与一个或多个组中的每一个相关联的各个决策器。在一个或多个决策器中的每一个中，确定接收的最高音量及相关联的身份。接下来，决策器命令对应于确定的最高音量的身份的节点将与所确定的最响亮音频相关联的端点的接收的媒体流传输到所述一个或多个组中的所有节点，或者传输到与所述一个或多个组中的每一个相关联的各个代理。

1.一种用于在多方视频会议中管理至少包括视频数据和音频数据的媒体流的方法，所述多方视频会议涉及各自包含一个或多个节点的多个组，所述节点分别接收来自多个相关联端点中的每个端点的媒体流，其中，所述方法包括以下步骤：

在每个组的所述一个或多个节点中的每一个节点中确定从相应的多个相关联端点接收的媒体流的最响亮音频，从各组的所述一个或多个节点中的每一个节点，分别将所确定的最响亮音频的音量指示和与该最响亮音频相关联的节点的身份传输到与每个组相关联的相应的决策器，其中，分别与一个组相关联的每个决策器被指派到决策器被布置的分层树结构中的多个级别中的一个级别，在每个决策器中确定接收的最高音量和相关联的身份，以及

由决策器之一命令具有与所确定的最高音量对应的身份的节点将所接收的与所确定的最响亮音频相关联的端点的媒体流传输到所述多个组的所有节点，或者传输到与每个组相关联的相应的代理。

2.如权利要求1所述的方法，进一步包括：

从未被指派到所述多个级别的最高级别的每个决策器，将所确定的各个最高音量的指示及各个相关联的身份传输到分层树结构中的下一级别处的决策器。

3.如权利要求2所述的方法，其中，进行命令的决策器是被指派到分层树结构中的所述多个级别中的最高级别的决策器。

4.如权利要求1-3中任一个所述的方法，其中，节点是虚拟端点、多媒体服务器、多点控制单元MCU或分布式MCU中的子单元。

5.如权利要求1-3中任一个所述的方法，其中，节点是分布式MCU中的子单元，该节点还将所接收的与所确定的最响亮音频相关联的端点的媒体流发送到它的相关联的多个端点的全体。

6.一种计算机实现的决策器，用于在多方视频会议中管理至少包括视频数据和音频数据的媒体流，所述多方视频会议涉及各自包含一个或多个节点的多个组，所述节点分别接收来自多个相关联端点中的每个端点的媒体流，其中，所述决策器包括：

接收装置，被调整为从与该决策器相关联的组中的所述一个或多个节点中的每一个节点接收分别确定的最响亮音频的音量指示以及在与该决策器相关联的组中的所述一个或多个节点中与该最响亮音频相关联的相应节点的身份，确定装置，被调整为确定接收的最高音量和相关联身份，

命令装置，被调整为命令与所确定的最高音量对应的身份的节点将所接收的与所确定的最响亮音频相关联的端点的媒体流传输到所述多个组中的所有节点，或者传输到与每个组相关联的相应的代理，其中，该决策器被指派到分层树结构中的多个级别的一个级别，在该分层树结构中布置有多个决策器，其中所述多个决策器中的每个决策器分别与所述多个组之一相关联。

7.如权利要求6所述的决策器，进一步包括：

传输装置，被调整为将确定的各个最高音量的指示及各个相关联身份发送到分层树结构中的下一个级别处的另一决策器。

8.如权利要求6所述的决策器，该决策器被指派到分层树结构中的最高级别。

9.如权利要求6-8中任一个所述的决策器，其中，节点是虚拟端点、多媒体服务器、多点控制单元MCU或分布式MCU中的子单元。

10.如权利要求6-8中任一个所述的决策器，其中，节点是分布式MCU中的子单元，所述节点进一步被调整为将所接收的与所确定的最响亮音频相关联的端点的媒体流传输到它的相关联的多个端点的全体。

用于在视频会议中管理媒体流的方法和设备

技术领域

[0001] 本发明涉及在视频会议中连续提供最响亮发言者的视图的方法、计算机程序和系统。

背景技术

[0002] 实时传送运动图像被用于多种应用中，例如视频会议、网络会议和视频通话。

[0003] 视频会议系统考虑了在多个会议现场之间的音频、视频和数据信息的同时交换。被已知为多点控制单元(MCU)的系统执行切换功能以允许多个现场的端点在会议中相互交流。MCU通过从现场接收会议信号的帧、处理接收的信号并再传输处理的信号到适当的现场来将现场链接到一起。会议信号包括音频、视频、数据和控制信息。在交换会议中，来自会议现场之一的(典型地是最响亮的发言者的)视频信号被广播到每一位参会者。在连续呈现会议中，来自两个或更多现场的视频信号被空间地混合以形成复合视频信号以被会议参会者观看。当不同视频流被一起混合到一个单一视频流中时，组成的视频流被传输至视频会议的不同方，其中每个被传输的视频流优选地遵守设置的指示由谁将接收什么视频流的计划。一般地，不同用户偏爱接收不同视频流。连续呈现或者复合图像是组合图像，其可能包括直播视频流、静止图像、菜单或来自会议中的参会者的其他视觉图像。

[0004] 如上所述，使用多流途径的许多端点各自可以向所有其他端点发送其音频，并且如果它被指定为“最响亮发言者”，则还发送其视频。最响亮发言者的视频或者被单独观看或者作为屏幕上最大的视图。

[0005] 切换的语音典型地被用于描述在任何时候都只可见一个发言者的会议。连续呈现指可见多个发言者的会议，有时候突出活跃的发言者。活跃呈现总是后者的情况。

[0006] 在具有混合音频和视频的多个虚拟端点的分布式MCU中也会发生在背板 (back plane)上传输的类似情况。这种情况下的MCU跨多个物理底盘(chassis) 分布。软件架构被布置为使用LAN或WAN这样的以太网来在组件之间通信，而不是使用背板。在后续说明中，端点是指真实端点和虚拟端点。虚拟端点可以是在类似MCU的基础设施组件中代表真实端点的单元。MCU将虚拟端点认为是真实端点，并将所有数据交换至该虚拟端点而不是真实端点。虚拟端点可以格式化并转发数据至真实端点。从真实端点传输至MCU的数据可以经由虚拟端点进行类似的处理。

[0007] 在某些场景中，当新发言者开始时，端点可以非常快速地切换以免丢失最初的音节。

发明内容

[0008] 本文的实施方式的一个目的是克服或至少减轻上述缺点。这一目的和其他目的通过所附的独立权利要求实现。

[0009] 根据一个方面，提供了一种用于在多方视频会议中管理至少包括视频数据和音频数据的媒体流的方法。该视频会议涉及一个或多个节点的一个或多个组，该一个或多个节点分别从多个相关联的端点中的每一个接收媒体流。例如，端点可以与各个节点相关联。在一个或多个组的每一个中的一个或多个节点的每一个中，确定从多个相关联端点中的各个接收的媒体流的最响亮音频。进一步地，相应的一个或多个组的一个或多个节点中的每一个将所确定的最响亮音频的音量指示和与该最响亮音频相关联的节点的身份传输到与一个或多个组中的每一个相关联的各个决策器。在一个或多个决策器中的每一个中，确定最高的接收音量及相关联的身份。接下来，决策器命令对应于确定的最高音量的身份的节点将与确定的最响亮音频相关的端点的接收的媒体流传输到一个或多个组中的所有节点，或者传输到与该一个或多个组中的每一个相关联的各个代理。

[0010] 每个决策器分别可以与一个或多个组相关联，所述组在布置了决策器的分层树结构中被指派到多个级别中的一个级别。

[0011] 在一些实施例中，该方法进一步包括从未被指派到所述多个级别的最高级别的一个或多个决策器中的每一个将确定的各个最高音量的指示及各个相关联的身份传输到在分层树结构中的下一个级别处的决策器。

[0012] 在命令步骤中，决策器可被指派到分层树结构中的所述多个级别中的最高级别。

[0013] 节点(例如一个或多个节点中的一些)可以是虚拟端点、多媒体服务器、 MCU或分布式MCU中的子单元。

[0014] 节点(例如一个或多个节点中的一些)可以是分布式MCU中的子单元，所述节点进一步将与确定的最响亮音频相关联的端点的接收的媒体流传输到它的多个相关联端点的全体。

[0015] 根据另一个方面，提供了一种计算机实现的决策器，用于在多方视频会议中管理包括至少视频数据和音频数据的媒体流，该多方视频会议涉及分别从多个相关联端点中的每一个接收媒体流的一个或多个节点的一个或多个组。该决策器包括接收装置，该接收装置被调整为从各一个或多个组的一个或多个节点中的每一个接收分别确定的最响亮音频的音量指示以及在各个一个或多个组的一个或多个节点中与该最响亮音频相关联的相应节点的身份。进一步地，该决策器包括确定装置，该确定装置被调整为确定最高接收的音量和相关联的身份。此外，该决策器包括命令装置，该命令装置被调整为命令对应于该最高确定的音量的身份的节点将与该确定的最响亮音频相关联的端点的接收的媒体流传输到一个或多个组中的所有节点，或者传输到与该一个或多个组中的每一个相关联的各个代理。

[0016] 该决策器可以被指派，例如被配置为指派，到分层树结构中的多个级别的一个级别，在该分层树结构中布置分别与该一个或多个组相关联的多个决策器。

[0017] 在一些实施例中，该决策器进一步包括传输装置，该传输装置被调整为将各个最高确定的音量的指示及各个相关联的身份传输到在分层树结构中的下一个级别处的另一个决策器。

[0018] 该决策器可被指派到分层树结构中的最高级别。

[0019] 节点(例如一个或多个节点中的一些)可以是虚拟端点、多媒体服务器、 MCU或分布式MCU中的子单元。

[0020] 节点(例如一个或多个节点中的一些)可以是分布式MCU中的子单元，所述节点进一步被调整为将与确定的最响亮音频相关联的端点的接收的媒体流传输到它的多个相关联端点的全体。

附图说明

[0021] 图1是根据本地决策模型的节点间数据流的示意图；

[0022] 图2是根据中央决策模型的节点间数据流的示意图；

[0023] 图3是根据逻辑树决策实施例的节点间数据流的示意图；

[0024] 图4是根据一个示例性实施例在时间线上示出节点间数据流的序列图。

具体实施方式

[0025] 根据此处的实施例，希望实现的是，当新发言者开始讲话时，端点可以非常快速地切换到该发言者以避免丢失最初的音节。因此希望所有端点在全部时间将它们的音频传输到所有其他端点，从而当它们成为活跃发言者时可以将它们以最低的可能的延迟混合。在MCU的例子中，利用每个节点上的关于哪个/ 些媒体流是可能的混合候选者并因而应当被转发的本地决策，可以做出简化。

[0026] 需要做出关于哪个/些媒体流应当作为最响亮发言者被添加到端点的混合中的决策。

[0027] 发明人已经实现了上述问题的两种潜在解决方案——本地或中央决策。在本地决策的情况下，每个端点从其他端点中的每一个接收音频。随后作出关于哪些是N个最响亮音频流并应被添加到混合中的本地决策。在MCU的情况下可以进行简化，其中每个节点将其N个最响亮流传输到所有其他节点，抛弃所有其他流。此处使用的名称“节点”和“子节点”包括能够参加视频会议的所有设备，诸如端点、虚拟端点、多媒体服务器、MCU、分布式MCU中的子单元等。然而，在后续讨论中出现的节点将管理本地现场的多个子节点或端点。

[0028] 在图1中示出了本地决策的模型。节点1和2从它们各自的子节点接收视频和音频。连续作出关于哪一个输入音频流最响亮的决策。节点1和2随后分别向所有其他节点发送与其最响亮发言者相关联的视频。对于所有其他节点也是如此，但为了清楚起见，用箭头示出仅来自节点1和2的进一步传输。每个节点可以进一步将来自接收的最响亮发言者的视频转发到其端点。

[0029] 该模型在网络故障的情况下也能恢复。不可以向接收者传输音频的节点并不会被添加到用于混合的候选者名单。无需随着节点上线或下线重建构造，只需要添加或去除流即可。另一方面，这可能消耗大量带宽，因为这要求所有节点间的全网格连接。这指的是连接数量随着节点数量的平方增长，这将严重限制该方案的可伸缩性。

[0030] 一种备选的模型使用中央决策器，其中所有流被发送到中央节点，该中央节点只转发N个最响亮的流。决策器可以是在本地现场的计算机中实现的计算机过程，该决策器基于数据输入和预编程的算法进行决策。该模型的自然简化是只将音频功率级别传输到中央点，该中央节点随后引导具有最响亮报告的发言者的节点将视频传输至其他节点。接收方节点接收一个流，它们将该一个流转发至它们的相关联端点。在图2中示出该模型。节点1和2从它们各自的子节点接收视频和音频。节点1和2随后将每个各自最响亮发言者的音量发送到中央决策器。事实上，各个最响亮发言者的音量将会从所有节点被发出，但为了简化，图中只示出了来自1和2的音量。决策器比较音量并决定哪一个是最响亮的。在这个示例中，从节点1报告的音量是最响亮的，因而决策器命令节点1转发其最响亮发言者的视频到节点
3、4和5。每个节点可以进一步转发来自接收的最响亮发言者的视频到其端点。

[0031] 在比本地决策模型更好地伸缩的同时，中央决策模型的缺点在于以网络中断的观点来看显得极为脆弱。

[0032] 根据此处的实施例，使用了本地决策模型和中央决策模型的混合模型。在网络健壮性很好的单个现场内，根据本地决策模型完成决策和媒体分发。此外，单个地点中每个节点最响亮发言者的音量被报告至该地点中的中央决策器，其确定最响亮发言者与哪个节点相关联。多个地点的中央决策器进一步加入到逻辑树形结构中。

[0033] 最响亮发言者音量在逻辑树形结构中向上报告，命令最响亮的节点将视频发送至参加会议的所有其他节点。

[0034] 图3是根据一个实施例的示例的示意图。在本示例中，有三个参加会议的现场：奥斯陆、伦敦和纽约。在纽约，节点1和2管理多个各自的端点，从这些端点接收媒体(视频和音频)。各个节点的最响亮发言者的音量和身份被报告至NY决策器。NY决策器进一步确定报告的这些中的最响亮发言者，并将该结果(在本示例中是节点1的音量)报告至逻辑树形结构中的下一级别的地点(在本例中是位于奥斯陆的地点)中的决策器。伦敦被定义为与纽约的地点处于逻辑树的同一级别，因此以同一方式报告最响亮发言者(在本示例中是节点5的音量)至决策器。奥斯陆的决策器确定从纽约报告的音量是最响亮的，因此发送关于最响亮发言者当前位于NY且由节点1管理的反馈至NY决策器。响应于此，NY决策器命令节点1传输最响亮发言者的视频到所有参会的节点，即到节点3、4、5。每个节点可以进一步转发接收的视频到其端点。

[0035] 图4是根据参考图3描述的示例性实施方式示出节点间数据流的序列图。

[0036] 总共有五个节点参加会议。节点1和2在纽约，节点3在奥斯陆，节点4 和5在伦敦。每个节点的最响亮发言者的音量例如为1＞2＞3＞4＞5。

[0037] 在t＝0处，所有节点发送最响亮发言者的音量到它们各自的决策器，如使用符号◇所示。在时刻1，所有决策器向本地节点报告先前报告的最响亮发言者中各自最响亮者。在NY是节点1，在奥斯陆是节点3，在伦敦是节点4。同时，NY和伦敦的决策器分别向奥斯陆的决策器报告节点1和节点4为它们所在现场的最响亮发言者，奥斯陆的决策器在逻辑树上高一个级别。

[0038] 在t＝2处，奥斯陆的决策器向NY和伦敦的决策器报告在会议的所有节点中节点1拥有最响亮发言者。这被进一步于t＝3处在伦敦现场被内部报告。

[0039] 最响亮发言者的信息现在传播遍布节点，节点1开始传输最响亮发言者的视频到所有其他节点。

[0040] 通过使用如上所述的逻辑决策树，只有来自管理最响亮发言者的节点的视频必须被发送，同时仍然保持面向网络故障的可恢复性。两个现场间的网络故障不会即刻影响从最响亮发言者到第三现场的视频传输。现场间的网络断线将会从逻辑决策树移除一个决策节点、抛弃其地点媒体。不需要专门恢复过程。然而，两个现场间的网络故障会导致基于不同现场的预定义优先级的逻辑树的重组。例如，如果奥斯陆出现故障，伦敦可以被在逻辑树上向上移动。

[0041] 在上述讨论的实施例的进一步改进中，在每个节点处引入一个代理。来自管理最响亮发言者的现场的视频随后被仅传输到每个现场处的各自的代理，从而避免向每个现场多次传输同一视频。代理随后将接收该视频并复制该视频至同一现场的每个节点，显著地减少了现场间数据传输的数量。

[0042] 虽然上述实施例在一个地点内的量级为O(N2)，在那种情况下N相对较小，因此成本是可接受的。树的量级为O(logN)，大大减小了地点间所需的流的数量。在良好网络条件下，给定地点的网络断线被认为是罕见的。

用于在视频会议中管理媒体流的方法和设备转让专利

申请号 : CN201380071830.7

文献号 : CN105191295B

文献日 : 2018-04-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : G·R·钱伯林 , H·M·E·A·哈什姆 , N·J·M·科米尔 , J-M·贝尔 , E·S·麦克利奥 , B·J·霍克勒

申请人 : 佩克普股份公司

摘要 :

权利要求 :

说明书 :