视频通话装置及方法转让专利

申请号 : CN201210269514.8

文献号 : CN103581604A

文献日 : 2014-02-12

一种视频通话装置涉及通信技术领域，包括音频以及视频输入输出模块、音频以及视频编解码模块、音视频同步模块、第一以及第二网络模块；音频输入输出模块与音频编解码模块相连，采集呼出的音频数据并传送至音频编解码模块进行编码，以及输出解码后的音频数据；视频输入输出模块与视频编解码模块相连，采集呼出的视频数据并传送至视频编解码模块进行编码，以及输出解码后的视频数据；音视频同步模块分别与音频以及视频编解码模块相连，用于同步呼出的编码后的音视频数据，以及同步呼入的解码前的音视频数据；第一网络模块与音频编解码模块相连，通过其电路域收发音频数据；第二网络模块与视频编解码模块相连，通过其分组域收发视频数据。

1.一种视频通话装置，其特征在于，包括音频输入输出模块、视频输入输出模块、音频编解码模块、视频编解码模块、音视频同步模块、第一网络模块以及第二网络模块；所述音频输入输出模块与所述音频编解码模块相连，用于采集呼出的音频数据，并将采集到的音频数据传送至所述音频编解码模块进行编码，以及输出解码后的音频数据；所述视频输入输出模块与所述视频编解码模块相连，用于采集呼出的视频数据，并将采集到的视频数据传送至所述视频编解码模块进行编码，以及输出解码后的视频数据；所述音视频同步模块分别与所述音频编解码模块、视频编解码模块相连，用于同步呼出的编码后音频数据和视频数据，以及同步呼入的解码前音频数据和视频数据；所述第一网络模块与所述音频编解码模块相连，通过第一网络的电路域收发音频数据；所述第二网络模块与所述视频编解码模块相连，通过第二网络的分组域收发视频数据。

2.根据权利要求1所述的视频通话装置，其特征在于，所述音视频同步模块进一步包括一延迟单元和一与所述延迟单元相连的时间戳加载单元，所述延迟单元用于对编码后的音频数据进行延迟，所述时间戳加载单元用于对编码后的音频数据和视频数据加载上时间戳。

3.根据权利要求1所述的视频通话装置，其特征在于，所述音视频同步模块进一步包括一时间戳比较单元，所述时间戳比较单元用于比较接收到的音频数据的时间戳和视频数据的时间戳，所述音视频同步模块根据比较结果控制音频数据和视频数据同步。

4.根据权利要求1所述的视频通话装置，其特征在于，所述第一网络模块为支持音频数据传输的通信网络模块，所述第二网络模块为支持视频数据传输的通信网络模块。

5.一种视频通话呼出方法，采用权利要求1所述视频通话装置，其特征在于，包括如下步骤：（1）采用所述音频输入输出模块与视频输入输出模块分别采集音频数据以及视频数据；（2）采用所述音频编解码模块与视频编解码模块分别对采集到的音频数据和视频数据进行编码；（3）采用所述音视频同步模块同步编码后的音频数据和视频数据；（4）同步后的音频数据通过第一网络的电路域呼出，同时同步后的视频数据通过第二网络的分组域呼出。

6.根据权利要求5所述的视频通话呼出方法，其特征在于，所述音视频同步模块进一步包括一延迟单元和一与所述延迟单元相连的时间戳加载单元，则步骤（3）进一步包括：（31）通过所述延迟单元对编码后的音频数据进行延迟，之后进行步骤（32）；（32）通过所述时间戳加载单元为编码后的音频数据和视频数据分别加载上时间戳。

7.一种视频通话呼入方法，采用权利要求1所述视频通话装置，其特征在于，包括如下步骤：（1）采用第一网络的电路域接收呼入的音频数据，并采用第二网络的分组域接收呼入的视频数据；（2）采用所述音视频同步模块同步接收到的音频数据和视频数据；（3）采用所述音频编解码模块与视频编解码模块分别对同步后的音频数据和视频数据进行解码；

（4）采用所述视频输入输出模块显示解码后的视频数据，同时采用所述音频输入输出模块输出解码后的音频数据。

8.根据权利要求7所述的视频通话呼入方法，其特征在于，所述音视频同步模块进一步包括一时间戳比较单元，则步骤（2）进一步包括：比较接收到的音频数据的时间戳和视频数据的时间戳，并根据比较结果控制音频数据和视频数据同步。

9.根据权利要求8所述的视频通话呼入方法，其特征在于，所述比较接收到的音视频数据的时间戳进一步采用：设定一延迟时间，若所取视频数据的视频时间戳与音频时间戳相比，延迟超过所设定的延迟时间，则丢弃该帧视频数据，重新取新的视频数据，进行音视频数据的时间戳比较。

视频通话装置及方法

技术领域

[0001] 本发明涉及通信技术领域，尤其涉及一种可以在双模手机上实现视频通话的视频通话装置及方法。

背景技术

[0002] 随着手机等移动终端的日益普及，移动终端的使用范围越来越广，用户对移动终端的要求也越来越高。以手机的视频通话为例，目前3G网络TD-SCDMA和WCDMA在电路域预留64Kbits的视频电话带宽，使得移动终端可以提供电路域可视电话的视频通话业务。参见附图1，目前采用TD-SCDMA或WCDMA的移动终端提供视频通话业务的流程图。

[0003] 从数据层面来看，数据采集主叫时包括如下步骤：S11：移动终端从麦克风采集到音频数据、从摄像头采集到视频数据；S12：对音频数据采用AMR编码，对视频数据采用H.263编码；S13：编码好的音频数据交到H.223适配层（AL）的Level2，视频数据交到H.223适配层（AL）的Level3，之后音视频数据通过复用层（MUX）进行复用；S14：复用层采用复用码流转换协议（V.34）将音视频数据流复用成一个流；S15：复用码流发送到TD-SCDMA或WCDMA的基带（BaseBand）；S16：复用码流通过BaseBand发送到TD-SCDMA或WCDMA的电路域。被叫时则是一个逆向的过程，其中H.223在复用层将接收到的码流分解成多个媒体流。

[0004] 从控制层面来看，包括如下步骤：S17：H.245进行通信控制；S18：H.245的控制信息通过H.223适配层的Level1传输，由控制信道分片重组协议（CCSRL）和数据包重发协议（NSRP或WNSRP）来保证控制信息的正确传输。H.245进行通信控制主要包括H.245负责能力交换（即使用H.245提供的方法，交换移动终端的能力）、主从决定（即使用H.245提供的方法，确定主叫方和被叫方）、打开关闭逻辑通道（即建立或断开音频、视频、及数据应用的逻辑信道）。

[0005] 以下是采用TD-SCDMA或WCDMA的手机的一次视频通话流程：1）首先，两个手机建立连接；
2）然后，两个手机建立数据通讯；
3）开始建立视频电话连接；该过程主要包括a) 使用H.245提供的方法，交换移动终端的能力；b) 使用H.245提供的方法，确定主叫方和被叫方；c) 发送H.223复用表；d) 开始音视频编解码及收发数据；
4）两个手机用户进行视频通话，在通话的过程中，可以使用H.245定义的方法来改变信道属性、能力等；
5）两个手机用户结束通话；
6）两个手机断开连接。

[0006] 在TD-SCDMA或WCDMA中由于电路域带宽的限制，图像传输采用高压缩比和低速率，导致图像效果不太理想。

[0007] 目前市场上还有一种CDMA+GSM的双模手机，这种双模手机具体来说支持双网双待双通，其中，双通即要实现两张卡可以同时待机，也就是说在手机未通话状态下，任何一张卡的号码都可以被打入。而由于CDMA2000网络在设计之初并没有在电路域预留64Kbits的视频电话带宽，使得CDMA2000只能通过分组域提供可视电话的服务，由于可视电话音频与视频的数据量很大，即使用H.263 Profile 0 Level 10,AMR等进行音视频的编码，网络带宽占用仍然很大，影响其它数据增值应用的推广，而且升级目前的网络架构要考虑成本问题，因此目前电信运营商并不提供3G网络下的视频电话的服务。而GSM则是2G的网络,上下行传输速率不够，所以不能支持视频电话。因此目前CDMA+GSM的双模手机不能够支持拨打视频电话。

发明内容

[0008] 本发明所要解决的技术问题是，提供一种视频通话装置及方法，解决在TD-SCDMA或WCDMA中由于电路域带宽的限制，图像传输采用高压缩比和低速率，导致图像效果不太理想的问题，以及现有技术中的多模移动终端无法在不升级目前的网络架构的情况下支持视频电话的问题。

[0009] 为了解决上述问题，本发明提供了一种视频通话装置，包括音频输入输出模块、视频输入输出模块、音频编解码模块、视频编解码模块、音视频同步模块、第一网络模块以及第二网络模块；所述音频输入输出模块与所述音频编解码模块相连，用于采集呼出的音频数据，并将采集到的音频数据传送至所述音频编解码模块进行编码，以及输出解码后的音频数据；所述视频输入输出模块与所述视频编解码模块相连，用于采集呼出的视频数据，并将采集到的视频数据传送至所述视频编解码模块进行编码，以及输出解码后的视频数据；所述音视频同步模块分别与所述音频编解码模块、视频编解码模块相连，用于同步呼出的编码后音频数据和视频数据，以及同步呼入的解码前音频数据和视频数据；所述第一网络模块与所述音频编解码模块相连，通过第一网络的电路域收发音频数据；所述第二网络模块与所述视频编解码模块相连，通过第二网络的分组域收发视频数据。

[0010] 所述音视频同步模块进一步包括一延迟单元和一与所述延迟单元相连的时间戳加载单元，所述延迟单元用于对编码后的音频数据进行延迟，所述时间戳加载单元用于对编码后的音频数据和视频数据加载上时间戳。

[0011] 所述音视频同步模块进一步包括一时间戳比较单元，所述时间戳比较单元用于比较接收到的音频数据的时间戳和视频数据的时间戳，所述音视频同步模块根据比较结果控制音频数据和视频数据同步。

[0012] 进一步，所述第一网络模块为支持音频数据传输的通信网络模块，所述第二网络模块为支持视频数据传输的通信网络模块。

[0013] 为了解决上述问题，本发明还提供了一种视频通话呼出方法，采用本发明所述视频通话装置，包括如下步骤：（1）采用所述音频输入输出模块与视频输入输出模块分别采集音频数据以及视频数据；（2）采用所述音频编解码模块与视频编解码模块分别对采集到的音频数据和视频数据进行编码；（3）采用所述音视频同步模块同步编码后的音频数据和视频数据；（4）同步后的音频数据通过第一网络的电路域呼出，同时同步后的视频数据通过第二网络的分组域呼出。

[0014] 所述音视频同步模块进一步包括一延迟单元和一与所述延迟单元相连的时间戳加载单元，则步骤（3）进一步包括：（31）通过所述延迟单元对编码后的音频数据进行延迟，之后进行步骤（32）；（32）通过所述时间戳加载单元为编码后的音频数据和视频数据分别加载上时间戳。

[0015] 为了解决上述问题，本发明还提供了一种视频通话呼入方法，采用本发明所述视频通话装置，包括如下步骤：（1）采用第一网络的电路域接收呼入的音频数据，并采用第二网络的分组域接收呼入的视频数据；（2）采用所述音视频同步模块同步接收到的音频数据和视频数据；（3）采用所述音频编解码模块与视频编解码模块分别对同步后的音频数据和视频数据进行解码；（4）采用所述视频输入输出模块显示解码后的视频数据，同时采用所述音频输入输出模块输出解码后的音频数据。

[0016] 所述音视频同步模块进一步包括一时间戳比较单元，则步骤（2）进一步包括：比较接收到的音频数据的时间戳和视频数据的时间戳，并根据比较结果控制音频数据和视频数据同步。

[0017] 所述比较接收到的音视频数据的时间戳进一步采用：设定一延迟时间，若所取视频数据的视频时间戳与音频时间戳相比，延迟超过所设定的延迟时间，则丢弃该帧视频数据，重新取新的视频数据，进行音视频数据的时间戳比较。

[0018] 本发明的优点在于，通过本发明提供的音视频数据同步以及分成不同的网络传输的方法和装置，实现了在多模移动终端上支持语音与图像一致性的视频通话，且由于音频数据与视频数据分别通过不同的网络传输，解决了在TD-SCDMA或WCDMA中由于电路域带宽的限制，图像传输采用高压缩比和低速率，导致图像效果不太理想的问题。

附图说明

[0019] 附图1，目前采用TD-SCDMA或WCDMA的移动终端提供视频通话业务的流程图；附图2，本发明所述视频通话装置一具体实施方式的架构示意图；
附图3，采用本发明所述视频通话装置进行视频通话呼出方法的流程示意图；
附图4，采用本发明所述视频通话装置进行视频通话呼入方法的流程示意图；
附图5至7是本发明所述视频通话方法的三个实施例的流程示意图。

具体实施方式

[0020] 下面结合附图对本发明提供的视频通话装置及方法的具体实施方式做详细说明。本发明中视频通话方法包括视频通话的呼出方法以及呼入方法；移动终端可以为支持多网多通的多模手机。

[0021] 参见附图2，本发明所述视频通话装置一具体实施方式的架构示意图，包括音频输入输出模块M21、音频编解码模块M22、视频输入输出模块M23、视频编解码模块M24、音视频同步模块M25、第一网络模块M26以及第二网络模块M27。

[0022] 所述音频输入输出模块M21与所述音频编解码模块M22相连，用于采集呼出的音频数据，并将采集到的音频数据传送至所述音频编解码模块M22进行编码，以及输出经音频编解码模块M22解码后的音频数据。所述音频输入输出模块M21可以包括麦克风和扬声器。移动终端通信双方视频通话链路通道建立后，进入视频通话阶段；所述音频输入输出模块M21通过麦克风采集呼出的音频数据，并将采集到的音频数据传送至所述音频编解码模块M22；并通过扬声器输出解码后的音频数据。

[0023] 所述音频编解码模块M22进一步与所述音视频同步模块M25相连。所述音频编解码模块M22对所述音频输入输出模块M21采集到的音频数据进行编码，并将编码后的音频数据传送至所述音视频同步模块M25；所述音频编解码模块M22还用于对经所述音视频同步模块M25同步后的音频数据进行解码，并通过所述音频输入输出模块M21输出解码后的音频数据。对音频数据的编解码可采用现有技术中的编解码方式，例如采用AMR编解码。

[0024] 所述视频输入输出模块M23与所述视频编解码模块M24相连，用于采集呼出的视频数据，并将采集到的视频数据传送至所述视频编解码模块M24进行编码，以及输出经视频编解码模块M24解码后的视频数据。所述视频输入输出模块包括摄像头和显示屏。移动终端通信双方视频通话链路通道建立后，进入视频通话阶段；所述视频输入输出模块M23通过摄像头采集呼出的视频数据，并将采集到的视频数据传送至所述视频编解码模块M24；并通过显示屏显示解码后的视频数据。

[0025] 所述视频编解码模块M24进一步与所述音视频同步模块M25相连。所述视频编解码模块M24对所述视频输入输出模块M23采集到的视频数据进行编码，并将编码后的视频数据传送至所述音视频同步模块M25；所述视频编解码模块M24还用于对经所述音视频同步模块M25同步后的视频数据进行解码，并通过所述视频编解码模块M24输出解码后的视频数据。对视频数据的编解码可采用现有技术中的编解码方式，例如采用H.263编解码。

[0026] 所述音视频同步模块M25分别与所述音频编解码模块M22、视频编解码模块M24相连，用于同步呼出的编码后音频数据和视频数据，以及同步呼入的解码前音频数据和视频数据。

[0027] 对于编码后音频数据和视频数据，由于音频数据的编码速度较快，因此为了保证发送端发送出去的语音及图像数据的时间一致，需要对编码后的音频数据和视频数据进行同步。在本实施方式中所述音视频同步模块M25可以包括一延迟单元M251和一与所述延迟单元相连的时间戳加载单元M252；所述延迟单元M251用于对编码后的音频数据进行延迟，即通过所述延迟单元M251对音频数据做一个编码延时；等到视频数据编码完成后，再通过所述时间戳加载单元M252分别对编码后的音频数据和视频数据加载上时间戳；从而同步编码后的音频数据和视频数据，再通过空口一起发送到被叫方。

[0028] 对于呼入的音频数据和视频数据，在解码前要根据时间戳的比较对速率、流量等进行控制，保证图像与声音的一致后再进行输出操作。在本实施方式中所述音视频同步模块M25可以包括一时间戳比较单元M253，所述时间戳比较单元M253用于比较接收到的音频数据的时间戳和视频数据的时间戳，所述音视频同步模块根据比较结果控制音频数据和视频数据同步。对于第一网络模块M26和第二网络模块M27接收到的音频和视频数据，在未解码前通过所述时间戳比较单元M253比较音频数据的时间戳和视频数据的时间戳；一般来说音频传输的准确率较高，所以可以以音频时间戳作为参考时间，并设定延迟时间，例如设定延迟时间为1s，如果所取到的视频数据的视频时间戳与音频时间戳相比，延迟超过1s，则丢弃该帧视频数据，重新取新的视频数据，进行音视频数据的时间戳比较，这样就能保证语音与图像的一致性。

[0029] 所述第一网络模块M26与所述音频编解码模块M22相连，通过第一网络的电路域收发音频数据。所述第二网络模块M27与所述视频编解码模块M24相连，通过第二网络的分组域收发视频数据。

[0030] 对于音视频数据发送，为了在移动终端上支持视频通话，可以将同步后的音频数据通过第一网络模块M26的基带发送到第一网络的电路域，通过第一网络的电路域呼出；以及将同步后的视频数据通过第二网络模块M47的基带发送到第二网络的分组域，通过第二网络的分组域呼出。对于音视频数据接收，所述第一网络模块M26通过其电路域接收呼入的音频数据；所述第二网络模块M27通过其分组域接收呼入的视频数据。即音频数据通过第一网络传输，同时视频数据通过第二网络传输，从而保证通话质量。所述第一网络模块M26为支持音频数据传输的通信网络模块，所述第二网络模块M27为支持视频数据传输的通信网络模块，且第一网络模块M26的基带与第二网络模块M27的基带是可以并发的。例如所述第一网络模块M26为GSM网络模块，所述第二网络模块M27为CDMA2000、WCDMA或TD-SCDMA网络模块。

[0031] 参考附图3，采用本发明所述视频通话装置进行视频通话呼出方法的流程示意图，包括如下步骤。

[0032] S31：采用所述音频输入输出模块与视频输入输出模块分别采集音频数据以及视频数据。

[0033] 首先移动终端向被叫方发起视频通话连接建立请求，并得到被叫方的回应后，双方视频通话链路通道就建立起来了，之后进入视频通话阶段。所述音频输入输出模块M21采集呼出的音频数据，所述视频输入输出模块M22采集呼出的视频数据；例如可以通过视频输入输出模块M22摄像头采集视频数据；通过音频输入输出模块M21的麦克风采集音频数据。

[0034] S32：采用所述音频编解码模块与视频编解码模块分别对采集到的音频和视频数据进行编码。

[0035] 对音视频数据进行编码可采用现有技术中的编码方式，例如对音频数据采用AMR编码，对视频数据采用H.263编码。

[0036] S33：采用所述音视频同步模块同步编码后的音频数据和视频数据。

[0037] 由于音频数据的编码速度较快，因此为了保证发送端发送语音及图像数据的时间一致，音频数据要做一个编码延时，等到视频数据编码完成后再打上时间戳，从而同步编码后的音频数据和视频数据，再通过空口一起发送到被叫方。

[0038] 在本实施方式中，所述音视频同步模块M25可以包括一延迟单元M251和一与所述延迟单元相连的时间戳加载单元M252，则步骤S33进一步通过以下步骤实现：S331：通过所述延迟单元M251对编码后的音频数据进行延迟，之后进行步骤S332；S332：通过所述时间戳加载单元M252为编码后的音频数据和视频数据分别加载上时间戳。从而同步编码后的音频数据和视频数据，再通过空口一起发送到被叫方。

[0039] S34：同步后的音频数据通过第一网络的电路域呼出，同时同步后的视频数据通过第二网络的分组域呼出。

[0040] 首先，视频通话数据包括音频与视频数据，为了在移动终端上支持视频通话，可以将同步后的音频数据通过第一网络的基带发送到第一网络电路域，同时同步后的视频数据通过第二网络的基带发送到第二网络分组域；即音频数据通过第一网络传输，同时视频数据通过第二网络传输，从而保证通话质量。其中所述第一网络为支持音频数据传输的通信网络，所述第二网络为支持视频数据传输的通信网络；且第一网络的基带与第二网络的基带是可以并发的。例如所述第一网络为GSM网络，所述第二网络为CDMA2000、WCDMA或TD-SCDMA网络。

[0041] 参考附图4，采用本发明所述视频通话装置进行视频通话呼入方法的流程示意图，包括如下步骤。

[0042] S41：采用第一网络的电路域接收呼入的音频数据，并采用第二网络的分组域接收呼入的视频数据。

[0043] 首先主叫方向移动终端发起视频通话连接建立请求，并得到移动终端的回应后，双方视频通话链路通道就建立起来了，之后进入视频通话阶段。第一网络电路域接收呼入的音频数据，第二网络分组域接收呼入的视频数据，即音频数据通过第一网络传输，同时视频数据通过第二网络传输。

[0044] S42：采用所述音视频同步模块同步接收到的音频数据和视频数据。

[0045] 对于呼入的音频数据和视频数据，在解码前要根据时间戳的比较对速率、流量等进行控制，保证图像与声音的一致后再进行输出操作。在本实施方式中所述音视频同步模块M25可以包括一时间戳比较单元M253，则步骤S42可以采用：比较接收到的音频数据的时间戳和视频数据的时间戳，并根据比较结果控制音频数据和视频数据同步。所述比较接收到的音视频数据的时间戳进一步采用：设定一延迟时间，若所取视频数据的视频时间戳与音频时间戳相比，延迟超过所设定的延迟时间，则丢弃该帧视频数据，重新取新的视频数据，进行音视频数据的时间戳比较。一般来说音频传输的准确率较高，所以可以以音频时间戳作为参考时间，并设定延迟时间，例如设定延迟时间为1s，如果所取到的视频数据的视频时间戳与音频时间戳相比，延迟超过1s，则丢弃该帧视频数据，重新取新的视频数据，进行音视频数据的时间戳比较，这样就能保证语音与图像的一致性。

[0046] S43：采用所述音频编解码模块与视频编解码模块分别对同步后的音频和视频数据进行解码。

[0047] 对音视频数据进行解码可采用现有技术中的解码方式，例如对音频数据采用AMR解码，对视频数据采用H.263解码。

[0048] S44：采用所述视频输入输出模块显示解码后的视频数据，同时采用所述音频输入输出模块输出解码后的音频数据。

[0049] 由于呼入的音频数据和视频数据，在解码前根据时间戳的比较实现了对速率、流量等进行控制，保证图像与声音的一致。因此可以通过视频输入输出模块M22的显示屏显示同步后的视频数据；同时通过音频输入输出模块M21的麦克风输出同步后的音频数据；实现语音与图像一致性的视频通话。

[0050] 通过本发明提供的音视频数据同步以及分成不同的网络传输的方法，实现了在多模移动终端上支持语音与图像一致性的视频通话，且由于音频数据与视频数据分别通过不同的网络传输，解决了在TD-SCDMA或WCDMA中由于电路域带宽的限制，图像传输采用高压缩比和低速率，导致图像效果不太理想的问题。

[0051] 接下来给出上述技术方案的多个实施例，为了使得以下实施例的描述简单明了仅以CDMA+GSM双模手机上实现视频通话为例进行描述，其它的多模移动终端与CDMA+GSM双模手机的原理是相同的。

[0052] 首先，视频电话数据包括语音与视频数据，为了在CDMA+GSM双模手机上实现视频通话，考虑保证通话的语音质量，可以把语音数据通过2G网络传输。由于GSM和CDMA的EVDO是在两个基带上，它们是可以并发的；所以由速率较低的GSM网络电路域承载语音数据，由速率较高的EVDO网络分组域承载视频数据，然后在CDMA上划出一块公共内存区域，把语音数据和视频数据集合在一起进行编解码。在拨打电话时，将摄像头采集的视频数据和麦克风接收到的语音数据编码后放到内存共享池中，分别通过CDMA和GSM网络进行传输，同时CDMA确保驻留在EVDO网络上，使得3G的CDMA2000用户和2G的GSM用户体验到3G的标志性功能-视频通话。

[0053] 以下实施例中采用的英文缩写对应的中文含义如下：H.245多媒体通信控制协议；
H.225 呼叫控制及数据打包协议；
H.223数据复用协议；
V.34 复用码流转换协议；
CCSRL控制信道分片重组协议；
NSRP数据包重发协议；
WNSRP 传输控制协议；
RTP实时传输协议；
RTCP RTP 控制协议；
AL H.223适配层；
MUX H.223复用层；
AMR自适应多速率编码；
BaseBand 基带；
H.263视频协议；
MUX-PDU 复用层将适配层数据复用成数据模块。

[0054] 实施例一图5为本实施例的流程图。本实施例是CDMA+GSM双模手机上实现视频通话的流程，其中该双模手机为双待双通。

[0055] 数据层面为视频数据通过EVDO网络传输，首先摄像头采集的数据使用H.263进行编码，编码后的数据使用H.225打包成RTP数据包，RTP的承载是TCP/IP层, 麦克风采集到的音频数据则采用12.2kbps 速率的AMR编码交到H.223适配层的Level2。音频数据通过基带发送到GSM的电路域，视频数据通过基带发送到EVDO的分组域。

[0056] 控制层面则是由H.225.0层将H.263编码后的Video流格式化成消息，其中Q.931负责进行呼叫控制。 H.245在这里除了能力交换，主从决定等功能外，还要负责建立RTP通道。

[0057] 以下是一次C+G视频通话流程：1） H.225向视频电话接收方发起SET UP请求，发出连接建立的信号。

[0058] 2) Call Proceeding，主叫方等待Call通道的建立，说明信号被目的端处理中。

[0059] 3) 视频电话接收方开始振铃，Alerting，告诉主叫方目标节点正在振铃。

[0060] 4) 如果被叫方给予Accept的回应，双方链路通道建立起来，Connected。

[0061] 5) 开始 H.245 会话。会话过程包括：a) 使用H.245提供的方法，通过0号控制逻辑信道，交换终端的能力；b) 使用H.245提供的方法，确定主叫方和被叫方；c) 建立音频及RTP的逻辑信道；d) 发送H.223复用表，复用表定义了各种类型的适配层数据在MUX-PDU 中的排列顺序和长度；e) 开始音视频编解码；f) 编码后的视频数据通过H.225打包成RTP传输,H.225还负责组装RTCP包进行质量统计；g) 编码后的音频数据提交到H.223适配层的Level2，并通过H.223复用层复用成一个流。

[0062] 6）进行视频通话。在通话的过程中，可以使用H.245定义的方法来改变信道属性，能力等。同时如果有外部1x的语音来电，需要发Reject消息，拒接来电，因为语音来电会切换网络到1x模式，由于CDMA网络不支持语音与数据业务的并发，这样会导致视频数据的传输中止。如果用户在EVDO网络上做数据业务是可以允许的。

[0063] 7） H.245结束通话，停止传送语音与视频信息，通过H.245关闭语音与数据逻辑通道，并向对端传送EndSession消息，指示对端停止呼叫，然后主叫停止传送H.245消息，收到对端的EndSession的响应后，关闭控制逻辑通道。

[0064] 8） H.225负责断开链路通道，释放空口资源。

[0065] 实施例二图6为本实施例的流程图。本实施例是CDMA+GSM双模手机作为主叫方实现语音和图像数据同步过程，即主叫方对于AMR编码的语音数据和H.263编码的图像数据同步过程。由于音频数据的编码速度较快，因此为了保证发送端发送语音及图像数据的时间一致，Audio要做一个编码延时，等Video编码完成后再打上时间戳，一起通过空口发送到被叫方。

[0066] 实施例三图7为本实施例的流程图。本实施例是CDMA+GSM双模手机作为被叫方实现语音和图像数据同步过程，即被叫方对于AMR编码的语音数据和H.263编码的图像数据同步过程。
被叫方接收到GSM和EVDO分别传输的语音和图像数据后，在未解码前首先比较两者的时间戳，一般来说音频传输的准确率较高，所以我们以音频时间戳作为参考时间，如果视频时间戳与音频时间戳相比，延迟超过1s，则丢弃视频帧，重新取新的视频数据，这样就能保证语音与图像的一致性。

[0067] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

视频通话装置及方法转让专利

申请号 : CN201210269514.8

文献号 : CN103581604A

文献日 : 2014-02-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王亮亮

申请人 : 希姆通信息技术(上海)有限公司

摘要 :

权利要求 :

说明书 :