DAB低延迟实时语音广播的方法及系统转让专利

申请号 : CN202110184365.4

文献号 : CN112953934B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨虹朱金晨张红升费林坤刘红江

申请人 : 重庆邮电大学

摘要 :

本发明涉及一种DAB低延迟实时语音广播的方法,属于数字信号广播技术领域,包括步骤:S1:采集音频;S2:采用码率为9.6kbps,带宽为NB、WB或SWB模式的EVS进行编码,将每个EVS帧封装进1个DAB的FIB中;S3:采用DAB模式III合成DAB传输帧,并将连续6个包含EVS帧的FIB按照一定规则分配在5个DAB传输帧内进行发射;S4:接收DAB帧,并采用EVS解码,播放音频。还涉及一种DAB低延迟实时语音广播系统。本发明免去了通过DAB主业务信道传输音频存在的时间交织延迟并大幅缩短了编解码时间,实际系统的整体延迟不超过100ms,低于人耳可感延迟,从而实现基于DAB的低延迟的实时语音广播。

权利要求 :

1.一种DAB低延迟实时语音广播的方法,其特征在于:包括以下步骤:

S1:采集音频;

S2:采用码率为9.6kbps,带宽为NB(Narrow Band,窄带)、WB(Wide Band,宽带)或SWB(SuperWide Band,超宽带)模式的EVS(Enhance Voice Services,增强语音服务)进行编码,将每个EVS帧封装进一个DAB的快速信息块(Fast Information Block,FIB)中;

S3:采用DAB模式III合成DAB传输帧,并将连续6个包含EVS帧的FIB按照一定规则分配在5个DAB传输帧内进行发射;

S4:接收DAB帧,并采用EVS解码,播放音频;

采用在FIC中进行传输,DAB的传输帧由三个信道组成,分别为同步信道、快速信息信道与主业务信道,在模式III下,一个传输帧中的FIC包含4个FIB,一个FIB由30字节的数据字段与2字节的CRC组成,其中数据字段包含有用数据字段、结束符和填充位;有用数据字段最大为30字节,由一个或多个FIG组成,每个FIG包含FIG头和FIG数据字段,其中FIG头占1字节,传输模式III的周期为24ms;EVS帧与DAB传输帧的对应封装关系为每6个连续的EVS帧封装进连续5个DAB传输帧;EVS帧与DAB传输帧的最佳对应关系为前4个EVS帧依次封装进前4个DAB帧的各自一个FIB中,第5个与第6个EVS帧封装进第5个DAB帧的两个FIB中;实现最低延迟的编码方式为EVS帧编码开始后的24ms,DAB帧开始编码;EVS帧与DAB帧两种编码所产生的最小延迟为48ms,最大延迟为64ms。

2.根据权利要求1所述的DAB低延迟实时语音广播的方法,其特征在于:所述EVS的码率为9.6kbps,帧长为20ms,采样率为32kHz、16kHz或8kHz。

3.根据权利要求1所述的DAB低延迟实时语音广播的方法,其特征在于:采用DAB模式III传输DAB帧,传输帧周期为24ms。

4.一种DAB低延迟实时语音广播系统,其特征在于:包括音频采集模块、增强语音服务EVS编码模块、快速信息信道FIC传输模块、DAB接收模块、增强语音服务EVS解码模块及播放模块;

所述音频采集模块用于采集音频;

所述增强语音服务EVS编码模块采用EVS对音频进行编码,再封装进DAB的快速信息块(Fast Information Block,FIB)中;

所述FIB位于DAB传输帧的快速信息信道FIC中,并采用DAB模式III进行传输;

所述DAB接收模块用于接收DAB传输帧,并从中解码出EVS帧;

所述增强语音服务EVS解码模块用于对EVS帧进行解码;

所述播放模块用于播放解码后的音频;

EVS帧与DAB传输帧的对应封装关系为:每6个连续的EVS帧封装进连续5个DAB传输帧;

EVS帧与DAB传输帧的最佳对应封装关系为:前4个EVS帧依次封装进前4个DAB帧的各自一个FIB中,第5个与第6个EVS帧封装进第5个DAB帧的两个FIB中。

5.根据权利要求4所述的DAB低延迟实时语音广播系统,其特征在于:所述DAB的传输帧由三个信道组成,分别为同步信道、快速信息信道FIC与主业务信道MSC;

所述快速信息信道FIC包含4个FIB(Fast Information Block,快速信息块);一个FIB由30字节的数据字段与2字节的CRC(Cyclic Redundancy Check,循环冗余校验)组成,其中数据字段包含有用数据字段、结束符和填充位;所述有用数据字段最大为30字节,由一个或多个FIG(Fast Information Group,快速信息组),每个FIG包含FIG头和FIG数据字段,其中FIG头占1字节,一个FIB的最大承载数据为29字节。

6.根据权利要求4所述的DAB低延迟实时语音广播系统,其特征在于:EVS一帧长度为24字节,将其封装在FIC中的一个32字节的FIB的FIG内,FIG剩余的5字节空位用于控制信息的承载。

7.根据权利要求4所述的DAB低延迟实时语音广播系统,其特征在于:所述EVS的码率为

9.6kbps,帧长为20ms,采样率为32kHz、16kHz或8kHz。

说明书 :

DAB低延迟实时语音广播的方法及系统

技术领域

[0001] 本发明属于数字信号广播技术领域,涉及一种DAB低延迟实时语音广播的方法及系统。

背景技术

[0002] 数字信号广播(Digital Audio Broadcasting,DAB)是随着广播技术不断发展,逐渐替代传统的调频广播的一种新型广播系统,是数字化技术发展的产物。和传统的广播体系相比,DAB具有更加优秀的收听音质和抗干扰能力,还具备发射功率小、覆盖面积大、频谱利用率高和可移动接收等一系列优点。与传统的模拟无线广播相比,DAB可以传输高质量的数字化声音,并且同时可以传输图片、文字、视频等。与WIFI、蓝牙等无线技术相比,DAB传输距离要远的多,可以实现数百米的甚至数公里的无线传输,因此更适合学校、景区、广场等场景下的高品质音频广播。
[0003] DAB系统不但可以用于城市级的商业广播,而且可以用于学校、景区等小区域的广播和信息发布,其中一个很重要的应用场景就是现场的实时语音广播。目前主流的DAB实时语音广播系统主要由音频采集、音频编码、DAB传输帧合成、信道编码、OFDM调制和上变频等部分组成,接收端进行解调、解码等操作后,用户便可听见数字化的音频。但由于DAB系统在主业务信道(MSC,Main Service Channel)实施了交织深度为384ms的时间交织,加上DAB音频帧格式为MP2或LC AAC,需要较多的压缩和解码时间(每一帧为24ms,压缩和解码各需要至少2帧缓冲,故至少需要96ms),以及信道解码需要2~24ms的时间这些因素导致DAB音频传输至少存在482~504ms的延迟。由于传输延迟较大,DAB系统很难用于小区域的实时语音广播。例如,如果利用DAB系统在广场实时喊话,那么接收终端的喇叭会不可避免存在至少482ms的延迟,这个延迟的声音将重新传回到演讲者耳中,导致很差的讲话体验。很多研究和试验已经证明,要想让实时广播的演讲者获得较好的讲话体验,那么广播系统的延迟(从演讲者麦克风到接收终端喇叭)应该在200ms之内,并且越小越好。
[0004] 在城市级的商业广播场景中,讲话者位于播音室内,不会听见室外接收端设备的播放声音,对于这种延迟并不敏感。但随着DAB系统应用场景的不断扩展,在例如操场、会堂等场景中,讲话者与接收端设备所处空间位置较近,会听到来自接收端的声音。在讲话的同时听到482ms之前的声音,这种人耳可感延迟,会产生较差的交互效果,影响讲话者发言。目前尚没有很好的解决方案。因此,迫切需要一种新的实时语音传输技术,能够在兼容现有DAB系统的技术上,实现不超过200ms延迟的数字语音传输。其中的难点,一是必须要在现有DAB标准框架下进行设计,特别是DAB系统的物理层不能改变,否则将导致现有芯片和终端都不可使用;二是要延迟不超过200ms,且越小越好,以确保良好的讲话体验。
[0005] 此外,近年来,DAB系统也广泛运用于应急通信场景中,在紧急场景下,更低延迟的实时广播也会在关键时刻起到至关重要的作用。因此,低延迟实时语音广播的实现,不但可以避免可感延迟对于人耳的影响,更可以使DAB系统的性能更加精进,应用场景更加广泛。

发明内容

[0006] 有鉴于此,本发明的目的在于提供一种DAB低延迟实时语音广播的方法及系统。
[0007] 为达到上述目的,本发明提供如下技术方案:
[0008] 一种DAB低延迟实时语音广播的方法,包括以下步骤:
[0009] S1:采集音频;
[0010] S2:采用码率为9.6kbps,带宽为NB(Narrow Band,窄带)、WB(Wide Band,宽带)或SWB(Super Wide Band,超宽带)模式的EVS(Enhance Voice Services,增强语音服务)进行编码,将每个EVS帧封装进1个DAB的快速信息块(Fast Information Block,FIB)中;
[0011] S3:采用DAB模式III合成DAB传输帧,并将连续6个包含EVS帧的FIB按照一定规则分配在5个DAB传输帧内进行发射;
[0012] S4:接收DAB帧,并采用EVS解码,播放音频。
[0013] 进一步,EVS帧与DAB传输帧的对应封装关系为:每6个连续的EVS帧封装进连续5个DAB传输帧。
[0014] 进一步,所述EVS的码率为9.6kbps,周期为20ms,采样率为32kHz、16kHz或8kHz。
[0015] 进一步,采用DAB模式III传输DAB帧,传输帧周期为24ms。
[0016] 一种DAB低延迟实时语音广播系统,包括音频采集模块、增强语音服务EVS编码模块、快速信息信道FIC传输模块、接收模块、增强语音服务EVS解码模块及播放模块;
[0017] 所述音频采集模块用于采集音频;
[0018] 所述增强语音服务EVS编码模块采用EVS对音频进行编码,再封装进DAB的快速信息块(Fast Information Block,FIB)中;
[0019] 所述FIB位于DAB传输帧的快速信息信道FIC中,并采用DAB模式III进行传输;
[0020] 所述DAB接收模块用于接收DAB传输帧,并从中解码出EVS帧;
[0021] 所述增强语音服务EVS解码模块用于对EVS帧进行解码;
[0022] 所述播放模块用于播放解码后的音频。
[0023] 进一步,所述DAB的传输帧由三个信道组成,分别为同步信道、快速信息信道FIC与主业务信道MSC;
[0024] 所述快速信息信道FIC包含4个FIB(Fast Information Block,快速信息块);一个FIB由30字节的数据字段与2字节的CRC(Cyclic Redundancy Check,循环冗余校验)组成,其中数据字段包含有用数据字段、结束符和填充位;所述有用数据字段最大为30字节,由一个或多个FIG(Fast Information Group,快速信息组),每个FIG包含FIG头和FIG数据字段,其中FIG头占1字节,一个FIB的最大承载数据为29字节。
[0025] 进一步,EVS一帧周期为20ms,将其封装在一个FIC中的一个FIB内,剩余的5字节空位用于控制信息的承载。
[0026] 进一步,EVS帧与DAB传输帧的对应封装关系为:每6个连续的EVS帧封装进连续5个DAB传输帧。
[0027] 进一步,EVS帧与DAB传输帧的对应封装关系为:前4个EVS帧依次封装进前4个DAB帧的各自一个FIB中,第5个与第6个EVS帧封装进第5个DAB帧的两个FIB中。
[0028] 进一步,所述EVS的码率为9.6kbps,周期为20ms,采样率为32kHz、16kHz或8kHz。
[0029] 进一步,采用DAB模式III传输DAB帧,传输帧周期为24ms。
[0030] 本发明的有益效果在于:DAB传输模式选用模式III,传输帧周期为24ms,相比传输模式I,因传输帧周期产生的延迟大幅度缩短。
[0031] 编码采用EVS(Enhance Voice Services,增强语音服务)编码。EVS是一种超宽带语音音频编码标准,主要用于实时编码需求,相较于MP2编码,延迟更低,可以很好的满足实时语音的需求。
[0032] 采集后的音频由EVS编码器编码,再封装进DAB帧中。数据通过快速信息信道(Fast Information Channel,FIC)进行传输。FIC不需经过时间交织,相比通过MSC传输数据,可以免去由时间交织产生的384ms延迟。
[0033] EVS帧与DAB帧的对应封装关系为:每6个连续的EVS帧封装进连续5个DAB帧。为减小延迟,最大程度减少编解码缓存,仅保留必要的一帧EVS与一帧DAB的缓存,以达到最小延迟。
[0034] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

[0035] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0036] 图1为现有的无线实时语音广播的示意图;
[0037] 图2为现有DAB语音广播系统延迟示意图;
[0038] 图3为本发明所述的DAB低延迟实时语音广播系统的结构示意图;
[0039] 图4为本发明所述DAB传输帧结构图;
[0040] 图5为本发明所述FIB的结构图;
[0041] 图6为本发明所述的EVS与FIG的封装关系结构图;
[0042] 图7为本发明所述EVS帧与DAB传输帧的封装关系结构图。

具体实施方式

[0043] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0044] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0045] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0046] 图1是现有的无线实时语音广播的示意图,讲话者的声音经采集发射后,由接收机接收并通过喇叭播放。因为喇叭的声音与讲话者的声音之间存在延迟,当喇叭声音传到讲话者处时,这种延迟会对讲话者产生很大的影响。延迟产生的原因如图2所示,主要为以下四个方面:
[0047] (1)选用DAB传输模式I,传输帧周期为96ms,周期时间较长,产生延迟较高。
[0048] (2)通过MSC进行传输,需要经过时间交织,会产生约为384ms的延迟。
[0049] (3)现有的MP2/LC AAC音频格式,至少需要4帧以上的编解码缓冲(包括编码的2帧和解码的2帧),导致较大的编解码延迟。
[0050] (4)DAB信道解码会产生2~24ms延迟。
[0051] 因此,现有模式下的延迟至少为482~504ms。
[0052] 本发明的DAB低延迟实时语音广播系统的结构如图3所示。
[0053] 为尽可能降低传输延迟,采用DAB模式III传输,帧长24ms,相对于模式I的96ms,实时性更高。
[0054] 为解决DAB目前采用的MP2和LC AAC音频编解码延迟较大的问题,音频编码采用EVS编码。EVS是一种超宽带语音音频编码标准,主要用于实时编码需求,可以很好的适用于实时语音的场景。EVS的采样率为8/16/32/48kHz,可支持5.9kbps‑128kbps的码率。本设计采用码率为9.6kbps,带宽为NB(Narrow Band,窄带)、WB(Wide Band,宽带)或SWB(Super Wide Band,超宽带)模式的EVS(Enhance Voice Services,增强语音服务)进行编码,采样率为32kHz、16kHz或8kHz,一帧周期为20ms。
[0055] 为解决利用MSC传输音频帧存在时间交织进而导致384ms延迟的问题,采用在FIC中进行传输。如图4所示,DAB的传输帧由三个信道组成,分别为同步信道、快速信息信道与主业务信道。相比MSC,FIC不需经过时间交织,免去了384ms的时间交织延迟。同时,通过FIC传输,解码侧的延迟仅为2ms,相比MSC的2~24ms,延迟更低。
[0056] 在模式III下,一个传输帧中的FIC包含4个FIB(Fast Information Block,快速信息块)。FIB的结构见图5,一个FIB由30字节的数据字段与2字节的CRC(Cyclic Redundancy Check,循环冗余校验)组成,其中数据字段包含有用数据字段、结束符和填充位。有用数据字段最大为30字节,由一个或多个FIG(Fast Information Group,快速信息组)组成,每个FIG包含FIG头和FIG数据字段,其中FIG头占1字节,因此一个FIB的最大承载数据为29字节。传输模式III的周期为24ms,经计算,每个FIB的最大净数据率为9.66kbps。
[0057] EVS一帧周期为20ms,当码率为9.6kbps时,每帧可以传输24个字节,将其封装在一个FIC中的一个FIB内,剩余的5字节空位可以用于控制信息的承载。封装关系结构如图6所示。
[0058] DAB帧周期为24ms,EVS帧周期为20ms,为保证时间同步,由最小公倍数关系可知,对应关系应为:每6个连续的EVS帧封装进连续5个DAB帧。为保证整个封装过程延迟最低,经计算,最佳的对应关系为:前4个EVS帧依次封装进前4个DAB帧的各自一个FIB中,第5个与第6个EVS帧封装进第5个DAB帧的两个FIB中。封装关系如图7所示。
[0059] 音频数据需先经过EVS编码器编码后才能进入DAB帧中,因此,EVS编码的开始时间需要早于DAB编码至少一帧时间。加之DAB的第5帧编码需要在EVS的第5与第6帧编码完成后才可以开始,经计算,二者时间的最小时间差为24ms。因此实现最低延迟的编码方式为,EVS帧编码开始后的24ms,DAB帧开始编码。由两种编码所产生的最小延迟为48ms,即从EVS第一帧开始编码到DAB第一帧完成编码的时间。考虑部分编码器环境的性能不足支持4ms的精度,二者时间差可扩大至两帧EVS的时间,即40ms,此种方式下,总的编码延迟为64ms。故采用此种封装关系,可以使编码侧的延迟将至最低,为48~64ms。
[0060] EVS总延迟为32ms,包括一帧20ms的延迟,编码侧输入重采样的0.94ms延迟以及8.75ms的前向延迟,解码侧时域带宽扩展的2.31ms延迟。结合上述分析,本设计的系统总延迟为62~78ms,最低延迟62ms包括EVS编码侧延迟24+0.94+8.75=33.69ms,DAB编码侧延迟
24ms,信道解码2ms,EVS解码侧2.31ms。
[0061] 综上,由EVS和DAB编解码所产生的总延迟可以控制在100ms内,对比传统实时语音系统至少420ms的延迟,本设计重点免去了时间交织的时间并大幅缩短了编解码的所耗时间,低于人耳可感延迟,实现低延迟的实时语音广播。
[0062] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。