一种语音编码方法、装置、设备、存储介质及产品转让专利
申请号 : CN202111129351.9
文献号 : CN113571072B
文献日 : 2021-12-14
发明人 : 梁俊斌
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种语音编码方法,其特征在于,所述方法包括:获取前N帧噪声语音和每帧所述噪声语音对应的感知能量,其中,所述感知能量与听觉感知上的强弱程度相关,N为正整数;
基于所述感知能量,确定前N帧所述噪声语音对应的标准感知能量;
确定与所述标准感知能量负相关的噪声编码间隔;
基于所述噪声编码间隔,对M帧所述噪声语音进行噪声编码,其中,M帧所述噪声语音为前N帧所述噪声语音之后的语音,编码后的M帧所述噪声语音用于生成舒适噪声,M为正整数。
2.根据权利要求1所述的方法,其特征在于,所述获取前N帧噪声语音和每帧所述噪声语音对应的感知能量之前,所述方法还包括:在噪声语音帧序列中,获取每帧所述噪声语音中的每个语音频点对应的频点能量、频点声压和频点频率,其中,所述噪声语音帧序列包括前N帧所述噪声语音和M帧所述噪声语音,每帧所述噪声语音包括至少一个所述语音频点;
基于所述频点声压和所述频点频率,确定频点响度,其中,所述频点响度为所述噪声语音在听觉感知上的强弱程度;
确定与所述频点响度正相关的能量权重;
基于所述能量权重调整所述频点能量,得到频点感知能量;
将与至少一个所述语音频点对应的至少一个所述频点感知能量,组合为所述噪声语音帧序列中的每帧所述噪声语音对应的所述感知能量。
3.根据权利要求2所述的方法,其特征在于,所述在噪声语音帧序列中,获取每帧所述噪声语音中的每个语音频点对应的频点能量、频点声压和频点频率之前,所述方法还包括:获取待检测语音,其中,所述待检测语音为采集到的话音;
对所述待检测语音进行语音动态检测;
当基于语音动态检测结果确定所述待检测语音中的语音帧序列为噪声信号时,将所述语音帧序列确定为所述噪声语音帧序列。
4.根据权利要求3所述的方法,其特征在于,所述对所述待检测语音进行语音动态检测之后,所述方法还包括:
当基于所述语音动态检测结果确定所述待检测语音中的所述语音帧序列为话音信号时,对所述语音帧序列进行语音编码,其中,所述语音编码对应的编码码率大于所述噪声编码对应的编码码率。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述在噪声语音帧序列中,获取每帧所述噪声语音中的每个语音频点对应的频点能量、频点声压和频点频率,包括:对所述噪声语音帧序列进行加窗处理,得到每帧所述噪声语音;
获取每帧所述噪声语音中的每个所述语音频点对应的所述频点能量、所述频点声压和所述频点频率。
6.根据权利要求2至4任一项所述的方法,其特征在于,所述基于所述频点声压和所述频点频率,确定频点响度,包括:基于等响关系确定所述语音频点对应的插值参数,其中,所述等响关系为等响度条件下声压与频率的关系;
基于所述插值参数和所述频点频率,确定所述语音频点对应的频点插值;
对所述频点声压和所述频点插值进行整合,得到所述频点响度。
7.根据权利要求2至4任一项所述的方法,其特征在于,所述确定与所述频点响度正相关的能量权重,包括:
获取所述频点响度与第一阈值对应的第一比值;
对第二阈值的所述第一比值的次方进行计算,得到指数值;
将所述指数值与第三阈值对应的第二比值,确定为与所述频点响度正相关的所述能量权重。
8.根据权利要求1至4任一项所述的方法,其特征在于,所述确定与所述标准感知能量负相关的噪声编码间隔,包括:对所述标准感知能量进行转换,得到待对比感知能量;
当所述待对比感知能量小于第一能量阈值时,确定包括第一噪声编码间隔的所述噪声编码间隔;
当所述待对比感知能量大于等于所述第一能量阈值且小于第二能量阈值时,确定包括第二噪声编码间隔的所述噪声编码间隔,其中,所述第一能量阈值小于所述第二能量阈值,所述第一噪声编码间隔大于所述第二噪声编码间隔;
当所述待对比感知能量大于等于所述第二能量阈值且小于第三能量阈值时,确定包括第三噪声编码间隔的所述噪声编码间隔,其中,所述第二能量阈值小于所述第三能量阈值,所述第二噪声编码间隔大于所述第三噪声编码间隔;
当所述待对比感知能量大于第三能量阈值时,确定包括第四噪声编码间隔的所述噪声编码间隔,其中,所述第三噪声编码间隔大于所述第四噪声编码间隔。
9.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述噪声编码间隔,对M帧所述噪声语音进行噪声编码,包括:获取上一编码帧,其中,所述上一编码帧为上一次进行噪声编码的所述噪声语音对应的帧;
基于所述噪声编码间隔和所述上一编码帧,确定下一编码帧;
从M帧所述噪声语音中,确定所述下一编码帧对应的所述噪声语音,得到待编码噪声语音,对所述待编码噪声语音进行噪声编码。
10.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述噪声编码间隔,对M帧所述噪声语音进行噪声编码之后,所述方法还包括:向解码设备发送编码后的M帧所述噪声语音,以使所述解码设备基于编码后的M帧所述噪声语音生成所述舒适噪声,其中,所述解码设备用于播放所述舒适噪声。
11.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述噪声编码间隔,对M帧所述噪声语音进行噪声编码之后,所述方法还包括:存储编码后的M帧所述噪声语音;
响应于语音播放请求,对存储的编码后的M帧所述噪声语音进行解码,得到所述舒适噪声;
播放所述舒适噪声。
12.一种语音编码装置,其特征在于,所述语音编码装置包括:语音获取模块,用于获取前N帧噪声语音和每帧所述噪声语音对应的感知能量,其中,所述感知能量与听觉感知上的强弱程度相关,N为正整数;
能量确定模块,用于基于所述感知能量,确定前N帧所述噪声语音对应的标准感知能量;
间隔确定模块,用于确定与所述标准感知能量负相关的噪声编码间隔;
噪声编码模块,用于基于所述噪声编码间隔,对M帧所述噪声语音进行噪声编码,其中,M帧所述噪声语音为前N帧所述噪声语音之后的语音,编码后的M帧所述噪声语音用于生成舒适噪声,M为正整数。
13.一种语音编码设备,其特征在于,所述语音编码设备包括:存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的语音编码方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令用于被处理器执行时,实现权利要求1至11任一项所述的语音编码方法。
说明书 :
一种语音编码方法、装置、设备、存储介质及产品
技术领域
背景技术
低语音编码的资源消耗。
时间间隔固定,从而在每个时间间隔对应的时间段中,基于编码的噪声语音生成舒适噪声
时,所获得的舒适噪声是稳定的,而实际噪声是不稳定的;因此,舒适噪声与实际噪声的匹
配度较低,从而,舒适噪声的生成质量较低。
发明内容
整数。
生成舒适噪声,M为正整数。
其中,所述噪声语音帧序列包括前N帧所述噪声语音和M帧所述噪声语音,每帧所述噪声语
音包括至少一个所述语音频点;基于所述频点声压和所述频点频率,确定频点响度,其中,
所述频点响度为所述噪声语音在听觉感知上的强弱程度;确定与所述频点响度正相关的能
量权重;基于所述能量权重调整所述频点能量,得到频点感知能量;将与至少一个所述语音
频点对应的至少一个所述频点感知能量,组合为所述噪声语音帧序列中的每帧所述噪声语
音对应的所述感知能量。
语音动态检测结果确定所述待检测语音中的语音帧序列为噪声信号时,将所述语音帧序列
确定为所述噪声语音帧序列。
所述语音编码对应的编码码率大于所述噪声编码对应的编码码率。
频点能量、所述频点声压和所述频点频率。
所述频点频率,确定所述语音频点对应的频点插值;对所述频点声压和所述频点插值进行
整合,得到所述频点响度。
第三阈值对应的第二比值,确定为与所述频点响度正相关的所述能量权重。
间隔的所述噪声编码间隔;当所述待对比感知能量大于等于所述第一能量阈值且小于第二
能量阈值时,确定包括第二噪声编码间隔的所述噪声编码间隔,其中,所述第一能量阈值小
于所述第二能量阈值,所述第一噪声编码间隔大于所述第二噪声编码间隔;当所述待对比
感知能量大于等于所述第二能量阈值且小于第三能量阈值时,确定包括第三噪声编码间隔
的所述噪声编码间隔,其中,所述第二能量阈值小于所述第三能量阈值,所述第二噪声编码
间隔大于所述第三噪声编码间隔;当所述待对比感知能量大于第三能量阈值时,确定包括
第四噪声编码间隔的所述噪声编码间隔,其中,所述第三噪声编码间隔大于所述第四噪声
编码间隔。
码帧,确定下一编码帧;从M帧所述噪声语音中,确定所述下一编码帧对应的所述噪声语音,
得到待编码噪声语音,对所述待编码噪声语音进行噪声编码。
噪声,其中,所述解码设备用于播放所述舒适噪声。
到所述舒适噪声;播放所述舒适噪声。
得获得的噪声编码间隔也是与听觉感知相关的;如此,基于噪声编码间隔编码出的M帧噪声
语音是与听觉感知差异关联的,因此,基于编码后的M帧生成的舒适噪声与听觉感知到的实
际噪声的匹配度较高;从而,能够提升舒适噪声的生成质量。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
的情况下相互结合。
换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的
以外的顺序实施。
请实施例的目的,不是旨在限制本申请。
音(Voice over Internet Protocol,VoIP)传输)或语音存储过程中,思考时间、反应时间
和语素间隔段都存在不讲话的时间片段,从而,约有70%左右的时间是没有讲话的;这里,通
过VAD以实现DTX,能够有效地减少编码资源的消耗,降低通信成本,以及提升编码规模。
称为噪声编码的编码码率)进行编码,其中,第一编码码率远小于第二编码码率,以及,采用
第二编码码率进行编码传输的信号在接收端相当于背景噪声,也称为舒适噪声,如果没有
舒适噪声,接收端的用户可能会认为语音已中断或者语音的播放已暂停。在本申请实施例
中,通过VAD确定没有语音的过程,是确定为噪声信号的过程,通过VAD确定有语音的过程,
是确定为话音信号的过程。
出现长时间的静默,使接收端的用户或收听语音播放的用户感到不自然;在静音过程中采
用CNG生产背景噪声时,可根据编码的静音指示帧来产生舒适噪声,其中,静音指示帧可以
是连续的噪声语音帧序列中的首帧,还可以是自定义的一帧。
码,而确定当前帧为非语音帧时,采用非连续传输1‑4的机制,以通过噪声编码器1‑5进行编
码;其中,噪声编码器1‑5,用于对背景噪声参数进行估计和编码;需要说明的是,非语音帧
的噪声参数相比语音帧的参数要少很多,主要包括噪声频谱包络(lsp)和噪声能量等;非连
续传输1‑4的机制中,经过噪声参数估计和编码后,噪声参数通过一定非连续传输协议来传
输。这里,编码后的语音通过信道1‑6进行传输;针对传输过来的语音编码器1‑3的编码语
音,通过语音解码器1‑7进行解码。针对传输过来的噪声编码器1‑5的编码语音,解码端辨识
到噪声帧则通过舒适噪声生成1‑8(CNG)进行解码,基于噪声谱包络和噪声能量等生成舒适
噪声。其中,语音编解码是其中的关键核心技术,原始录音信号(待传输语音1‑1)通过语音
编码器(比如,人声发声模型)进行压缩,压缩后的数据码流通过信道1‑6传输到对端进行语
音解码,解码后还原语音信号进行播放。最后,将语音解码器1‑7解码出的语音1‑9和舒适噪
声生成1‑8解码出的舒适噪声1‑10合成,以得到待播放语音1‑11。
否为语音的检测结果;检测结果为当前帧是语音帧则进入正常的语音编码器进行编码,而
检测结果为当前帧是非语音帧则进入DTX非连续编码处理环节,即对非语音帧信号进行噪
声编码;这里,噪声编码主要是对背景噪声参数进行估计和编码,经过噪声参数估计编码
后,噪声参数通过一定非连续传输协议来传输,解码端辨识到噪声帧则通过舒适噪声生成
(CNG)技术,基于噪声谱包络和能量信息生成舒适噪声。
编码端连续两帧不发数据,接着发送一帧噪声参数更新(sid_update)帧,sid_update帧内
包含了噪声参数(lsp和能量),之后间隔7帧不发数据,而后发一帧sid_update帧,随后又是
7帧不发数据,如此循环直到语音帧到来,即编码端发送语音帧结束本次噪声编码。也就是
说,上述DTX的噪声编码是采用固定频率的方式,每间隔7帧即在第8帧发一次sid_update
帧,当20 ms(毫秒)一帧时,则固定每160 ms更新一次噪声帧信息,而解码端则在160 ms内
都用相同的噪声参数通过引入随机值来生成具有相同噪声特征但不完全相同的8帧噪声信
号。然而,当噪声参数更新帧是固定频率发送时,解码端基于每次发送来的噪声参数更新帧
进行后续160 ms共8帧的噪声信号生成,这8帧的频谱包络是一致的,能量是相近的,听感上
类似,但与实际噪声是不符的,因为实际环境中大部分噪声并不稳定,而获得的160 ms生成
噪声均为特征稳定噪声,无明显的差异,所以听感上会明显感觉不自然,尤其是听感比较强
烈的噪声。也就是说,在每个时间间隔对应的时间段中,基于编码的噪声语音生成舒适噪声
时,所获得的舒适噪声是稳定的,而实际噪声是不稳定的,因此,舒适噪声与实际噪声的匹
配度较低,从而,舒适噪声的生成质量较低。
数更新帧。然而,由于听觉对不同频率的感知是差异较大的,比如,对中高频的语音比较敏
感,而对低频或超高频的语音不敏感;所以在实际通话场景或语音存储场景中,一些噪声特
征的频谱和增益虽然发生了波动,但对于听觉感知并不是等价的;即针对听觉不敏感频段
的噪声特征波动,听觉感知差异不大,相反针对一些听觉敏感频段的噪声特征波动,哪怕是
不大的波动,听觉也是能感觉到差异的。
面说明本申请实施例提供的语音编码设备的示例性应用,本申请实施例提供的语音编码设
备可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、
智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备、智能家
电和智能音箱等各种类型的终端,也可以实施为服务器。下面,将说明语音编码设备实施为
终端时的示例性应用。
设备)均通过网络300连接服务器600,网络300可以是广域网或者局域网,又或者是二者的
组合。另外,该语音编码系统100中还包括数据库500,用于向服务器600提供数据支持;并
且,图2中示出的为数据库500独立于服务器600的一种情况,此外,数据库500还可以集成在
服务器600中,本申请实施例对此不作限定。
准感知能量;确定与标准感知能量负相关的噪声编码间隔;基于噪声编码间隔,对M帧噪声
语音进行噪声编码,其中,M帧噪声语音为前N帧噪声语音之后的语音,编码后的M帧噪声语
音用于生成舒适噪声,M为正整数。还用于通过网络300和服务器600,向终端400发送编码后
的M帧噪声语音。
函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,
Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端200终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表
等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连
接,本申请实施例中不做限制。
200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之
间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号
总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
个或多个存储设备。
以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在
包括任意适合类型的存储器。
Universal Serial Bus)等;
接口);
件,包括以下软件模块:语音获取模块2551、能量确定模块2552、间隔确定模块2553、噪声编
码模块2554、能量调整模块2555、语音检测模块2556和噪声生成模块2557,这些模块是逻辑
上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模
块的功能。
处理器,其被编程以执行本申请实施例提供的语音编码方法,例如,硬件译码处理器形式的
处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated
Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件
(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field‑
Programmable Gate Array)或其他电子元件。
以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程
序,如电话APP、录音APP、直播APP或者即时通信APP;又可以是小程序,即只需要下载到浏览
器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计
算机程序可以是任意形式的应用程序、模块或插件。
噪声语音对应的历史的噪声语音,也就获得了前N帧噪声语音;另外,语音编码设备在获取
前N帧噪声语音时,还获取了每帧噪声语音对应的感知能量。
强弱程度不相关;而感知能量是一种与听觉感知上的强弱程度对应的能量,从而,噪声语音
对应的能量与感知能量无对应关系;也就是说,噪声语音对应的能量越大时,感知能量不一
定越大,而噪声语音对应的能量越小时,感知能量也不一定越小。此外,S401是在语音编码
设备确定当前的语音为非活跃状态的非话音信号(即噪声信号),并采用DTX进行语音编码
时所执行的。
S401。
设备可以将一帧噪声语音对应的一个感知能量直接确定为评估结果;而当N大于1时,语音
编码设备可以将N个感知能量的均值或N个感知能量中的众数等确定为评估结果。其中,评
估结果即为标准感知能量,表征历史的感知能量的波动情况,用于确定噪声编码的间隔。
隔。
对此不作限定;以及,噪声编码间隔是指噪声编码的频率,且噪声编码间隔与噪声编码的频
率负相关。
对确定出的噪声语音进行编码。
请实施例对此不作限定;编码后的M帧噪声语音用于生成舒适噪声,M为正整数常量,比如,
1、5或7等。另外,噪声编码是指非连续传输机制中对噪声语音进行编码的过程,是一种非连
续编码机制。
越大,能够准确编码出听觉感知敏感的噪声语音;以及,在标准感知能量越小时,噪声编码
间隔越长,噪声编码的频率越小,能够在听觉感知不敏感时(比如,安静场景下的噪声语音)
提升噪声编码效率和降低噪声编码的资源消耗。
间隔也是与听觉感知相关的;如此,基于噪声编码间隔编码出的M帧噪声语音是与听觉感知
差异关联的,因此,生成的舒适噪声与听觉感知到的实际噪声的匹配度较高;从而,能够提
升舒适噪声的生成质量。
音和每帧噪声语音对应的感知能量之前,该语言编码方法还包括S405至S409,下面对各步
骤分别进行说明。
噪声语音包括至少一个语音频点。
点,其中,频点为固定频率的编号。
度也受语音的频率的影响,即相同强度、但不同频率的声音对应着不一样的听觉感知;因
此,语音编码设备综合频点声压和频点频率,确定语音频点的响度,也就得到了频点响度。
其中,频点响度为噪声语音在听觉感知上的强弱程度。
量的能量权重;又由于频点响度与听觉感知的强弱程度正相关,从而语音编码设备确定与
频点响度正相关的能量权重,以使得获得的能量权重对频点能量调整后,调整后的频点能
量也是基于听觉感知的;也就是说,调整后的频点能量也与听觉感知的强弱程度是正相关
的。
限定。
与听觉感知的强弱程度正相关。
感知能量;语音编码设备对至少一个频点感知能量进行组合(比如,累加),所获得的组合结
果即为噪声语音帧序列中的每帧噪声语音对应的感知能量。
点响度,接着确定与频点响度关联的能量权重,并利用能量权重调整频点能量,使得频点能
量是基于听觉感知的;从而,当基于频点能量获得的感知能量确定噪声编码间隔时,能够获
得与听觉感知关联的编码结果;进而,当基于编码结果生成舒适噪声时,能够提升舒适噪声
与实际噪声的符合程度,提升舒适噪声的生成质量。
前,该语言编码方法还包括S410至S412,下面对各步骤分别进行说明。
录制端实时采集到的语音。
(噪声信号);其中,活跃状态的话音信号是指待检测语音中的语音帧包括话音,非活跃状态
的非话音信号是指待检测语音中的语音帧包括非话音(背景噪声)。
声信号(非话音信号)时,则确定语音帧序列为待进行非连续编码的语音,从而,将语音帧序
列确定为噪声语音帧序列,以对语音帧序列进行非连续编码。
帧序列进行连续编码,即对语音帧序列进行语音编码。其中,语音编码对应的编码码率大于
噪声编码对应的编码码率。
频率,包括S4051和S4052,下面对各步骤分别进行说明。
频点频率进行获取。而当语音编码设备中的噪声编码模块从语音动态监测模块获得的为噪
声语音帧序列时,则对噪声语音帧序列进行加窗处理,以对每帧噪声语音进行能量的调整。
其中,频点能量的获取可以是在时域上获得的,也可以是在频域上获得的,本申请实施例对
此不作限定;只不过解码模块也采用同样的空间(时域或频域)进行解码;以及语音编码设
备在时域上获取频点能量时,可以通过对噪声语音进行傅里叶变换,进而基于傅里叶变换
后的频域信息确定每个语音频点的频点能量。
其中,等响关系为等响度条件下声压与频率之间的对应关系;等响关系可以是等响曲线,也
可以是等响数据表,等等,本申请实施例对等响关系的形式不作限定。
获取响度的插值结果,即为频点插值。
转换后的标准感知能量即为待对比感知能量,该待对比感知能量用于通过与阈值对比,确
定噪声编码间隔。
声编码间隔的过程。其中,所进行对比的能量阈值中,第一能量阈值小于第二能量阈值,第
二能量阈值小于第三能量阈值;所获得的噪声编码间隔中,第一噪声编码间隔大于第二噪
声编码间隔,第二噪声编码间隔大于第三噪声编码间隔,第三噪声编码间隔大于第四噪声
编码间隔,比如,第一噪声编码间隔为16,第二噪声编码间隔为8,第三噪声编码间隔为4,第
三噪声编码间隔为2。
说明。
帧。
码间隔,进而基于新的噪声编码间隔确定再下一编码帧;如此循环,直至对待检测语音完成
编码。
说明。
码后的M帧噪声语音进行解码,生成舒适噪声,以及播放舒适噪声。这里,语音编码设备和解
码设备共同构成了语音通话系统或者广播系统。
骤进行说明。
的。
进行解码,以生成舒适噪声。
的听觉感知强弱的过程。一般来说,听觉感知是通过响度确定的,而响度在随语音的强度变
化的同时,也受语音频率的影响;所以,相同强度但不同频率的语音,对应的听觉感知的强
弱程度不同。
线,等响曲线7‑2为80方响度的等响曲线,等响曲线7‑3为60方响度的等响曲线,等响曲线7‑
4为40方响度的等响曲线,等响曲线7‑5为20方响度的等响曲线,等响曲线7‑6为阈值响度的
等响曲线。这里,等响曲线是等响度条件下声压级与声波频率的关系曲线,属于听觉特征;
即在不同声波频率下的纯音需要达到何种声压级,才能在听觉感知上获得一致的响度。另
外,由图中的等响曲线7‑1至等响曲线7‑6易知,中低频(1千(k)赫兹以下)频率越低,等响需
要的声压级越大,即需要更大的声音能量才能让人耳有相同听觉感受;而中高频(1千赫兹
以上)的不同频段对应着不同的声学听觉感知特征。
帧噪声信号的各频点的能量可通过式(6)表示;式(6)如下所示:
到该帧噪声信号的听觉感知加权能量值(感知能量),如式(7)所示:
感知加权系数之间的对应关系。由曲线8‑1易知,听觉对低频(1千赫兹以下)和超高频(6千
赫兹)的感知敏感,从而对应的听觉感知加权系数较小;而听觉对中高频(1千赫兹至6千赫
兹)的感知敏感,从而对应的听觉感知加权系数较大。
示:
Thrd 1(第一能量阈值)、能量门限值Thrd 2(第二能量阈值)和能量门限值Thrd 3(第三能
量阈值),且三个能量门限值的大小关系满足(9)式;式(9)如下所示:
码出的一种噪声语音);由于 < Thrd 1,表明听觉感知的波动较小,噪声信号基
本是无无听觉感知,所以在语音帧没到来前可以用间隔较长时间才更新一次噪声参数,以
进一步节省编码和传输资源;如果 >= Thrd 1 并且 AvgLog(i) < Thrd 2,则d
= 8(第二噪声编码间隔),即每8帧进行一次噪声编码并发送一次噪声参数更新帧。如果
>= Thrd 2并且 < Thrd 3,则d = 4(第三噪声编码间隔),即每4帧
进行一次噪声编码并发送一次噪声参数更新帧;如果 >Thrd3,则d = 2(第四噪
声编码间隔),即每2帧进行一次噪声编码并发送一次噪声参数更新帧,以使得感知很强的
噪声帧能更新较快以达到与输入噪声(实际噪声)更接近。
能量值的波动情况(待对比感知能量)来确定是否进行噪声编码和传输,以控制噪声语音的
编码和发送频率,所以,噪声参数更新帧的发送频率不是一个固定值,而是与听觉感知强相
关的;从而,能够从听觉感知角度改善DTX机制,减少DTX机制导致的舒适噪声与实际噪声不
匹配的情况;同时,安静场景下,还能够提升的语音编码效率,降低语音编码的资源消耗。
以包括:
用于生成舒适噪声,M为正整数。
点频率,其中,所述噪声语音帧序列包括前N帧所述噪声语音和M帧所述噪声语音,每帧所述
噪声语音包括至少一个所述语音频点;基于所述频点声压和所述频点频率,确定频点响度,
其中,所述频点响度为所述噪声语音在听觉感知上的强弱程度;确定与所述频点响度正相
关的能量权重;基于所述能量权重调整所述频点能量,得到频点感知能量;将与至少一个所
述语音频点对应的至少一个所述频点感知能量,组合为所述噪声语音帧序列中的每帧所述
噪声语音对应的所述感知能量。
当基于语音动态检测结果确定所述待检测语音中的语音帧序列为噪声信号时,将所述语音
帧序列确定为所述噪声语音帧序列。
其中,所述语音编码对应的编码码率大于所述噪声编码对应的编码码率。
所述频点能量、所述频点声压和所述频点频率。
数和所述频点频率,确定所述语音频点对应的频点插值;对所述频点声压和所述频点插值
进行整合,得到所述频点响度。
值与第三阈值对应的第二比值,确定为与所述频点响度正相关的所述能量权重。
编码间隔的所述噪声编码间隔;当所述待对比感知能量大于等于所述第一能量阈值且小于
第二能量阈值时,确定包括第二噪声编码间隔的所述噪声编码间隔,其中,所述第一能量阈
值小于所述第二能量阈值,所述第一噪声编码间隔大于所述第二噪声编码间隔;当所述待
对比感知能量大于等于所述第二能量阈值且小于第三能量阈值时,确定包括第三噪声编码
间隔的所述噪声编码间隔,其中,所述第二能量阈值小于所述第三能量阈值,所述第二噪声
编码间隔大于所述第三噪声编码间隔;当所述待对比感知能量大于第三能量阈值时,确定
包括第四噪声编码间隔的所述噪声编码间隔,其中,所述第三噪声编码间隔大于所述第四
噪声编码间隔。
一编码帧,确定下一编码帧;从M帧所述噪声语音中,确定所述下一编码帧对应的所述噪声
语音,得到待编码噪声语音,对所述待编码噪声语音进行噪声编码。
述舒适噪声,其中,所述解码设备用于播放所述舒适噪声。
解码,得到所述舒适噪声;播放所述舒适噪声。
编码设备)的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,
使得该计算机设备执行本申请实施例上述的语音编码方法。
码方法,例如,如图4示出的语音编码方法。
意组合的各种设备。
写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程
或者适合在计算环境中使用的其它单元。
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
点的多个计算机设备即语音编码设备),又或者,在分布在多个地点且通过通信网络互连的
多个计算机设备上执行(此时,分布在多个地点且通过通信网络互连的多个计算机设备即
语音编码设备)。
的噪声编码间隔也是与听觉感知负相关的;如此,基于噪声编码间隔编码出的M帧噪声语音
是与听觉感知差异关联的,因此,生成的舒适噪声与听觉感知到的实际噪声的匹配度较高;
从而,能够提升舒适噪声的生成质量。同时,在安静场景下,还能够提升的语音编码效率,降
低语音编码的资源消耗。
内。