语音处理装置、动态范围控制模块及语音振幅调整的方法转让专利

申请号 : CN200910209715.7

文献号 : CN101729034A

文献日 : 2010-06-09

本发明提供一种语音处理装置、动态范围控制模块及语音振幅调整的方法。于一实施例中，该动态范围控制模块设置于一语音处理装置，包括一缓冲器、一语音行为检测器、一峰值计算模块、以及一振幅调整模块。该缓冲器缓冲一语音信号以得到一延迟语音信号。该语音行为检测器自该延迟语音信号决定一音节。该峰值计算模块计算该音节的一振幅峰值。该振幅调整模块依据该振幅峰值决定一衰减倍数，以及依据该衰减倍数调整该音节的振幅以得到一调整语音信号。

1.一种语音处理装置，包括：

一语音信号源，产生一语音信号；

一动态范围控制模块，耦接至该语音信号源，决定该语音信号的一音节，计算该音节的一振幅峰值，以及依据该振幅峰值调整该音节的振幅以得到一调整语音信号；

一功率放大器，耦接至该动态范围控制模块，放大该调整语音信号以得到一放大语音信号。

2.如权利要求1所述的语音处理装置，其中该动态范围控制模块还包括：

一缓冲器，缓冲该语音信号以得到一延迟语音信号；

一语音行为检测器，自该延迟语音信号决定该音节；

一峰值计算模块，计算该音节的该振幅峰值；以及

一振幅调整模块，依据该振幅峰值决定一衰减倍数，以及依据该衰减倍数调整该音节的振幅以得到该调整语音信号。

3.如权利要求2所述的语音处理装置，其中该语音行为检测器计算该延迟语音信号的振幅，决定是否该振幅超过一界限值以判定该音节的一起始边缘，决定是否该振幅低于该界限值以判定该音节的一结束边缘，并将该延迟语音信号自该起始边缘至该结束边缘的范围决定为该音节的范围。

4.如权利要求2所述的语音处理装置，其中该峰值计算模块计算该延迟语音信号于该音节的范围内的多个样本的多个振幅值，并自所述振幅值选取一最大值作为该音节的该振幅峰值。

5.如权利要求2所述的语音处理装置，其中该振幅调整模块自多个振幅区域决定包含该振幅峰值的一目标振幅区域，决定对应于该目标振幅区域的一衰减幅度作为该衰减倍数，并依据该衰减倍数调整该音节的振幅。

6.如权利要求2所述的语音处理装置，其中该振幅调整模块依据下式调整该音节的振幅：

$y (n) = \{\begin{matrix} x (n) \cdot g 0 & if & | x (n) | \leq T 1 \\ x (n) \cdot g 1 + sign [x (n)] \cdot T 1 & if & T 1 < | x (n) | \leq T 2 \\ x (n) \cdot g 2 + sign [x (n)] \cdot T 2 & if & T 2 < | x (n) | \leq T 3 \\ x (n) \cdot g 3 + sign [x (n)] \cdot T 3 & if & | x (n) | > T 3 \end{matrix}$ 其中y(n)为该调整语音信号，x(n)为该延迟语音信号，sign[x(n)]为该延迟语音信号的正负号，T1、T2、T3为界限值，g0，g1，g2，g3为衰减幅度且g0＞g1＞g2＞g3，n为样本序号。

7.如权利要求1所述的语音处理装置，其中该语音处理装置还包含一扬声器，用以播放该放大语音信号。

8.一种动态范围控制模块，设置于一语音处理装置，包括：

一缓冲器，缓冲一语音信号以得到一延迟语音信号；

一语音行为检测器，自该延迟语音信号决定一音节；

一峰值计算模块，计算该音节的一振幅峰值；以及

一振幅调整模块，依据该振幅峰值决定一衰减倍数，以及依据该衰减倍数调整该音节的振幅以得到一调整语音信号。

9.如权利要求8所述的动态范围控制模块，其中该语音处理装置包括：

一语音信号源，产生该语音信号；

该动态范围控制模块，耦接至该语音信号源，依据该语音信号产生该调整语音信号；

一功率放大器，耦接至该动态范围控制模块，放大该调整语音信号以得到一放大语音信号。

10.如权利要求9所述的动态范围控制模块，其中该语音处理装置还包含一扬声器，用以播放该放大语音信号。

11.如权利要求8所述的动态范围控制模块，其中该语音行为检测器计算该延迟语音信号的振幅，决定是否该振幅超过一界限值以判定该音节的一起始边缘，决定是否该振幅低于该界限值以判定该音节的一结束边缘，并将该延迟语音信号自该起始边缘至该结束边缘的范围决定为该音节的范围。

12.如权利要求8所述的动态范围控制模块，其中该峰值计算模块计算该延迟语音信号于该音节的范围内的多个样本的多个振幅值，并自所述振幅值选取一最大值作为该音节的该振幅峰值。

13.如权利要求8所述的动态范围控制模块，其中该振幅调整模块自多个振幅区域决定包含该振幅峰值的一目标振幅区域，决定对应于该目标振幅区域的一衰减幅度作为该衰减倍数，并依据该衰减倍数调整该音节的振幅。

14.如权利要求8所述的动态范围控制模块，其中该振幅调整模块依据下式调整该音节的振幅：

15.一种对语音信号进行振幅调整的方法，包括下列步骤：

缓冲一语音信号以得到一延迟语音信号；

自该延迟语音信号决定一音节；

计算该音节的一振幅峰值；以及

依据该音节的该振幅峰值决定对应于该音节的一衰减倍数；以及

依据该衰减倍数以相同增益调整该音节的振幅以得到一调整语音信号。

16.如权利要求15所述的对语音信号进行振幅调整的方法，其中该方法还包括：

放大该调整语音信号以得到一放大语音信号；以及

播放该放大语音信号。

17.如权利要求15所述的对语音信号进行振幅调整的方法，其中该音节的决定步骤包括：

计算该延迟语音信号的振幅；

决定是否该振幅超过一界限值以判定该音节的一起始边缘；

决定是否该振幅低于该界限值以判定该音节的一结束边缘；以及

将该延迟语音信号自该起始边缘至该结束边缘的范围决定为该音节的范围。

18.如权利要求15所述的对语音信号进行振幅调整的方法，其中该振幅峰值的计算包括：

计算该延迟语音信号于该音节的范围内的多个样本的多个振幅值；以及

自所述振幅值选取一最大值作为该音节的该振幅峰值。

19.如权利要求15所述的对语音信号进行振幅调整的方法，其中该衰减倍数的决定包括：

自多个振幅区域决定包含该振幅峰值的一目标振幅区域；

决定对应于该目标振幅区域的一衰减幅度作为该衰减倍数；以及

依据该衰减倍数调整该音节的振幅。

20.如权利要求15所述的对语音信号进行振幅调整的方法，其中该音节的振幅的调整是依据下式：

技术领域

本发明涉及语音处理，特别是涉及语音信号的振幅调整。

背景技术

语音处理装置以一功率放大器放大一语音信号，以得到具有合适于播放的振幅的一放大语音信号。然而，当语音信号的振幅超过一界限值时，功率放大器便以较低的增益对语音信号进行放大，该较低功率是由于功率放大器已达饱和状态(saturation)。语音处理装置因此需要一动态范围控制模块以便于语音信号被功率放大器放大之前事先调整语音信号的振幅，已避免语音信号使功率放大器达到饱和状态。
现有的动态范围控制模块连续地监测语音信号的振幅。当语音信号的振幅高于界限值时，动态范围控制模块便以一衰减倍数降低语音信号的振幅，以免语音信号使功率放大器达到饱和状态。功率放大器因此不会达到饱和状态。然而，现有的动态范围控制模块仅仅在发现语音信号的振幅高于界限值之后才开始衰减语音信号的振幅。这会造成被衰减前的语音信号的振幅与衰减后的语音信号的振幅有较大的差距，而使语音信号带有较大的噪音。
此外，语音信号包括一连串的音节(syllable)。由于现有的动态范围控制模块依据语音信号的振幅以不同的衰减倍数分别衰减语音信号的各区段，因此语音信号同一音节的不同区段可能因为有不同的振幅而被以不同的衰减倍数进行衰减。这会使得现有的动态范围控制模块所产生的衰减语音信号产生较严重的信号失真(signal distortion)。由于现有的动态范围控制模块有此缺陷，因此需要一种新型态的动态范围控制模块，可以避免上述的缺陷。

发明内容

有鉴于此，本发明的目的在于提供一种语音处理装置，以解决现有技术存在的问题。于一实施例中，该语音处理装置包括一语音信号源、一动态范围控制(dynamic range control)模块、以及一功率放大器。该语音信号源产生一语音信号。该动态范围控制模块耦接至该语音信号源，用以决定该语音信号的一音节(syllable)，计算该音节的一振幅峰值，以及依据该振幅峰值调整该音节的振幅以得到一调整语音信号。该功率放大器耦接至该动态范围控制模块，用以放大该调整语音信号以得到一放大语音信号。
本发明还提供一种动态范围控制模块。于一实施例中，该动态范围控制模块设置于一语音处理装置，包括一缓冲器、一语音行为检测器(voiceactivity detector)、一峰值计算模块、以及一振幅调整模块。该缓冲器缓冲一语音信号以得到一延迟语音信号。该语音行为检测器自该延迟语音信号决定一音节(syllable)。该峰值计算模块计算该音节的一振幅峰值。该振幅调整模块依据该振幅峰值决定一衰减倍数，以及依据该衰减倍数调整该音节的振幅以得到一调整语音信号。
本发明提供一种对语音信号进行振幅调整的方法。首先，缓冲一语音信号以得到一延迟语音信号。接着，自该延迟语音信号决定一音节(syllable)。接着，计算该音节的一振幅峰值。接着，依据该音节的该振幅峰值决定对应于该音节的一衰减倍数。最后，依据该衰减倍数以相同增益调整该音节的振幅以得到一调整语音信号。
为了使本发明的上述和其它目的、特征、和优点能更明显易懂，下文特举数较佳实施例，并结合附图详细说明如下。

附图说明

图1为依据本发明的语音处理装置的区块图；
图2为依据本发明的动态范围控制模块的区块图；
图3为依据本发明的一音节的振幅峰值与衰减倍数间的关系的示意图；
图4为依据本发明的对语音信号进行振幅调整的方法的流程图。
附图符号说明
(图1)
100～语音处理装置；
102～语音信号源；
104～动态范围控制模块；
106～功率放大器；
108～扬声器；
(图2)
200～语音处理装置；
202～语音信号源；
204～动态范围控制模块；
206～功率放大器；
208～扬声器；
212～缓冲器；
214～峰值计算模块；
216～语音行为检测器；
218～振幅调整模块。

具体实施方式

图1为依据本发明的语音处理装置100的区块图。于一实施例中，语音处理装置100包括语音信号源102、动态范围控制模块(dynamic rangecontrol module)104、功率放大器106、以及扬声器108。语音信号源102产生一语音信号x(n)。动态范围控制模块104接着决定语音信号x(n)的音节(syllable)并储存该音节的样本。接着，动态范围控制模块104计算该音节的振幅峰值，并依据该振幅峰值决定该音节的衰减倍数。动态范围控制模块104接着依据衰减倍数对该音节的振幅进行调整以得到一调整语音信号y(n)。因此，该音节的所有样本的振幅均是依据相同的衰减倍数而衰减，因此可防止引起现有技术中的刺耳噪音或信号失真。功率放大器106接着放大调整语音信号y(n)以得到一放大语音信号z(n)。由于调整语音信号y(n)已被适当地衰减过，因此不会使功率放大器106达到饱和状态，而引起信号失真。最后，扬声器108播放放大语音信号z(n)。
图2为依据本发明的动态范围控制模块204的区块图。于一实施例中，该动态范围控制模块204包括缓冲器212、峰值计算模块214、语音行为检测器(voice activity detector)216、以及振幅调整模块218。缓冲器212自语音信号源202接收语音信号x(n)，并储存语音信号x(n)后再输出为延迟语音信号x(n-D)，其中n为样本序号，D为延迟样本数。语音行为检测器216接着自延迟语音信号x(n-D)决定一音节(syllable)。于一实施例中，语音行为检测器216检测延迟语音信号x(n-D)的振幅。当延迟语音信号x(n-D)的一样本的振幅超过一界限值，语音行为检测器216将该样本是为该音节的起始边缘。当延迟语音信号x(n-D)的一样本的振幅低于该界限值，语音行为检测器216将该样本是为该音节的结束边缘。因此，语音行为检测器216将延迟语音信号x(n-D)界于起始边缘与结束边缘之间的多个样本决定为该音节的样本。
当该音节的样本被决定之后，峰值计算模块214计算该音节的振幅峰值p(n)。于一实施例中，峰值计算模块214首先计算延迟语音信号x(n-D)于音节范围的多个样本的振幅值，接着自所述振幅值选择一最大值作为振幅峰值p(n)以递送至振幅调整模块218。振幅调整模块218接着依据振幅峰值p(n)决定该音节的一衰减倍数，并依据该衰减倍数调整该音节的所有样本的振幅，以得到一调整语音信号y(n)。换句话说，动态范围控制模块204是以音节为单位处理语音信号x(n)，而单一音节范围内的所有样本皆是以同一衰减倍数进行振幅衰减。因此，由动态范围控制模块204处理所得的调整语音信号y(n)不会有信号失真，并且亦不会如现有技术般带有噪音。
图3为依据本发明的一音节的振幅峰值与衰减倍数间的关系的示意图。于一实施例中，振幅峰值的可能值|x(n)|被区分为以多个界限值T1、T2、T3划分的多个振幅区域。当音节的振幅峰值|x(n)|低于第一界限值T1时，音节的多个样本的振幅|y(n)|是依据衰减倍数g0进行调整，以得到调整语音信号y(n)的样本。当音节的振幅峰值|x(n)|介于第一界限值T1与第二界限值T2之间时，音节的多个样本的振幅|y(n)|是依据衰减倍数g1进行调整，以得到调整语音信号y(n)的样本。当音节的振幅峰值|x(n)|介于第二界限值T2与第三界限值T3之间时，音节的多个样本的振幅|y(n)|是依据衰减倍数g2进行调整，以得到调整语音信号y(n)的样本。当音节的振幅峰值|x(n)|高于第三界限值T3时，音节的多个样本的振幅|y(n)|是依据衰减倍数g3进行调整，以得到调整语音信号y(n)的样本。
于一实施例中，振幅调整模块218依据下式调整音节的振幅：

y (n) = \{\begin{matrix} x (n) \cdot g 0 & if & | x (n) | \leq T 1 \\ x (n) \cdot g 1 + sign [x (n)] \cdot T 1 & if & T 1 < | x (n) | \leq T 2 \\ x (n) \cdot g 2 + sign [x (n)] \cdot T 2 & if & T 2 < | x (n) | \leq t 3 \\ x (n) \cdot g 3 + sign [x (n)] \cdot T 3 & if & | x (n) | > T 3 \end{matrix};

其中y(n)为该调整语音信号，x(n)为该延迟语音信号，sign[x(n)]为该延迟语音信号的正负号，T1、T2、T3为界限值，g0，g1，g2，g3为衰减倍数，n为样本序号。于一实施例中，衰减倍数g0等于一，且衰减倍数g1、g2、g3逐步递减。换句话说，g0＞g1＞g2＞g3。因此，振幅调整模块218依据较高的衰减倍数衰减具有较高的振幅的音节的样本以产生调整语音信号y(n)。
图4为依据本发明的对语音信号进行振幅调整的方法400的流程图。首先，缓冲一语音信号x(n)以得到一延迟语音信号x(n-D)(步骤402)。接着，决定该延迟语音信号x(n-D)的一音节v(n)(步骤404)，并计算该音节的一振幅峰值p(n)。接着，依据该振幅峰值p(n)决定一衰减倍数(步骤408)。接着，依据该衰减倍数调整该音节的多个样本的振幅以得到一调整语音信号y(n)(步骤410)。接着，放大该调整语音信号y(n)以得到一放大语音信号z(n)(步骤412)。最后，播放该放大语音信号z(n)(步骤414)。
虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，本领域的技术人员，在不脱离本发明的精神和范围的前提下可作若干的更动与润饰，因此本发明的保护范围以本发明的权利要求为准。

语音处理装置、动态范围控制模块及语音振幅调整的方法转让专利

申请号 : CN200910209715.7

文献号 : CN101729034A

文献日 : 2010-06-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张铭 , 白宛杰

申请人 : 美商富迪科技股份有限公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式