响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波的电子设备转让专利

申请号 : CN200880129215.6

文献号 : CN102027536B

文献日 : 2012-06-06

公开了一种电子设备和方法，其响应于对设备的麦克风说话的用户面部中所感测的振动来对麦克风信号进行自适应滤波。该电子设备可以包括麦克风、振动传感器、振动表征单元和自适应声音滤波器。麦克风生成麦克风信号，麦克风信号可以包括用户话音分量和背景噪声分量。当用户对麦克风说话时振动传感器感测用户面部的振动，并且生成包含表示所感测振动的频率分量的振动信号。振动表征单元生成表征振动信号的与麦克风信号的话音分量相关联的至少一个频率分量的话音表征数据。自适应声音滤波器使用响应于话音表征数据而调整的滤波器系数来对麦克风信号进行滤波，以生成滤波的话音信号，其相对于来自麦克风信号的用户话音分量具有衰减的背景噪声分量。

1.一种响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波的电子设备，该电子设备包括：麦克风，其被配置为响应于进入的声音而生成麦克风信号，该麦克风信号包括用户话音分量和背景噪声分量；

振动传感器，其被配置为感测用户在对所述麦克风说话时该用户面部的振动，并且生成包含表示所感测振动的频率分量的振动信号；

振动表征单元，其被配置为生成表征了所述振动信号的与所述麦克风信号的所述话音分量相关联的至少一个频率分量的话音表征数据；以及自适应声音滤波器，其使用响应于所述话音表征数据而调整的滤波器系数来对所述麦克风信号进行滤波，以生成经滤波的话音信号，该经滤波的话音信号相对于所述麦克风信号的所述用户话音分量具有衰减的背景噪声分量，该电子设备的特征在于：

所述振动表征单元还被配置为将所述振动信号的所述频率分量与所述麦克风信号的对应频率分量关联起来，并且生成表示关联结果的话音表征数据。

2.根据权利要求1所述的电子设备，其中：

所述自适应声音滤波器包括被配置为对所述麦克风信号进行滤波以生成所述经滤波的话音信号的数字有限冲激响应FIR滤波器；并且所述振动表征单元响应于所述振动信号的所述至少一个频率分量，调整应用到所述FIR滤波器的多个时延抽头中每一个的FIR系数。

3.根据权利要求1到2中任意一项所述的电子设备，其中，所述振动表征单元包括：多个带通滤波器，每个带通滤波器都被配置为使所述振动信号的不同窄频带宽分量通过；以及频率表征单元，其被配置为响应于通过各个带通滤波器的每个窄频带宽分量的幅度，来表征所述振动信号的与所述麦克风信号的所述话音分量相关联的频率分量。

4.根据权利要求3所述的电子设备，其中，所述自适应声音滤波器响应于通过各个带通滤波器的每个窄频带宽分量的幅度来调整它的滤波器系数。

5.根据权利要求3所述的电子设备，其中，所述频率表征单元还被配置为响应于通过各个带通滤波器的每个窄频带宽分量的幅度来识别用户说出的共振峰的不同谐波含量，并且响应于所识别的用户说出的共振峰的谐波含量来调整所述自适应声音滤波器的滤波器系数。

6.根据权利要求5所述的电子设备，该电子设备还包括：语音编解码器，其被配置为对所述经滤波的话音信号进行编码，其中，所述频率表征单元还被配置为响应于所识别的用户说出的共振峰的谐波含量来调整所述语音编解码器用来对所述经滤波的话音信号进行编码的系数。

7.根据权利要求1的电子设备，其中，所述自适应声音滤波器包括多个可变带通滤波器，每个带通滤波器都被响应于通过所述振动表征单元的对应带通滤波器的每个窄频带宽分量的幅度而调整为使所述麦克风信号的不同窄频带宽分量通过，其中，所述经滤波的话音信号是基于对所述自适应声音滤波器的所述可变带通滤波器输出的所述麦克风信号的通过分量进行组合而生成的。

8.根据权利要求1所述的电子设备，该电子设备还包括：壳体，其包住了所述麦克风、所述振动传感器、所述振动表征单元和所述自适应声音滤波器，其中：所述振动传感器包括加速度计，该加速度计附接到所述壳体的内表面并且被配置为感测从用户的面部通过所述壳体传导至所述振动传感器的振动；

所述壳体包括凸边部分，该凸边部分从所述壳体的前表面的主要部分突出，以尽量与对所述麦克风说话的用户的面部相接触；

所述振动传感器附接到所述壳体的所述凸边部分的内表面，以感测当用户说话时通过接触面部而产生的振动；并且所述壳体的所述凸边部分的至少主要部分包括比所述壳体的所述前表面的主要部分更坚硬的材料，以改进振动的较高频率分量从用户的面部通过所述壳体的所述凸边部分到所述振动传感器的传导。

9.根据权利要求1所述的电子设备，其中，所述振动传感器包括：

光源，其被配置为生成相干光，该相干光经已知信号波形调制以照亮正在对所述麦克风说话的用户的邻近面部皮肤；

光传感器，其被配置为响应于感测到来自邻近面部皮肤的光的反射而生成感测光信号，该感测光信号受到了所照亮的面部皮肤的振动的调制；以及比较电路，其被配置为将所述已知信号波形与所述感测光信号进行比较，以生成包含表示用户被照亮的面部皮肤的振动的频率分量的振动信号。

10.根据权利要求9所述的电子设备，其中，所述比较电路被配置为对所述振动信号进行调制，以便随时间来跟踪对所述光源输出的光进行了调制的已知信号波形与所述感测光信号之间的相位差。

11.一种响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波的电子设备，该电子设备包括：麦克风，其被配置为响应于进入的声音而生成麦克风信号，该麦克风信号包括用户话音分量和背景噪声分量；

振动传感器，其被配置为感测用户在对所述麦克风说话时该用户面部的振动，并且生成包含表示所感测振动的频率分量的振动信号；

多个带通滤波器，每个带通滤波器都被配置为使所述振动信号的不同窄频带宽分量通过；以及频率表征单元，其被配置为响应于通过各个带通滤波器的每个窄频带宽分量的幅度，来表征所述振动信号的与所述麦克风信号的所述话音分量相关联的频率分量，其中，所述自适应声音滤波器响应于通过各个带通滤波器的每个窄频带宽分量的幅度来调整它的滤波器系数。

响应于说话时在用户面部中感测到的振动对麦克风信号进

行自适应滤波的电子设备

技术领域

[0001] 本发明涉及感测语音的电子设备，更具体地讲，涉及对蜂窝通信终端和其它电子设备中的麦克风信号进行滤波。

[0002] 背景技术

[0003] 背景噪声可能对于通信终端传送的或者其它电子设备处理的麦克风信号产生很多不期望的影响。例如，背景噪声可能模糊或者掩盖了由麦克风感测和从其它通信终端传送来的用户语音。背景噪声可能包括风噪和其它噪声源，例如车辆、来自除用户之外的人的语音和/或背景音乐。背景噪声还可以包括通过麦克风来自扬声器和/或耳用扬声器的反馈，这也可能造成回声效果，其中，例如，从用户接收的语音信号被反馈并且作为他们自己的语音的回声由该用户听到。某些通信终端包括试图降低麦克风信号中噪声的存在的风噪消除电路和回声消除电路。

[0004] 发明内容

[0005] 本发明的各种实施方式涉及响应于对设备麦克风说话的用户的面部振动中感测到的振动来对麦克风信号进行自适应滤波的电子设备和方法。

[0006] 根据某些实施方式，一种电子设备包括麦克风、振动传感器、振动表征单元和自适应声音滤波器。麦克风响应于进入的声音而生成麦克风信号。麦克风信号可以包括用户话音分量和背景噪声分量。振动传感器感测用户说话时用户面部的振动，并且生成包含表示所感测振动的频率分量的振动信号。振动表征单元生成表征了振动信号的与麦克风信号的话音分量相关联的至少一个频率分量的话音表征数据。自适应声音滤波器使用响应于话音表征数据而调整的滤波器系数来对麦克风信号进行滤波，以生成经滤波的话音信号，其相对于来自麦克风信号的用户话音分量具有衰减的背景噪声分量。

[0007] 在某些另外的实施方式中，自适应声音滤波器包括被配置为对麦克风信号进行滤波以生成经滤波的话音信号的数字有限冲激响应(FIR)滤波器。振动表征单元响应于振动信号的至少一个频率分量，调整应用到FIR滤波器的多个时延抽头(tap)中每一个的FIR系数。

[0008] 在某些另外的实施方式中，振动表征单元包括多个带通滤波器和频率表征单元。每个带通滤波器都被配置为使振动信号的不同窄频带宽分量通过。频率表征单元被配置为响应于通过各个带通滤波器的每个窄频带宽分量，来表征振动信号的与麦克风信号的话音分量相关联的频率分量。

[0009] 在某些另外的实施方式中，自适应声音滤波器响应于通过各个带通滤波器的每个窄频带宽分量的幅度来调整它的滤波器系数。

[0010] 在某些另外的实施方式中，频率表征单元还被配置为响应于通过各个带通滤波器的每个窄频带宽分量的幅度来识别用户说出的共振峰的不同谐波含量(harmonic content)，并且响应于所识别的用户说出的共振峰的谐波含量来调整自适应声音滤波器的滤波器系数。

[0011] 在某些另外的实施方式中，语音编解码器被配置为对经滤波的话音信号进行编码，其中频率表征单元还被配置为响应于所识别的用户说出的共振峰的谐波含量来调整语音编解码器所使用的系数，以对经滤波的话音信号进行编码。

[0012] 在某些另外的实施方式中，自适应声音滤波器包括多个可变带通滤波器。响应于通过振动表征单元的对应带通滤波器的每个窄频带宽分量的幅度，将每个带通滤波器调整为使麦克风信号的不同窄频带宽分量通过。基于对自适应声音滤波器的可变带通滤波器所输出的麦克风信号的通过分量的组合，来生成经滤波的话音信号。

[0013] 在某些另外的实施方式中，振动表征单元还被配置为将振动信号的频率分量与麦克风信号的对应频率分量关联起来，并且生成表示关联结果的话音表征数据。 [0014] 在某些另外的实施方式中，壳体包住了麦克风、振动传感器、振动表征单元和自适应声音滤波器。振动传感器包括附接到壳体的内表面并且被配置为感测从用户的面部通过壳体传导到振动传感器的振动的加速度计。

[0015] 在某些另外的实施方式中，壳体包括凸边部分，该凸边部分从壳体前表面的主要部分突出以便尽量与对麦克风说话的用户的面部相接触。振动传感器附接到壳体的凸边部分的内表面，以便当用户说话时通过接触用户的面部而感测振动。

[0016] 在某些另外的实施方式中，壳体的凸边部分的至少主要部分包括比壳体的前表面的主要部分更坚硬的材料，以改进振动的较高频率分量从用户的面部通过壳体的凸边部分到振动传感器的传导。

[0017] 在某些另外的实施方式中，振动传感器包括光源、光传感器和比较电路。光源被配置为生成经已知信号波形调制以照亮正在对麦克风说话的用户的邻近面部皮肤的相干光。光传感器被配置为响应于感测到来自邻近面部皮肤的光的反射而生成感测光信号，感测光信号被所照亮的面部皮肤的振动所调制。比较电路被配置为将已知信号波形与感测光信号进行比较，以生成包含表示用户被照亮的面部皮肤的振动的频率分量的振动信号。 [0018] 在某些另外的实施方式中，比较电路被配置为对振动信号进行调制以便随时间来跟踪对光源输出的光进行了调制的已知信号波形与感测光信号之间的相位差。 [0019] 在某些另外的实施方式中，光源包括激光二极管。

[0020] 某些其它实施方式提供了一种方法，其包括以下步骤：操作电路以在用户对麦克风说话时感测用户面部的振动，并且生成包含表示所感测振动的频率分量的振动信号。响应于进入的声音而生成话音表征数据，该话音表征数据表征了振动信号的与麦克风生成的麦克风信号的话音分量相关联的至少一个频率分量。使用响应于话音表征数据而调整的滤波器系数对麦克风信号进行自适应滤波，以生成经滤波的话音信号，其相对于麦克风信号的话音分量具有衰减的背景噪声分量。

[0021] 在某些另外的实施方式中，自适应滤波包括：使用数字有限冲激响应(FIR)滤波器对麦克风信号进行滤波以生成经滤波的话音信号，并且响应于振动信号的至少一个频率分量，调整应用到FIR滤波器的多个时延抽头中每一个的FIR系数。

[0022] 在某些另外的实施方式中，话音表征数据的生成包括：使用多个带通滤波器对振动信号进行滤波，所述多个带通滤波器都被配置为使振动信号的不同窄频带宽分量通过，并响应于通过各个带通滤波器的每个窄频带宽分量的幅度来生成话音表征数据。 [0023] 在某些另外的实施方式中，自适应滤波包括：响应于通过各个带通滤波器的每个窄频带宽分量的幅度来调整滤波器系数。

[0024] 某些其它实施方式提供了一种电子设备，其包括麦克风、壳体、振动传感器、振动表征单元和自适应声音滤波器。麦克风被配置为响应于进入的声音而生成麦克风信号。麦克风信号可以包括用户话音分量和背景噪声分量。壳体包住了麦克风并且具有凸边部分，该凸边部分从壳体前表面的主要部分突出以便当用户对麦克风说话时尽量与用户的面部相接触。振动传感器附接到壳体的内表面并且被配置为感测从用户面部通过壳体传导到振动传感器的振动并生成包含表示所感测振动的频率分量的振动信号。振动表征单元包括多个带通滤波器，每个带通滤波器都被配置为使振动信号的不同窄频带宽分量通过。自适应声音滤波器使用响应于通过各个带通滤波器的每个窄频带宽分量的幅度而调整的滤波器系数来对麦克风信号进行滤波，以生成经滤波的话音信号，其相对于麦克风信号的用户话音分量具有衰减的背景噪声分量。

[0025] 在某些另外的实施方式中，语音编解码器被配置为对经滤波的话音信号进行编码。振动表征单元还被配置为响应于通过各个带通滤波器的每个窄频带宽分量的幅度来识别用户说出的共振峰的不同谐波含量，并且响应于所识别的用户说出的共振峰的谐波含量来调整语音编解码器用来对经滤波的话音信号进行编码的滤波器系数。 [0026] 通过阅读以下附图和详细说明，本领域技术人员很容易想到根据本发明实施方式的其它电子设备和/或方法。旨在将所有这些另外的电子设备和方法包括在本说明书内，落入本发明的范围内，并受所附权利要求书的保护。

附图说明

[0027] 附图被包括以提供对本发明的进一步理解且并到本申请构成其一部分，示出了本发明的某些实施方式。在附图中：

[0028] 图1是根据某些实施方式的响应于对麦克风说话的用户面部中所感测的振动来对麦克风信号进行自适应滤波的通信终端的电路的框图；

[0029] 图2是根据某些实施方式的图1的振动表征单元的进一步框图； [0030] 图3是用户说出单词“let”时随着时间变化的幅度和频率的示例性变化的随时间的三维图，图3还示出了根据某些实施方式的可以由图1的振动表征单元识别并使用以向图1的语音编解码器所使用的语音编码算法提供输入的说出共振峰的不同谐波内容； [0031] 图4是根据本发明某些实施方式的具有凸边部分的通信终端的图，该凸边部分从壳体前表面的主要部分突出以便尽量与对麦克风说话的用户的面部相接触； [0032] 图5是根据某些实施方式的通信终端，例如图4的通信终端的示例性组件的框图，该通信终端响应于在对麦克风说话的用户的面部中所感测的振动来对麦克风信号进行自适应滤波；

[0033] 图6是根据某些实施方式的另一个通信终端的图，该通信终端包括被配置为感测对麦克风说话的用户的邻近被照明的面部皮肤的振动的光源和光传感器； [0034] 图7是根据某些实施方式的通信终端，例如图7的通信终端的示例性组件的框图，该通信终端响应于对麦克风说话的用户的面部振动的基于光的感测来对麦克风信号进行自适应滤波；

[0035] 图8是振动传感器，例如图7的振动传感器的另一个框图，该振动传感器包括光源和被配置为感测振动的光传感器；

[0036] 图9是可以由移动终端或其它电子设备执行以响应于在对设备的麦克风说话的用户的面部中所感测的振动来对麦克风信号进行自适应滤波的方法和操作的流程图。具体实施方式

[0037] 以下将参照附图更充分地描述本发明的各种实施方式。然而，本发明不应当解读为限于这里阐述的实施方式。实际上，提供这些实施方式是为了使本公开彻底和完整，并且将本发明的范围传递给本领域技术人员。

[0038] 应该理解，这里使用的措辞“包括”是开放的，包括一个或多个所述要素、步骤和/或功能，而不排斥一个或多个未陈述的要素、步骤和/或功能。这里使用的单数形式旨在也包括复数形式，除非上下文明确地另外表示。“和/或”和“/”的表达方式包括一个或多个关联的列出项的任何和所有组合。为了清楚，在附图中，区域的大小和相对大小可能被放大。贯穿所有附图，相同的数字指代相同的要素。

[0039] 某些实施方式可以以硬件和/或以软件(包括固件、常驻软件、微代码等)来体现。因此，如这里使用的，术语“信号”可以采用连续波形和/或离散值的形式，例如存储器或寄存器中的数字值。而且，各种实施方式可以采用计算机可用或计算机可读存储介质上的计算机程序产品的形式，所述计算机可用或计算机可读存储介质在介质中包含有计算机可用或计算机可读程序代码，用于由指令执行系统使用连同其一起使用。因此，这里所使用的术语“电路”和“控制器”可以采用数字电路的形式，例如由指令处理设备(例如通用微处理器和/或数字信号微处理器)执行的计算机可读程序代码，和/或模拟电路的形式。以下相关于图形描述的操作因此可以至少部分地实现为计算机(例如微处理器)执行的计算机可读程序代码。

[0040] 下面参照框图和操作流程图来描述实施方式。应当理解，框中标注的功能/动作可以不按操作图示中记录的顺序出现。例如，接连示出的两个框可能实际上基本上被并行地执行，或者框有时候可以以相反的顺序被执行，这取决于涉及的功能/动作。尽管某些图包括通信路径上的箭头以示出通信的主要方向，但是应当理解，通信可以在所描绘箭头的相反方向上出现。

[0041] 根据本发明的各种实施方式，电子设备响应于对麦克风说话的用户的面部中所感测的振动来对麦克风信号进行自适应滤波。仅仅为了例示和说明的目的，这里在示例性移动无线通信终端(“终端”)的上下文中描述这些电子设备的各种实施方式，所述终端例如为蜂窝终端、局域网(WLAN)和/或蓝牙终端(例如VoIP电话)。然而，应该理解，本发明不限于这些实施方式，并且可以一般地实现为根据这里描述的至少一个实施方式的对麦克风信号进行滤波的任何电子设备。其他的非限制性示例电子设备包括蓝牙或其它无线通信耳机、数字音频记录器、个人数字助理(PDA)和数字照相机。

[0042] 图1是响应于在对麦克风102说话的用户面部中所感测的振动对麦克风信号进行自适应滤波的终端100的电子电路的框图。根据某些实施方式，麦克风102响应于进入的声音而生成麦克风信号，并且通常包括用户话音分量和背景噪声分量。自适应声音滤波电路(自适应滤波器)110响应于表征了对麦克风102说话的用户的面部振动的数据来衰减不期望的背景噪声分量。因此，可以将不期望的背景噪声分量与麦克风信号的用户话音分量区分开，由此，可以由电子电路使用所感测的说话用户面部的振动特征来更鲁棒地使其衰减。 [0043] 更具体来讲，麦克风信号由放大器104放大并且由模数(A/D)转换器106转换为数字信号提供到自适应滤波器110。面部振动传感器120被配置为当用户对麦克风102说话时感测面部的振动并且生成包含表示所感测振动的振动信号122。振动传感器120例如可以包括诸如压电器件的加速度计，其生成跟踪该设备的加速度的可变电荷。面部振动表征单元130被配置为表征振动信号的与麦克风信号的话音分量相关联的至少一个频率分量，并且据此生成由自适应滤波器110使用来麦克风信号对进行滤波的话音表征数据132。自适应滤波器110使用响应于话音表征数据132而调整的滤波器系数来对数字化的麦克风信号进行滤波，以生成经滤波的话音信号112，其相对于麦克风信号的用户话音分量具有衰减的背景噪声分量。

[0044] 终端100还可以包括语音编码器/解码器(编解码器)140和收发器150。语音编解码器140对经滤波的话音信号112进行编码，以准备由收发器150发射。振动表征单元130可以被配置为响应于话音表征数据132来调整语音编解码器140的编码算法用来对经滤波的话音信号112进行编码的系数。语音编解码器140例如可以使用一个或多个工业标准蜂窝通信协议所定义的编码算法，所述协议例如为全球移动通信标准(GSM)、通用分组无线业务(GPRS)、增强型数据速率GSM演进(EDGE)、综合数字增强网络(iDEN)、码分多址(CDMA)、宽带CDMA、CDMA2000和/或通用移动通信系统(UMTS)。作为候选或者另外地，语音编解码器140可以使用由用于通过无线局域网(WLAN)和/或蓝牙网络传送数字语音，例如用于经由IP电话网络传送语音的一个或多个工业标准协议所定义的编码算法。 [0045] 编码后的语音由RF调制器152调制并且由放大器154放大，以便通过天线进行发射。RF调制器例如可以被配置为根据上面提及的一个或多个工业标准无线通信协议来进行通信。

[0046] 尽管为了示出和论述的目的在图1中示出了单独的功能块，但是应当理解，这里描述的它们的功能可以在共同的集成电路封装内集成，或者分布在一个以上的集成电路封装之间。

[0047] 图2是根据某些实施方式的图1的振动表征单元130的另外的框图。参照图2，振动表征单元130可以包括多个带通滤波器210a、210b、...、210n和频率表征单元220。带通滤波器210a、210b、...、210n中的每一个都可以被配置为使振动信号122的不同的窄频带宽分量通过。频率表征单元响应于通过各个带通滤波器的每个窄频带宽分量的幅度来生成表征振动信号的频率分量的话音表征数据132a-132b。

[0048] 因为振动信号122对应于正在说话的用户的面部振动，所以带通滤波器210a、210b、...、210n的输出与麦克风122的话音分量是关联的，由此与麦克风122中的不期望的背景噪声分量是分离的(decoupled)。自适应滤波器110可以被配置为响应于可以由话音表征数据132a表示的、通过各个带通滤波器210a、210b、...、210n的每个窄频带宽分量的幅度来调整它的滤波器系数。

[0049] 在某些实施方式中，自适应滤波器110可以包括数字有限冲激响应(FIR)滤波器，其被配置为对麦克风信号进行滤波以生成经滤波的话音信号112。振动表征单元130响应于振动信号122的那至少一个频率分量来调整应用到FIR滤波器的多个时间延迟抽头中的每一个的FIR系数。FIR系数的值可以响应于通过各个带通滤波器210a、210b、...、210n的每个窄频带宽分量的幅度而变化。例如，第一FIR系数可以响应于第一BPF_1_210a的输出来调整，第二FIR系数可以响应于第二BPF_2_210b的输出来调整，以此类推，直到第N FIR系数可以响应于第N BPF_N_210n的输出来调整。因此，FIR系数可以响应于在对麦克风102说话的用户的面部中所感测的振动来调整。

[0050] 在某些其它实施方式中，自适应滤波器110可以包括多个可变带通滤波器，每个带通滤波器都具有被应用以使麦克风信号的不同窄频带宽分量通过的可变增益，响应于通过振动表征单元130的对应带通滤波器210a、210b、...、210n的每个窄频带宽分量的幅度来调整这些可变增益。因此，例如，第一带通滤波器的增益可以响应于第一BPF_1_210a的输出来调整，第二带通滤波器的增益可以响应于第二BPF_2_210b的输出来调整，以此类推，第N带通滤波器的增益可以响应于第N BPF_N_210n的输出来调整。然后，可以基于对自适应声音滤波器110的可变带通滤波器所输出的麦克风信号的通过分量进行组合来生成经滤波的话音信号112。

[0051] 频率表征单元220还可以被配置为响应于可以由话音表征数据132a-132b表示的、通过各个带通滤波器210a、210b、...、210n的每个窄频带宽分量的幅度来识别用户说出的共振峰的不同谐波含量。共振峰是人说话时形成的声共振造成的各部分话音的特征频谱。自适应滤波器110可以响应于识别用户说出的共振峰的谐波含量的话音表征数据132a来调整它的滤波器系数。语音编解码器140可以响应于话音表征数据132b来调整其中编码算法用来对经滤波的话音信号112进行编码的系数。

[0052] 频率表征单元220可以被配置为根据基音和/或所说的元音和/或辅音的关联谐波的时间来识别频率，并且调整自适应滤波器110的滤波器系数以改进相对于经滤波的话音信号112中的话音分量的背景噪声的持续性。

[0053] 例如，所说的元音造成具有特有的基本频率和谐波频率。这些频率可以通过使振动信号122经过带通滤波器210a-n来表征，每个带通滤波器都集中于不同元音的各自基本频率和谐波频率附近。这样，频率特征可以用来标识所说的元音，其可以用作对于语音编解码器140所使用的语音编码算法的输入。

[0054] 类似地，元音的开始和结束频率以及关联的时间瞬态提供了正在形成什么类型的辅音的信息。辅音本身可以具有每种类型的辅音所特有的并且可以由频率表征单元220用来标识辅音的瞬态频率含量。例如，“s”可以具有主要在大约5kHz的区域中的频率分量。 [0055] 图3是当用户读单词“let”时幅度和频率随时间变化的示例变化随时间的三维图，并且还示出了可以由频率表征单元220识别和使用以便向语音编解码器140所使用的语音编码算法提供输入的说出共振峰的不同谐波内容，web位置“assap.org/newsite/articles/analyzing％20audio％20evp”处对其进行了进一步描述。如图3中所示，所说的“e”元音共振峰的开始和所说的“t”辅音共振峰的开始之间出现了10ms的间隔。因此，频率表征单元220可以将振动信号122的频率分量与麦克风信号的对应频率分量关联起来，以生成话音表征数据来调整自适应滤波器110的滤波和/或语音编解码器140的语音编码。在某些实施方式中，话音表征数据被用于调整用于对话音模式进行预测和编码的语音编解码器140的预计语音系数。

[0056] 图4是根据某些实施方式的包括具有一对凸边部分420a和420b的终端壳体410的终端400的图，所述凸边部分从壳体410前表面430的主要部分突出。示出的终端400还包括显示器432和键区434。

[0057] 当用户在经由开口450听扬声器的同时经由开口440对麦克风说话时，凸边部分420a和420b尽量与用户的面部相接触。因此，当用户将扬声器开口450放在用户的耳朵上并且对麦克风开口440说话时，凸边部分420a和420b中的一个可以接触说话者的面部，以使得来自面部的振动能够通过相应的凸边部分传导至振动传感器。

[0058] 在某些实施方式中，终端400可以包括一对振动传感器120，每一个都附接到前表面430的凸边部分420a和420b中的不同一个的内表面。该结构可以改进振动从说话者的面部通过接触的凸边部分到所连接的振动传感器120的传导，并由此改进振动传感器120的灵敏度。

[0059] 在某些实施方式中，前表面430的凸边部分420a和420b的至少主要部分可以包括相比于壳体前/后表面的主要部分430更加坚硬的材料，以改进振动的较高频率分量从用户的面部通过凸边部分420a到420b之一到关联的振动传感器120的传导。例如，前表面430的凸边部分420a和420b可以由金属形成，而前表面430的另一主要部分可以由不那么坚硬的塑料形成，例如在上表面上使用常规抽头的一种或多种通常塑料和/或使用橡胶材料。

[0060] 相反，用于凸边部分420a到420b的不那么坚硬的材料，例如更软的塑料或橡胶涂层，可能衰减振动的较高频率分量(即充当低通滤波器)，这可能降低振动传感器120的灵敏度。

[0061] 图5是根据某些实施方式的图4的终端400的示例组件的框图，其中的一些响应于对麦克风说话的用户的面部中所感测的振动来对麦克风信号进行自适应滤波。参照图5，终端400包括麦克风102、振动传感器120、振动表征单元130和自适应滤波器110，其可以被配置为如上相关于图1到4所述的那样工作。终端400还可以包括用户输入界面434(例如键区或触摸屏)、显示器432、通用控制器502、无线通信协议控制器504、蜂窝收发器506、(例如与IEEE 802.11a-g标准中的一个或多个兼容的)WLAN收发器508、蓝牙收发器510和/或扬声器512。

[0062] 蜂窝收发器506可以被配置为使用一种或多种蜂窝通信协议进行通信，例如全球移动通信标准(GSM)、通用分组无线业务(GPRS)、增强型数据速率GSM演进(EDGE)、综合数字增强网络(iDEN)、码分多址(CDMA)、宽带CDMA、CDMA2000和/或通用移动通信系统(UMTS)。终端110由此可以被配置为经由WLAN收发器508和/或蓝牙收发器510通过无线空中接口与蜂窝收发器基站和另一个终端进行通信。

[0063] 如图5中所示，振动传感器120可以附接到前表面430的凸边部分420a的内表面，尽量与听扬声器512并对麦克风102说话的用户的面部520相接触。用户话音产生了用户面部骨骼中的振动。壳体的凸边部分420a可以抵靠在一个或多个面部骨骼上，例如颌骨/颧骨，以压缩中间的肌肉并且改进振动从骨骼通过凸边部分420a到振动传感器120的传导。因为用户的面部骨骼可以响应于话音更有效地共振并且相比于面部皮肤520来说对于话音振动提供了更低的阻抗，所以朝向面部骨骼按压壳体的凸边部分420a可以改进振动传感器120检测用户话音的灵敏度。振动传感器120生成振动信号122，振动信号122如上所述包含表示用户话音的频率分量。如上面进一步描述的，自适应滤波器110使用响应于振动表征单元130输出的数据而调整的滤波器系数来对麦克风信号进行滤波，以生成经滤波的话音信号112，其相对于麦克风信号122的用户话音分量具有衰减的背景噪声分量。 [0064] 通用控制器502可以控制终端400的各种其它组件，并且可以被配置为执行语音编解码器140的功能。通用控制器502因此可以使用一个或多个语音编码和解码算法来对经滤波的麦克风信号112进行编码，其可以根据专用于收发器506-510中的一个或多个的无线通信协议来配置。无线通信协议控制器504还可以根据一个或多个无线通信协议来格式化编码的信号，以便通过对应的收发器506-510中的一个或多个来发射。 [0065] 尽管图4和5示出了示例终端和相关的功能电路，但是应该理解本发明不限于这些结构，而是旨在包含能够执行这里描述的操作的任何结构。例如，尽管为了示出和论述的目的在图5中示出了单独的功能块，应当理解，但是这里描述的它们的功能可以在共同的集成电路封装内集成，或者分布在一个以上的集成电路封装之间。

[0066] 图6是根据某些实施方式的终端600的图，其包括被配置为感测对麦克风开口说话的用户的面部皮肤的振动的光源610和光传感器620。图7是图6的终端600的示例组件的框图。用相同的数字来标记类似于终端 400的特征的终端600的特征。 [0067] 终端400和600之间的主要差异是光源610和用作基于光的振动传感器710的光传感器620的结构。光源610被配置为生成经已知信号波形调制的相干光，以便当用户对麦克风102说话时照亮用户的邻近面部皮肤520。光传感器620被配置为响应于感测到来自邻近面部皮肤520的所照亮部分的光的反射而生成感测光信号。感测光信号受到了邻近面部皮肤520的所照亮部分的振动的调制。

[0068] 比较电路720对用于调制光源610输出的光的已知信号波形与来自光传感器620的感测光信号进行比较，以生成包含表示邻近面部皮肤520的所照亮部分的振动的频率分量的振动信号122。

[0069] 图8是根据某些实施方式的图7的基于光的振动传感器710的另一个框图。参照图8，振动传感器710可以包括正弦信号发生器802、激光信号调制器804、激光装置610、激光传感器620和信号相移检测器810。信号发生器802生成具有已知频率和相位关系的正弦信号，该正弦信号被调制器804使用来调制驱动激光装置610的信号，以便生成照亮用户邻近的面部皮肤的激光。信号相移检测器810可以用作比较器，其测量来自传感器620的激光信号与来自发生器802的已知正弦信号和/或调制器804输出的调制信号之间的相移。 [0070] 当用户说话时，面部皮肤的振动对传感器620所感测的反射激光信号的波形进行调制。因此，相移检测器810检测到的出去的信号与进入的信号之间的相移表示了所照亮面部皮肤的振动的频率和幅度。相移检测器810的输出因此可以用作振动信号122。振动表征单元130表征了振动信号122的与来自麦克风102的麦克风信号的话音分量相关联的频率分量(图7)。

[0071] 因为基于光的振动传感器710响应于反射光的调制来感测面部振动(其固有地以非常高的频率出现)，所以相比依赖于从皮肤520到传感器120的基于接触的振动传输的振动传感器120，它可以在面部振动的更广阔带宽上提供基本上更大的灵敏度。而且，基于光的振动传感器710不需要终端600与用户面部之间的接触，因此当用户在会话期间移动终端 600时，可以提供更加鲁棒的面部振动的测量。

[0072] 再次参考图7，终端600的其它组件可以被配置为以与用图5中示出的类似标号的功能块所描述的类似的方式来工作。尽管为了易于示出和描述，已经将机械连接的振动传感器的实施方式(例如图4和5)与光学连接的振动传感器(例如图6和7)分开描述，但是本发明不限于此。例如，电子设备可以通过组合图4到7的实施方式的方面来组合面部振动的机械感测和光学感测。

[0073] 图9是可以由移动终端或其它电子设备执行以响应于对设备的麦克风说话的用户的面部中所感测的振动来对麦克风信号进行自适应滤波的示例方法和操作900的流程图。参照图8，在框902，操作电路以便当用户对麦克风说话时感测面部的振动，并且生成包含表示所感测振动的频率分量的振动信号。在框904，响应于进入的声音而生成话音表征数据，其表征了振动信号的与麦克风生成的麦克风信号的话音分量相关联的至少一个频率分量。在框906，使用响应于话音表征数据而调整的滤波器系数对麦克风信号进行自适应滤波，以便生成经滤波的话音信号，其相对于麦克风信号的话音分量具有衰减的背景噪声分量。

[0074] 附图和说明书中公开了本发明的示例实施方式。然而，可以对这些实施方式做出许多变化和修改，而基本不会偏离本发明的原理。因此，尽管使用了特定术语，它们仅仅以一般和描述性的含意使用，并且不是为了限制的目的，本发明的范围由以下权利要求书来限定。

响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波的电子设备转让专利

申请号 : CN200880129215.6

文献号 : CN102027536B

文献日 : 2012-06-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 达格·格雷贝

申请人 : 索尼爱立信移动通讯有限公司

摘要 :

权利要求 :

说明书 :

响应于说话时在用户面部中感测到的振动对麦克风信号进

技术领域

附图说明