用于显示用户接口的系统和方法转让专利
申请号 : CN201380019519.8
文献号 : CN104246531B
文献日 : 2017-11-14
发明人 : 金莱轩 , E·维瑟 , P·L·通 , J·P·托曼 , J·C·邵
申请人 : 高通股份有限公司
摘要 :
权利要求 :
1.一种用于在电子装置上显示用户接口的方法,其包括:呈现用户接口,其中所述用户接口包括坐标系,其中所述坐标系基于传感器数据而对应于物理坐标;
提供允许选择所述坐标系的至少一个扇区的扇区选择特征,其中所述至少一个扇区对应于从多个麦克风俘获的音频,且其中扇区选择包含音频信号指示器;
提供扇区编辑特征,其允许基于所接收的输入来调整所述至少一个扇区的尺寸,所接收的输入提供对所述坐标系的至少一个扇区的至少一个边界的调整;及基于所述扇区选择来对与所述音频信号指示器对应的俘获的音频执行音频操作,其中所述音频操作包括传递在所述至少一个扇区内指示的音频信号。
2.根据权利要求1所述的方法,其进一步包括显示由至少一个麦克风俘获的至少一个音频信号的方向性。
3.根据权利要求2所述的方法,其中所述至少一个音频信号包括话音信号。
4.根据权利要求2所述的方法,其进一步包括显示对应于所述至少一个音频信号的图标。
5.根据权利要求4所述的方法,其中显示图标进一步包括显示用于目标音频信号的图标及用于干扰音频信号的图标中的至少一者。
6.根据权利要求1所述的方法,其进一步包括衰减未在所述至少一个扇区内指示的音频信号。
7.根据权利要求1所述的方法,其进一步包括指示来自一或多个图像传感器的图像数据。
8.根据权利要求1所述的方法,其进一步包括传递基于所述一或多个扇区的图像数据。
9.根据权利要求1所述的方法,其中所述扇区选择特征及扇区编辑特征中的至少一者基于由单点触摸输入及多点触摸输入组成的群组中的至少一者而操作。
10.根据权利要求1所述的方法,其进一步包括:显示对应于所述至少一个扇区的至少一个触摸点;
接收对应于所述至少一个触摸点的触摸输入;及
基于所述触摸输入来编辑所述至少一个扇区。
11.根据权利要求1所述的方法,其进一步包括使所述用户接口的至少一部分与参考平面对准。
12.根据权利要求11所述的方法,其中所述参考平面是水平的。
13.根据权利要求11所述的方法,其中对准所述用户接口的至少一部分包括将二维极坐标图映射到三维显示空间中。
14.根据权利要求1所述的方法,其中所述物理坐标是地球坐标。
15.根据权利要求1所述的方法,其中所述物理坐标表示独立于地球坐标的物理空间。
16.根据权利要求1所述的方法,其中所述坐标系维持独立于电子装置定向的定向。
17.根据权利要求1所述的方法,其进一步包括:辨识音频签名;
在数据库中查找所述音频签名;
获得对应于所述音频签名的识别信息;及
在所述用户接口上显示所述识别信息。
18.根据权利要求17所述的方法,其中所述识别信息是对应于所述音频签名的人的图像。
19.根据权利要求1所述的方法,进一步包括提供固定模式及可编辑模式。
20.根据权利要求1所述的方法,其进一步包括填补所选择的扇区。
21.根据权利要求1所述的方法,其中所述扇区选择特征使得能够一次选择多个扇区。
22.根据权利要求1所述的方法,其中扇区编辑特征使得能够基于单点或多点触摸输入来调整所述扇区。
23.根据权利要求1所述的方法,其中所述扇区选择特征是基于一或多个滑动输入。
24.根据权利要求23所述的方法,其中所述一或多个滑动输入指示圆形区。
25.根据权利要求23所述的方法,其中所述一或多个滑动输入是单一滑动。
26.一种电子装置,其包括:
显示器,其中所述显示器经配置以
呈现用户接口,其中所述用户接口包括坐标系,其中所述坐标系基于传感器数据而对应于物理坐标;
呈现允许选择所述坐标系的至少一个扇区的扇区选择特征,其中所述至少一个扇区对应于从多个麦克风俘获的音频,且其中扇区选择包含音频信号指示器;
呈现扇区编辑特征,其允许基于所接收的输入来调整所述至少一个扇区的尺寸,所接收的输入提供对所述坐标系的至少一个扇区的至少一个边界的调整;及操作电路,其耦合到所述显示器,其中所述操作电路经配置以基于所述扇区选择来对与所述音频信号指示器对应的俘获的音频执行音频操作,其中所述音频操作包括传递在所述至少一个扇区内指示的音频信号。
27.根据权利要求26所述的电子装置,其中所述显示器经配置以呈现由至少一个麦克风俘获的至少一个音频信号的方向性。
28.根据权利要求27所述的电子装置,其中所述至少一个音频信号包括话音信号。
29.根据权利要求27所述的电子装置,其中所述显示器经配置以呈现对应于所述至少一个音频信号的图标。
30.根据权利要求29所述的电子装置,其中所述显示器经配置以呈现用于目标音频信号的图标及用于干扰音频信号的图标中的至少一者。
31.根据权利要求26所述的电子装置,其中所述操作电路经配置以衰减未在所述至少一个扇区内指示的音频信号。
32.根据权利要求26所述的电子装置,其中所述显示器经配置以指示来自一或多个图像传感器的图像数据。
33.根据权利要求26所述的电子装置,其中所述操作电路经配置以传递基于所述一或多个扇区的图像数据。
34.根据权利要求26所述的电子装置,其中所述扇区选择特征及扇区编辑特征中的至少一者基于由单点触摸输入及多点触摸输入组成的群组中的至少一者而操作。
35.根据权利要求26所述的电子装置,其中所述显示器经配置以呈现对应于所述至少一个扇区的至少一个触摸点,且其中所述电子装置进一步包括经配置以接收对应于所述至少一个触摸点的触摸输入的触摸传感器,且其中所述用户接口经配置以基于所述触摸输入来编辑所述至少一个扇区。
36.根据权利要求26所述的电子装置,其中所述用户接口经配置以使所述用户接口的至少一部分与参考平面对准。
37.根据权利要求36所述的电子装置,其中所述参考平面是水平的。
38.根据权利要求36所述的电子装置,其中所述用户接口经配置以将二维极坐标图映射到三维显示空间中。
39.根据权利要求26所述的电子装置,其中所述物理坐标是地球坐标。
40.根据权利要求26所述的电子装置,其中所述物理坐标表示独立于地球坐标的物理空间。
41.根据权利要求26所述的电子装置,其中所述显示器经配置以维持独立于电子装置定向的坐标系定向。
42.根据权利要求26所述的电子装置,其进一步包括音频签名辨识电路,所述音频签名辨识电路经配置以:辨识音频签名;在数据库中查找所述音频签名;获得对应于所述音频签名的识别信息;及将所述识别信息传递到所述显示器。
43.根据权利要求42所述的电子装置,其中所述识别信息是对应于所述音频签名的人的图像。
44.根据权利要求26所述的电子装置,其中所述用户接口经配置以提供固定模式及可编辑模式。
45.根据权利要求26所述的电子装置,其中所述用户接口经配置以填补所选择的扇区。
46.根据权利要求26所述的电子装置,其中所述扇区选择特征经配置以使得能够一次选择多个扇区。
47.根据权利要求26所述的电子装置,其中扇区编辑特征经配置以使得能够基于单点或多点触摸输入来调整所述扇区。
48.根据权利要求26所述的电子装置,其中所述扇区选择特征是基于一或多个滑动输入。
49.根据权利要求48所述的电子装置,其中所述一或多个滑动输入指示圆形区。
50.根据权利要求48所述的电子装置,其中所述一或多个滑动输入是单一滑动。
51.一种用于显示用户接口的设备,其包括:
用于呈现用户接口的装置,其中所述用户接口包括坐标系,其中所述坐标系基于传感器数据而对应于物理坐标;
用于提供允许选择所述坐标系的至少一个扇区的扇区选择特征的装置,其中所述至少一个扇区对应于从多个麦克风俘获的音频,且其中扇区选择包含音频信号指示器;
用于提供扇区编辑特征的装置,其允许基于所接收的输入来调整所述至少一个扇区的尺寸,所接收的输入提供对所述坐标系的至少一个扇区的至少一个边界的调整;及用于基于所述扇区选择来对与所述音频信号指示器对应的俘获的音频执行音频操作的装置,其中所述音频操作包括传递在所述至少一个扇区内指示的音频信号。
52.根据权利要求51所述的设备,其进一步包括用于显示由至少一个麦克风俘获的至少一个音频信号的方向性的装置。
53.根据权利要求51所述的设备,其进一步包括用于衰减未在所述至少一个扇区内指示的音频信号的装置。
54.根据权利要求51所述的设备,其中所述扇区选择特征及扇区编辑特征中的至少一者基于由单点触摸输入及多点触摸输入组成的群组中的至少一者而操作。
55.根据权利要求51所述的设备,其中所述扇区选择特征使得能够一次选择多个扇区。
56.根据权利要求51所述的设备,其中所述扇区选择特征是基于一或多个滑动输入。
说明书 :
用于显示用户接口的系统和方法
15日申请的第61/714,212号美国临时专利申请案“用于映射坐标的系统和方法(SYSTEMS
AND METHODS FOR MAPPING COORDINATES)”、2012年4月13日申请的第61/624,181号美国临时专利申请案“用于估计到达方向的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR ESTIMATING DIRECTION OF ARRIVAL)”、2012年5月4日申请的第61/642,954号美国临
时专利申请案“用于估计到达方向的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR ESTIMATING DIRECTION OF ARRIVAL)”,及2012年11月14日申请的第61/726,336号美
国临时专利申请案“用于估计到达方向的系统、方法及设备(SYSTEMS,METHODS,AND
APPARATUS FOR ESTIMATING DIRECTION OF ARRIVAL)”且主张所述申请案的权益。
技术领域
背景技术
的和改进型特征的需求也扩大。更特定来说,较快速、较有效地执行功能或具有较高质量的电子装置常常广受欢迎。
用户的语音或话语。麦克风将声信号转换为电子信号。此电子信号可接着经格式化(例如,经译码)以用于发射到另一装置(例如,蜂窝式电话、智能电话、计算机等等)以用于回放或用于存储。
益的。
发明内容
含提供允许选择所述坐标系的至少一个扇区的扇区选择特征。所述方法进一步包含提供允
许编辑所述至少一个扇区的扇区编辑特征。
号的图标。显示图标可包含显示用于目标音频信号的图标和/或用于干扰音频信号的图标。
器的图像数据。所述方法可包含传递基于所述一或多个扇区的图像数据。
入来编辑所述至少一个扇区。
中。
所述用户接口上显示所述识别信息。所述识别信息可为对应于所述音频签名的人的图像。
所述方法可包含提供固定模式及可编辑模式。所述方法可包含填补所选择的扇区。
征可使得能够基于单点或多点触摸输入来调整所述扇区。所述扇区选择特征可基于一或多
个滑动输入。所述一或多个滑动输入可指示圆形区。所述一或多个滑动输入可为单一滑动。
一个扇区的扇区编辑特征。
码。所述用户接口包含坐标系。所述坐标系基于传感器数据而对应于物理坐标。所述指令还包含用于导致所述电子装置提供允许选择所述坐标系的至少一个扇区的扇区选择特征的
代码。所述指令进一步包含用于导致所述电子装置提供允许编辑所述至少一个扇区的扇区
编辑特征的代码。
含用于提供允许选择所述坐标系的至少一个扇区的扇区选择特征的装置。所述设备另外包
含用于提供允许编辑所述至少一个扇区的扇区编辑特征的装置。
附图说明
具体实施方式
(UMTS)移动电话标准的3GPP计划。所述3GPP可界定下一代移动网络、移动系统及移动装置
的规范。
用术语“确定”来指示其普通意义中的任一者,例如决定、建立、推断、推算、选择和/或评估。
在术语“包括”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者,包含以下情况(i)“从中导出”(例如,“B是A的前驱体”),(ii)“至少基于”(例如,“A至少基于B”)以及,在特定上下文中在适当的情况下,(iii)“等于”(例如,“A等于B”或“A与B相同”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。除非另有指示,否则术语“A、B及C中的至少一者”及“A、B及C中的一或多者”指示“A和/或B和/或C”。
还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。术语“方法”、“过程”、“程序”和“技术”通用地且可互换地使用,除非特定上下文另有指示。具有多个子任务的“任务”也是方法。术语“设备”和“装置”也通用地且可互换地使用,除非特定上下文另有指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则术语“系统”在此用以指示其普通意义中的任一者,包含“交互以用于共同目的的元件群组”。
的任何图。除非起初通过定冠词引入,否则用于修饰权利要求元素的序数术语(例如,“第一”、“第二”、“第三”等)本身不指示所述权利要求元素相对于另一权利要求元素的任何优先级或次序,而是仅区别所述权利要求元素与具有同一名称(如果没有序数术语)的另一权
利要求元素。除非通过其上下文明确地限制,否则术语“多个”及“集合”中的每一者在本文中用以指示大于一的整数数量。
获得多个相位差。此方法还包含对于多个候选方向中的每一者,估计候选方向与基于所述
多个相位差的向量之间的误差。此方法还包含从所述多个候选方向当中选择对应于所估计
误差当中的最小误差的候选方向。在此方法中,所述第一对通道中的每一者是基于由第一
对麦克风中的对应麦克风产生的信号,且不同频率分量中的至少一者具有小于所述第一对
麦克风中的麦克风之间的距离的两倍的波长。
表示系统和方法。图中所描绘的特征和/或元素可组合至少一个其它图中所描绘的至少一
个特征和/或元素。
上(即,正交于正面)的第二麦克风对MV10-1、MV10-2。此类布置可用以确定用户何时在装置的正面说话(例如,浏览-通话模式)。前后对可用以解决左右对通常无法就其本身来解决的前后方向之间的模糊性。在一些实施方案中,手持机H100可包含一或多个扩音器LS10、
LS20L、LS20R、触摸屏TS10、镜头L10和/或一或多个额外麦克风ME10、MR10。
的方向指示平均化以确定所估计方向是否在所有频段上一致。可用于跟踪的频段的范围通
常受麦克风对的空间混叠频率约束。可将此上限定义为信号的波长为麦克风之间的距离d
的两倍所在的频率。此类方法可能不支持对超出一米的源DOA的准确跟踪且通常可能仅支
持低DOA分辨率。此外,对依赖前后对解决模糊性的相依性可能为对麦克风放置几何布置的显著约束,这是因为将装置放置在表面上可有效地遮挡前麦克风或后麦克风。此类方法通
常还仅使用一个固定对来用于跟踪。
此类方法可能能够关于可用麦克风的任意定向处置任意目标说话者位置。还可能需要此类
方法提供瞬时多说话者跟踪/分离能力。不幸的是,当前现有技术水平为单麦克风方法。
装于电视机或机顶盒上的可用以支持电话的阵列。实例包含Kinect装置阵列(微软公司,雷蒙德华盛顿州)和Skype阵列(微软Skype分部)及三星电子(韩国汉城)。除大的源到装置距
离之外,此类应用通常还遭受不良信号对干扰加噪声比(SINR)和房间混响。
以使得可避免对麦克风几何布置的特定约束。可将如本文所描述的成对1-D方法适当地并
入到任何几何布置中。
斯特频率及下到较低频率的可用频段来跟踪源(例如,通过支持使用具有较大麦克风间距
离的麦克风对)。不是限于单对用于跟踪,而是,可实施此类方法以在所有可用对当中选择最好的对。此类方法可用以支持甚至远场情境(高达3米到5米或大于5米的距离)中的源跟
踪,及提供高得多的DOA分辨率。其它可能的特征包含获得作用中源的确切2-D表示。对于最好的结果,可能需要每一源为稀疏宽带音频源,且每一频段大部分受不超过一个源支配。
信号)。对于多个(K个)候选方向当中的每一者,任务T20计算基于所计算的差异的对应方向误差。基于K个方向误差,任务T30选择候选方向。
或50%)或非重叠的。在一个特定实例中,将多通道信号划分成一连串非重叠片段或“帧”,每一者的长度为10毫秒。在另一特定实例中,每一帧的长度为20毫秒。如通过方法M10处理的片段还可为如通过不同操作处理的较大片段(即,子帧),或反过来也是一样。
度的实例包含(不限于)以下各者:总量值(例如,样本值的绝对值总和)、平均量值(例如,每一样本)、均方根(RMS)幅度、中值量值、峰值量值、峰值能量、总能量(例如,样本值的平方总和),及平均能量(例如,每一样本)。
通道信号的音频频率分量。
于经校准的麦克风对,可采用零增益差来指示源距每一麦克风等距(即,位于所述对的边射方向),可采用具有较大正值的增益差来指示源更接近一个麦克风(即,位于所述对的一个
端射方向),且可采用具有较大负值的增益差来指示源更接近另一麦克风(即,位于所述对
的另一端射方向)。
的实数项的比率的反正切(还被称为反正切(arctangent))。
MC10、MC20之间的距离(以米来计),θ表示相对于正交于阵列轴线的方向的到达角(以弧度来计),f表示频率(以赫兹来计),且c表示声速(例如,以米/秒来计)。如下文将描述,本文中所描述的DOA估计原理可扩展到线性阵列中的多个麦克风对(例如,如图2B中所展示)。对于不具有混响的单个点源的理想情况,相位延迟与频率 的比率将在所有频率内具有相同
值 如下文更详细论述,相对于麦克风对的DOAθ为一维测量结果,其界定空间锥
的表面(例如,使得锥的轴线为阵列的轴线)。
展相位延迟测量结果的可用频率范围的尝试通常为不可靠的。
位差与对应于DOA候选者的相位差之间的平方差 (或者,
绝对差 )。
PD20(实线和虚线)的角度对频率曲线图,其中相位缠绕到π到-π的范围。可接着通过计算每一DOA候选者的对应方向误差θi且识别对应于这些方向误差当中的最小者的DOA候选者来
确定最佳地匹配如所观测到的信号的DOA候选者。可将此类方向误差计算为(例如)第k个
DOA候选者的相位延迟值 与所观测到的相位延迟值 之间的误差eph_k。在一
个实例中,将误差eph_k表达为所要范围或其它组F频率分量内的 即,表达为
在F内的所观测到的值与候选相位延迟值之间的平方差的总和
可在运行时间之前(例如,在设计或制造期间)根据c和d的已知值和频率分量f的所要范围
计算每一DOA候选者θk的相位延迟值 且在使用装置期间从存储装置中检索所述相
位延迟值。此类预先计算的存量可经配置以支持所要角度范围和分辨率(例如,均匀分辨
率,例如1度、2度、5度、6度、10度或12度;或所要非均匀分辨率)以及所要频率范围和分辨率(其还可为均匀的或非均匀的)。
型的)。
角度关于所观测到的角度的误差(其通过相位延迟来指示)。所述频段下的目标角度为具有
最小误差的候选者。在一个实例中,接着跨越频段将误差加总以获得候选者的似然度的量
度。在另一实例中,将跨越所有频段最频繁出现的目标DOA候选者中的一或多者识别为对给定帧的DOA估计(或估计)。
迟计算频率f下的方向误差。
来导出。假设此表达式等效于用于解缠相位延迟的为DOA的函数的对应表达式,例如
除了归因于相位缠绕产生的几乎不连续性之外。可接着依据所观
测到的DOA,θob和候选DOA,θk将方向误差eph_f_k表达为eph_f_k=|Ψf_wr(θob)-Ψf_wr(θk)|≡|Ψf_un(θob)-Ψf_un(θk)|或eph_f_k=(Ψf_wr(θob)-Ψf_wr(θk))2≡(Ψf_un(θob)-Ψf_un(θk))2,其中频率f下所观测到的相位延迟与候选相位延迟之间的差依据频率f下所观测到的DOA,θob_f和候选DOA,θk表达为 可接着依据所
观测到的DOA,θob和候选DOA,θk将跨越F的方向误差eph_k表达为
在假设所观测到的缠绕相位延迟与解缠相位延迟等值
的情况下,可使用此表达式(例如,在任务T20中)以依据DOA(eDOA_f_k,eDOA_k)而不是相位延迟(eph_f_k,eph_k)来表达方向误差:
其中 的
值经定义为
sinθk)/c,B=(-2πfd cosθk)/c,且C=-(Ψf_un(θob)-Ψf_un(θk))。如在上述一阶实例中,在假设所观测到的缠绕相位延迟与解缠相位延迟等值的情况下,可使用此表达式来将依据
DOA的方向误差表达为所观测到的和候选缠绕相位延迟值的函数。
差。可能需要实施任务T20以根据例如es(n)=βes(n+1)+(1-β)e(n)等表达式(还被称为一阶IIR或递归滤波器)对每一方向误差e执行时间平滑操作,其中es(n-1)表示先前帧的经平
滑化的方向误差,es(n)表示方向误差的当前未经平滑化的值,e(n)表示方向误差的当前经平滑化的值,且β为平滑因子,其值可选自在零(无平滑化)到一(无更新)之间的范围。用于平滑因子β的典型值包含0.1、0.2、0.25、0.3、0.4和0.5。以下情形为典型的但并非必要的:
对于任务T20的此实施方案,使用β的相同值来使对应于不同频率分量的方向误差平滑化。
类似地,以下情形为典型的但并非必要的:对于任务T20的此实施方案,使用β的相同值来使对应于不同候选方向的方向误差平滑化。如图5B中所演示,可通过将帧中的跨越所有频段
的每一候选者的平方差加总以获得方向误差(例如,eph_k或eDOA_k)且选择具有最小误差的DOA候选者来确定用于给定帧的DOA估计。替代地,如图5C中所演示,此类差可用以识别每一频率下的最佳匹配(即,最小平方差)的DOA候选者。可接着将用于帧的DOA估计确定为跨越
所有频段的最频繁的DOA。
针对特定帧、频率和角度的此类似然度L的一个实例表达为
可随频率和/或时间变化的偏差项可基于噪声的假设分布(例如,高斯)。另外或替代地,偏差项可基于噪声的初始估计(例如,来自仅噪声初始帧)。另外或替代地,可基于来自仅噪声帧的信息(如(例如)通过话音活动检测模块指示)动态地更新偏差项。图7和8分别展示偏差
项去除之前及之后的似然度的曲线图的实例。在图7中,说明信号的帧号710、到达角712和振幅714。类似地,在图8中,说明信号的帧号810、到达角812和振幅814。
标占优势频段促成所述估计。在此加总中,其中误差较大的项可具有接近零的值且因此变
得对于估计来说为不显著的。如果方向性源在一些频段中占优势,那么对于所述角度,在那些频段下的误差值可更接近于零。而且,如果另一方向性源在其它频段中占优势,那么对于另一角度,在其它频段下的误差值可能更接近于零。
可用以指示语音活动的似然度。另外或替代地,此信息可用以(例如)通过根据到达方向将
帧和/或频率分量分类来支持所接收信号的时间和/或频率选择性掩蔽。
分量中的每一者选择源信号的候选到达方向。对于所述多个(F个)频率分量当中的每一者,任务T100计算所述对通道之间的差异。可实施任务T100以(例如)对于所述多个(F个)频率
分量当中的每一者执行任务T10的对应实例(例如,任务T12或T14)。
述频率分量中的一或多者当中的每一者计算K个方向误差,且对于所述频率分量当中的不
同的一或多者当中的每一者计算不同数目(例如,大于或小于K)个方向误差。
估计音调频率的倍数的频率分量。
输入通道的样本识别为音调峰值。音调估计程序描述于(例如)在www.3gpp.org处在线提供
使用的增强型可变速率编码解码器(EVRC)文档C.S0014-C的第4.6.3章节(第4-44到4-49
页)中。在包含语音编码及/或解码的应用中(例如,使用编码解码器进行的包含音调估计的话音通信,例如,码激励线性预测(CELP)和技术原型波形内插(PWI)),音调频率的当前估计(例如,呈音调周期或“音调滞后”的估计的形式)通常将已经可得到。
信号。在相关方法中,实施任务T100以对于通道对的至少一子带的频率分量中的每一者计
算相位差,且实施任务T200以仅基于对应于所估计音调频率的倍数的那些相位差计算方向
误差。
的F个候选方向选择,任务T400指示到达方向。举例来说,可实施任务T400以指示所述F个候选方向当中最频繁选择的候选方向作为到达方向。对于其中源信号在频率上不相交的情
况,可实施任务T400以指示一个以上到达方向(例如,以针对一个以上源当中的每一者指示一方向)。可随着时间反复进行方法M25以指示多通道信号的一序列帧中的每一者的一或多
个到达方向。
约束,此类方法使得能够使用具有较大麦克风间间隔的麦克风对。因为具有大麦克风间距
离的阵列在低频下通常提供更好的方向性(与具有小麦克风间距离的阵列相比较),所以较
大阵列的使用通常同样将可用相位延迟测量结果的范围扩展到较低频率。
MC10a到MC10e。可能需要将此类阵列配置为麦克风之间具有非均匀(例如,对数)间隔,如图
2B和4B的实例中。
所述对中的甚至单个的错配影响,此情形可降低DOA估计准确性。替代地,可能需要从阵列的两对或两个以上对麦克风当中选择用于每一频率的最好的麦克风对(例如,在所述频率
下给出最小误差ei的对),以使得可针对不同频带选择不同麦克风对。在麦克风对的空间混叠频率下,误差将较大。因此,此类方法将倾向于在频率接近于其缠绕频率时自动避免麦克风对,从而避免DOA估计中的相关不确定性。对于较高频段,麦克风之间具有较短距离的对通常将提供更好的估计且可自动地受到喜爱,而对于较低频段,麦克风之间具有较大距离
的对通常将提供更好的估计且可自动地受到喜爱。在图2B中所展示的四麦克风实例中,六
对不同的麦克风是可能的(即, )。
如,特定帧处)。
所述通道对中的一或多者当中的每一者计算K个方向误差,且对于所述通道对当中的不同
的一或多者当中的每一者计算不同数目(例如,大于或小于K)个方向误差。
如)对于多通道信号的多个(F个)频率分量当中的每一者选择候选方向(例如,在特定帧
处)。
之间的差异(例如,增益差或相位差)。对于所述多个(F个)频率分量当中的每一者,任务
T270计算所述多个(P个)对当中的每一者的多个方向误差。举例来说,可实施任务T270以对于所述频率分量中的每一者计算所述P对中的每一者的K个方向误差,或对于每一频率分量
计算总共P×K个方向误差。对于所述多个(F个)频率分量当中的每一者,且基于所述多个对
应方向误差,任务T350选择对应候选方向。
候选方向当中的每一者,计算基于所计算的差异的对应方向误差(例如,如本文中参考任务T20的实施方案所描述)。选择器300经配置以基于对应方向误差选择候选方向(例如,如本
文中参考任务T30的实施方案所描述)。
的实施方案所描述)。计算器100可经实施以(例如)对于多通道信号的多个(F个)频率分量
当中的每一者计算此类差异。在此情况下,计算器100还可经实施以在计算差异之前将子带滤波器组应用于信号及/或计算每一通道的频率变换(例如,快速傅里叶变换(FFT)或经修
改的离散余弦变换(MDCT))。
施方案所描述)。可实施设备A15以(例如)执行如本文中所描述的方法M25和/或M110的实
例。
适应性量度的装置F20,所述对应方向误差或适应性量度是基于所计算的差异(例如,如本
文参考任务T20的实施方案所描述)。设备MF5还包含用于基于对应方向误差选择候选方向
的装置F30(例如,如本文参考任务T30的实施方案所描述)。
一者计算此类差异。在此情况下,装置F10还可经实施以包含用于在计算差异之前执行子带分析及/或计算每一通道的频率变换(例如,快速傅里叶变换(FFT)或经修改的离散余弦变
换(MDCT))的装置。设备MF10可经实施以(例如)执行如本文所描述的方法M10、M20、M30和/或M100的实例。
装置F40。可实施设备MF15以(例如)执行如本文中所描述的方法M25和/或M110的实例。
沿着此锥的表面的源的实际方向为不确定的。举例来说,来自单个麦克风对的DOA估计并不指示源是在麦克风对的前方还是后方(或上方还是下方)。因此,虽然可在线性阵列中使用
两个以上麦克风来改善跨越一频率范围的DOA估计性能,但线性阵列所支持的DOA估计范围
通常限于180度。
描等应用中类似的范围)。可在扬声器电话应用中使用此类阵列来(例如)支持良好性能,甚至针对电话相对于一或多个源的任意放置也如此。
面(例如,桌面)。在此实例中,源1001为从沿着x轴1010但在z轴1014的方向上偏移的位置说话的人(例如,说话者的嘴在桌面上方)。关于如通过麦克风阵列界定的x-y平面,源1001的方向是沿着x轴1010,如图10A中所展示。沿着y轴1012的麦克风对将源的DOA估计为距x-z平面零度。然而,归因于说话者在x-y平面上方的高度,沿着x轴的麦克风对将源的DOA估计为距x轴1010达30°(即,距y-z平面60度),而不是沿着x轴1010。图11A和11B展示与此DOA估计相关联的混淆锥CY10的两个视图,此DOA估计造成相对于麦克风轴线的所估计说话者方向
的模糊性。图37A展示升高高于装置H100的平面(例如,显示平面和/或通过麦克风阵列轴线界定的平面)的点源3720(即,说话者的嘴)的另一实例。
可将所述值映射为如图10B中所展示的270°的组合方向估计1022(例如,方位角)。
12A中的阴影区域指示与如通过y轴麦克风对MC20-MC30观测到的DOAθ1相关联的混淆锥CY,且图12B中的阴影区域指示与如通过x轴麦克风对MC10-MC20观测到的DOA S01θ2相关联的
混淆锥CX。在图12C中,阴影区域指示锥CY,且虚线圆指示锥CX与穿过源且正交于x轴的平面的相交点。此圆上指示其与锥CY的相交点的两个点为源的候选位置。同样,在图12D中,阴影区域指示锥CX,虚线圆指示锥CY与穿过源且正交于y轴的平面的相交点,且此圆上指示其与锥CX的相交点的两个点为源的候选位置。可见,在此2-D情况下,仍存在关于源是在x-y平面上方还是下方的模糊性。
使用表达式 将这些方向
投影到x-y平面中会分别产生相对于x轴和y轴的所要角度的量值(21.8°,68.2°),其对应于给定源位置(x,y,z)=(5,2,5)。所观测到的角度的正负号指示其中源(例如,如通过麦克风MC10、MC20和MC30指示)所位于的x-y象限,如图11C中所展示。
度的量值估计为
计投影到那些非正交轴线上,且从那点简单明了地获得关于正交轴线的组合方向估计的表
示。图37B展示与具有与共用点源非正交的轴线(如所展示)的麦克风阵列的响应相关联的
相交混淆锥C1、C2的实例。图37C展示这些锥C1、C2的相交线L1中的一者,所述相交线以三维形式界定点源相对于阵列轴线的两个可能方向中的一者。
表达为d sin(θ2)、d sin(θ1)。向量(x,y)表示向量d到x-y平面上的投影。x的所估计值为已知的,且其留待估计y的值。
行。对于其中一个目标占优势的跟踪应用,可能需要选择N对用于表示N维。一旦通过特定麦克风对获得2-D结果,便可利用另一可用对来增加自由度。举例来说,图12A到12D和图13A、
13B说明使用x-y平面中的来自不同麦克风对的所观测到的DOA估计来获得投影到x-y平面
中的源方向的估计。以相同方式,可使用来自x轴麦克风对和z轴麦克风对(或x-z平面中的
其它对)的所观测到的DOA估计来获得投影到x-z平面中的源方向的估计,且对于y-z平面或
与麦克风中的三者或三者以上相交的任何其它平面,同样如此。
针对对i选择的DOA候选者。可能需要使用不同误差当中的最大值来促成较之于接近于混淆
锥中的仅一者且因而可能指示假峰值的估计优先选择接近于两个观测结果的混淆锥的估
计。可使用此类组合结果来获得(帧,角度)平面(如图8中所示且如本文所述)和/或(帧,频率)曲线图(如图9的底部所示且如本文所述)。
扬声器的自动选择(例如,通过扬声器辨识)组合。在一个此类应用中,电话经配置以辨识其拥有者的话音,且优先于其它源的方向而自动地选择对应于所述话音的方向。
2)、三维形式的三对情况下的(θ1,θ2,θ3),等等。关键问题是如何将空间滤波应用于成对1-D到达方向DOA10估计的此类组合。举例来说,依据由阵列的各种麦克风产生的信号当中的
相位差获得针对非同轴阵列(例如,如图13C中的情况3和4中所展示)的跨越一角度范围的
到达方向DOA10的闭式解可能为困难的或不切实际的。
对编号i、麦克风编号j,和源编号k,因此每一对 表示相应源和麦克风对的导向向
量(椭圆指示源1和麦克风对1的导向向量),且λ表示正则因子。源的数目不大于麦克风对的数目。此类配置避免了对同时使用所有麦克风界定DOA的需要。
15A中所说明的三麦克风MC10、MC20、MC30情况(即,两个麦克风对),例如,行的数目2×2=
4,而不是3,因此额外行使得矩阵为非正方形。
14A中所展示的BFNF BF10的实例,其还包含归一化N10(即,除以分母)以防止在空间混叠频率(即,为麦克风之间的距离的两倍的波长)下出现处于病态反转。
麦克风(例如,图15A中加标号为x1,2和x2,1的麦克风)而使得消除了共用通道。噪声相干矩阵Γ可通过测量或通过使用sinc函数进行理论计算来获得。应注意,可将图14A、14B和15B的实例一般化到任意数目个源N,使得N<=M,其中M为麦克风的数目。
空间滤波。此选项节省了用于计算用于归一化的分母的计算。图14A到16A中的方法演示了
可独立地在每一频段应用的BFNF BF10技术。使用如本文所描述的每一频率和麦克风对的
DOA估计建构导向向量。举例来说,可将针对对p和源n、针对DOAθi、频率f和麦克风编号m(1或2)的导向向量的每一元素计算为 其中lp指示对p的
麦克风之间的距离,ω指示频段编号,且fs指示取样频率。图16B展示如图15A中所展示的阵列的导向向量SV10a到SV10b的实例。
制增益)。象限框架的单个通道后处理可用于静态噪声和噪声参考处置。
DOA跟踪的实例。在图31中,指示D处的固定源S10,且还指示移动源S20。
及/或对选择任务T30,和用以将所选定的DOA候选者的DOA误差映射为源活动似然度估计的
任务T40。成对DOA估计结果还可用以跟踪一或多个作用中说话者,执行成对空间滤波操作,及/或执行时间和/或频率选择性掩蔽。还可使用活动似然度估计和/或空间滤波操作来获
得噪声估计以支持单通道噪声抑制操作。图18和19展示使用2-D麦克风布置跟踪源(例如,
人类说话者)在如图21A中所展示的方向A-B-C-D当中的移动获得的观测结果的实例。如图
21A中所描绘,可使用三个麦克风MC10、MC20、MC30记录音频信号。在此实例中,图18展示通过y轴对MC20-MC30获得的观测结果A到D,其中距离dx为3.6厘米;图19展示通过x轴对MC10-MC20获得的观测结果A到D,其中距离dy为7.3厘米;且DOA估计的存量以五度的分辨率涵盖-
90度到+90度的范围。
18和19中可见,归因于源相对于麦克风平面的仰角,所观测方向即使在源穿过对应端射方
向(即,用于x轴对MC10-MC20的方向A和用于y轴对MC20-MC30的方向B)时也不会达到-90度。
实例。在此实例中,使用1度分辨率。图22展示在方向D上存在另一源(例如,静止的人类说话者)的情况下使用2-D麦克风布置(其中距离dx为3.6厘米且距离dy为7.3厘米)通过麦克风
MC10、MC20、MC30跟踪源(例如,人类说话者)在如图21B中所展示的方向A-B-C当中的移动获得的组合观测结果A到D的实例。
段的组合,尤其是在可能存在一个以上方向性源的情况下(例如,两个说话者,或说话者与干扰源)。假设在每一频段只有一个源占优势,那么对于每一频率分量计算组合观测结果保留了不同源在不同对应频率下的优势之间的区分。如果在组合观测结果之前对观测结果执
行受不同源支配的频段内的加总,那么可丢失此区分,且组合观测结果可指示不对应于任
何实际源的位置的方向上的杂散峰值。举例来说,对来自45度处的第一源与225度处的第二源的正交麦克风对的观测结果进行加总且接着组合经加总的观测结果可能在135度和315
度处产生杂散峰值(除45度和225度处的所要峰值之外)。
减,或以与从所选扇区内各方向到达的频率分量不同的其它方式加以处理。在此实例中,目标扇区为180度到270度的象限,且是由用户从麦克风平面的四个象限当中选择的。此实例
还包含来自空调系统的声学干扰。
24中,图27中的矩形指示用户选择180度到270度的象限作为目标扇区TSS 10。图29和30展
示针对如图28B中所展示的具有道路噪声的动态情境的组合观测结果的实例。在图28B中,
电话可从扬声器S10接收音频信号。在图29中,说明信号的帧号2910、到达角2912和振幅
2914。在此情境中,说话者在约帧200与100之间拿起电话且再次在约帧1400与2100之间拿
起电话。在此实例中,图30中的矩形指示用户选择270度到360度的象限作为干扰扇区IS10。
基于扇区的方法的此类技术可包含基于所有扇区的最大似然度(likelihood_max)的
“vadall”统计。举例来说,如果最大值显著大于仅噪声阈值,那么vadall统计的值为1(否则为零)。可能需要仅在仅噪声周期期间更新仅噪声阈值。可(例如)通过单通道VAD(例如,来自主麦克风通道)和/或基于语音起始和/或偏移的检测(例如,基于一组频率分量中的每一
者的能量的时间导数)的VAD来指示此类周期。
干扰扇区与移动目标。
扇区及/或触发非静态噪声参考的更新。还可能需要使用(例如)基于最小统计的归一化技
术(例如,如2012年5月24日公布的第2012/0130713号美国专利申请公开案中所描述)将
vadall统计和/或vad[扇区]统计归一化。
DOA估计控制方向性掩蔽技术(例如,使目标象限通过及/或阻断干扰象限)来获得额外噪声
抑制增益。此类方法可用于处置混响且可产生额外的6到12分贝增益。可提供来自角度图的接口用于象限掩蔽(例如,通过根据每一频段指配具有最大似然度的角度)。可能需要基于
如通过角度图指示的目标优势来控制掩蔽积极性。此类技术可经设计以获得自然掩蔽响应
(例如,积极性的平滑自然无缝转变)。
对)二维(例如,360°)源跟踪和增强方案的各种实例。然而,可能需要实践通用方法以提供对范围为从桌上型免提到手持式免提或甚至到手持机使用情况的使用情况的无缝涵盖。虽
然三麦克风方案可用于手持式免提使用情况,但可能还需要在装置的背面上使用第四麦克
风(如果已经存在)。举例来说,可能需要至少四个麦克风(三个麦克风对)来用以表示(x,y,z)维度。如图1所示的设计具有此特征,图32A中所展示的设计也具有此特征,具有三个正面麦克风MC10、MC20、MC30和背面麦克风MC40(阴影圆)。
GUI,可通过利用多种位置检测方法中的任一者确定用户的握持模式,多种检测方法例如加速度计、陀螺测试仪、接近度传感器和/或通过按每一握持模式的2D角度图给出的似然度方差。取决于当前握持模式,可切换到如适于此类握持模式的两个非同轴麦克风对,且还可在显示器上提供对应的360°2D表示(如果用户想要看见360°2D表示的话)。
32B展示具有三个正面麦克风MC10、MC20、MC30的桌上型免提模式的实例和装置的显示屏幕上的对应可视化。图32D展示手持式免提(肖像)模式的实例,其中两个正面麦克风MC10、
MC20和一个背面麦克风MC40(阴影圆)经激活,及对应显示。图32C展示手持式免提(风景)模式的实例,其中一对不同的正面麦克风MC10、MC20和一个背面麦克风MC40(阴影圆)经激活,及对应显示。在一些配置中,背面麦克风MC40可位于装置的背面上,大致在正面麦克风MC10中的一者的后方。
2)扩充到f(θ1)f(θ2)f(θ3)。通过使用如上文所描述的位置敏感选择,可最佳地使用所有三个麦克风对(而不管当前握持模式),以依据源增强性能获得模式当中的无缝转变。当然,同样可一次使用三对以上。
克风阵列经实施以包含一或多个超声波换能器(例如,对大于15、20、25、30、40或50赫兹或
50赫兹以上的声频敏感的换能器)。
如,一或多个麦克风阵列的实施方案中的麦克风)中的每一者产生的信号执行一或多个预
处理操作,以产生经预处理的麦克风信号(例如,左麦克风信号和右麦克风信号中的对应
者)以用于输入到任务T10或差异计算器100。此类预处理操作可包含(不限于)阻抗匹配、模数转换、增益控制,和/或模拟域和/或数字域中的滤波。
模/数转换器(ADC)C10a、C10b和C10c。用于声学应用的典型取样率包含8赫兹、12赫兹、16赫兹和从约8赫兹到约16赫兹的范围内的其它频率,但还可使用高达约44.1赫兹、48赫兹或
192赫兹的取样率。通常,转换器C10a、C10b和C10c经配置以按相同速率对每一信号进行取样。
异计算器100。通常,级P20a、P20b和P20c经配置以对每一信号执行相同功能。还应注意,预处理级AP10可经配置以产生来自麦克风中的至少一者的信号的不同版本(例如,以不同取
样率及/或通过不同频谱整形)以用于内容使用,例如,提供话音通信(例如,电话呼叫)中的近端语音信号。尽管图38A和38B分别展示两通道和三通道实施方案,但应理解,相同原理可扩展到任意数目个麦克风。
装置F40。可实施设备MF15以(例如)执行如本文中所描述的方法M25和/或M110的实例。
M300和任务TB200的实施方案,但将认识到,此类实施方案不限于此上下文且明确地预期并在此揭示参考其它上下文的对应实施方案(例如,其中DOA估计指示在麦克风MC10的方向上
或替代地在远离麦克风MC10的方向上相对于轴线的0到180度的角度)。
此圆锥表面(还被称为“混淆锥”)上的源的实际位置是不确定的。图39C展示此类表面的一个实例。
在此实例中,第一对MC10、MC20的轴线为x轴,且第二对MC20、MC30的轴线为y轴。可针对第一对执行方法M10的实施方案的实例以产生对应1-D DOA估计θx,且可针对第二对执行方法
M10的实施方案的实例以产生对应1-D DOA估计θy。对于从位于通过麦克风轴线界定的平面中的源到达的信号,通过θx和θy描述的混淆锥在信号的到达方向d上重合以指示平面中的独特方向。
任务TB100a和TB100b中的每一者实施为(例如)如本文中所描述的方法M10的实施方案的实
例(例如,方法M20、M30、M100或M110)。基于第一和第二DOA估计,任务TB200计算组合DOA估计。
DOA估计,以产生指示DOA为高达360度的范围内的角度的组合DOA估计。可实施任务TB200以通过应用映射,例如,
此。举例来说,源相对于阵列的平面的高度(例如,源沿着z轴的位移)可在2-D跟踪中起到重要作用。
(例如)支持音频感测装置相对于源的任意放置和/或装置和源的任意相对移动(例如,用于
扬声器电话和/或源跟踪应用)。
面,源沿着y轴定位(例如,呈相对于x轴90度的角度)。x轴对MC10、MC20指示相对于y-z平面零度的DOA(即,向所述对轴线边射),其与如投影到x-y平面上的源方向一致。尽管源位于y轴正上方,但其常常在z轴方向上偏移30度的仰角角度。源距x-y平面的此仰角致使y轴对
MC20、MC30指示60度(即,相对于x-z平面)而不是90度的DOA。将表达式(1)的映射应用于值(θx,θy)=(0°,60°)会产生相对于x轴的60度的组合估计θc,其并不对应于如投影在平面上的源方向。
实施任务TB200以将1-D DOA估计转换成阵列平面中的角度以获得平面中的对应DOA估计。
计θc。应注意,任务TB200的此类实施方案可省略如表达式(3)中包含的 (替代地, 的计
算,这是因为值θc可如结合 (例如,如表达式(1)和(2)中所展示)根据
来确定。对于也需要 值的此类情况,可将其计算为 (且对于 同样)。
换成x-y平面中的对应角度将产生经转换的DOA估计 其对应于给定
源位置(x,y)=(5,2)。
通过表达式(1)将所述估计映射为相对于x轴90度的期望值。
在围绕麦克风阵列的360°范围内的作用中说话者的方向,而不管高度差。图45A展示通过将替代映射 应用于图43B的经转换的估计 以获得
270度的组合方向估计(例如,方位角)获得的曲线图。在此图中,同心圆上的标号指示以分贝来计的相对量值。
以估计源相对于x-y平面的仰角角度的量值。如果d表示从麦克风MC20到源的向量,那么向
量d到x轴、y轴和x-y平面上的投影的长度可分别表达为d sin(θx),d sin(θy)和
(例如,如图44A到44E中所展示)。可接着将仰角角度的量值估计为
的轴x及r的线性麦克风阵列的响应相关联的相交混淆锥的实例。图45C展示这些锥的相交
线,所述线界定点源相对于三维中的阵列轴线的两个可能方向d1和d2。
46A中所示的阵列的观测结果(θx,θr)相对于正交轴线x及y获得x-y平面中的组合方向估计的实例。如果d表示从麦克风MC20到源的向量,那么向量d到x轴上及到轴线r上的投影(dx)
和(dr)的长度可分别表达为d sin(θx)和d sin(θr),如图46B和46C中所展示。向量p=(px,py)表示向量d到x-y平面上的投影。所估计的值px=d sinθx为已知的,且其留待确定py的值。
平面(例如,由阵列轴线界定的平面)的投影。以此方式,2-D阵列可用以将源DOA估计的范围从线性180度估计扩展到平面360度估计。图47C说明具有用于执行对应于图47A的功能的组
件(例如,第一DOA估计器B100a、第二DOA估计器B100b和投影计算器B300)的设备A300的一
个实例。图47D说明包含用于执行对应于图47A的功能的装置(例如,用于计算关于第一阵列的轴线的第一DOA估计的装置FB100a、用于计算关于第二阵列的轴线的第二DOA估计的装置
FB100b,和用于计算DOA到不包含所述DOA的平面上的投影的装置FB300)的设备MF300的一
个实例。
TB310可执行如在例如表达式(3)或(4)中所示的转换。任务TB320组合所转换的角度与来自
第二DOA估计的信息(例如,正负号信息)以获得到达方向的投影。举例来说,任务TB320可根据例如表达式(1)或(2)执行映射。
方法M300的此实施方案M320的流程图。任务TB400参考包含阵列轴线的平面计算DOA的仰角
角度的估计(例如,如本文参考图44E所描述)。还可实施方法M320以组合所投影DOA估计与
估计的仰角角度以产生三维向量。
或话音通信应用的此类方法的便携式音频感测装置的实例包含电话手持机(例如,蜂窝式
电话手持机);有线或无线耳机(例如,蓝牙耳机);手持式音频和/或视频记录器;经配置以记录音频和/或视频内容的个人媒体播放器;个人数字助理(PDA)或其它手持式计算装置;
以及笔记本计算机、膝上型计算机、上网本计算机、平板计算机,或其它便携式计算装置。所述类别的便携式计算装置当前包含具有如下名称的装置:膝上型计算机、笔记型计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本,和智能电话。此类装置可具有包含显示屏幕的顶部面板和可包含键盘的底部面板,其中所述两个面板可以蛤壳
或其它铰接关系连接。此类装置可类似地实施为在顶表面上包含触摸屏显示器的平板计算
机。
影到x-y平面中的源方向的估计。以相同方式,可实施方法M200或M300的实例以组合来自x
轴麦克风对与z轴麦克风对(或x-z平面中的其它对)的所观测到的DOA估计以获得投影到x-
z平面中的源方向的估计,且对于y-z平面或与麦克风中的三者或三者以上相交的任何其它
平面为同样情况。可接着组合2-D投影估计从而以三维形式获得所估计DOA。举例来说,用于投影到x-y平面上的源的DOA估计可与用于投影到x-z平面上的源的DOA估计组合以获得组
合的DOA估计作为(x,y,z)空间中的向量。
性阵列获得的2-D结果与来自其它平面中的一或多个线性阵列中的每一者的DOA估计以提
供额外自由度。
本文所述)和/或(帧,频率)曲线图(如图9的底部所示且如本文所述)。
任务TB410基于来自得自任务TB100a、TB100b和TB100c的DOA估计的信息估计仰角角度。
MC20或MC30偏移的第四麦克风)。通过任务TB100c针对此对产生的DOA估计用于任务TB400
中以解析仰角角度中的前-后模糊性,使得所述方法提供完整的球形测量范围(例如,在任
何平面中都是360度)。在此情况下,可实施方法M325,使得通过任务TB100a和TB100b产生的DOA估计是基于相位差,且通过任务TB100c产生的DOA估计是基于增益差。在特定实例(例
如,用于跟踪仅一个源)中,通过任务TB100c产生的DOA估计具有两个状态:第一状态,其指示所述源在平面上方;以及第二状态,其指示所述源在平面下方。
如,如图41C、42D和45A中所示)在装置的显示屏幕上显示所计算的投影。此类显示屏幕(其可为如图1所示的触摸屏)的实例包含液晶显示器(LCD)、有机发光二极管(OLED)显示器、电润湿显示器、电泳显示器,和干涉式调制器显示器。此类显示器还可包含所估计的仰角角度的指示(例如,如图49B中所示)。
此旋转之前和之后的实例。
个(通常正交)轴线中的每一者的定向改变(例如,俯仰、横滚和/或扭转的改变)。陀螺仪(其可制造为微机电系统(MEMS)装置)的实例包含振动陀螺仪。加速度计检测沿着一轴线或沿
着两个或三个(通常正交)轴线中的每一者的加速度。加速度计也可制造为MEMS装置。还可
能将陀螺仪和加速度计组合到单个传感器中。另外或替代地,定向传感器可包含一或多个
磁场传感器(例如,磁力计),其测量沿着一轴线或沿着两个或三个(通常正交)轴线中的每
一者的磁场强度。在一个实例中,装置D100包含磁场传感器,所述磁场传感器指示装置相对于磁轴(例如,地球的磁轴)的当前定向。在此情况下,可实施任务TB500以在旋转成与那一轴线对准的栅格(例如,当作罗盘)上显示所投影的DOA。
ME10、MR10和MV10-3)。举例来说,平板计算机或智能电话的厚度相对于显示表面的尺寸通常为小的。在此些情况下,预期可忽略投影到阵列平面上的DOA与投影到显示平面上的DOA
之间的任何误差,且配置任务TB500以显示投影到阵列平面上的DOA可为可接受的。
此实施方案可显示将投影矩阵应用到所估计DOA的结果,其中投影矩阵描述从阵列平面到
显示器的表面平面上的投影。或者,可实施任务TB300以包含此类投影。
参考外部参考方向指示DOA估计。图53B展示包含任务TB600的实例和任务TB300的实施方案
TB310的方法M300的此实施方案M350的流程图。还可实施方法M350以包含如本文所描述的
显示任务TB500的实例。
等表达式执行此类转换。在第二操作中,通过投影 将向量h投影
到参考世界坐标系而界定的平面P中,其中A为世界坐标系中的平面P的基础矩阵。
世界参考平面上的DOA的此类映射显示的实例。
1);并且gx-y(p)、gx-z(p)、gy-z(p)分别表示到分量向量 的
平面P中的投影。对应于α、β和γ当中的最小值的平面为最接近于P的平面,且任务TB310的替代实施方案识别此最小值且将所投影分量向量中的对应一者产生为Pg的近似值。
过范围(angular pass range)内的方向到达的方向分量通过和/或阻断或以其它方式衰减
从角度停止范围(angular stop range)内的方向到达的方向分量。
断的方向范围。圆圈指示触摸屏上的点,用户可以在所述圆圈的外围四周滑动以改变所选
范围。所述触摸点可联系起来,使得移动一个点致使其它点在相同角方向或者在相反角方
向上移动相等角度。替代地,触摸点可为可独立选择的(例如,如图54B中所展示)。还可能提供一或多对额外触摸点以支持对一个以上角范围的选择(例如,如图54C中所示)。
的用户输入。此些接口的实例包含如图53C中所示的线性滑块式电位计(linear slider
potentiometer)、拨动开关(用于二元输入以指示例如上下、左右、顺时针/逆时针),以及转轮或旋钮。
达的分量进入。图55A和55B展示其中使用定向传感器来跟踪装置的定向的另一实例。在此
情况下,使用装置的方向位移(例如,如由定向传感器所指示)来更新如由用户选择的方向
滤波配置(且更新对应显示),使得可维持所要方向响应而不管装置的定向的改变。
合。在一个此类应用中,音频感测装置(例如,电话)经配置以辨识其拥有者的话音,且优先于其它源的方向而自动地选择对应于所述话音的方向。
的多模传感器融合。举例来说,本文中所描述的系统和方法能够使用传感器数据和位于3D
装置上的一组麦克风将来自通过麦克风俘获的3D声源的多个DOA信息投影到物理2D平面
中,其中麦克风信号可基于从麦克风检索的将2D物理平面中的声源的空间分辨率最大化的
DOA信息来选择,且其中传感器数据提供3D装置相对于物理2D平面的定向的参考。存在可受益于例如加速度计、接近度传感器等传感器与多麦克风的融合的许多使用情况。一个实例
(例如,“使用情况1”)可包含稳健手持机智能开关(IS)。另一实例(例如,“使用情况2”)可包含对于各种扬声器电话握持模式的稳健支持。另一实例(例如,“使用情况3”)可包含无缝扬声器电话-手持机握持模式支持。又一实例(例如,“使用情况4”)可包含作用中源和协调传递的多视角可视化。
数据,且可将其用于所述使用情况中的至少一者。本文中所揭示的系统和方法的一些配置
可另外或替代地针对至少一使用情况跟踪传感器数据以及其它传感器数据(例如,摄像机
数据)。
表示系统和方法。图中所描绘的特征和/或元素可组合至少一个其它图中所描绘的至少一
个特征和/或元素。
包含蜂窝式电话、智能电话、话音记录器、视频摄像机、音频播放器(例如,MPEG-1标准
(MPEG-1)或MPEG-2音频层3(MP3)播放器)、视频播放器、音频记录器、桌上型计算机、膝上型计算机、个人数字助理(PDA)、游戏系统等。一种电子装置5602是通信装置,其可与另一装置通信。通信装置的实例包含电话、膝上型计算机、桌上型计算机、蜂窝式电话、智能电话、无线或有线调制解调器、电子阅读器、平板装置、游戏系统、蜂窝式电话基站或节点、接入点、无线网关和无线路由器等。
能依据至少一个标准来描述,但此情形不应限制本发明的范围,这是因为所述系统和方法
可适用于许多系统和/或标准。
组件来实施。另外,电子装置5602的组件或元件中的一或多者可以硬件(例如,电路)、软件、固件或其任何组合来实施。举例来说,映射器5610可以电路(例如,以专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或一或多个处理器等)来实施。
加速度计/接近度传感器数据5608,电子装置5602可无缝地作出切换。
5602可停用位于电子装置5602的背面上的至少一个麦克风。类似地,如果电子装置5602定
向改变(例如,改变达较大量),那么电子装置5602可停用至少一个麦克风。
式握持电子装置5602(例如,电话)(例如,电子装置5602看来似乎为垂直定向(可基于传感
器数据5608来确定所述情形)),否则电子装置5602可在类别A配置中使用双麦克风配置。在一些实施方案中,在类别A配置中,电子装置5602可包含双麦克风配置,其中一个麦克风可位于电子装置5602的背面顶部附近,且另一麦克风可位于电子装置5602的正面底部附近。
在此配置中,电子装置5602可能能够鉴别含有通过麦克风的位置形成的行的平面中的音频
信号源(例如,确定音频信号的到达方向)。基于此配置,电子装置5602可能能够鉴别呈180度的音频信号源。因此,可基于类别A配置中的两个麦克风鉴别在180度跨度内到达的音频
信号的到达方向。举例来说,可辨别从电子装置5602的显示器的左侧接收的音频信号和从
右侧接收的音频信号。在一些配置中,可如上文章节A中所描述来确定一或多个音频信号的方向性。
据5608来告知)),否则电子装置5602可与类别B配置一起使用双麦克风配置。在此配置中,电子装置5602可包含双麦克风配置,其中一个麦克风可位于电子装置5602的背面底部附
近,且另一麦克风可位于电子装置5602的正面底部附近。在一些实施方案中,在类别B配置中,一个麦克风可位于电子装置5602的背面顶部附近,且另一麦克风可位于电子装置5602
的正面顶部附近。
可辨别从电子装置5602的显示器的顶部接收的音频信号和从底部接收的音频信号。然而,
无法鉴别在电子装置5602的显示器的左侧或右侧上的两个音频信号。应注意,如果电子装
置定向102改变,使得电子装置5602经垂直定向而不是经水平定向,那么可辨别来自电子装置的显示器的左侧和右侧的音频信号。对于三麦克风配置(类别C),电子装置5602可使用
前-后对麦克风用于垂直定向且可使用顶部-底部对麦克风用于水平定向。使用如类别C中
的配置,电子装置5602可能能够鉴别360度内的音频信号源(例如,鉴别不同音频信号的到
达方向)。
映射5612可包含指示源位置到电子装置坐标和/或到物理坐标的映射(例如,投影)的数据。
举例来说,映射器5610可实施至少一个算法来将源位置映射到物理坐标。在一些实施方案
中,物理坐标可为二维物理坐标。举例来说,映射器5610可使用来自至少一个传感器5604的传感器数据5608(例如,集成加速度计、接近性和麦克风数据)来确定电子装置5602定向(例如,握持模式)及导引电子装置5602执行操作(例如,显示源位置、切换麦克风配置和/或配置噪声抑制设置)。
5610可利用这些移动,且电子装置5602可基于旋转程度调整麦克风配置和/或噪声抑制设
置。举例来说,映射器5610可从至少一个传感器5604接收指示电子装置5602已从水平定向
(例如,桌面模式)改变为垂直定向(例如,浏览-通话模式)的传感器数据5608。在一些实施方案中,映射器5610可指示电子装置5602(例如,无线通信装置)已将定向从手持机模式(例如,用户的头部的侧面)改变为浏览-通话模式(例如,在用户的眼睛水平的前方)。
间中,及执行非静态噪声抑制。
置5602的至少一个传感器5604可将传感器数据5608提供到电子装置5602。传感器数据5608
的实例包含音频信号(例如,来自一或多个麦克风)、加速度计读数、位置信息、定向信息、位置信息、接近性信息(例如,不论物体是否是接近于电子装置5602检测到)、图像等。在一些实施方案中,电子装置5602可使用先前针对每一经指明的电子装置5602定向(例如,握持模式)和对应麦克风识别所获取的数据获得5702传感器数据5608(例如,加速度计x-y-z坐
标)。
信号(例如,来自两个或两个以上麦克风的多个音频信号)估计源相对于电子装置坐标的到
达方向(DOA)。在一些方法中,将源位置映射5704到电子装置坐标可包含将到达方向投影到如上文所描述的平面(例如,投影平面和/或阵列平面等)上。在一些配置中,电子装置坐标可为对应于装置的麦克风阵列平面。在其它配置中,电子装置坐标可为对应于电子装置
5602的另一坐标系,可由电子装置5602来将源位置(例如,DOA)映射(例如,转译及/或旋转)到所述另一坐标系。
到物理坐标。在一些配置中,可将映射5612应用于“3D音频映射”。举例来说,在一些配置中,罗盘(例如,传感器5604)可将罗盘数据(例如,传感器数据5608)提供到映射器5610。在此实例中,电子装置5602可获得在4π方向(例如,球)上的声音分布图,所述声音分布图经转译为物理(例如,真实世界或地球)坐标。此情形可允许电子装置5602描述三维音频空间。可利用此种仰角信息来经由位于升高位置中的扩音器(例如,如22.2环绕声系统中)再生升高声
音。
定电子装置5602定向(例如,握持模式)。类似地,映射器5610可从至少一个传感器5604接收指示电子装置5602已从水平定向(例如,桌面模式)改变为垂直定向(例如,浏览-通话模式)的传感器数据5608。
5602可基于电子装置5602定向的所检测到的改变(例如,如通过映射5612指示)执行5708操
作。操作的特定实例包含切换电子装置5602麦克风配置,跟踪音频源(例如,呈二维或三
维),将源位置从物理坐标映射到三维显示空间中、非静态噪声抑制、滤波、基于音频信号显示图像等。
行操作(例如,映射或投影音频信号源)。
还可基于x-y-z位置传感器数据5608指定物理(例如,真实世界)坐标系中的基础向量
电子装置5602可接着获得 其为用以获得坐标系中的任何二
维平面的基础向量空间。在给出搜索网格 的情况下,电子装置5602可通过采用投
影操作的前两个元素将基础向量空间向下投影到平面(x″,y″),所述投影操作的前两个元素是通过采用前两个元素(x″,y″)界定的,其中
真实x-y平面(例如,物理坐标)), 应注意,可在投影
操作之后采用前两个元素[1 0]T。因此,现在可将E中的 投影到A上为[1 0]T。因此,在装置(例如,电话)x-y-z几何布置中的浏览-通话模式下的[0 0 1]T对应于真实世界x-y平面的
[1 0]T。
说,电子装置5602可在三维显示空间中显现对应于源位置的声源表示。在一些配置中,电子装置5602可显现曲线图(例如,极坐标图、矩形曲线图),所述曲线图包含对应于三维显示空间中的物理坐标的二维平面上的声源表示,其中所述平面是基于装置定向来显现。以此方
式,执行5708操作可包含维持三维显示空间中的源定向,而不管装置定向(例如,旋转、倾斜、俯仰、偏航、横滚等)。举例来说,曲线图将与物理坐标对准,而不管装置是如何定向。换句话说,电子装置5602可补偿装置定向改变以便维持曲线图相对于物理坐标的定向。在一
些配置中,显示三维显示空间可包含将三维显示空间投影到二维显示器上(例如,以用于显示在二维像素网格上)。
子装置5802可包含至少一个传感器5804、至少一个麦克风、映射器5810和操作块/模块
5814,所述各者可为结合图56所描述的对应元件的实例。在一些实施方案中,所述至少一个传感器5804可将传感器数据5808提供到映射器5810,所述传感器数据5808可为结合图56所
描述的传感器数据5608的实例。
参考电子装置5602定向。举例来说,参考定向5816可指示最优电子装置5602定向(例如,最优握持模式)。最优电子装置5602定向可对应于可在其中实施双麦克风配置的定向。举例来说,参考定向5816可为其中电子装置5602定位于垂直定向与水平定向之间的定向。在一些
实施方案中,为水平定向和垂直定向的电子装置5602(例如,电话)定向为非典型握持模式
(例如,非最优电子装置5602定向)。这些位置(例如,垂直和/或水平)可使用传感器5804(例如,加速度计)来识别。在一些实施方案中,中间位置(其可包含参考定向5816)可为用于端射双麦克风噪声抑制的位置。比较起来,水平和/或垂直定向可通过边射/单个麦克风噪声
抑制来处置。
模块5826。
三维源跟踪块/模块5822可基于映射5812跟踪音频信号源。换句话说,三维源跟踪块/模块
5822可基于如映射5812中所指示的电子装置5802定向确定音频信号源相对于电子装置的
位置。在一些实施方案中,三维源投影块/模块5818可将源(例如,以三维形式跟踪的源)投影到二维空间中。举例来说,三维源投影块/模块5818可使用至少一个算法将以三维形式跟踪的源以二维形式投影到显示器。
源跟踪块/模块5820可以二维形式跟踪音频信号源相对于电子装置5802的位置。在一些实
施方案中,二维源跟踪块/模块5820可基于映射5812跟踪音频信号源。换句话说,二维源跟踪块/模块5820可基于如映射5812中所指示的电子装置5802定向确定音频信号源相对于电
子装置的位置。
5802在平坦表面上水平面向上时(例如,桌面模式),麦克风配置开关5824可停用位于电子
装置5802的背面上的至少一个麦克风。类似地,当映射5812指示电子装置5802定向不同于
参考定向5816(例如,不同量达某一量)时,麦克风配置开关5824可从多麦克风配置(例如,双麦克风配置)切换到单麦克风配置。
案中,此可如结合图57中所描述那样进行。
器数据5808来确定电子装置5802定向。在一些实施方案中,电子装置5802定向可基于参考
平面。举例来说,电子装置5802可使用极坐标来界定电子装置5802定向。如下文将描述,电子装置5802可基于电子装置5802定向执行至少一个操作。
置5802面向由两对正交形成的平面,那么所述方差可变得显著大(全向)。
置5802(例如,无线通信装置)已将定向从手持机模式(例如,用户的头部的侧面)改变为浏
览-通话模式(例如,在用户的眼睛水平的前方)。如下文将描述,电子装置5802可基于电子装置5802定向的任何变化而执行至少一个操作。
向的映射5812。电子装置5802还可接收参考定向5816。如果电子装置5802定向及参考定向
5816不相同,那么电子装置5802可确定在电子装置5802定向与参考定向5816之间存在差
异。如下文将描述,电子装置5802可基于电子装置5802定向与参考定向5816之间的差异而
执行至少一个操作。在一些实施方案中,确定5910在电子装置5802定向与参考定向5816之
间是否存在差异可包含确定任何差异是否大于阈值量。在此实例中,电子装置5802可基于
在所述差异大于所述阈值量时的所述差异而执行操作。
于电子装置5802上的各种位置处的麦克风。
的情况下可包含一定的系统延迟。举例来说,在存在电子装置5802定向的突然改变时,系统延迟可为三秒左右。通过使切换5912基于映射5812(例如,及传感器数据5808),可无缝地进行双麦克风配置到单麦克风配置的切换5912。在一些实施方案中,基于映射5812和/或参考定向5816切换5912麦克风配置可包含基于以下各者中的至少一者来切换5912麦克风配置:
电子装置5802定向、电子装置5802定向中的任何变化及电子装置5802定向与参考定向5816
之间的任何差异。
(例如,加速度计x-y-z坐标)。此可基于(例如)简单的加权平均(例如,alpha*history+(1-alpha)*current)或更复杂的卡尔曼平滑。如果电子装置5802从跟踪的加速度计统计及参
考定向5816确定5910存在显著大的差异,那么电子装置5802可从多麦克风配置切换5912到
单麦克风配置。
5802定向而在用户在电话交谈的同时检测用户的姿势。假设用户在他/她将电子装置5802
(例如,电话)移动远离嘴的同时不说话。在此情况下,电子装置5802可从多麦克风配置切换
5912到单麦克风配置,且电子装置5802可保持在单麦克风配置中。然而,用户一在最佳握持模式中(例如,在参考定向5816中)握持电子装置5802的同时讲话,电子装置5802就将切换
回到多麦克风配置(例如,双麦克风配置)。
姿态。用户一在参考定向5816中使用电子装置5802(例如,在最佳握持模式中握持电子装置
5802),电子装置5802就可执行最佳噪声抑制。可随后在映射器5810中使用传感器5804(例
如,集成的加速度计及麦克风数据)以确定电子装置5802定向(例如,电子装置5802的握持
模式),且电子装置5802可执行操作(例如,选择适当的麦克风配置)。更具体来说,可启用前面及背面的麦克风,或可启用前面的麦克风,同时可停用背面的麦克风。在电子装置5802处于水平定向(例如,扬声器电话或桌面模式)时,这些配置中的任一者可有效。
数据5808,电子装置5802可使麦克风配置无缝切换,且调整麦克风增益及扬声器音量(或将听筒调整到较大的扩音器开关)。举例来说,假设用户将电子装置5802(例如,电话)面向下。
在一些实施方案中,电子装置5802还可跟踪传感器5804,使得电子装置5802可跟踪电子装
置5802(例如,电话)是面向下还是面向上。如果电子装置5802(例如,电话)是面向下,那么电子装置5802可提供扬声器电话功能性。在一些实施方案中,电子装置可区分接近度传感
器结果的优先级。换句话说,如果传感器数据5808指示物体(例如,手或桌子)靠近耳朵,那么电子装置可不切换5912到扬声器电话。
外,电子装置5802可切换5918为在两个维度中跟踪所述源。举例来说,电子装置5802可在音频信号源相对于电子装置5802移动时在两个维度中跟踪所述音频信号源。取决于电子装置
5802定向,电子装置5802可选择麦克风的对应非线性对且用恰当的二维投影提供360度的
二维表示。举例来说,电子装置5802可提供二维的360度源活动性的可视化而不管电子装置
5802定向(例如,握持模式(扬声器电话模式、肖像浏览-通话模式,及风景浏览-通话模式,或在其任何组合之间)。电子装置5802可将所述可视化内插到二维表示以用于每一握持模
式之间。实际上,电子装置5802可甚至使用三组二维表示来再现三维可视化。
中,电子装置5802可在噪声抑制期间移动。在这些实施方案中,电子装置5802可独立于电子装置5802定向而执行5920非静态噪声抑制。举例来说,如果用户错误地旋转电话但仍想要
集中某一目标方向,那么维持所述目标方向而不管装置定向如何可为有益的。
在一些实施方案中,检测6002传感器数据5808中的任何变化可包含检测传感器数据5808中
的变化是否大于一定量。举例来说,电子装置5802可检测6002加速度计数据中是否存在大
于所确定的阈值量的变化。
据5808指示电子装置5802是处于桌面模式(例如,在表面上水平面向上)或浏览-通话模式
(例如,在眼睛水平处垂直)还是电子装置5802处于除垂直或水平之外的位置(例如,其可包含参考定向5816)。
那么使用6006双麦克风配置可包含切换到双麦克风配置。相比而言,如果电子装置5802先
前使用双麦克风配置,那么使用6006双麦克风配置可包含维持双麦克风配置。
中。换句话说,电子装置5802可确定电子装置5802定位成靠近音频信号源(例如,用户的
嘴)。如果电子装置5802确定6008近场相位/增益话音活动性检测器在作用中(例如,电子装置5802接近用户的嘴),那么电子装置5802可使用6006双麦克风配置。
如果电子装置5802先前未使用单麦克风配置,那么使用6010单麦克风配置可包含切换到单
麦克风配置。相比而言,如果电子装置5802先前使用单麦克风配置,那么使用6010单麦克风配置可包含维持单麦克风配置。在一些实施方案中,使用6010单麦克风配置可包含使用宽
边/单麦克风噪声抑制。
在一些实施方案中,此可如结合图60中所描述那样进行。
置5802是否在一表面(例如,桌面位置)上水平面向上或是电子装置5802是垂直的(例如,浏览-通话位置)还是处于除垂直或水平之外的位置(例如,其可包含参考定向5816)。
面的麦克风可包含启用/停用至少一个麦克风。
可基于传感器数据5808确定6108电子装置5802面向上。如果电子装置5802确定6108电子装
置5802面向上,那么电子装置5802可使用6110前面的麦克风。举例来说,电子装置可使用
6110位于电子装置5802的前面的至少一个麦克风。在一些实施方案中,使用6110前面的麦
克风可包含启用/停用至少一个麦克风。举例来说,使用6110前面的麦克风可包含停用位于电子装置5802的背面上的至少一个麦克风。
含启用/停用至少一个麦克风。举例来说,使用6112背面的麦克风可包含停用位于电子装置
5802的前面上的至少一个麦克风。
所描述的电子装置5602的实例的电子装置6202上显示。可结合本文中所描述的多麦克风配
置和/或独立于所述多麦克风配置而使用用户接口6228。用户接口6228可呈现在电子装置
6202的显示器6264(例如,屏幕)上。显示器6264还可呈现扇区选择特征6232。在一些实施方案中,用户接口6228可提供可编辑模式及固定模式。在可编辑模式中,用户接口6228可对用以操纵用户接口6228的至少一个特征(例如,扇区选择特征)的输入作出响应。在固定模式
中,用户接口6228可不对用以操纵用户接口6228的至少一个特征的输入作出响应。
信号可为话音信号。在一些实施方案中,音频信号可由至少一个麦克风俘获。在此实施方案中,用户接口6228可耦合到至少一个麦克风。用户接口6228可显示所俘获的音频信号的2D
角度图。在一些实施方案中,用户接口6228可在3D透视图中显示2D曲线图以传达曲线图与
基于现实世界中的物理坐标的平面(例如,水平平面)的对准。在此实施方案中,用户接口
6228可独立于电子装置6202定向而显示信息。
6228可包含一或多个元件以实行本文中所描述的功能。举例来说,用户接口6228可包含所
选择的扇区的指示符和/或可显示用于编辑所选择的扇区的图标。
所选择的扇区的所选择的扇区指示符。在一些实施方案中,扇区选择特征6232可基于触摸
输入而操作。举例来说,扇区选择特征6232可允许基于单一触摸输入(例如,触摸、滑动和/或圈出用户接口6228的对应于扇区的区域)选择扇区。在一些实施方案中,扇区选择特征
6232可允许同时选择多个扇区。在此实例中,扇区选择特征6232可允许基于多个触摸输入
选择多个扇区。应理解,电子装置6202可包含用于产生用户接口6228的电路、处理器和/或指令。
感器数据(例如,加速度计数据、倾斜传感器数据、定向数据等)。
(例如,加速度计数据、陀螺仪数据、罗盘数据等)将电子装置6202坐标映射到如上文所描述的物理坐标。
6202定向改变(例如,电子装置6202旋转)时,坐标系6230可维持定向。在一些实施方案中,坐标系6230可对应于独立于地球坐标的物理空间。
说,用户接口6228可包含允许选择坐标系6230的至少一个扇区的至少一个元件。举例来说,用户接口6228可包含指示所选择的扇区的指示符。
多个音频信号指示符。触摸输入的一些实例包含一或多个敲击、滑动、图案(例如,符号、形状等)、夹捏、伸展、多点触摸旋转等。在一些配置中,电子装置6202(例如,用户接口6228)可在一或多个敲击、滑动、图案等与所显示的音频信号指示符(和/或扇区)相交时选择所述所显示的音频信号指示符(和/或扇区)。另外或替代地,电子装置6202(例如,用户接口6228)可在图案(例如,圆形区域、矩形区域或图案内的区域)等充分或部分包围或包含所显示的
音频信号指示符(和/或扇区)时选择所述所显示的音频信号指示符(和/或扇区)。应注意,
可一次选择所述一或多个音频信号指示符和/或扇区。
(例如,一或多个按钮、下拉菜单等),其提供用于编辑音频信号指示符或所选择的音频信号指示符的选项(例如,选择用于标记音频信号指示符的图标或图像、选择或改变所述音频信号指示符的色彩、图案和/或图像、设定对应的音频信号是否应被滤波(例如,阻断或通过)、放大或缩小所显示的音频信号指示符等)。另外或替代地,用户接口6228可呈现一或多个选项(例如,一或多个按钮、下拉菜单等),其提供用于编辑扇区的选项(例如,选择或改变扇区的色彩、图案和/或图像、设定扇区中的音频信号是否应被滤波(例如,阻断或通过)、放大或缩小所述扇区、调整扇区大小(例如,通过扩展或收缩所述扇区)等等)。举例来说,夹捏触摸输入可对应于减小或窄化扇区大小,而伸展可对应于增大或扩展扇区大小。
麦克风俘获的目标音频信号和/或干扰音频信号的方向性。目标音频信号可包含话音信号。
件的实例的电子装置6402的显示器6464上包含用户接口6428。电子装置6402可包含用户接
口6428、至少一个麦克风6406、操作块/模块6414、显示器6464和/或扇区选择特征6432,其可为图56及62中的一或多者中描述的对应元件的实例。
中包含的至少一个元件实施。举例来说,用户接口6428可包含允许用户调整所选择的扇区
的大小的至少一个触摸点。在一些实施方案中,扇区编辑特征6436可基于触摸输入而操作。
举例来说,扇区编辑特征6436可允许基于单一触摸输入来编辑所选择的扇区。在一些实施
方案中,扇区编辑特征6436可允许以下各者中的至少一者:调整扇区的大小、调整扇区的形状、调整扇区的边界和/或放大扇区。在一些实施方案中,扇区编辑特征6436可允许同时编辑多个扇区。在此实例中扇区编辑特征6436可允许基于多个触摸输入来编辑多个扇区。
于一或多个滑动输入。举例来说,一或多个滑动输入可指示圆形区。在一些配置中,一或多个滑动输入可为单一滑动。扇区选择特征6432可基于单点或多点触摸输入。另外或替代地,电子装置6402可基于单点或多点触摸输入来调整扇区。
示的触摸点来接收编辑扇区的触摸输入。在一些配置中,触摸传感器6438可与显示器6464
集成。在其它配置中,触摸传感器6438可单独地实施在电子装置6402中或可耦合到电子装
置6402。
中,用户接口对准块/模块6440可实时地对准用户接口6428的全部或一部分。
5608提供给显示器6464。
一个扇区内指示的一或多个音频信号。在一些实施方案中,操作块/模块6414可包含衰减音频信号的衰减器6442。举例来说,操作块/模块6414(例如,衰减器6442)可衰减(例如,阻断、减弱和/或抑制)未包含在至少一个所选择的扇区内的音频信号(例如,干扰音频信号)。在
一些情况下,音频信号可包含话音信号。举例来说扇区选择特征可允许衰减除用户话音信
号以外的不合需要的音频信号。
进行滤波)。换句话说,可将本文关于用户接口6428所描述的技术中的至少一者应用于作为音频信号替代物或补充的图像数据。
的坐标系6430。在一些实施方案中,此可如结合图63中所描述那样进行。
显示器6464中显示音频信号源的角度。如上文所描述,电子装置6402可显示所俘获的音频
信号的2D角度图。在一些实施方案中,用户接口6464可在3D透视图中显示2D曲线图以传达
曲线图与基于现实世界中的物理坐标的平面(例如,水平平面)的对准。
6508将音频信号识别为目标音频信号(例如,话音信号)的图标。另外或替代地,电子装置
6402(例如,显示器6464)可显示6508将音频信号识别为噪声和/或干扰(例如,干扰性或干
扰音频信号)的图标(例如,不同图标)。
装置6402可显示6508对应于至少一个音频信号的多个图标。举例来说,电子装置可显示将
音频信号识别为噪声/干扰信号或话音信号的至少一个图像图标和/或若干图标。
所述参考平面对准。换句话说,在电子装置6402平移和/或旋转时,用户接口6428的与参考平面对准的全部或一部分可与所述参考平面保持对准。在一些实施方案中,电子装置6402
可实时地对准6510用户接口6428的全部或一部分。
进空间音频处理。举例来说,填补可指提供作为用于所选择的扇区的突出显示的(例如,明亮的色彩)填补而提供的视觉反馈。举例来说,图71中所说明的所选择的扇区7150(例如,所述扇区的轮廓)可被突出显示以使得能够容易识别所选择的扇区。
扇区编辑特征6436。在一些实施方案中,扇区编辑特征6436可基于触摸输入而操作。举例来说,扇区编辑特征6436可允许基于单点或多点触摸输入来编辑所选择的扇区。举例来说,用户接口6428可包含允许用户调整所选择的扇区的大小的至少一个触摸点。在此实施方案
中,电子装置6402可提供接收允许编辑至少一个扇区的触摸输入的触摸传感器6438。
应。在固定模式中,用户接口6428可不对用以操纵用户接口6428的至少一个特征的输入作
出响应。在一些实施方案中,电子装置6402可允许在固定模式与可编辑模式之间进行选择。
举例来说,用户接口6428的单选按钮可允许在可编辑模式与固定模式之间进行选择。
减6522音频信号。举例来说,电子装置6402可衰减6522(例如,减弱和/或抑制)未包含在至少一个所选择的扇区内的音频信号。举例来说,所述音频信号可包含话音信号。在此实例中电子装置6402可衰减6522除用户话音信号以外的不合需要的音频信号。
6628a到b可包含可为结合图62所描述的坐标系6230的实例的坐标系6630a到b。
指示第一音频信号处于大致180度。相比而言,在第二用户接口6628b中,第二音频信号指示符6646b可指示第二音频信号处于大致270度。在一些实施方案中,音频信号指示符6646a到b可指示音频信号的强度。举例来说,音频信号指示符6646a到b可包含指示音频信号的强度的至少一个色彩的梯度。
“SFAST”。可利用其它标题。一般来说标题部分6601是任选的:用户接口的某一配置可不包含标题部分。此外,应注意,标题部分可位于用户接口上的任何地方(例如,顶部、底部、中心、左边、右边和/或覆盖等)。
描述的用户接口中。一般来说,控制部分6603可为任选的:用户接口的某一配置可不包含控制部分6603。此外,控制部分可被或可不被如图66中所说明那样分组。举例来说,交互式控制中的一或多者可位于用户接口的不同区段中(例如,顶部、底部、中心、左边、右边和/或覆盖等)。
户接口交互性且暂停或中断显示音频信号指示符6646a。
所检测到的角度上的视觉反馈。举例来说,“展示干扰源”元件可与“展示目标”元件成对,其使得能够将用户接口6628a中的目标及干扰位置的点可视化。在一些配置中,“展示干扰源”及“展示目标”元件可启用/停用在由所述装置检测到的角度位置上对目标源或干扰源的某一实际图片(例如,其实际表面、图标等)的显示。
意味着更多的平滑)。
6619可启用或停用对输入音频信号的噪声抑制处理。举例来说,电子装置可基于噪声抑制
(NS)启用按钮6619来启用或停用对干扰音频信号进行滤波。
占据用户接口6628a的子区段。虽然极坐标系在本文中作为实例给出,但应注意,例如矩形坐标系等替代的坐标系可包含于用户接口6628a中。
明。在其它配置中,坐标系9430可占据用户接口9428(和/或显示器9464)的子区段。应注意,可对本文中所描述的极坐标系中的任一者替代地实施矩形坐标系。
含坐标系6730及至少一个音频信号指示符6746a到b,其可为结合图62及66中的一或多者所
描述的对应元件的实例。在图67中,用户接口6728可包含多个音频信号指示符6746a到b。举例来说,第一音频信号指示符6746a可指示第一音频信号源6715a处于约90度且第二音频信
号源6715b处于约270度。举例来说,图67说明在包含用户接口6728的电子装置的左边及右
边的话音检测的一个实例。更具体来说,用户接口6728可指示从电子装置的左边及右边检
测到的话音。举例来说,用户接口6728可在同时显示不同位置中的多个(例如,两个)不同
源。在一些配置中,下文结合图78所描述的程序可使得能够选择对应于音频信号指示符
6746a到b(及(例如)音频信号源6715a到b)的两个扇区。
含坐标系6830及音频信号指示符6846,其可为结合图62及66中的一或多者所描述的对应元
件的实例。图68说明二维坐标系6830投影到三维显示空间中的一个实例,其中坐标系6830
显得朝内延伸到用户接口6828中。举例来说,电子装置6202(例如,电话)可在用户手的手掌中。具体来说,电子装置6202可在水平面向上定向中。在此实例中,用户接口6828的一部分可与如早先所描述的水平参考平面对准。图68中的音频信号可源自将电子装置6202握持在
他们的手中且在其前方说话((例如)处于大致180度)的用户。
含坐标系6930及音频信号指示符6946,其可为结合图62及66中的一或多者所描述的对应元
件的实例。在图69中,电子装置6202(例如,电话)可在用户手的手掌中。举例来说,电子装置
6202可在水平面向上定向中。在此实例中,用户接口6928的一部分可与如早先所描述的水
平参考平面对准。图69中的音频信号可源自电子装置6202的后方((例如)处于大致0度)。
含坐标系7030及至少一个音频信号指示符7046a到b,其可为结合图62及66中的一或多者所
描述的对应元件的实例。在一些配置中,用户接口7028可包含对应于所显示的音频信号指
示符7046a到b的类型的至少一个图标7048a到b。举例来说,用户接口7028可在对应于目标
音频信号(例如,说话者的或用户的话音)的第一音频信号指示符7046a附近显示三角形图
标7048a。类似地,用户接口7028可在对应于干扰(例如,干扰音频信号或噪声)的第二音频信号指示符7046b附近显示菱形图标7048b。
或音频信号指示符7146,其可为结合图62及66中的一或多者所描述的对应元件的实例。如
上文所描述,用户接口7128可包含允许通过(例如)触摸输入来选择至少一个扇区的扇区选
择特征6232。在图71中,所选择的扇区7150由虚线指示。在一些实施方案中,还可显示所选择的扇区7150的角度范围(例如,约225度到约315度,如图71中所示)。如早先所描述,在一些实施方案中,电子装置6202可传递在所选择的扇区7150内指示的音频信号(例如,由音频信号指示符7146表示)。在此实例中,音频信号源在电话的侧面(处于约270度)。在一些配置中,在所选择的扇区7150外部的另一扇区可为噪声被抑制和/或衰减的。
所选择的扇区。
7230、音频信号指示符7246及至少一个所选择的扇区7250a到b,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。如上文所描述。扇区选择特征6232可允许同时选择
多个扇区。在图72中,已选择两个扇区7250a到b(如由虚线指示,举例来说)。在此实例中,音频信号处于大致270度。在所选择的扇区7250a到b外部的另一扇区可为噪声被抑制和/或衰
减的。因此,本文中揭示的系统和方法可使得能够一次选择两个或更多个扇区7250。
7330、至少一个音频信号指示符7346a到b及至少一个所选择的扇区7350a到b,其可为结合
图62、66及71中的至少一者所描述的对应元件的实例。在图73中,已选择两个扇区7350a到b(如由虚线指示,举例来说)。在此实例中,说话者在电子装置6202的侧面。在所选择的扇区
7250a到b外部的另一扇区可为噪声被抑制和/或衰减的。
包含坐标系7430a到f、至少一个音频信号指示符7446a到f及至少一个所选择的扇区7450a
到c,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。在此实例中,所选择的扇区7450a到c可基于触摸输入7452来确定。举例来说,可基于手指滑动来选择扇区和/或扇区角度。举例来说,用户可输入圆形触摸输入7452。可随后基于圆触摸输入7452来确定所选择的扇区7150b。换句话说,用户可通过绘制关注区而不是手动地调整((例如)基于触摸
点或“句柄”)来使扇区变窄。在一些实施方案中,如果基于触摸输入7452选择多个扇区,那么“最佳”扇区7450c可被选择且重新调整以匹配关注区。在一些实施方案中,术语“最佳”可指示具有最强的至少一个音频信号的扇区。此可为用以选择扇区及使扇区变窄的一种用户
友好的方式。应注意,为了放大或收缩扇区,可在屏幕上或上方同时使用多根手指(例如,两根或更多根)。触摸输入7452的其它实例可包含来自用户的点击输入。在此实例中,用户可点击坐标系的一部分且可选择在点击位置上居中(或对准于预设的度数范围)的扇区。在此
实例中,用户可随后通过切换到可编辑模式且调整触摸点来编辑所述扇区,如下文将描述。
包含坐标系7530a到f、至少一个音频信号指示符7546a到f及至少一个所选择的扇区7550a
到c,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。在此实例中,所选择的扇区7550a到c可基于触摸输入7552来确定。举例来说,可基于手指滑动来选择扇区和/或扇区角度。举例来说,用户可输入滑动触摸输入7552。换句话说,用户可通过绘制关注区而不是手动地调整((例如)基于触摸点或“句柄”)来使扇区变窄。在此实例中,可仅基于滑动触摸输入7552(而不是(例如)圆形绘制)来选择和/或调整扇区。可随后基于滑动触摸输入
7552来确定所选择的扇区7150b。在一些实施方案中,如果基于触摸输入7552选择多个扇
区,那么“最佳”扇区7550c可被选择且重新调整以匹配关注区。在一些实施方案中,术语“最佳”可指示具有最强的至少一个音频信号的扇区。此可为用以选择扇区及使扇区变窄的一
种用户友好的方式。应注意,为了放大或收缩扇区,可在屏幕上或上方同时使用多根手指
(例如,两根或更多根)。应注意,可根据本文中所描述的扇区选择和/或调整技术中的任一者来感测单根手指或多根手指。
个点(例如,触摸点)。在一些实施方案中,所述至少一个触摸点可由扇区编辑特征6436实施以允许编辑至少一个扇区。举例来说,用户接口6228可包含允许用户调整所选择的扇区的
大小(例如,展开或变窄)的至少一个触摸点。可在所述扇区的边界周围显示所述触摸点。
标系7730a到b,其可为结合图62所描述的对应元件的实例。用户接口7728a到b可包含至少
一个触摸点7754a到h。如上文所描述,触摸点7754a到h可为允许编辑至少一个扇区的句柄。
触摸点7754a到h可定位在扇区的顶点处。在一些实施方案中,扇区编辑可独立于扇区选择
而进行。因此,可在一些配置中调整未被选择的扇区。
用户接口7728a到b是否可操作的激活/去活按钮7756a到b。激活/去活按钮按钮7756a到b可
双态切换用户接口7728a到b的经激活/经去活状态。当在可编辑模式中时,用户接口7728a
到b可显示对应于至少一个扇区(例如,扇区边缘处的圆圈)的至少一个触摸点7754a到f(例
如,句柄)。
包含坐标系7830a到c、至少一个音频信号指示符7846a到b、至少一个所选择的扇区7850a到e及至少一个触摸点7854a到1,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。在图78中,已选择至少一个扇区((例如)如由虚线所说明)。如图78中所描绘,可使所选择的扇区7850a到e变窄以用于更高的精度。举例来说,用户可使用触摸点7854a到l调整
(例如,展开及变窄)所选择的扇区7850a到e。在所选择的扇区7850a到e外部的另一扇区可
为噪声被抑制和/或衰减的。
包含坐标系7930a到b、至少一个音频信号指示符7946a到b、至少一个所选择的扇区7950a到b及至少一个触摸点7954a到h,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。在图79中,电子装置6202(例如,电话)可在用户手的手掌中。举例来说,电子装置6202可朝上倾斜。在此实例中,用户接口7928a到b的一部分(例如,坐标系7930a到b)可与如早先所描述的水平参考平面对准。因此,坐标系7930a到b在三维透视图中显得延伸到用户接口
7928a到b中。图79中的音频信号可源自将电子装置6202握持在他们的手中且在其前方说话
((例如)处于大致180度)的用户。图79还说明至少一个扇区可实时地变窄或加宽。举例来
说,可在进行中的交谈或电话呼叫期间调整所选择的扇区7950a到b。
包含坐标系8030a到c、至少一个音频信号指示符8046a到c、至少一个所选择的扇区8050a到b及至少一个触摸点8054a到b,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。第一图示描绘指示处于约270度的音频信号的存在的音频信号指示符8046a。中间图
示展示具有所选择的扇区8050a的用户接口8028b。右边图示描绘编辑所选择的扇区8050b
的一个实例。在此情况下,所选择的扇区8050b变窄。在此实例中,电子装置6202可传递具有与所选择的扇区8050b相关联的到达方向的音频信号且衰减具有与所选择的扇区8050b外
部相关联的到达方向的其它音频信号。
包含坐标系8130a到d、至少一个音频信号指示符8146a到d、至少一个所选择的扇区8150a到c及至少一个触摸点8154a到h,其可为结合图62、66及71中的至少一者所描述的对应元件的实例。第一图示描绘指示处于约270度的音频信号的存在的音频信号指示符8146a。第二图
示展示具有所选择的扇区8150a的用户接口8128b。第三图示展示用于编辑扇区的至少一个
触摸点8154a到d。第四图示描绘编辑所选择的扇区8150d的一个实例。在此情况下,所选择的扇区8150d变窄。在此实例中,电子装置6202可传递具有与所选择的扇区8150b相关联的
到达方向的音频信号(例如,其可基于用户输入)且衰减具有与所选择的扇区8150d外部相
关联的到达方向的其它音频信号。
对应元件的实例。在图82中,电子装置6202(例如,电话)朝上倾斜(例如,在用户手的手掌中)。用户接口8228的坐标系8230(例如,极图)展示或显示音频信号源位置。在此实例中,用户接口8228的一部分与如早先所描述的水平参考平面对准。图82中的音频信号源自处于大
致180度的源8215。如上文所描述,源8215可包含用户(例如,其将电子装置6202握持在他们的手中且在其前方说话)、扬声器或能够产生音频信号的任何东西。
用户接口8328包含坐标系8330及音频信号指示符8346,其可为结合图62及66中的至少一者
所描述的对应元件的实例。在图83中,电子装置6202(例如,电话)处于仰角从电子装置6202的底部到电子装置6202的顶部(朝向声音源8315)递增的倾斜或斜置定向(例如在用户的手
的手掌中)。用户接口8328的坐标系8330(例如,极图)显示音频信号源位置。在此实例中,用户接口8328的一部分与如早先所描述的水平参考平面对准。图83中的音频信号源自朝向电
子装置6202(例如,电话)的背面(或后方)的源8315。图83说明与3D世界的物理平面(例如,水平)对准的用户接口8328的参考平面。应注意,在图83中,用户接口8328平面变成所述屏幕,即使电子装置6202被半垂直地握持也如此。因此,即使电子装置6202相对于地板的物理平面处于约45度,用户接口8328坐标系8330平面相对于地板的物理平面也处于0度。举例来说,用户接口8328上的参考平面对应于物理坐标系中的参考平面。
用户接口8428包含坐标系8430及音频信号指示符8446,其可为结合图62及66中的至少一者
所描述的对应元件的实例。在图84中,电子装置6202(例如,电话)处于垂直定向(例如在用户的手的手掌中)。用户接口8428的坐标系8430(例如,极图)显示音频信号源位置。在此实例中,用户接口8428的一部分与如早先所描述的水平参考平面对准。图84中的音频信号源
自朝向电子装置6202(例如,电话)的左后方(例如,后方)的源8415。
用户接口8528包含坐标系8530及音频信号指示符8546,其可为结合图62及66中的至少一者
所描述的对应元件的实例。在图85中,电子装置6202(例如,电话)处于水平面向上定向(例如,桌面模式)。用户接口8528的坐标系8530(例如,极图)显示音频信号源位置。图85中的音频信号可源自朝向电子装置6202(例如,电话)的左上方的源8515。在一些实例中,音频信号源被跟踪。举例来说,在启用噪声抑制时,电子装置6202可跟踪最大声的说话者或声音源。
举例来说电子装置6202(例如,电话)可在抑制来自其它区域(例如,区或扇区)的其它声音
(例如,噪声)的同时跟踪最大声的说话者的移动。
8628a到c可为结合图62所描述的用户接口6228的实例。用户接口8628a到c可包含坐标系
8630a到c及音频信号指示符8646a到c,其可为结合图62及66中的至少一者所描述的对应元
件的实例。在没有罗盘的情况下,扇区选择特征6232可不具有与现实世界的物理坐标系(例如,北、南、东、西等)的关联。因此,如果电子装置6202(例如,电话)处于面向用户的垂直定向(例如,浏览-通话模式),那么电子装置6202的顶部可指定为“0度”及沿着垂直轴线延伸。
在电子装置6202在顺时针方向上旋转(例如)90度时,“0度”现在位于水平轴线上。因此,在选择扇区时,电子装置6202的旋转会影响所选择的扇区。通过添加可检测方向的另一组件
(例如罗盘),用户接口8628a到c的扇区选择特征6232可与物理空间且不与电话相关。换句
话说,通过添加罗盘,在电话选自垂直竖立位置到水平位置时,“0度”仍保持在面向用户的电话的顶侧上。举例来说,在图86的第一图像中,用户接口8628a说明为不倾斜(或例如具有
0度倾角)。举例来说,坐标系8630a与用户接口8628a和/或电子装置6202对准。相比而言,在图86的第二图像中,用户接口8628b和/或电子装置6202向左边倾斜。然而,可维持坐标系
8630b(及现实世界与电子装置6202之间的映射)。此可例如基于倾斜传感器数据5608来进
行。在图86的第三图像中,用户接口8628c和/或电子装置6202向右边倾斜。然而,可维持坐标系8630c(及现实世界与电子装置6202之间的映射)。
关且可不直接对应于地球坐标(例如,北、南、东、西)。无论如何,电子装置6202可能够辨别物理空间中相对于电子装置6202的声音的方向。然而,在一些配置中,电子装置6202可包含罗盘(或其它导航仪器)。在此情况下电子装置6202可将坐标从多麦克风配置映射到对应于
地球坐标(例如,北、南、东、西)的物理坐标。可根据本文中揭示的系统和方法利用不同类型的坐标系6230。
用户接口8728可包含坐标系8730及音频信号指示符8746,其可为结合图62及66中的至少一
者所描述的对应元件的实例。在一些实施方案中,用户接口8728还包含结合坐标系8730(如上文所描述)的罗盘8756。在此实施方案中,罗盘8756可检测方向。罗盘8756部分可显示相对于现实世界坐标的电子装置6202定向。经由罗盘8756,用户接口8728上的扇区选择特征
6232可与物理空间且不与电子装置6202相关。换句话说,通过添加罗盘8756,在电子装置
6202选自垂直位置到水平位置时,“0度”仍保持在面向用户的电子装置6202的顶侧附近。应注意,确定物理电子装置6202定向可用罗盘8756进行。然而,如果罗盘8756不存在,那么其还可替代地基于GPS和/或陀螺仪传感器来确定。因此,可对罗盘8756替代地使用可用于确
定电子装置6202的物理定向的任何传感器5604或系统或作为所述罗盘的补充。因此,可用
本文中所描述的配置中的任一者中的另一传感器5604或系统来取代罗盘8756。因此,存在
可提供截屏的多个传感器5604,其中定向相对于用户保持固定。
实例。在一些实施方案中,可在可为结合图62描述的对应元件的实例的电子装置8802的显
示器8864上呈现用户接口8828。用户接口8828可包含坐标系8830和/或扇区选择特征8832,其可为结合图62及66中的至少一者所描述的对应元件的实例。用户接口8828可耦合到至少
一个麦克风8806和/或操作块/模块8814,其可为结合图56及66中的至少一者所描述的对应
元件的实例。
数据库8858可包含一或多个音频签名。举例来说,数据库8858可包含关于一或多个音频信
号源(例如,个别用户)的一或多个音频签名。数据库8858还可包含基于所述音频签名的信
息。举例来说,数据库8858可包含对应于所述音频签名的用户的识别信息。识别信息可包含音频信号源的图像(例如,对应于音频签名的人的图像)和/或联系信息,例如姓名、电子邮件地址、电话号码等。
的音频签名进行比较。在此实例中,音频签名辨识块/模块8860可从数据库8858获得音频签名和/或关于音频签名的识别信息且将所述识别信息传递到显示器8864。
标系8830。在一些实施方案中,此可如结合图63中所描述那样进行。
过与噪声信号进行比较来确定所述音频信号是否来自例如个别用户的音频信号源而辨识
8906所述音频签名。此可通过测量所述音频信号的至少一个特性(例如,调和性、音调等)来进行。在一些实施方案中,辨别8906音频签名可包含识别来自特定音频源的音频信号。
述音频签名的识别信息。如上文所描述,数据库8858可包含基于所述音频签名的信息。举例来说,数据库8858可包含对应于所述音频签名的用户的识别信息。识别信息可包含音频信
号源(例如,用户)的图像和/或联系信息,例如,姓名、电子邮件地址、电话号码等。在获得
8910对应于音频签名的识别信息(例如,图像)之后,电子装置8802可在用户接口8828上显
示8912识别信息。举例来说,电子装置8802可在显示器6264上在音频信号指示符6646附近
显示8912用户的图像。在其它实施方案中,电子装置8802可显示8912至少一个识别信息元
素以作为识别显示的一部分。举例来说,用户接口8828的一部分可包含关于所述音频签名
的识别信息(例如,图像、姓名、电子邮件地址等)。
频信号指示符9046,其可为结合图62及66中的至少一者所描述的对应元件的实例。如上文
在一些实施方案中所描述,用户接口9028可耦合到数据库9058,所述数据库包含至少一个
音频签名9064和/或对应于音频签名9064的识别信息9062a,其可为结合图88及89中的至少
一者所描述的对应元件的实例。在一些配置中,电子装置6202可辨识音频签名9064且在数
据库9058中查找音频签名9064。电子装置6202可随后获得(例如,检索)对应于由电子装置
6202辨识的音频签名9064的对应识别信息9062a。举例来说,电子装置6202可获得说话者或人的图片,且通过音频信号指示符9046显示所述说话者或人的图片(及其它识别信息
9062b)。以此方式,用户可容易地识别音频信号的源。应注意,数据库9058可为本地的或可为远程的(例如,在跨网络(例如LAN或因特网)的服务器上)。另外或替代地,电子装置6202可将识别信息9062发送到另一装置。举例来说,电子装置6202可将一或多个用户姓名(和/
或图像、识别符等)发送到另一装置(例如,智能电话、服务器、网络、计算机等),所述另一装置呈现识别信息9062以使得向远端用户通知当前说话者。举例来说,当有多个用户在扬声
器电话上谈话时,此可为有用的。
应于物理坐标的坐标系6430。在一些实施方案中,此可如结合图63中所描述那样进行。
干图像传感器6434可包含在电子装置6402上。更具体来说,至少一个图像传感器6434可收
集图像数据。举例来说,相机(例如,图像传感器6434)可产生图像。在一些实施方案中,至少一个图像传感器6434可将图像数据提供给用户接口6428。在一些实施方案中,电子装置
6402可指示9108来自至少一个图像传感器6434的图像数据。换句话说,电子装置6402可在
显示器6464上显示来自至少一个图像传感器6434的图像数据(例如,静态照片或视频)。
数据。
少一者的实例。无线通信装置9266可包括应用处理器9278。应用处理器9278一般处理用以
在无线通信装置9266上执行功能的指令(例如,运行程序)。应用处理器9278可耦合到音频
译码器/解码器(编解码器)9276。
声换能器。举例来说,扬声器9268可用以播放音乐或输出扬声器电话对话,等等。听筒9270可为可用以向用户输出声学信号(例如,话语信号)的另一扬声器或电-声换能器。举例来
说,可使用听筒9270以使得仅用户可可靠地听到声学信号。输出插口9272可用于将其它装
置(例如,头戴式耳机)耦合到无线通信装置9266以用于输出音频。扬声器9268、听筒9270
和/或输出插口9272可一般用于输出来自音频编解码器9276的音频信号。至少一个麦克风
9206可为将声学信号(例如,用户的语音)转换成电信号或电子信号(其被提供到音频编解
码器9276)的一或多个声-电换能器。
来说,可根据结合图57、59、60及61所描述的功能和/或结构中的一或多者来实施坐标映射块/模块9217a。
可耦合到电池9282。电池9282可一般将电力提供到无线通信装置9266。举例来说,电池9282和/或电力管理电路9280可耦合到无线通信装置9266中所包含的元件中的至少一者。
9286可允许与无线通信装置9266的用户交互。应用程序处理器9278还可耦合到一或多个输
出装置9284。输出装置9284的实例包括打印机、投影机、屏幕、触觉装置,等等。输出装置
9284可允许无线通信装置9266产生可由用户体验的输出。
(DDRAM)、同步动态随机存取存储器(SDRAM)、快闪存储器,等等。应用存储器9288可提供用于应用处理器9278的存储。举例来说,应用存储器9288可存储用于使在应用处理器9278上
运行的程序起作用的数据和/或指令。
像。显示器9292的实例包含液晶显示器(LCD)面板、发光二极管(LED)面板、阴极射线管
(CRT)显示器、等离子体显示器,等等。
9294可编码和/或调制信号以准备发射。
地,基带处理器9294可使用存储于基带存储器9296中的指令和/或数据以执行通信操作。
述一或多个天线9203接收RF信号。
子装置及无线通信装置中的至少一者来实施。电子装置9302包含处理器9311。处理器9311
可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器
(DSP))、微控制器、可编程门阵列等。处理器9311可被称作中央处理单元(CPU)。虽然在图93的电子装置9302中仅展示单一处理器9311,但在替代配置中,可使用处理器(例如,ARM与
DSP)的组合。
的任何电子组件。存储器9305可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒
体、光学存储媒体、RAM中的快闪存储器装置、与处理器包含在一起的板载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等等,包含其组合。
9307a可涉及使用存储于存储器9305中的数据9309a。图93展示一些指令9307b和数据9309b
被加载到处理器9311中(指令9307b和数据9309b可来自指令9307a和数据9309a)。
9306。在一个配置中,麦克风9306可为将声学信号(例如,语音、话语)转换成电信号或电子信号的换能器。不同种类的输出装置9384的实例包含扬声器、打印机,等等。举例来说,电子装置9302可包含至少一个扬声器9368。在一个配置中,扬声器9368可为将电信号或电子信
号转换成声学信号的换能器。可通常包含于电子装置9302中的一个特定类型的输出装置为
显示装置9392。与本文中所揭示的配置一起使用的显示装置9392可利用任何合适的图像投
影技术,所述显示装置例如为阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、气体等离子体、电致发光,等等。还可提供用于将存储于存储器9305中的数据转换成在显示装置
9392上展示的文本、图形和/或移动图像(在适当时)的显示器控制器9390。
电子通信。与处理器成一体的存储器与处理器进行电子通信。
经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领
域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻留于使用所属领域的技
术人员所已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线及/或无线
(例如,CDMA、时分多址(TDMA)、频分多址(FDMA)及/或时分同步码分多址(TDSCDMA))发射通道使用IP话音(VoIP)的系统。
还明确预期且在此揭示,本文中所揭示的通信装置可适于在窄带译码系统(例如,对约四千赫兹或五千赫兹的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如,对
大于五千赫兹的音频频率进行编码的系统)中使用,包含全频带宽带译码系统和分裂频带
宽带译码系统。
Rate Codec,Speech Service Options 3,68,and 70for Wideband Spread Spectrum
Digital Systems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,v1.0中所描述(可在
www.3gpp.org处在线得到);可选择模式声码器语音编解码器,如2004年1月的标题为“用于宽带展频通信系统的可选择模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)
Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文
献C.S0030-0,v3.0中所描述(可在www.3gpp.org处在线得到);自适应多速率(AMR)语音编
解码器,如文献ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安迪波利斯西德克斯,2004年12月)中所描述;以及AMR宽带语音编解码器,如文献ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述。可使用此编解码器(例如)以从所接收的无线通信信
号恢复所再现的音频信号。
一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是将赋予其与在本文中(包含在形成原始揭示内容的一部分的所申请的所附权利要求书中)以任何方
式揭示的原理及新颖特征一致的最广范围。
192kHz)的取样速率下的话音通信)尤其如此。
电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一或多个此类阵列。这些元件中的任何两者或两者
以上乃至全部可实施于相同阵列内。此阵列或此些阵列可实施于一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。
如,微处理器、嵌入式处理器、知识产权(IP)核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一或多个计算机(例如,包含经编程以执行一或多个组指令或
指令序列的一或多个阵列的机器,还称为“处理器”),且这些元件中的任何两者或两者以上乃至全部可实施于同一此计算机或此些计算机内。
个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可
实施为一或多个此类阵列。此阵列或此些阵列可实施于一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。此些阵列的实例包含固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所揭示的处理器或其它用于处理的装置还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或序列的
一或多个阵列的机器)或其它处理器。如本文中所描述的处理器可能用来执行任务或执行
不与本文揭示的方法的实施的程序直接相关的其它指令集,例如与其中嵌入了处理器的装
置或系统(例如,音频感测装置)的另一操作相关的任务。还可能由音频感测装置的处理器
执行如本文中所揭示的方法的部分,且在一或多个其它处理器的控制下执行所述方法的另
一部分。
行所述模块、逻辑块、电路和操作。举例来说,可将此配置至少部分实施为硬连线电路,实施为制造到专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或
者作为机器可读代码从数据存储媒体加载或被加载到数据存储媒体中的软件程序,所述代
码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理
器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合,或任何其它此配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如,快闪RAM),可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘,或CD-ROM;或此项技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件驻留于用户终端中。术语“计算机程序产品”指代与可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)组合的计算装置或处理器。
用,术语“模块”或“子模块”可指代以软件、硬件或固件的形式包含计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或系统可组合为一个模块或系统,且一个模块或系统可被分离成多个模块或系统以执行相同功
能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体
现在载波中的计算机数据信号经由传输媒体或通信链路进行传输。
(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传递信息的任何媒体,包含易失性、非易失性、可装卸以及非可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用于存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路,或可用于携载所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络
通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或内联网等计算机网络来下载。在任何情况下,本发明的范围不应被解释为受此些实施例限制。本文中所描述的方法的任务中的任一者可直接体现于硬件中,由处理器执行的软件模块中,或以
上两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各个任务中的一者、一者以上或甚至全部。所述任务中的一或多者(可能全部)还可实施为在计算机程序产品(例如,一或多个数据存储媒体,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中体现的代码(例如,一或多个指令集),所述计算机程序产品可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取且/或执行。本文中所揭示的方法的实施方
案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在
用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。
此装置可经配置以与电路交换及/或包交换网络通信(例如,使用一或多个协议(例如
VoIP))。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。
RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以指令或数据结构的形式存储可由计算机存取
的信息。通信媒体可包括可用于以指令或数据结构的形式携载所要程序代码且可由计算机
存取的任何媒体,包含促进将计算机程序从一处传递到另一处的任何媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输
软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘及Blu-ray DiscTM(蓝光光盘协会,加利福尼亚州全球影城(Universal City,CA)),其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
为通信装置。许多应用可受益于增强清晰的所要声音或分离清晰的所要声音与源自多个方
向的背景声音。此些应用可包含电子或计算装置中的人机接口,其并入有例如话音辨识及
检测、语音增强及分离、话音激活式控制等能力。可能需要在仅提供有限处理能力的装置中合适地实施此类声信号处理设备。
实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实
施方案的一或多个元件还可全部地或部分地实施为经布置以在一或多个固定或可编程逻
辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一或多个指令集。
另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构
(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学
装置的布置)。