对名字敏感的收听装置转让专利

申请号 : CN201480067425.2

文献号 : CN105814913B

文献日 : 2020-03-03

相似专利: 请登录后查看

本发明的一个实施方案陈述一种用于向收听装置的用户提供音频增强的技术。所述技术包括再现第一音频流，诸如与媒体播放器相关联的音频流。所述技术还包括检测语音触发。所述语音触发可与所述收听装置的用户的名字相关联。所述技术还包括响应于检测到所述语音触发暂停或衰减所述第一音频流并再现与环境声音相关联的第二音频流。

1.一种计算机实施方法，所述方法包括：通过处理器检测通过与收听装置相关联的麦克风接收到的音频内容中所包括的语音触发；

响应于检测到所述语音触发，禁用与所述收听装置相关联的噪声消除功能，以及响应于检测到与所述收听装置相关联的事件，恢复与所述收听装置相关联的所述噪声消除功能；

其中，响应于所述语音触发：

促使第一音频流暂停或衰减；

时间上压缩在检测所述语音触发之前若干秒钟或若干分钟内记录的所述音频内容的至少一部分以生成时间压缩声音；以及促使与所述时间压缩声音相关联的第二音频流再现。

2.如权利要求1所述的方法，其中所述语音触发与所述收听装置的用户的名字相关联，并且还包括：再现第一音频流；以及

响应于检测到所述语音触发：

暂停或衰减所述第一音频流；以及

再现所述时间压缩声音之后，实时再现与环境声音相关联的第二音频流。

3.如权利要求1所述的方法，其中所述事件包括以下二者之一，即：用户与所述收听装置的互动，以及，确定在阈值时间周期内未检测到语音。

4.根据权利要求2所述的方法，其中生成所述第二音频流包括处理所述环境声音以增强与所述语音触发相关联的第一语音。

5.根据权利要求4所述的方法，其中处理所述环境声音包括基于与所述第一语音相关联的频率范围过滤所述环境声音。

6.根据权利要求4所述的方法，其中处理所述环境声音包括基于与所述第一语音相关联的一个或多个数字语音参数过滤所述环境声音。

7.根据权利要求4所述的方法，其中处理所述环境声音包括过滤所述环境声音以衰减第二语音。

8.根据权利要求2所述的方法，其还包括检测从其接收所述语音触发的相对于用户的第一方向，并且其中生成所述第二音频流包括处理所述环境声音以增强从所述第一方向接收的声音。

9.根据权利要求8所述的方法，其还包括：检测从其接收所述语音触发的交谈者的位置；

检测所述交谈者的所述位置相对于所述用户的改变；以及作为响应，确定相对于所述用户的定向的第二方向，且其中生成所述第二音频流包括处理所述环境声音以增强从所述第二方向接收的声音。

10.根据权利要求2所述的方法，其还包括在时间上压缩在检测所述语音触发之前记录的声音以生成时间压缩声音，且其中所述第二音频流包括所述时间压缩声音。

11.一种收听装置，其包括：

扬声器；

一个或多个麦克风；以及

处理器，其被配置来：

经由所述一个或多个麦克风检测的音频内容中所包括的语音触发；

响应于检测到所述语音触发，禁用与所述收听装置相关联的噪声消除功能；以及响应于检测到与所述收听装置相关联的事件，恢复与所述收听装置相关联的所述噪声消除功能，其中所述处理器还包括以下模块以响应于检测所述语音触发：促使第一音频流暂停或衰减的模块；

时间上压缩在检测所述语音触发之前若干描述或若干分钟内记录的所述音频内容的至少一部分以生成时间压缩声音的模块；以及促使与所述时间压缩声音相关联的第二音频流再现的模块。

12.如权利要求11所述的收听装置，其中所述语音触发与所述收听装置的用户的名字相关联，并且所述处理器还配置成：通过所述扬声器再现第一音频流；以及

响应于检测到所述语音触发：

暂停或衰减所述第一音频流；以及

通过所述扬声器再现与环境声音相关联的第二音频流。

13.如权利要求11所述的收听装置，其中所述事件包括以下二者之一，即：用户与所述收听装置的互动，以及，确定在阈值时间周期内未检测到语音。

14.根据权利要求12所述的收听装置，其中所述一个或多个麦克风被配置来获取所述环境声音，且其中所述收听装置包括耳机且所述一个或多个麦克风电耦接到所述耳机。

15.根据权利要求12所述的收听装置，其中所述处理器还被配置来在再现所述时间压缩声音之后，通过实时处理所述环境声音以增强与所述语音触发相关联的第一语音而生成所述第二音频流。

16.根据权利要求15所述的收听装置，其中所述处理单元被配置来通过基于与所述第一语音相关联的频率范围和与所述第一语音相关联的一个或多个数字语音参数中的至少一个过滤所述环境声音来处理所述环境声音。

17.根据权利要求15所述的收听装置，其中所述处理单元被配置来通过过滤所述环境声音以衰减第二语音来处理所述环境声音。

18.根据权利要求11所述的收听装置，其还包括指示器，且其中所述处理器还被配置来：确定所述收听装置的用户已选择勿打扰模式；以及促使所述指示器生成勿打扰指示符。

19.根据权利要求14所述的收听装置，其中所述一个或多个麦克风包括至少两个麦克风，并且所述处理器还被配置来：基于所述环境声音检测从其接收所述语音触发的相对于所述收听装置的用户的第一方向；以及通过处理所述环境声音以增强从所述第一方向接收的声音而生成所述第二音频流。

20.根据权利要求19所述的收听装置，其中所述处理器还被配置来：检测从其接收所述语音触发的交谈者的位置；

检测所述交谈者的所述位置相对于所述用户的改变；

作为响应，确定相对于所述用户的定向的第二方向；以及通过处理所述环境声音以增强从所述第二方向接收的声音而生成所述第二音频流。

21.根据权利要求11所述的收听装置，其中所述处理器还被配置来在时间上压缩在检测所述语音触发之前记录的声音以生成时间压缩声音，并且其中所述第二音频流包括所述时间压缩声音。

22.一种计算机实施装置，所述装置在通过处理器进行处理时促使所述处理器通过以下模块向收听装置的用户提供音频增强：促使第一音频流再现的模块；

检测音频内容中所包括的语音触发的模块；以及响应于检测到所述语音触发：

促使所述第一音频流暂停或衰减的模块；

时间上压缩在检测所述语音触发之前若干秒钟或若干分钟内记录的所述音频内容的至少一部分以生成时间压缩声音的模块；以及促使与所述时间压缩声音相关联的第二音频流再现的模块。

对名字敏感的收听装置

技术领域

[0001] 本发明的实施方案大体上涉及信号处理，且更具体来说，涉及对名字敏感的收听装置。

背景技术

[0002] 消费性电子行业中近来的技术进步增加了各种类型的媒体播放器(诸如，计算机、移动电话和MP3播放器)的可携带性和可购性。因此，越来越多的消费者将这些类型的装置融入到他们的日常生活中。例如，个人可在工作时使用计算机来听音乐或在上下班途中使用移动电话来听音乐或观看视频节目。

[0003] 为避免打扰他人，许多用户使用收听装置(诸如，一对耳机)来收听媒体播放器。然而，使用耳机可降低用户听到其周围的人说话并与那些人交流的能力，从而将所述用户与周围环境隔离。此外，许多耳机提供被设计成降低用户可听到环境声音的程度的噪声隔离和/或噪声消除功能。因而，当某人试图引起用户的注意时，用户可能无法听见。此外，在许多情形中，为了与他人交流，用户必须暂停媒体播放器且/或摘除耳机以便与他人交谈。

[0004] 如上文说明，使得用户能够在使用收听装置(诸如，一对耳机)的同时更有效地与他或她的周围的人互动的技术将是有用的。

发明内容

[0005] 本发明的一个实施方案陈述一种用于向收听装置的用户提供音频增强的方法。所述方法包括再现第一音频流并检测与收听装置的用户的名字相关联的语音触发。所述方法还包括响应于检测到所述语音触发暂停或衰减第一音频流并再现与环境声音相关联的第二音频流。

[0006] 另外的实施方案尤其提供一种收听装置和一种非暂时性计算机可读介质，其被配置来实行上文陈述的方法步骤。

[0007] 有利地，所公开的技术使得收听装置的用户能够在不使他或她自身与他人隔离的情况下收听音频流。此外，用户能够听到呼叫他/她的名字并与他人交谈而无需摘除收听装置且无需手动暂停或衰减音频流。此外，所公开的技术使得用户能够向他人指示他或她不想被打扰。

附图说明

[0008] 为了能够详细理解上文引述本发明的特征的方式，可通过参考实施方案进行上文简要概括的本发明的更特定描述，所述实施方案中的一些在附图中进行说明。然而，应注意，附图仅说明本发明的典型实施方案且因此不应视为限制本发明的范围，因为本发明可承认其它等效实施方案。

[0009] 图1说明根据本发明的各个实施方案的收听装置；

[0010] 图2说明根据本发明的各个实施方案的用于响应于检测到语音触发禁用图1的收听装置的噪声消除功能的技术；

[0011] 图3说明根据本发明的各个实施方案的用于响应于检测到语音触发使用图1的收听装置再现环境声音的技术；

[0012] 图4A说明根据本发明的各个实施方案的用于响应于检测到语音触发处理环境声音以增强一个或多个语音的技术；

[0013] 图4B说明根据本发明的各个实施方案的用于使用图1的收听装置在时间上压缩一个或多个语音并再现(若干)时间压缩语音的技术；

[0014] 图5A说明根据本发明的各个实施方案的用于响应于检测到语音触发增强从一个或多个方向接收的环境声音和/或(若干)语音的技术；

[0015] 图5B和5C是根据本发明的各个实施方案的说明从相对于图1的收听装置的用户的定向的各个方向接收的环境声音的概念图；

[0016] 图6说明根据本发明的各个实施方案的用于响应于检测到语音触发处理环境声音以增强特定人的语音的技术；

[0017] 图7说明根据本发明的各个实施方案的用于使用图1的收听装置实现勿打扰模式的技术；

[0018] 图8是根据本发明的各个实施方案的用于响应于语音触发向收听装置的用户提供音频增强的方法步骤的流程图；以及

[0019] 图9是说明被配置来实施本发明的一个或多个方面的计算机系统的框图。

具体实施方式

[0020] 在以下描述中，陈述许多特定细节以提供对本发明的实施方案的更透彻理解。然而，所属领域的技术人员应明白，本发明的实施方案可在没有这些特定细节中的一个或多个的情况下进行实践。

[0021] 图1说明根据本发明的各个实施方案的收听装置100。收听装置100可包括(但不限于)扬声器130、一个或多个麦克风140以及一个或多个视觉传感器150。扬声器130被配置来针对收听装置100的用户再现一个或多个音频流。(若干)麦克风140被配置来记录包括收听装置100的用户附近的一个或多个人的(若干)语音的环境声音。(若干)视觉传感器150被配置来获取周围环境的图像。例如(但不限于)，(若干)视觉传感器150可被配置来获取收听装置100的用户附近的人的图像和/或使得收听装置100能够确定所述用户相对于周围环境的定向的图像，如下文结合图5A-5C和6进一步详细描述。

[0022] 在各个实施方案中，收听装置100可包括一对耳机(诸如，图1中示出的头戴式耳机)。然而，任何类型的有线或无线耳机(包括罩耳式耳机、贴耳式耳机和入耳式耳机)可用于执行本文中描述的技术。此外，收听装置100可包括噪声隔离特性和/或噪声消除功能。在其它实施方案中，收听装置100可为能够针对用户放大和再现声音的声学装置，其包括辅助医疗装置(诸如，助听器)或移动通信装置(诸如，耳机)。

[0023] 图2说明根据本发明的各个实施方案的用于响应于检测到语音触发暂停或衰减由图1的收听装置100再现的音频流并禁用收听装置100的噪声消除功能的技术。如上文描述，使用收听装置(诸如，收听装置100)降低了用户听到他人说话并与他人交流的能力。因此，用户在使用收听装置100时可能无法与他人交流并且当某人试图引起他或她的注意时用户可能无法听到。因而，收听装置100可被配置来确定某人正试图引起用户的注意，并且作为响应，收听装置100可暂停或衰减用户正在收听的音频流。在各个实施方案中，这种确定通过检测语音触发(诸如，收听装置100的用户的名字)来进行。例如(但不限于)，如图1中所示，收听装置100可检测到某人呼唤了了用户的名字，并且作为响应，收听装置100可在时间110处进入交谈模式105。当收听装置100处于交谈模式105中时，可暂停或衰减由收听装置
100再现的音频流。因此，用户被告知某人正视图引起他或她的注意且具有与那个人交流的机会。

[0024] 在检测到语音触发之后，收听装置100可将暂停命令或衰减命令传输到媒体播放器。除暂停或衰减由收听装置100再现的音频流之外，如果收听装置100包括噪声消除功能，那么可在收听装置处于交谈模式105中时暂时禁用噪声消除功能。禁用噪声消除功能允许收听装置100的用户听到环境声音，其包括正视图引起用户的注意的人的语音。此外，通过禁用噪声消除功能，用户可参与与他人的交谈。

[0025] 一旦用户结束与他人的交流，用户就可恢复重放模式102，如在时间115处示出。在恢复重放模式102之后，恢复音频流且可启用噪声消除，从而允许用户继续享受音频流。在一些实施方案中，可响应于由用户发出的重放命令恢复重放模式102。例如(但不限于)，在用户结束交谈之后，用户可按下收听装置100或收听装置100所连接到的媒体播放器上的按钮以恢复重放模式102。在一个实例中，使得用户能够恢复重放的按钮可定位在将收听装置100耦接到媒体播放器的缆线(诸如，耳机线)上。在其它实施方案中，收听装置100可确定在阈值时间周期内未检测到语音，并且作为响应，收听装置100可自动恢复重放模式102。在又一实施方案中，收听装置100可确定在阈值时间周期内未检测到特定人的语音，并且作为响应，收听装置100可自动恢复重放模式102。这种确定可基于存储在收听装置100中的语音参数，如下文结合图6进一步详细描述。

[0026] 语音触发可包括收听装置100的用户的名字。在一些实施方案中，(若干)语音触发可由收听装置100的用户选择并存储在与收听装置100相关联的存储器中。用户可选择并存储多个语音触发，其包括用户的教名或别名、绰号的缩短版本和/或可用于开始与用户的交谈的其它字词或短语。在其它实施方案中，(若干)语音可基于一个或多个特定人的言语模式和/或语音参数。例如(但不限于)，收听装置100可被配置来分析环境声音并仅在检测到朋友、家庭成员或同事的语音时进入交谈模式105。因此，在陌生人或未得到授权的人使用与语音触发相关联的字词或短语的情况下用户将不会被打断。

[0027] 可经由与收听装置100相关联的一个或多个麦克风140检测语音触发。例如(但不限于)，可将一个或多个麦克风140安置在收听装置100上，从而使得收听装置100能够在用户的耳级更准确地监听环境声音。在其它实施方案中，一个或多个麦克风140可安置在与收听装置100相关联的缆线上和/或安置在收听装置100所连接(例如，经由有线连接或无线连接)到的媒体播放器中。此外，可通过包括在收听装置100中和/或包括在收听装置100所连接到的媒体播放器中的计算装置120执行由一个或多个麦克风140获取的环境声音的处理。

[0028] 图3说明根据本发明的各个实施方案的用于响应于检测到语音触发使用图1的收听装置100再现环境声音的技术。如图所示，在时间110处收听装置100检测到语音触发，并且作为响应，收听装置100进入交谈模式105。当处于交谈模式105中时，暂停或衰减由收听装置100再现的音频流，并且针对用户再现由收听装置100获取的环境声音。

[0029] 如上文描述，收听装置100可包括噪声隔离特性。例如(但不限于)，许多类型的耳机(例如，罩耳式、入耳式监听器(IEM)等等)被配置来通过与用户的头部和/或耳道形成密封来提供无源噪声隔离。因此，在时间110处，即使当禁用任选有源噪声消除时，用户也可能无法听到环境声音(诸如，语音)。因此，收听装置100可以透声模式操作，使得针对用户产生已由与收听装置100相关联的一个或多个麦克风140获取的环境声音。使用收听装置100再现环境声音使得用户能够参与交谈或收听周围环境而无需摘除收听装置100。

[0030] 环境声音可由收听装置100以空间正确方式再现。在一些实施方案中，收听装置100可使用一个以上麦克风140获取环境声音并使用多个音频通道(例如，两个或两个以上音频通道)再现环境声音，使得用户将环境声音感知为来自正确方向。例如，如果从用户右侧的方向接收环境声音，那么收听装置100可在右音频通道中以比在左音频通道中更高的级别再现环境声音。因此，在此类实施方案中，收听装置100可以透声模式操作使得以空间准确度再现环境声音。

[0031] 此外，在其中收听装置100为辅助装置(诸如，助听器)的实施方案中，可将环境声音放大到升高的级别使得有听力障碍的用户能够听到语音和其它环境声音。例如(但不限于)，收听装置100可检测到某人呼唤了用户的名字。作为响应，收听装置100可获取环境声音并将其放大到适当级别，使得有听力障碍的用户能够更有效地与他人交流和互动。

[0032] 一旦用户结束与他人的交流，收听装置100就可在时间115处恢复重放模式102。一旦恢复重放模式102，就可启用噪声消除且可终止环境声音的再现。可根据上文结合图2描述的手动技术和/或自动技术中的任何者执行恢复重放模式102。

[0033] 图4A说明根据本发明的各个实施方案的用于响应于检测到语音触发使用图1的收听装置100处理环境声音以增强一个或多个语音的技术。如图所示，在时间110处收听装置100检测到语音触发，并且作为响应，收听装置100进入交谈模式105。当处在交谈模式105中时，暂停或衰减由收听装置100再现的音频流，并且针对用户再现由与收听装置100相关联的一个或多个麦克风140获取的(若干)语音。

[0034] 在某些情况下，收听装置100的用户可能希望在与他人交流时保持任选噪声消除功能启用。例如，在含噪声的环境中(诸如，在繁忙的工作场所或在飞机上)，用户可能希望仅听到他或她正与其交谈的(若干)人的(若干)语音，但不希望听到其它环境声音(例如，交通噪声、与办公设备相关联的噪声等等)。因此，在在时间110处进入交谈模式105之后，收听装置100可继续执行噪声消除。然而，为了使用户能够在不摘除收听装置100的情况下与他人交流，收听装置100可针对用户增强环境声音中的一个或多个语音并再现(若干)语音。另选地，可修改噪声消除功能使得用户能够听到(若干)语音但无法听到其它环境声音。即，噪声消除功能可被配置来对环境声音而非对语音执行噪声消除，从而允许语音通过而到达用户。因此，用户可在不被含噪声的环境中的其它声音分散注意力的情况下参与交谈。在又一实施方案中，用户能够听到一个或多个特定人的语音，但相对于其它语音执行噪声消除。在此类实施方案中，用户能够在不被周围环境中的他人的语音分散注意力的情况下与一个或多个特定的人交谈。

[0035] 为增强并再现包括在环境声音中的(若干)语音，使用与收听装置100相关联的一个或多个麦克风140来获取环境声音。接着，计算装置120(或由与收听100相关联的另一处理器)处理环境声音以隔离(若干)语音与其它环境声音且/或相对于其它环境声音放大(若干)语音。在一些实施方案中，通过过滤环境声音以丢弃一个或多个频率范围来处理环境声音。例如(但不限于)，可过滤环境声音以保留与用户正与其交流的一个或多个人的语音相关联的一个或多个频率范围并丢弃一个或多个其它频率范围。当处理环境声音时应保留和丢弃哪些频率范围的确定可基于一般人群的平均语音参数。例如(但不限于)，一般人群中的人或所述人群的特定部分中的人的语音的(若干)共同频率范围可存储在与收听装置100相关联的存储器中并用于过滤环境声音。此外，当处理环境声音时应保留和丢弃哪些频率范围的确定可基于与一个或多个特定人相关联的语音参数，如下文结合图6进一步详细描述。

[0036] 在其它实施方案中，通过使用数字信号处理过滤环境声音来处理环境声音。例如(但不限于)，可使用一个或多个算法和/或数学模型来处理环境声音和/或比较环境声音与数字语音参数(例如，数字语音签名)。数字语音参数可基于一般人群的语音特性(例如，语音模式、声学模式、频率范围等等)，或数字语音参数可基于一个或多个特定的人的语音特性。基于环境声音与数字语音参数之间的比较，接着可保留、修改或丢弃环境声音数据。接着，收听装置100可针对用户再现包括(若干)增强语音的经处理声音数据。

[0037] 收听装置100可以空间正确方式再现(若干)语音，如上文结合图3描述。例如，如果从用户左侧的方向接收语音，那么收听装置100可在左音频通道中以比在右音频通道中更高的级别再现环境声音。因此，在此类实施方案中，收听装置100以空间准确度再现语音，从而使得用户能够更有效地与他人交流。

[0038] 在另一实施方案中，在时间110处禁用任选噪声消除功能，并且收听装置100获取并再现一个或多个语音，如上文描述。在又一实施方案中，收听装置100不包括噪声消除功能，并且在时间110处，收听装置100获取并再现一个或多个语音，如上文描述。在这些实施方案中，用户可能能够在收听已被收听装置100增强并再现的(若干)语音的同时听到其它环境声音。此外，在任一实施方案中，由收听装置100提供的被动噪声隔离仍可降低用户能够听到环境声音的程度。因此，在此类情况下，有源噪声消除可能是不必要的。

[0039] 图4B说明根据本发明的各个实施方案的用于使用图1的收听装置100在时间上压缩一个或多个语音并暂时再现(若干)时间压缩语音的技术。除了增强包括在环境声音中的一个或多个语音之外，可在时间上压缩环境声音的若干部分以使得用户能够听到语音触发和/或在收听装置100进入交谈模式105之前出现的其它声音。因此，用户能够实时“跟上”同时仍听到交谈的开始。例如(但不限于)，如图4B中所示，可针对用户在时间上压缩并再现语音触发部分410和交谈部分412。一旦用户已收听交谈的时间压缩部分410、412，就可实时再现交谈的后续部分(例如，交谈部分414)。

[0040] 可使用循环缓冲器执行在检测语音触发之前出现的交谈的若干部分的获取和时间压缩。特定来说，循环缓冲器使得收听装置100能够缓冲从周围环境获取的环境声音并在给定的时间周期内保持环境声音。因此，一旦检测到语音触发，收听装置100就能够存取在检测语音触发之前的某个时间周期(例如，若干秒钟、若干分钟)期间记录的环境声音数据。在一些实施方案中，在其期间处理且/或再现环境声音的语音触发之前的时间周期是可配置的。例如(但不限于)，用户可指定在检测到语音触发之后，收听装置100应从循环缓冲器获取在检测语音触发之前记录的五秒钟的环境声音或(若干)语音。接着，收听装置100可在时间上压缩并再现五秒钟的环境声音或(若干)语音。在其它实施方案中，在其期间处理且/或再现环境声音的语音触发之前的时间周期是基于存储在循环缓冲器中的环境声音数据的分析。例如(但不限于)，可分析在检测语音触发之前记录的环境声音以确定与语音触发相关联的语音开始的时间，并且收听装置100可再现在所述时间之后获取的环境声音或(若干)语音。

[0041] 图5A说明根据本发明的各个实施方案的用于响应于检测到语音触发使用图1的收听装置100增强从一个或多个方向接收的环境声音或(若干)语音并再现所述环境声音或(若干)语音的技术。如上文结合图3和4A描述，收听装置100可以空间正确方式再现环境声音或(若干)语音。即，收听装置100可使用多个麦克风140获取环境声音并使用多个音频通道再现环境声音，使得用户将环境声音感知为来自正确方向。然而，除了空间正确再现之外，收听装置100可增强来自相对于用户的定向的一个或多个方向的环境声音或(若干)语音530。例如，获取环境声音所使用的一个或多个麦克风140可用于确定从其接收语音触发的方向。接着，收听装置100可增强后续从所述方向接收的环境声音或(若干)语音530。此外，可任选地以空间准确方式针对用户再现从一个或多个方向接收的增强环境声音或(若干)语音530。因此，收听装置100可再现来自从一个或多个方向的环境声音或(若干)语音530同时衰减或消除可使用户分散注意力的其它环境声音或(若干)语音。

[0042] 在确定从其接收环境声音或(若干)语音的(若干)方向之后，用户相对于环境声音或(若干)语音的定向可改变。例如，可从相对于用户的一个方向接收语音触发。然而，在听到语音触发之后，用户可转过身来看着他/或她正与其交谈的人。因此，用户相对于从其接收语音触发的方向的定向可改变。这种场景在图5B和5C中得到描绘，图5B和5C是根据本发明的各个实施方案的说明从相对于收听装置100的用户的定向的各个方向接收的环境声音的概念图。如图所示，在时间510处，收听装置100从相对于用户的定向的某个方向检测语音触发。例如(但不限于)，与收听装置100相关联的麦克风140可用于确定语音触发是从与用户所面对的方向成大约60度的方向接收。然而，在时间515处，当用户转过身来看着交谈者520时，交谈者520在用户的正前方，如图5C中所示。因此，收听装置100可包括被设计成跟踪用户的移动和/或用户周围的人的移动的一个或多个传感器。例如(但不限于)，收听装置
100可包括跟踪从其接收语音触发的方向的罗盘。接着，即使当用户改变他或她的定向时，收听装置100也可增强来自所述特定方向的环境声音和(若干)语音。例如，关于图5C，收听装置100可确定(例如，基于罗盘测量)语音触发是从现大约在用户正前方(即，零度)的方向接收。因此，在图5B和5C中，尽管用户改变了定向，但用户可在不被Alex打断的情况下参与与John的交谈。

[0043] 此外，收听装置100可包括视觉传感器150(例如，相机、光传感器等等)，其检测用户周围的人的移动并基于所述移动调整从其增强环境声音或(若干)语音的方向。例如(但不限于)，视觉传感器150可确定交谈者520先前定位在相对于用户所面对的方向成大约60度的方向上，但在用户改变定位之后，交谈者520现处于用户正前方。因此，接着，收听装置100将增强从在用户正前方的方向接收的环境声音或(若干)语音。此外，收听装置100可继续跟踪用户正与其交谈的(若干)人的(若干)位置并增强从那些位置接收的环境声音或(若干)语音，诸如，如果Mark继续改变其头定向和/或如果Mark和John开始相对于彼此移动。

[0044] 虽然图5A说明任选噪声消除功能可在收听装置100进入交谈模式105时被启用，但在其它实施方案中，噪声消除模式可在进入交谈模式105时被禁用。在又其它实施方案中，收听装置100可不包括噪声消除模式且可替代地依赖无源噪声隔离。

[0045] 图6说明根据本发明的各个实施方案的用于响应于检测到语音触发使用图1的收听装置100处理环境声音以增强特定人的语音并再现所述语音的技术。如上文描述，可获取与一个或多个特定人相关联的语音参数(例如，数字语音参数、频率范围等等)并将其存储在与收听装置100相关联的存储器中。因而，收听装置100可辨别特定人的语音与包括在环境声音中的其它语音，从而使得收听装置100能够针对用户仅增强并再现所述特定人的语音。

[0046] 在各个实施方案中，可使用训练序列(诸如，人对着与收听装置100相关联的麦克风(例如，麦克风140)说的词序列)针对特定人获取并存储语音参数。接着，计算装置120可分析词序列以确定人的语音的(若干)频率范围以及上文描述的其它语音特性。在其它实施方案中，语音参数可由单独装置获取并在稍后的时间传输到并存储在与收听装置100相关联的存储器中。在又其它实施方案中，可至少部分基于由收听装置100检测到的语音触发获取语音参数。例如(但不限于)，在检测到语音触发之后，收听装置100可分析说话者的语音并确定语音参数(诸如，人的语音的(若干)频率范围或与语音相关联的数字签名)。接着，可使用语音参数来增强所述特定人的语音，从而使得收听装置100的用户能够参与与先前未针对其存储语音参数的人的交谈。

[0047] 如图6中所示，收听装置100正使用与John的语音相关联的语音参数来针对用户增强他的语音并重新所述语音。然而，Alex的语音(其包括与John的语音不同的语音参数)未被收听装置100增强。因此，用户能够听到John的语音，但可能无法听到Alex的语音。虽然图6示出Alex的语音的声级为零，但在一些实施方案中，John的语音参数可共享与Alex的语音参数的共性。因此，虽然用户将听到John的语音相对于Alex的语音的较大再现，但用户可能仍能够听到Alex的语音(例如，以较低声级)。

[0048] 如上文描述，虽然图6说明任选噪声消除功能可在收听装置100进入交谈模式105时被启用，但在其它实施方案中，噪声消除模式可在进入交谈模式105时被禁用。在又其它实施方案中，收听装置100可不包括噪声消除模式且可替代地依赖无源噪声隔离。

[0049] 图7说明根据本发明的各个实施方案的用于使用图1的收听装置100实现勿打扰模式705的技术在某些情况下，用户可能不希望被他人打扰。因此，用户可将收听装置100置于勿打扰模式705中。当启用勿打扰模式705时，收听装置100不会响应于语音触发进入交谈模式105。因此，当某人使用语音触发时，收听装置100继续播放音频流并且任选噪声消除功能保持启用。

[0050] 此外，收听装置100可包括指示用户不希望被打扰的一个或多个视觉指示器和/或听觉指示器。例如(但不限于)，收听装置100可含有一个或多个灯(例如，发光二极管(LED))，其在收听装置100处于勿打扰模式705中时发出某种颜色(例如，红色)的光，并且当收听装置100未处在勿打扰模式705中时发出不同颜色(例如，蓝色)的光。在其它实施方案中，收听装置100可由半透明材料制成，使得收听装置100在勿打扰模式705被启用时自身发出某种颜色的光并且在当勿打扰模式705未被启用时发出不同颜色的光。在又其它实施方案中，当启用勿打扰模式705时，收听装置100可使用各种显示技术(诸如，有机发光二极管(OLED)显示器)显示文字(例如，“勿打扰！”)。此外，收听装置100可包括生成勿打扰指示符的一个或多个扬声器。例如(但不限于)，当某人试图与收听装置100的用户交谈时，收听装置100可生成勿打扰指示符(诸如，嘟嘟声)。在其它实施方案中，收听装置100可将勿打扰指示符传输到在外部计算机上运行的通信程序(例如，文字或音频/视频会议程序)。例如(但不限于)，收听装置100可将指示收听装置100的用户不希望被打扰的消息或状态更新传输到通信程序。

[0051] 当收听装置100处在勿打扰模式705中时，可记录环境声音并将其存储在与收听装置100相关联的存储器中，以使得用户能够在稍后的时间收听错过的内容。在一些实施方案中，可响应于由用户发出的重播命令开始环境声音的重播。例如(但不限于)，为开始环境声音的重播，用户可按下收听装置100上的按钮、收听装置100所连接到的媒体播放器上的按钮和/或将收听装置100耦接到媒体播放器的缆线(诸如，耳机线)上的按钮。在其它实施方案中，收听装置100可响应于由用户发出的语音命令或示意动作(诸如，手部示意动作或头部示意动作)开始环境声音的重播。此外，收听装置100可分析所记录的环境声音以确定(例如，使用语音参数)在收听装置100处于勿打扰模式705中时谈话的人的身份。

[0052] 图8是根据本发明的各个实施方案的用于响应于语音触发向收听装置的用户提供音频增强的方法步骤的流程图。虽然结合图1-6描述方法步骤，但所属领域的技术人员应理解，被配置来以任何顺序执行方法步骤的任何系统属于本发明的范围。

[0053] 如图所示，方法800在步骤810处开始，其中收听装置100开始重放模式102。当处在重放模式102中时，收听装置100再现音频流并可任选地启用语音消除功能。在步骤820处，收听装置100确定是否已使用与收听装置100相关联的麦克风140检测到语音触发。如果未检测到语音触发，那么收听装置100保持在重放模式102中并继续监听语音触发。如果检测到语音触发，那么，在步骤825处，收听装置100进入交谈模式105，暂停或衰减音频流，并且任选地禁用噪声消除功能。

[0054] 在步骤830处，收听装置100确定是否增强环境音频或(若干)语音。如果未启用增强音频，那么，在步840处，收听装置100保持在交谈模式105中并确定是否应恢复重放模式102。如果将恢复重放模式102，那么方法800返回到步骤810，其中开始重放模式102。

[0055] 如果启用增强音频，那么，在步骤835处，收听装置100确定是否仅增强环境声音或(若干)语音。如果将仅增强(若干)语音，那么，在步骤850处，收听装置100任选地识别与一个或多个人相关联的语音参数。接着，在步骤855处，收听装置100基于任选语音参数从环境声音过滤(若干)语音。在步骤860处，接着针对用户再现(若干)增强语音。在步骤865处，接着，收听装置100确定是否恢复重放模式102。如果将恢复重放模式102，那么方法返回到步骤810，其中开始重放模式102。如果不恢复重放模式102，那么方法800返回到步骤855和860，其中收听装置100继续针对用户过滤环境声音并再现(若干)语音。

[0056] 现返回到步骤835，如果将增强环境声音，那么在步骤870处，由一个或多个麦克风140获取环境声音并由收听装置100再现环境声音。接着，在步骤875处，收听装置100确定是否恢复重放模式102。如果将恢复重放模式102，那么方法返回到步骤810，其中开始重放模式102。如果不恢复重放模式102，那么方法800返回到步骤870，其中收听装置100继续针对用户再现环境声音。

[0057] 图9是说明根据本发明的各个实施方案的可包括在图1的收听装置100内的计算装置120的框图。如图所示，计算装置120包括处理单元902、输入/输出(I/O)装置904和存储器单元910。存储器单元910包括被配置来与数据库914交互的应用程序912。

[0058] 处理单元902可包括中央处理单元(CPU)、数字信号处理单元(DSP)等等。I/O装置904可包括输入装置、输出装置和既能够接收输入又能够提供输出的装置。存储器单元910可存储循环缓冲器且可包括存储器模块或存储器模块集。存储器单元910内的软件应用程序912可由处理单元902执行以实施计算装置120的总体功能性，并且因此作为一个整体来协调收听装置100的操作。数据库914可存储语音触发和语音参数，诸如频率范围和语音签名。

[0059] 计算装置120可耦接到包括一个或多个传感器(诸如，一个或多个麦克风140或视觉传感器150)的传感器阵列。传感器阵列被配置来测量用户驻留于其内的环境的各种性质以及与用户相关联的各种性质(例如，定向)。传感器阵列可包括任何数目的麦克风140、视频相机、触摸传感器、热传感器、光传感器、电场检测器、罗盘、陀螺仪、无线电收发器、全球定位系统(GPS)接收器或任何其它类型的传感器。一般来说，传感器阵列捕获与环境相关联的传感器数据和与用户相关联的传感器数据并将所述数据提供到装置120。

[0060] 计算装置120还可耦接到与收听装置100相关联的音频输出装置，所述音频输出装置包括被配置来生成声学输出(例如，音频流、环境声音、(若干)语音等等)的一个或多个装置(诸如，图1中示出的扬声器130)。音频输出装置可包括任何数目的扬声器、耳机、入耳式音频装置或能够生成声音的任何其它类型的装置。

[0061] 计算装置120作为一个整体可为微处理器、专用集成电路(ASIC)、系统上芯片(SoC)、移动计算装置(诸如，平板计算机或蜂窝电话)、媒体播放器等等。一般来说，计算装置120被配置来协调收听装置100的总体操操作。被配置来实施收听装置100的功能性的任何在技术上可行的系统属于本发明的范围。

[0062] 总而言之，收听装置检测与收听装置的用户的名字相关联的语音触发。作为响应，收听装置促使由收听装置再现的音频流被暂停或衰减。接着，收听装置针对用户记录并再现环境声音，使得用户可在无需摘除收听装置的情况下听见他或她周围的人说话并与他或她周围的人互动。任选地，收听装置可处理环境声音以增强用户周围的一个或多个人的语音和/或衰减用户周围的其它噪声或语音。此外，收听装置可确定从其接收语音触发的方向并增强从所述方向接收的环境声音。一旦用户结束交谈，收听装置就可恢复音频流。

[0063] 本文中描述的技术的一个优点是收听装置的用户可在不使他或她自身与他人隔离的情况下收听音频流。此外，用户能够听到呼叫他/她的名字并与他人交谈而无需摘除收听装置且无需手动暂停或衰减音频流。此外，所公开的技术使得用户能够向他人指示他或她不想被打扰。

[0064] 本发明的一个实施方案可实施为用于与计算机系统一起使用的程序产品。所述程序产品的(若干)程序定义实施方案的功能(包括本文中描述的方法)且可包含在各种计算机可读存储介质上。说明性计算机可读存储介质包括但不限于：(i)不可写存储介质(例如，计算机内的只读存储器装置，诸如可由CD-ROM驱动器读取的只读紧凑光盘存储器(CD-ROM)磁盘、快闪存储器、只读存储器(ROM)芯片或任何类型的固态非易失性半导体存储器)，其上永久存储信息；及(ii)可写存储介质(例如，软盘驱动器或硬盘驱动器内的软磁盘或任何固态随机存取半导体存储器)，其上存储可更改信息。

[0065] 上文已参考特定实施方案描述本发明。然而，所属领域的一般技术人员将理解，可在不脱离如在所附权利要求书中陈述的本发明的较宽精神和范围的情况下对所述特定实施方案作出各种修改和改变。例如，虽然本文中的许多描述涉及语音触发，但所属领域的技术人员应了解，本文中描述的系统和技术可适用于响应于任何其它类型的听觉触发暂停音频流和/或再现环境声音。因此，以上描述和图示应被视为说明性而非限制性。

[0066] 因此，本发明的实施方案的范围在所附权利要求书中予以陈述。

对名字敏感的收听装置转让专利

申请号 : CN201480067425.2

文献号 : CN105814913B

文献日 : 2020-03-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : D.迪森索 , S.马蒂 , A.琼贾

申请人 : 哈曼国际工业有限公司

摘要 :

权利要求 :

说明书 :