检测数字助理的触发转让专利

申请号 : CN201910574413.3

文献号 : CN110288994B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : Y·金姆J·布雷德勒J·D·阿特金斯李飞鹏M·索登

申请人 : 苹果公司

摘要 :

提供了检测数字助理的触发。用于操作数字助理的方法包括:在电子设备的多个麦克风中的每一个处,对音频信号进行采样以获得第一多个音频信号;利用波束形成技术处理第一多个音频信号的至少一部分以获得多个音频流;基于多个音频流,确定第一多个音频信号中的任一个是否对应于语音触发,其中所述确定包括:从多个音频流的第一个或多个音频流检测音频触发;根据确定第一多个音频信号中的任一个对应于语音触发:由电子设备发起数字助理的会话;基于一个或多个音频流,选择多个麦克风中的第一组麦克风;使用第一组麦克风,对第二多个音频信号进行采样;以及根据确定所述第一多个音频信号不对应于语音触发:放弃发起数字助理的会话。

权利要求 :

1.一种用于操作数字助理的方法(800),包括:在具有一个或多个处理器、存储器和多个麦克风的电子设备处:在所述电子设备的所述多个麦克风中的每一个处,对音频信号进行采样(802)以获得第一多个音频信号,其中所述第一多个音频信号的至少一部分与所述电子设备的第一用户相关联;

利用波束形成技术处理(804)所述第一多个音频信号的所述至少一部分以获得多个音频流;

基于所述多个音频流,确定(806)所述第一多个音频信号中的任一个是否对应于语音触发,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:从所述多个音频流中的一个或多个音频流检测所述语音触发;

根据确定所述第一多个音频信号中的任一个对应于所述语音触发:识别所述第一多个音频信号的第一段和第二段,其中所述第一段和第二段中的每一个对应于用户意图;

响应于确定所述第一多个音频信号的第一段和第二段中的每一个对应于同一用户,由所述电子设备发起(808)所述数字助理的会话,其中发起所述数字助理的会话包括:基于所述一个或多个音频流,选择所述多个麦克风中的第一组麦克风;

使用所述第一组麦克风,对第二多个音频信号进行采样;以及响应于确定所述第二多个音频信号的至少一部分与所述电子设备的第二用户相关联,至少部分地抑制对所述第二多个音频信号的所述至少一部分的识别和解释;并且根据确定所述第一多个音频信号不对应于所述语音触发:放弃(810)发起所述数字助理的所述会话。

2.根据权利要求1所述的方法,其中所述多个麦克风中的第一麦克风与第一方向相关联,并且其中所述多个麦克风中的第二麦克风与不同于所述第一方向的第二方向相关联。

3.根据权利要求1所述的方法,其中所述多个音频流包括多个音频波束。

4.根据权利要求1所述的方法,其中处理所述第一多个音频信号的所述至少一部分以获得所述多个音频流包括使用源分离来处理所述第一多个音频信号中的音频信号。

5.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:

确定所述多个音频流中的每一个是否包括所述语音触发。

6.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:

确定所述多个音频流中的两个或更多个音频流的组合是否包括所述语音触发。

7.根据权利要求1所述的方法,还包括:获得对应于所述多个音频流的一个或多个触发得分;

其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于所述一个或多个触发得分确定所述第一多个音频信号中的任一个是否对应于所述语音触发。

8.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:

基于与所述电子设备的所述第一用户相关联的声学信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。

9.根据权利要求1所述的方法,还包括:基于所述多个音频流获得多个字词;

其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于对应于所述多个字词的信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。

10.根据权利要求9所述的方法,还包括:基于所述多个字词获得一个或多个解析结果;

其中对应于所述多个字词的所述信息包括所述一个或多个解析结果。

11.根据权利要求9所述的方法,还包括:基于所述多个字词获得所述用户意图的一个或多个表示;

其中对应于所述多个字词的所述信息包括所述用户意图的所述一个或多个表示。

12.根据权利要求9所述的方法,其中对应于所述多个字词的所述信息指示方向。

13.根据权利要求9所述的方法,其中对应于所述多个字词的所述信息指示说话者。

14.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:

从所述多个音频流中识别一组候选音频流;

从所述一组候选音频流中向远程设备提供一个或多个候选音频流;以及从所述远程设备获得验证信息。

15.根据权利要求14所述的方法,还包括:基于与所述一个或多个候选音频流相关联的相应触发得分来从所述一组候选音频流中选择所述一个或多个候选音频流。

16.根据权利要求15所述的方法,还包括:将所述多个音频流中的每一个音频流提供给神经网络以获得相应的触发得分。

17.根据权利要求14所述的方法,还包括:基于与所述一个或多个候选音频流相关联的相应熵信息从所述一组候选音频流中选择所述一个或多个候选音频流。

18.根据权利要求14所述的方法,还包括:确定第一候选音频流对应于在第一时间检测到的所述语音触发;

在第二时间确定第二候选音频流对应于在第二时间检测到的所述语音触发;以及基于所述第一时间和所述第二时间从所述一组候选音频流中选择所述一个或多个候选音频流。

19.根据权利要求1所述的方法,还包括:根据确定所述第一多个音频信号中的任一个对应于所述语音触发,确定所述第一段和所述第二段是否对应于所述第一用户。

20.根据权利要求1至19中任一项所述的方法,还包括:根据确定所述第一段和所述第二段对应于同一用户,确定所述第一用户是所述电子设备的用户;以及基于所述第一段和所述第二段获得用户意图的表示。

21.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:

将和所述第一段相关联的声学信息与和所述第二段相关联的声学信息进行比较。

22.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:

识别与所述第一段相关联的第一熵;

识别与所述第二段相关联的第二熵;以及将所述第一熵与所述第二熵进行比较。

23.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:

基于所述第一段和所述第二段识别解析结果。

24.根据权利要求1所述的方法,其中所述电子设备是第一电子设备,所述方法还包括:从第二电子设备接收对应于在所述第二电子设备处检测到的音频信号的信息;

其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于从所述第二电子设备接收的所述信息确定在所述第二电子设备处检测到的所述音频信号是否对应于所述语音触发。

25.根据权利要求24所述的方法,其中所述信息包括所述第二电子设备的一个或多个麦克风的位置信息。

26.根据权利要求24所述的方法,其中所述信息包括在所述第二电子设备处检测到的所述音频信号的方向信息。

27.根据权利要求24所述的方法,其中所述信息包括与所述第二电子设备相关联的设备类型。

28.根据权利要求24所述的方法,其中所述第二电子设备与和所述第一电子设备不同的设备类型相关联。

29.根据权利要求1所述的方法,其中发起所述数字助理的会话包括由所述数字助理提供音频输出。

30.根据权利要求29所述的方法,其中所述多个音频流中的每一个与方向信息相关联,并且其中提供所述音频输出包括:由所述数字助理基于与所述多个音频流相关联的所述方向信息提供所述音频输出。

31.根据权利要求1所述的方法,其中所述多个音频流中的每一个与方向信息相关联,并且其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于所述多个音频流和相关联的方向信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。

32.根据权利要求1所述的方法,其中所述电子设备是计算机、机顶盒、扬声器、智能手表、电话或其组合。

33.一种电子设备,包括:一个或多个处理器;

存储器;

多个麦克风;和

一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至32中任一项所述的方法的指令。

34.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由具有多个麦克风的电子设备的一个或多个处理器执行时,使得所述电子设备执行根据权利要求1至32中任一项所述的方法。

说明书 :

检测数字助理的触发

[0001] 本申请是申请号为201880002529.3、国际申请日为2018年4月25日、发明名称为“检测数字助理的触发”的发明专利申请的分案申请。
[0002] 本申请要求以下专利申请的优先权:美国临时专利申请No.62/507,042,名称为“DETECTING A TRIGGER OF A DIGITAL ASSISTANT(检测数字助理的触发)”,2017年5月16
日提交;丹麦专利申请No.PA201770420,名称为“DETECTING A TRIGGER OF A DIGITAL 
ASSISTANT(检测数字助理的触发)”,2017年5月31日提交;和丹麦专利申请
No.PA201770421,名称为“DETECTING A TRIGGER OF A DIGITAL ASSISTANT(检测数字助理
的触发)”,2017年5月31日提交。以上专利申请的内容据此全文以引用方式并入。

技术领域

[0003] 本发明整体涉及智能自动化助理,更具体地讲,涉及检测数字助理的触发。

背景技术

[0004] 智能自动化助理(或数字助理)可在人类用户与电子设备之间提供有利界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用
户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。数字助理可从该语
音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多
项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
[0005] 在一些情况下,电子设备经由一个或多个麦克风对来自周围环境的音频信号进行采样,以检测用户是否说出用于发起数字助理会话(例如,“嗨西丽”)的触发。然而,被采样
音频信号可能包括干扰音频信号,诸如来自竞争说话者(例如,物理上接近电子设备的用户
以外的人)的语音、来自噪声源(例如,房间中的电视)的音频输出、混响等。因此,电子设备
可能由于干扰噪声而未能检测到来自用户的语音触发,或者可能错误地检测到来自干扰音
频信号的语音触发(例如,误将竞争说话者发出的“History(历史)”误认为“Hey Siri(嗨西
丽)”)。此外,电子设备可能无法区分针对数字助理的被采样音频信号的部分和不针对数字
助理的被采样音频信号的部分(例如,两个说话者之间的对话)。这继而导致用户体验混乱
和低效,因为电子设备可能在用户没有发出语音触发时发起数字助理会话,在用户发出语
音触发时未能发起数字助理会话,并且/或者误解用户对数字助理的请求。

发明内容

[0006] 本文公开了示例方法。一种示例方法包括:在具有一个或多个处理器、存储器和多个麦克风的电子设备处,在电子设备的多个麦克风中的每一个处对音频信号进行采样以获
得多个音频信号;处理多个音频信号以获得多个音频流;基于多个音频流确定多个音频信
号中的任一个是否对应于语音触发。该方法还包括:根据确定多个音频信号对应于语音触
发,由电子设备发起数字助理的会话;并且根据确定多个音频信号不对应于语音触发,放弃
发起数字助理的会话。
[0007] 一种示例方法包括:使用第一电子设备的第一麦克风对第一音频信号进行采样;使用不同于第一电子设备的第二电子设备的第二麦克风对第二音频信号进行采样;并且在
第三电子设备处确定第一音频信号和第二音频信号中的任一个是否对应于语音触发。该方
法还包括:根据确定第一音频信号或第二音频信号对应于语音触发,由第四电子设备发起
数字助理的会话;并且根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由
第四电子设备发起数字助理的会话。
[0008] 本文公开了示例非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。一个或多个程序包括这样的指令,其在由具有多个麦克风的电子设备
的一个或多个处理器执行时,使得电子设备:在电子设备的多个麦克风中的每一个处对音
频信号进行采样以获得多个音频信号;处理多个音频信号以获得多个音频流;基于多个音
频流确定多个音频信号中的任一个是否对应于语音触发,根据确定多个音频信号对应于语
音触发,由电子设备发起数字助理的会话;根据确定多个音频信号不对应于语音触发,放弃
发起数字助理的会话。
[0009] 一个或多个示例非暂态计算机可读存储介质存储一个或多个程序。一个或多个程序包括这样的指令,其在由一个或多个电子设备的一个或多个处理器执行时,使得一个或
多个电子设备:使用一个或多个电子设备中的第一电子设备的第一麦克风对第一音频信号
进行采样;使用一个或多个电子设备中的第二电子设备的第二麦克风对第二音频信号进行
采样,其中第二电子设备与第一电子设备不同。一个或多个程序还包括这样的指令,其使一
个或多个电子设备:在一个或多个电子设备中的第三电子设备处确定第一音频信号和第二
音频信号中的任一个是否对应于语音触发;根据确定第一音频信号或第二音频信号对应于
语音触发,由一个或多个电子设备中的第四电子设备发起数字助理的会话;根据确定第一
音频信号和第二音频信号不对应于语音触发,放弃由第四电子设备发起数字助理的会话。
[0010] 本文公开了示例电子设备。一种示例电子设备包括:一个或多个处理器;存储器;多个麦克风;以及一个或多个程序,其中一个或多个程序存储在存储器中并且被配置为由
一个或多个处理器执行。一个或多个程序包括用于以下操作的指令:在电子设备的多个麦
克风中的每一个处对音频信号进行采样以获得多个音频信号;处理多个音频信号以获得多
个音频流;基于多个音频流确定多个音频信号中的任一个是否对应于语音触发,根据确定
多个音频信号对应于语音触发,由电子设备发起数字助理的会话;根据确定多个音频信号
不对应于语音触发,放弃发起数字助理的会话。
[0011] 一种示例电子设备包括用于以下操作的装置:在电子设备的多个麦克风中的每一个处对音频信号进行采样以获得多个音频信号;处理多个音频信号以获得多个音频流;基
于多个音频流确定多个音频信号中的任一个是否对应于语音触发;根据确定多个音频信号
对应于语音触发,由电子设备发起数字助理的会话;根据确定多个音频信号不对应于语音
触发,放弃发起数字助理的会话。
[0012] 本文公开了示例系统。一种示例系统包括:一个或多个电子设备的一个或多个处理器;一个或多个电子设备的一个或多个存储器;以及存储在一个或多个存储器中并且被
配置为由一个或多个处理器执行的一个或多个程序。一个或多个程序包括用于以下操作的
指令:使用一个或多个电子设备中的第一电子设备的第一麦克风对第一音频信号进行采
样;使用一个或多个电子设备中的第二电子设备的第二麦克风对第二音频信号进行采样,
其中第二电子设备与第一电子设备不同;在一个或多个电子设备中的第三电子设备处确定
第一音频信号和第二音频信号中的任一个是否对应于语音触发;根据确定第一音频信号或
第二音频信号对应于语音触发,由一个或多个电子设备中的第四电子设备发起数字助理的
会话;根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由第四电子设备发
起数字助理的会话。
[0013] 一种示例系统包括用于以下操作的装置:使用第一电子设备的第一麦克风对第一音频信号进行采样;使用不同于第一电子设备的第二电子设备的第二麦克风对第二音频信
号进行采样;在第三电子设备处确定第一音频信号和第二音频信号中的任一个是否对应于
语音触发;根据确定第一音频信号或第二音频信号对应于语音触发,由第四电子设备发起
数字助理的会话;根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由第四
电子设备发起数字助理的会话。
[0014] 处理由多个麦克风采样的多个音频信号以获得多个音频流(例如,音频波束),并且使用多个音频流来检测数字助理的触发允许电子设备依赖与多个方向相关联的音频流
来检测触发。这些音频流为数字助理提供丰富的信息,从而允许数字助理准确地检测从不
同方向发出的语音触发,使干扰音频信号的影响最小化,并正确地解释用户对数字助理的
请求。以这种方式提高数字助理的准确性增强了设备的可操作性并且使用户-设备界面更
有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过减少重复的用户
输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使用并且延长了设
备的电池寿命。
[0015] 使用来自多个电子设备的麦克风对多个音频信号进行采样并且基于这些音频信号检测触发允许数字助理即使在用户远离多个电子设备中的特定一个的情况下也能准确
地检测触发。此外,使来自多个电子设备的电子设备(例如,具有最高处理能力)分析被采样
音频信号使其他电子设备不分配本地资源进行分析,从而允许其他电子设备更有效地操
作。有效且准确地对音频信号进行采样和分析增强了设备的可操作性并且使用户-设备界
面更有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过减少重复的
用户输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使用并且延长
了设备的电池寿命。
[0016] 使用一个电子设备(例如,具有最高处理能力)确定被采样音频信号是否包括语音触发,同时使用另一电子设备(例如,具有最佳硬件和/或软件)发起数字助理会话允许数字
助理准确地检测语音触发并且提供了对用户请求的最佳响应,而无需用户确定触发哪个电
子设备。减少用户输入的数量并且减少用户的认知负担增强了设备的可操作性并且使用
户-设备界面更有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过
减少重复的用户输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使
用并且延长了设备的电池寿命。

附图说明

[0017] 图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。
[0018] 图2A为示出了根据各种示例的实现数字助理的客户端部分的便携式多功能设备的框图。
[0019] 图2B为示出了根据各种示例的用于事件处理的示例性部件的框图。
[0020] 图3示出了根据各种示例的实现数字助理的客户端部分的便携式多功能设备。
[0021] 图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。
[0022] 图5A示出了根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。
[0023] 图5B示出了根据各种示例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。
[0024] 图6A示出了根据各种示例的个人电子设备。
[0025] 图6B为示出了根据各种示例的个人电子设备的框图。
[0026] 图7A为示出了根据各种示例的数字助理系统或其服务器部分的框图。
[0027] 图7B示出了根据各种示例的在图7A中所示的数字助理的功能。
[0028] 图7C示出了根据各种示例的本体论的一部分。
[0029] 图8示出了根据各种示例的用于检测数字助理的触发的过程。
[0030] 图9示出了根据各种示例的用于检测数字助理的触发的过程。
[0031] 图10示出了根据一些实施方案的电子设备的示例性用户界面。

具体实施方式

[0032] 在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性
变更。
[0033] 如所讨论的,由电子设备采样的音频信号可以包括数字助理的语音触发以及干扰音频信号。本发明的示例涉及基于由多个麦克风采样的多个音频信号来检测数字助理的触
发。这类技术可以增强设备的可操作性并且使用户-设备界面更有效(例如,通过改进用户
请求的解释、通过减少数字助理的错误以及通过减少重复的用户输入),此外,通过使用户
能够更快速且有效地使用设备,还减少了电力使用并且延长了设备的电池寿命。
[0034] 尽管以下描述使用术语“第一”、“第二”等来描述各种元件,但这些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如,在不脱离各种所述示例
的范围的情况下,第一输入可被称为第二输入,并且类似地,第二输入可被称为第一输入。
第一输入和第二输入均为输入,并且在一些情况下为独立且不同的输入。
[0035] 在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单
数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将
理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或
多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、
“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的
特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整
数、步骤、操作、元件、部件和/或其分组。
[0036] 根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述
的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述
的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
[0037] 1.系统和环境
[0038] 图1示出了根据各种示例的系统100的框图。在一些示例中,系统100实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”是指解译口头形式
和/或文本形式的自然语言输入来推断用户意图,并且基于推断出的用户意图来执行动作
的任何信息处理系统。例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或
多个:识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推断出的用
户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以
可听(例如,语音)和/或可视形式来生成对用户的输出响应。
[0039] 具体地讲,数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求数字助理作出信息性回答,要么寻求数字
助理执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求
的任务或这两者的组合。例如,用户向数字助理提出问题,诸如“我现在在哪里?”。基于用户
的当前位置,数字助理回答“你在中央公园西门附近。”用户还请求执行任务,例如“请邀请
我的朋友们下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马
上”来确认请求,然后代表用户将合适的日历邀请发送到用户电子通讯录中列出的用户朋
友中的每位朋友。在执行所请求的任务期间,数字助理有时在很长时间段内在涉及多次信
息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任
务的许多其他方法。除提供言语响应并采取经编程的动作之外,数字助理还提供其他视频
或音频形式的响应,例如作为文本、警报、音乐、视频、动画等。
[0040] 如图1所示,在一些示例中,数字助理根据客户端-服务器模型来实现。数字助理包括在用户设备104上执行的客户端部分102(以下简称“DA客户端102”)以及在服务器系统
108上执行的服务器端部分106(以下简称“DA服务器106”)。DA客户端102通过一个或多个网
络110与DA服务器106通信。DA客户端102提供客户端功能,诸如面向用户的输入和输出处
理,以及与DA服务器106通信。DA服务器106为各自位于相应用户设备104上的任意数量的DA
客户端102提供服务器端功能。
[0041] 在一些示例中,DA服务器106包括面向客户端的I/O接口112、一个或多个处理模块114、数据与模型116,以及到外部服务设施的I/O接口118。面向客户端的I/O接口112有利于
DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型
116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114
基于推断出的用户意图来执行任务执行。在一些示例中,DA服务器106通过一个或多个网络
110与外部服务设施120通信以完成任务或采集信息。到外部服务设施的I/O接口118促成此
类通信。
[0042] 用户设备104可以是任何合适的电子设备。在一些示例中,用户设备是便携式多功能设备(例如,下面参考图2A描述的设备200)、多功能设备(例如,下面参考图4描述的设备
400)或个人电子设备(例如,下面参考图6A至图6B描述的设备600)。便携式多功能设备是例
如还包含诸如PDA和/或音乐播放器功能的其他功能的移动电话。便携式多功能设备的特定
示例包括来自加利福尼亚州库比蒂诺的苹果公司(Apple Inc.of Cupertino,California)
的Apple iPod 和 设备。便携式多功能设备的其他示例
包括但不限于耳塞式耳机/头戴式耳机、扬声器以及膝上型电脑或平板电脑。此外,在一些
示例中,用户设备104是非便携式多功能设备。具体地讲,用户设备104是台式计算机、游戏
机、扬声器、电视或电视机顶盒。在一些示例中,用户设备104包括触敏表面(例如,触摸屏显
示器和/或触控板)。此外,用户设备104任选地包括一个或多个其他物理用户接口设备,诸
如物理键盘、鼠标和/或操纵杆。下文更详细地描述了电子设备诸如多功能设备的各种示
例。
[0043] 一个或多个通信网络110的示例包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如以
太网、通用串行总线(USB)、火线(FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境
(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX或
任何其他合适的通信协议。
[0044] 服务器系统108在一个或多个独立式数据处理设备或分布式计算机网络上实现。在一些示例中,服务器系统108还采用第三方服务提供方(例如,第三方云服务提供方)的各
种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。
[0045] 在一些示例中,用户设备104经由第二用户设备122与DA服务器106通信。第二用户设备122与用户设备104相似或相同。例如,第二用户设备122类似于下文参考图2A、图4和图
6A至图6B描述的设备200、设备400或设备600。用户设备104被配置为经由直接通信连接诸
如蓝牙、NFC、BTLE等或者经由有线或无线网络诸如局域Wi-Fi网络而通信耦接到第二用户
设备122。在一些示例中,第二用户设备122被配置为充当用户设备104与DA服务器106之间
的代理。例如,用户设备104的DA客户端102被配置为经由第二用户设备122向DA服务器106
传输信息(例如,在用户设备104处接收的用户请求)。DA服务器106处理该信息,并经由第二
用户设备122将相关数据(例如,响应于用户请求的数据内容)返回到用户设备104。
[0046] 在一些示例中,用户设备104被配置为将针对数据的缩略请求发送到第二用户设备122,以减少从用户设备104传输的信息量。第二用户设备122被配置为确定添加到缩略请
求的补充信息,以生成完整的请求来传输到DA服务器106。该系统架构可有利地通过使用具
有较强通信能力和/或电池电力的第二用户设备122(例如,移动电话、膝上型计算机、平板
电脑等)作为到DA服务器106的代理,允许具有有限通信能力和/或有限电池电力的用户设
备104(例如,手表或类似的紧凑型电子设备)访问DA服务器106提供的服务。虽然图1中仅示
出两个用户设备104和122,但应当理解,在一些示例中,系统100可包括在此代理配置中被
配置为与DA服务器系统106通信的任意数量和类型的用户设备。
[0047] 虽然图1中所示的数字助理包括客户端部分(例如,DA客户端102)和服务器端部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能实现为安装在用户设备上的
独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具
体实施中可变化。例如,在一些示例中,DA客户端为仅提供面向用户的输入和输出处理功
能,并将数字助理的所有其他功能委派给后端服务器的瘦客户端。
[0048] 2.电子设备
[0049] 现在将注意力转至用于实现数字助理的客户端部分的电子设备的实施方案。图2A为示出了根据一些实施方案的具有触敏显示系统212的便携式多功能设备200的框图。触敏
显示器212有时为了方便被叫做“触摸屏”,并且有时被称为或被叫做“触敏显示系统”。设备
200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、一
个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电路210、扬声器211、麦克
风213、输入/输出(I/O)子系统206、其他输入控制设备216和外部端口224。设备200任选地
包括一个或多个光学传感器264。设备200任选地包括用于检测设备200(例如设备200的触
敏表面诸如触敏显示系统212)上的接触的强度的一个或多个接触强度传感器265。设备200
任选地包括用于在设备200上生成触觉输出的一个或多个触觉输出发生器267(例如,在触
敏表面诸如设备200的触敏显示系统212或设备400的触摸板455上生成触觉输出)。这些部
件任选地通过一个或多个通信总线或信号线203进行通信。
[0050] 如在本说明书和权利要求书中所使用的,术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如,手指接触)的力或压力(每单位面积的力),或是指触敏表面上的接
触的力或压力的替代物(代用物)。接触的强度具有值范围,该值范围包括至少四个不同的
值并且更典型地包括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法
和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方或相邻于触敏表面
的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中,
来自多个力传感器的力测量值被组合(例如,加权平均)以确定所估计的接触力。类似地,触
笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的
接触区域的大小和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附
近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。
在一些具体实施中,接触力或压力的替代物测量直接用于确定是否已经超过强度阈值(例
如,强度阈值以对应于替代物测量的单位来描述)。在一些具体实施中,接触力或压力的替
代物测量被转换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值
(例如,强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的
属性,从而允许用户访问用户在实地面积有限的尺寸更小的设备上本来不可访问的附加设
备功能,该尺寸更小的设备用于(例如,在触敏显示器上)显示示能表示和/或接收用户输入
(例如,经由触敏显示器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。
[0051] 如本说明书和权利要求书中所使用的,术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如,触敏表面)相对
于设备的另一个部件(例如,外壳)的物理位移或部件相对于设备的质心的位移。例如,在设
备或设备的部件与用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触
的情况下,通过物理位移生成的触觉输出将由用户解释为触感,该触感对应于设备或设备
的部件的物理特征的所感知的变化。例如,触敏表面(例如,触敏显示器或触控板)的移动任
选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下,用户将感
觉到触感,诸如“按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压(例如,
被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如,即使在触敏表面的光滑度
无变化时,触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用
户对触摸的此类解释将受到用户的个体化感官知觉的限制,但是对触摸的许多感官知觉是
大多数用户共有的。因此,当触觉输出被描述为对应于用户的特定感官知觉(例如,“按下点
击”、“松开点击”、“粗糙度”)时,除非另外陈述,否则所生成的触觉输出对应于设备或其部
件的物理位移,该物理位移将会生成典型(或普通)用户的所述感官知觉。
[0052] 应当理解,设备200仅仅是便携式多功能设备的一个示例,并且设备200任选地具有比所示出的部件更多或更少的部件,任选地组合两个或更多个部件,或者任选地具有这
些部件的不同配置或布置。图2A所示的各种部件以硬件、软件或硬件与软件两者的组合来
实现,包括一个或多个信号处理电路和/或专用集成电路。
[0053] 存储器202包括一个或多个计算机可读存储介质。这些计算机可读存储介质例如为有形的和非暂态的。存储器202包括高速随机存取存储器,并且还包括非易失性存储器,
诸如一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备。存储器
控制器222控制设备200的其他部件访问存储器202。
[0054] 在一些示例中,存储器202的非暂态计算机可读存储介质用于存储指令(例如,用于执行下文描述的过程的各方面)以供指令执行系统、装置或设备诸如基于计算机的系统、
包含处理器的系统或可从指令执行系统、装置或设备取出指令并执行指令的其他系统使用
或与其结合使用。在其他示例中,指令(例如,用于执行下文描述的过程的各方面)存储在服
务器系统108的非暂态计算机可读存储介质(未示出)上,或在存储器202的非暂态计算机可
读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。
[0055] 外围设备接口218用于将设备的输入和输出外围设备耦接到CPU 220和存储器202。一个或多个处理器220运行或执行存储器202中所存储的各种软件程序和/或指令集以
执行设备200的各种功能并处理数据。在一些实施方案中,外围设备接口218、CPU 220和存
储器控制器222在单个芯片诸如芯片204上实现。在一些其他实施方案中,它们在独立的芯
片上实现。
[0056] RF(射频)电路208接收和发送也被叫做电磁信号的RF信号。RF电路208将电信号转换为电磁信号/将电磁信号转换为电信号,并且经由电磁信号与通信网络及其他通信设备
进行通信。RF电路208任选地包括用于执行这些功能的熟知的电路,包括但不限于天线系
统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯
片组、用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信与网络以及其他
设备进行通信,该网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如
蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路208任选地包括用于诸如通过
近程通信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用多种通
信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环
境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据
(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分
多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-
Fi)(例如,IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n和/或IEEE 
802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如,互联网消息访问协议
(IMAP)和/或邮局协议(POP))、即时消息(例如,可扩展消息处理和存在协议(XMPP)、用于即
时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))和/或短消
息服务(SMS),或者任何其他适当的通信协议,包括在本文档提交日期时尚未开发出的通信
协议。
[0057] 音频电路210、扬声器211和麦克风213提供用户和设备200之间的音频接口。音频电路210从外围设备接口218接收音频数据,将音频数据转换为电信号,并将电信号传输到
扬声器211。扬声器211将电信号转换为人耳可听见的声波。音频电路210还接收由麦克风
213根据声波转换来的电信号。音频电路210将电信号转换为音频数据,并将音频数据传输
到外围设备接口218以进行处理。音频数据通过外围设备接口218检索自和/或传输至存储
器202和/或RF电路208。在一些实施方案中,音频电路210还包括耳麦插孔(例如,图3中的
312)。该耳麦插孔提供音频电路210与可移除的音频输入/输出外围设备之间的接口,该可
移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如,单耳耳机或双耳耳
机)和输入(例如,麦克风)两者的耳麦。
[0058] I/O子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其他输入控制设备216耦接至外围设备接口218。I/O子系统206任选地包括显示控制器256、光学传感器控
制器258、强度传感器控制器259、触觉反馈控制器261,以及用于其他输入或控制设备的一
个或多个输入控制器260。一个或多个输入控制器260从其他输入控制设备216接收电信号/
将电信号发送到所述其他输入控制设备。其他输入控制设备216任选地包括物理按钮(例
如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选实施方案中,
一个或多个输入控制器260任选地耦接至以下各项中的任一者(或不耦接至以下各项中的
任一者):键盘、红外线端口、USB端口以及指针设备诸如鼠标。一个或多个按钮(例如,图3中
的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多
个按钮任选地包括下压按钮(例如,图3中的306)。
[0059] 快速按下下压按钮会脱离触摸屏212的锁定或者开始使用触摸屏上的手势来对设备进行解锁的过程,如在2005年12月23日提交的名称为“Unlocking a Device by 
Performing Gestures on an Unlock Image”(通过在解锁图像上执行手势解锁设备)的美
国专利No.7,657,849的美国专利申请11/322,549中所述的,该美国专利申请据此全文以引
用方式并入本文。较长地按下下压按钮(例如,306)使设备200开机或关机。用户能够自定义
一个或多个按钮的功能。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。
[0060] 触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控制器256从触摸屏212接收电信号和/或将电信号发送至该触摸屏。触摸屏212向用户显示视觉输出。视觉
输出包括图形、文本、图标、视频及其任何组合(统称为“图形”)。在一些实施方案中,一些视
觉输出或全部视觉输出对应于用户界面对象。
[0061] 触摸屏212具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器或传感器组。触摸屏212和显示控制器256(与存储器202中的任何相关联的模块和/或指
令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断),并且将所检测到的接触
转换为与被显示在触摸屏212上的用户界面对象(例如,一个或多个软键、图标、网页或图
像)的交互。在示例性实施方案中,触摸屏212和用户之间的接触点与用户的手指对应。
[0062] 触摸屏212使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术,但在其他实施方案中可使用其他显示技术。触摸屏212和显示控制器256使用
目前已知或以后将开发的多种触摸感测技术中的任何技术,以及其他接近传感器阵列或用
于确定与触摸屏212接触的一个或多个点的其他元件来检测接触及其任何移动或中断,所
述多种触摸感测技术包括但不限于电容式、电阻式、红外和表面声波技术。在一个示例性实
施方案中,使用投射式互电容感测技术,诸如在来自加利福尼亚州库比蒂诺的苹果公司
(Apple Inc.of Cupertino,California)的 和iPod 中使用的技术。
[0063] 在一些实施方案中,触摸屏212的触敏显示器类似于以下美国专利6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932(Westerman)和/或美国专
利公开2002/0015024A1中所述的多触敏触控板,这些专利申请中的每个均据此全文以引用
方式并入本文。然而,触摸屏212显示来自设备200的视觉输出,而触敏触控板不提供视觉输
出。
[0064] 在一些实施方案中,触摸屏212的触敏显示器如以下专利申请所述:(1)美国专利申请No.11/381,313,“Multipoint Touch Surface Controller(多点触摸表面控制器)”,
2006年5月2日提交;(2)美国专利申请No.10/840,862,“Multipoint Touchscreen(多点触
摸屏)”,2004年5月6日提交;(3)美国专利申请No.10/903,964,“Gestures For Touch 
Sensitive Input Devices(触敏入设备的手势)”,2004年7月30日提交;(4)美国专利申请
No.11/048,264,“Gestures For Touch Sensitive Input Devices(触敏入设备的手势)”,
2005年1月31日提交;(5)美国专利申请No.11/038,590,“Mode-Based Graphical User 
Interfaces For Touch Sensitive Input Devices(用于触敏输入设备的基于模式的图形
用户界面)”,2005年1月18日提交;(6)美国专利申请No.11/228,758,“Virtual Input 
Device Placement On A Touch Screen User Interface(放置在触摸屏用户界面上的虚
拟输入设备)”,2005年9月16日提交;(7)美国专利申请No.11/228,700,“Operation Of A 
Computer With A Touch Screen Interface(具有触摸屏界面的计算机的操作)”,2005年9
月16日提交;(8)美国专利申请No.11/228,737,“Activating Virtual Keys Of A Touch-
Screen Virtual Keyboard(激活触摸屏虚拟键盘的虚拟键)”,2005年9月16日提交;以及
(9)美国专利申请No.11/367,749,“Multi-Functional Hand-Held Device(多功能手持设
备)”,2006年3月3日提交。所有这些申请全文以引用方式并入本文。
[0065] 触摸屏212例如具有超过100dpi的视频分辨率。在一些实施方案中,触摸屏具有约160dpi的视频分辨率。用户使用任何合适的对象或附加物诸如触笔、手指等与触摸屏212进
行接触。在一些实施方案中,将用户界面设计为主要通过基于手指的接触和手势来工作,由
于手指在触摸屏上的接触区域较大,因此这可能不如基于触笔的输入精确。在一些实施方
案中,设备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所
期望的动作。
[0066] 在一些实施方案中,除了触摸屏之外,设备200还包括用于激活或去激活特定功能的触控板(未示出)。在一些实施方案中,触控板是设备的触敏区域,与触摸屏不同,该触敏
区域不显示视觉输出。触控板是与触摸屏212分开的触敏表面,或者是由触摸屏形成的触敏
表面的延伸。
[0067] 设备200还包括用于为各种部件供电的电力系统262。电力系统262包括电力管理系统、一个或多个电源(例如,电池、交流电(AC))、再充电系统、电力故障检测电路、功率转
换器或逆变器、电力状态指示器(例如,发光二极管(LED))和与便携式设备中电力的生成、
管理和分配相关联的任何其他部件。
[0068] 设备200还包括一个或多个光学传感器264。图2A示出了耦接到I/O子系统206中的光学传感器控制器258的光学传感器。光学传感器264包括电荷耦合器件(CCD)或互补金属
氧化物半导体(CMOS)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射
的光,并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块),光学传感器
264捕获静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与设备前部
的触摸屏显示器212相背对,使得触摸屏显示器被用作用于静态图像和/或视频图像采集的
取景器。在一些实施方案中,光学传感器位于设备的前部,使得在用户在触摸屏显示器上查
看其他视频会议参与者的同时获取该用户的图像以用于视频会议。在一些实施方案中,光
学传感器264的位置可由用户改变(例如,通过旋转设备外壳中的透镜和传感器),使得单个
光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和/或视频图像采集
两者。
[0069] 设备200任选地还包括一个或多个接触强度传感器265。图2A示出了耦接到I/O子系统206中的强度传感器控制器259的接触强度传感器。接触强度传感器265任选地包括一
个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容
式触敏表面或其他强度传感器(例如,用于测量触敏表面上的接触的力(或压力)的传感
器)。接触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的代用物)。
在一些实施方案中,至少一个接触强度传感器与触敏表面(例如,触敏显示系统212)并置排
列或邻近。在一些实施方案中,至少一个接触强度传感器位于设备200的与位于设备200的
前部上的触摸屏显示器212相背对的后部上。
[0070] 设备200还包括一个或多个接近传感器266。图2A示出了耦接到外围设备接口218的接近传感器266。另选地,接近传感器266耦接到I/O子系统206中的输入控制器260。接近
传感器266如以下美国专利申请中所述的那样执行:No.11/241,839,“Proximity Detector 
In Handheld Device(手持设备中的接近检测器)”;No.11/240,788,“Proximity Detector 
In Handheld Device(手持设备中的接近检测器)”;No.11/620,702,“Using Ambient 
Light Sensor To Augment Proximity Sensor Output(使用环境光线传感器增强接近传
感器输出)”;No.11/586,862,“Automated Response To And Sensing Of User Activity 
In Portable Devices(自动响应和感测便携式设备中的用户活动”);以及No.11/638,251,
“Methods And Systems For Automatic Configuration Of Peripherals(用于外围设备
的自动配置的方法和系统)”,这些美国专利申请据此全文以引用方式并入本文。在一些实
施方案中,当多功能设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接
近传感器关闭并且禁用触摸屏212。
[0071] 设备200任选地还包括一个或多个触觉输出发生器267。图2A示出了耦接到I/O子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输出发生器267任选地包括一个
或多个电声设备诸如扬声器或其他音频部件;和/或用于将能量转换成线性运动的机电设
备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例
如,用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块
233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的用户感觉到的触觉输
出。在一些实施方案中,至少一个触觉输出发生器与触敏表面(例如,触敏显示系统212)并
置排列或邻近,并且任选地通过竖直地(例如,向设备200的表面内/外)或侧向地(例如,在
与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方
案中,至少一个触觉输出发生器传感器位于设备200的后部上,与位于设备200的前部上的
触摸屏显示器212相对。
[0072] 设备200还包括一个或多个加速度计268。图2A示出了耦接至外围设备接口218的加速度计268。另选地,加速度计268耦接至I/O子系统206中的输入控制器260。加速度计268
如以下美国专利公开中所述那样执行:美国专利公开No.20050190059,“Acceleration-
based Theft Detection System for Portable Electronic Devices(用于基于加速度的
便携式电子设备盗窃检测系统)”和美国专利公开No.20060017692,“Methods  And 
Apparatuses For Operating A Portable Device Based On An Accelerometer(用于基
于加速度计操作便携式设备的方法和装置)”,这两个美国专利公开全文以引用方式并入本
文。在一些实施方案中,基于对从一个或多个加速度计接收的数据的分析来在触摸屏显示
器上以纵向视图或横向视图显示信息。设备200任选地除了加速度计268之外还包括磁力仪
(未示出)和GPS(或GLONASS或其他全球导航系统)接收器(未示出),以用于获取关于设备
200的位置和取向(例如,纵向或横向)的信息。
[0073] 在一些实施方案中,存储于存储器202中的软件部件包括操作系统226、通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块(或指令集)232、文本输入模块
(或指令集)234、全球定位系统(GPS)模块(或指令集)235、数字助理客户端模块229以及应
用程序(或指令集)236。此外,存储器202存储数据与模型,诸如用户数据与模型231。此外,
在一些实施方案中,存储器202(图2A)或470(图4)存储设备/全局内部状态257,如图2A和图
4中所示。设备/全局内部状态257包括以下中的一者或多者:活动应用程序状态,其指示哪
些应用程序(如果有的话)当前是活动的;显示状态,其指示什么应用、视图或其他信息占据
触摸屏显示器212的各个区域;传感器状态,包括从设备的各个传感器和输入控制设备216
获取的信息;以及关于设备的位置和/或姿态的位置信息。
[0074] 操作系统226(例如,Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、
电源管理等)的各种软件部件和/或驱动程序,并且促进各种硬件部件和软件部件之间的通
信。
[0075] 通信模块228通过一个或多个外部端口224来促进与其他设备的通信,并且还包括用于处理由RF电路208和/或外部端口224所接收的数据的各种软件组件。外部端口224(例
如,通用串行总线(USB)、火线等)适于直接耦接到其他设备,或间接地通过网络(例如,互联
网、无线LAN等)进行耦接。在一些实施方案中,外部端口是与 (苹果公司(Apple 
Inc.)的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30
针)连接器。
[0076] 接触/运动模块230任选地检测与触摸屏212(结合显示控制器256)和其他触敏设备(例如,触摸板或物理点击式转盘)的接触。接触/运动模块230包括各种软件部件以用于
执行与接触检测相关的各种操作,诸如确定是否已发生接触(例如,检测手指按下事件)、确
定接触强度(例如,接触的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的
移动并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件),以及确定接触是
否已停止(例如,检测手指抬起事件或接触断开)。接触/运动模块230从触敏表面接收接触
数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加
速度(量值和/或方向的改变),所述接触点的移动由一系列接触数据表示。这些操作任选地
被应用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸”/多个手指接
触)。在一些实施方案中,接触/运动模块230和显示控制器256检测触控板上的接触。
[0077] 在一些实施方案中,接触/运动模块230使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如,确定用户是否已“点击”图标)。在一些实施方案中,根据软件参数
来确定强度阈值的至少一个子集(例如,强度阈值不是由具体物理致动器的激活阈值来确
定的,并且可在不改变设备200的物理硬件的情况下加以调节)。例如,在不改变触控板或触
摸屏显示器硬件的情况下,触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的
大范围中的任一个阈值。另外,在一些具体实施中,向设备的用户提供用于调节一组强度阈
值中的一个或多个强度阈值(例如,通过调节各个强度阈值和/或通过利用对“强度”参数的
系统级点击来一次调节多个强度阈值)的软件设置。
[0078] 接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手势具有不同的接触模式(例如,所检测到的接触的不同运动、计时和/或强度)。因此,任选地通过检测特
定接触模式来检测手势。例如,检测手指轻击手势包括检测手指按下事件,然后在与手指按
下事件相同的位置(或基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离)
事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按下事件,然后检测
一个或多个手指拖动事件,并且随后检测手指抬起(抬离)事件。
[0079] 图形模块232包括用于在触摸屏212或其他显示器上展示和显示图形的各种已知的软件组件,包括用于改变所显示的图形的视觉冲击(例如,亮度、透明度、饱和度、对比度
或其他视觉特征)的组件。如本文所用,术语“图形”包括可被显示给用户的任何对象,非限
制性地包括文本、网页、图标(诸如,包括软键的用户界面对象)、数字图像、视频、动画等。
[0080] 在一些实施方案中,图形模块232存储用于表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块232从应用程序等接收用于指定待显示的图形的一个
或多个代码,在必要的情况下还一起接收坐标数据和其他图形属性数据,并且然后生成屏
幕图像数据,以输出至显示控制器256。
[0081] 触觉反馈模块233包括用于生成指令的各种软件部件,该指令由一个或多个触觉输出发生器267使用,以便响应于用户与设备200的交互而在设备200上的一个或多个位置
处产生触觉输出。
[0082] 在一些示例中作为图形模块232的部件的文本输入模块234提供用于在各种应用程序(例如,联系人237、电子邮件240、IM 241、浏览器247和需要文本输入的任何其他应用
程序)中输入文本的软键盘。
[0083] GPS模块235确定设备的位置,并提供该信息以供在各种应用程序中使用(例如提供给电话238以供在基于位置的拨号中使用;提供至相机243作为图片/视频元数据;以及提
供给提供基于位置的服务的应用,诸如天气桌面小程序、本地黄页桌面小程序和地图/导航
桌面小程序)。
[0084] 数字助理客户端模块229包括各种客户端数字助理指令,以提供数字助理的客户端功能。例如,数字助理客户端模块229能够通过便携式多功能设备200的各种用户接口(例
如,麦克风213、加速度计268、触敏显示系统212、光学传感器229、其他输入控制设备216等)
接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块
229还能够通过便携式多功能设备200的各种输出接口(例如,扬声器211、触敏显示系统
212、触觉输出生成器267等)提供音频形式的输出(例如,语音输出)、视觉形式的输出和/或
触觉形式的输出。例如,将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、
振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块229使用RF电路208
与DA服务器106通信。
[0085] 用户数据与模型231包括与用户相关联的各种数据(例如,用户特定的词汇数据、用户偏好数据、用户指定的名称发音、来自用户电子通讯录的数据、待办事项、购物清单等)
以提供数字助理的客户端功能。此外,用户数据与模型231包括用于处理用户输入并且确定
用户意图的各种模型(例如,语音识别模型、统计语言模型、自然语言处理模型、本体论、任
务流模型、服务模型等)。
[0086] 在一些示例中,数字助理客户端模块229利用便携式多功能设备200的各种传感器、子系统和外围设备来从便携式多功能设备200的周围环境采集附加信息,以建立与用
户、当前用户交互和/或当前用户输入相关联的上下文。在一些示例中,数字助理客户端模
块229将上下文信息或其子集与用户输入一起提供至DA服务器106以帮助推断用户意图。在
一些示例中,数字助理还使用上下文信息来确定如何准备输出并将其传送给用户。上下文
信息被称为上下文数据。
[0087] 在一些示例中,伴随用户输入的上下文信息包括传感器信息,例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中,上下文信息还可包括设备的物理
状态,例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强
度等。在一些示例中,将与DA服务器106的软件状态相关的信息,例如便携式多功能设备200
的运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等,作为
与用户输入相关联的上下文信息提供至DA服务器106。
[0088] 在一些示例中,数字助理客户端模块229响应于来自DA服务器106的请求而选择性地提供存储在便携式多功能设备200上的信息(例如,用户数据231)。在一些示例中,数字助
理客户端模块229还在DA服务器106请求时引出来自用户经由自然语言对话或其他用户接
口的附加输入。数字助理客户端模块229将该附加输入传送至DA服务器106,以帮助DA服务
器106进行意图推断和/或满足在用户请求中表达的用户意图。
[0089] 下面参考图7A至图7C对数字助理进行更详细的描述。应当认识到,数字助理客户端模块229可包括下文所述的数字助理模块726的任意数量的子模块。
[0090] 应用程序236包括以下模块(或指令集)或者其子集或超集:
[0091] ·联系人模块237(有时称为通讯录或联系人列表);
[0092] ·电话模块238;
[0093] ·视频会议模块239;
[0094] ·电子邮件客户端模块240;
[0095] ·即时消息(IM)模块241;
[0096] ·健身支持模块242;
[0097] ·用于静态图像和/或视频图像的相机模块243;
[0098] ·图像管理模块244;
[0099] ·视频播放器模块;
[0100] ·音乐播放器模块;
[0101] ·浏览器模块247;
[0102] ·日历模块248;
[0103] ·桌面小程序模块249,其在一些示例中包括以下各项中的一者或多者:天气桌面小程序249-1、股票桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、词
典桌面小程序249-5和用户获取的其他桌面小程序,以及用户创建的桌面小程序249-6;
[0104] ·用于形成用户创建的桌面小程序249-6的桌面小程序创建器模块250;
[0105] ·搜索模块251;
[0106] ·视频和音乐播放器模块252,其合并视频播放器模块和音乐播放器模块;
[0107] ·记事本模块253;
[0108] ·地图模块254;和/或
[0109] ·在线视频模块255。
[0110] 存储在存储器202中的其他应用程序236的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持JAVA的应用程序、加密、数字版权管
理、声音识别和声音复制。
[0111] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,联系人模块237用于管理通讯录或联系人列表(例如,存储在存储器202或存储器470
中的联系人模块237的应用程序内部状态292中),包括:将姓名添加到通讯录;从地址簿删
除姓名;将电话号码、电子邮件地址、物理地址或其他信息与姓名关联;将图像与姓名关联;
对姓名进行归类和分类;提供电话号码或电子邮件地址来发起和/或促进通过电话238、视
频会议模块239、电子邮件240或即时消息241的通信;等等。
[0112] 结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电话模块238用于输入对应于电
话号码的字符序列、访问联系人模块237中的一个或多个电话号码、修改已经输入的电话号
码、拨打相应的电话号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使
用多种通信标准、协议和技术中的任一种。
[0113] 结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232、文本输入模
块234、联系人模块237和电话模块238,视频会议模块239包括根据用户指令来发起、执行和
终止用户与一个或多个其他参与者之间的视频会议的可执行指令。
[0114] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电子邮件客户端模块240包括响应于用户指令来创建、发送、接收和管理
电子邮件的可执行指令。结合图像管理模块244,电子邮件客户端模块240使得非常容易创
建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。
[0115] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,即时消息模块241包括用于以下操作的可执行指令:输入与即时消息对
应的字符序列,修改先前输入的字符,传输相应即时消息(例如,使用用于基于电话的即时
消息的短消息服务(SMS)或多媒体消息服务(MMS)协议或者使用用于基于互联网的即时消
息的XMPP、SIMPLE或IMPS),接收即时消息以及查看所接收的即时消息。在一些实施方案中,
所传输和/或接收的即时消息包括图形、照片、音频文件、视频文件和/或如MMS和/或增强型
消息服务(EMS)中支持的其他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使
用SMS或MMS发送的消息)和基于互联网的消息(例如,使用XMPP、SIMPLE或IMPS发送的消息)
两者。
[0116] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235、地图模块254和音乐播放器模块,健身支持模块242包括用于
以下各项的可执行指令:创建健身(例如,具有时间、距离和/或卡路里燃烧目标);与健身传
感器(运动设备)进行通信;接收健身传感器数据;校准用于监视健身的传感器;为健身选择
和播放音乐;以及显示、存储和传输健身数据。
[0117] 结合触摸屏212、显示控制器256、一个或多个光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232和图像管理模块244,相机模块243包括用于以下操作
的可执行指令:捕获静态图像或视频(包括视频流)并且将它们存储到存储器202中、修改静
态图像或视频的特征,或从存储器202删除静态图像或视频。
[0118] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和相机模块243,图像管理模块244包括用于以下操作的可执行指令:排列、修改(例如,
编辑)或以其他方式操控、加标签、删除、呈现(例如,在数字幻灯片或相册中),以及存储静
态图像和/或视频图像。
[0119] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,浏览器模块247包括根据用户指令来浏览互联网(包括搜索、链接至、接
收和显示网页或其部分,以及链接至网页的附件和其他文件)的可执行指令。
[0120] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块247,日历模块248包括根据用户指
令来创建、显示、修改和存储日历以及与日历相关联的数据(例如,日历条目、待办事项等)
的可执行指令。
[0121] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序模块249是可由用户下载并使用的微型应用
程序(例如,天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟
桌面小程序249-4和词典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建
的桌面小程序249-6)。在一些实施方案中,桌面小程序包括HTML(超文本标记语言)文件、
CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中,桌面小程序包括XML(可扩展
标记语言)文件和JavaScript文件(例如,Yahoo!桌面小程序)。
[0122] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序创建器模块250被用户用于创建桌面小程序
(例如,使网页的用户指定部分变成桌面小程序)。
[0123] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,搜索模块251包括根据用户指令在存储器202中搜索匹配一个或多个搜索条件(例
如,一个或多个用户指定的搜索词)的文本、音乐、声音、图像、视频和/或其他文件的可执行
指令。
[0124] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路系统210、扬声器211、RF电路系统208和浏览器模块247,视频和音乐播放器模块252包括允许用
户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声
音文件的可执行指令,以及用于显示、呈现或以其他方式回放视频(例如,在触摸屏212上或
在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备200任选
地包括MP3播放器诸如iPod(苹果公司(Apple Inc.)的商标)的功能。
[0125] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,记事本模块253包括用于根据用户指令来创建和管理记事本、待办事项等的可执行
指令。
[0126] 结合RF电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、GPS模块235和浏览器模块247,地图模块254用于根据用户指令接收、显示、
修改和存储地图以及与地图相关联的数据(例如,驾驶方向、与特定位置处或附近的商店及
其他兴趣点有关的数据,以及其他基于位置的数据)。
[0127] 结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、RF电路208、文本输入模块234、电子邮件客户端模块240和浏览器模块247,在线
视频模块255包括允许用户访问、浏览、接收(例如,通过流式传输和/或下载)、回放(例如,
在触摸屏上或经由外部端口224在所连接的外部显示器上)、发送具有至特定在线视频的链
接的电子邮件,以及以其他方式管理一种或多种文件格式(诸如,H.264)的在线视频的指
令。在一些实施方案中,使用即时消息模块241而不是电子邮件客户端模块240来发送至特
定在线视频的链接。在线视频应用程序的其他描述可见于下述文献:美国临时专利申请
No.60/936,562,“Portable Multifunction Device,Method,and Graphical User 
Interface for Playing Online Videos(用于播放在线视频的便携式多功能设备、方法和
图形用户界面)”,2007年6月20日提交;和美国专利申请11/968,067,“Portable 
Multifunction Device,Method,and Graphical User Interface for Playing Online 
Videos(用于播放在线视频的便携式多功能设备、方法和图形用户界面)”,2007年12月31日
提交,这两个专利申请的内容据此全文以引用方式并入本文。
[0128] 上述模块和应用程序中的每个对应于用于执行上述一种或多种功能以及在本专利申请中所述的方法(例如,本文所述的计算机实现的方法和其他信息处理方法)的可执行
指令集。这些模块(例如,指令集)不必被实现为独立的软件程序、过程或模块,并因此在各
种实施方案中可组合或以其他方式重新布置这些模块的各种子集。例如,视频播放器模块
可与音乐播放器模块组合成单个模块(例如,图2A中的视频和音乐播放器模块252)。在一些
实施方案中,存储器202存储上述模块和数据结构的子组。此外,存储器202存储上文未描述
的另外的模块和数据结构。
[0129] 在一些实施方案中,设备200是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触控板来执行的设备。通过使用触摸屏和/或触控板作为用于设备200的操作
的主要输入控制设备,减少设备200上的物理输入控制设备(诸如下压按钮、拨盘等)的数
量。
[0130] 唯一地通过触摸屏和/或触控板来执行的预定义的一组功能任选地包括在用户界面之间的导航。在一些实施方案中,该触摸板在被用户触摸时将设备200从被显示在设备
200上的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中,使用触摸板
来实现“菜单按钮”。在一些其他实施方案中,菜单按钮是物理下压按钮或者其他物理输入
控制设备,而不是触摸板。
[0131] 图2B为示出了根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中,存储器202(图2A)或存储器470(图4)包括事件分类器270(例如,在操作系统226
中)以及相应的应用程序236-1(例如,前述应用程序237至251、255、480至490中的任一个应
用程序)。
[0132] 事件分类器270接收事件信息并且确定要将事件信息递送到的应用程序236-1和应用程序236-1的应用程序视图291。事件分类器270包括事件监视器271和事件分配器模块
274。在一些实施方案中,应用程序236-1包括应用程序内部状态292,该应用程序内部状态
指示当应用程序是活动的或正在执行时被显示在触敏显示器212上的当前应用程序视图。
在一些实施方案中,设备/全局内部状态257被事件分类器270用于确定哪个(哪些)应用程
序当前是活动的,并且应用程序内部状态292被事件分类器270用于确定要将事件信息递送
到的应用程序视图291。
[0133] 在一些实施方案中,应用程序内部状态292包括附加信息,诸如以下各项中的一者或多者:当应用程序236-1恢复执行时将被使用的恢复信息、指示正被应用程序236-1显示
的信息或准备好用于被应用程序显示的信息的用户界面状态信息、用于使得用户能够返回
到应用程序236-1的前一状态或视图的状态队列以及用户采取的先前动作的重复/撤销队
列。
[0134] 事件监视器271从外围设备接口218接收事件信息。事件信息包括关于子事件(例如,作为多点触摸手势一部分的触敏显示器212上的用户触摸)的信息。外围设备接口218传
输其从I/O子系统206或传感器诸如接近传感器266、加速度计268和/或麦克风213(通过音
频电路210)接收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显示
器212或触敏表面的信息。
[0135] 在一些实施方案中,事件监视器271以预先确定的间隔将请求发送至外围设备接口218。作为响应,外围设备接口218传输事件信息。在其他实施方案中,外围设备接口218仅
当存在显著事件(例如,接收到高于预先确定的噪声阈值的输入和/或接收到超过预先确定
的持续时间的输入)时才传输事件信息。
[0136] 在一些实施方案中,事件分类器270还包括命中视图确定模块272和/或活动事件识别器确定模块273。
[0137] 当触敏显示器212显示多于一个视图时,命中视图确定模块272提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能够在显示器上看到的
控件和其他元素构成。
[0138] 与应用程序相关联的用户界面的另一方面是一组视图,本文中有时也称为应用程序视图或用户界面窗口,在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的
(相应应用程序的)应用程序视图对应于应用程序的程序化分级结构或视图分级结构内的
程序化水平。例如,在其中检测到触摸的最低水平视图被称为命中视图,并且被认为是正确
输入的事件集至少部分地基于初始触摸的命中视图来确定,该初始触摸开始基于触摸的手
势。
[0139] 命中视图确定模块272接收与基于触摸的手势的子事件相关的信息。当应用程序具有在分级结构中组织的多个视图时,命中视图确定模块272将命中视图识别为应对子事
件进行处理的分级结构中的最低视图。在大多数情况下,命中视图是发起子事件(例如,形
成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中
视图被命中视图确定模块272识别,命中视图通常就接收与被识别为命中视图的同一触摸
或输入源相关的所有子事件。
[0140] 活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中,活动事件识别器确定模块273确定仅命中视图才应接收特
定子事件序列。在其他实施方案中,活动事件识别器确定模块273确定包括子事件的物理位
置的所有视图都是活跃参与的视图,并且由此确定所有活跃参与的视图都应接收特定子事
件序列。在其他实施方案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,
分级结构中的较高视图应当仍然保持为活跃参与的视图。
[0141] 事件分配器模块274将事件信息分配到事件识别器(例如,事件识别器280)。在包括活动事件识别器确定模块273的实施方案中,事件分配器模块274将事件信息递送到由活
动事件识别器确定模块273确定的事件识别器。在一些实施方案中,事件分配器模块274在
事件队列中存储事件信息,该事件信息由相应事件接收器282进行检索。
[0142] 在一些实施方案中,操作系统226包括事件分类器270。另选地,应用程序236-1包括事件分类器270。在另一个实施方案中,事件分类器270为独立模块,或者为被存储在存储
器202中的另一个模块(诸如接触/运动模块230)的一部分。
[0143] 在一些实施方案中,应用程序236-1包括多个事件处理程序290和一个或多个应用程序视图291,该应用程序视图中的每个包括用于处理发生在应用程序的用户界面的相应
视图内的触摸事件的指令。应用程序236-1的每个应用程序视图291包括一个或多个事件识
别器280。通常,相应应用程序视图291包括多个事件识别器280。在其他实施方案中,事件识
别器280中的一个或多个事件识别器是独立模块的一部分,该独立模块为诸如用户界面工
具包(未示出)或应用程序236-1从中继承方法和其他属性的较高级别的对象。在一些实施
方案中,相应事件处理程序290包括以下一者或多者:数据更新器276、对象更新器277、GUI
更新器278和/或从事件分类器270接收的事件数据279。事件处理程序290利用或调用数据
更新器276、对象更新器277或GUI更新器278来更新应用程序内部状态292。另选地,应用程
序视图291中的一个或多个应用程序视图包括一个或多个相应的事件处理程序290。另外,
在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278中的一个或多个包括
在相应的应用程序视图291中。
[0144] 相应的事件识别器280从事件分类器270接收事件信息(例如,事件数据279),并且从事件信息识别事件。事件识别器280包括事件接收器282和事件比较器284。在一些实施方
案中,事件识别器280还包括元数据283和事件传递指令288(其包括子事件传递指令)的至
少一个子集。
[0145] 事件接收器282接收来自事件分类器270的事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件,事件信息还包括附加信息,诸如子事件的位置。当
子事件涉及触摸的运动时,事件信息还包括子事件的速率和方向。在一些实施方案中,事件
包括设备从一个取向旋转到另一取向(例如,从纵向取向旋转到横向取向,或反之亦然),并
且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。
[0146] 事件比较器284将事件信息与预定义的事件或子事件定义进行比较,并且基于该比较,确定事件或子事件,或者确定或更新事件或子事件的状态。在一些实施方案中,事件
比较器284包括事件定义286。事件定义286包含事件的定义(例如,预定义的子事件序列),
例如事件1(287-1)、事件2(287-2)、以及其他事件。在一些实施方案中,事件287中的子事件
包括例如,触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中,事件1
(287-1)的定义是在显示的对象上的双击。例如,双击包括被显示对象上的预先确定时长的
第一次触摸(触摸开始)、预先确定时长的第一次抬离(触摸结束)、被显示对象上的预先确
定时长的第二次触摸(触摸开始)以及预先确定时长的第二次抬离(触摸结束)。在另一个示
例中,事件2(287-2)的定义是被显示对象上的拖动。例如,拖动包括被显示对象上的预先确
定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸的抬离(触摸结束)。在
一些实施方案中,事件还包括用于一个或多个相关联的事件处理程序290的信息。
[0147] 在一些实施方案中,事件定义287包括用于相应用程序户界面对象的事件的定义。在一些实施方案中,事件比较器284执行命中测试,以确定哪个用户界面对象与子事件相关
联。例如,在触敏显示器212上显示三个用户界面对象的应用程序视图中,当在触敏显示器
212上检测到触摸时,事件比较器284执行命中测试,以确定这三个用户界面对象中的哪一
个用户界面对象与该触摸(子事件)相关联。如果每个所显示的对象与相应的事件处理程序
290相关联,则事件比较器使用该命中测试的结果,以确定哪个事件处理程序290应当被激
活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。
[0148] 在一些实施方案中,相应事件287的定义还包括延迟动作,所述延迟动作延迟事件信息的递送,直到已确定子事件序列确实对应于或不对应于事件识别器的事件类型。
[0149] 当相应事件识别器280确定子事件系列不与事件定义286中的任何事件匹配时,该相应事件识别器280进入事件不可能、事件失败或事件结束状态,在此之后忽略基于触摸的
手势的后续子事件。在这种情况下,对于命中视图保持活动的其他事件识别器(如果有的
话)继续跟踪并处理持续进行的基于触摸的手势的子事件。
[0150] 在一些实施方案中,相应事件识别器280包括元数据283,所述元数据具有指示事件递送系统应该如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/
或列表。在一些实施方案中,元数据283包括指示事件识别器彼此如何交互或如何能够交互
的可配置属性、标志和/或列表。在一些实施方案中,元数据283包括指示子事件是否递送到
视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。
[0151] 在一些实施方案中,当识别事件的一个或多个特定子事件时,相应事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中,相应事件识别器280将与事件
相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送
(和延期发送)到相应命中视图。在一些实施方案中,事件识别器280发出与所识别的事件相
关联的标志,并且与该标志相关联的事件处理程序290获取该标志并执行预定义的过程。
[0152] 在一些实施方案中,事件递送指令288包括递送关于子事件的事件信息而无需激活事件处理程序的子事件递送指令。相反,子事件递送指令将事件信息递送到与子事件序
列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图
相关联的事件处理程序接收事件信息并执行预先确定的过程。
[0153] 在一些实施方案中,数据更新器276创建并更新在应用程序236-1中使用的数据。例如,数据更新器276对联系人模块237中所使用的电话号码进行更新,或者对视频播放器
模块中所使用的视频文件进行存储。在一些实施方案中,对象更新器277创建并更新在应用
程序236-1中使用的对象。例如,对象更新器277创建新用户界面对象或更新用户界面对象
的位置。GUI更新器278更新GUI。例如,GUI更新器278准备显示信息,并且将显示信息发送到
图形模块232用以显示在触敏显示器上。
[0154] 在一些实施方案中,一个或多个事件处理程序290包括数据更新器276、对象更新器277和GUI更新器278,或具有对该数据更新器、该对象更新器和该GUI更新器的访问权限。
在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程
序236-1或应用程序视图291的单个模块中。在其他实施方案中,它们被包括在两个或更多
个软件模块中。
[0155] 应当理解,上述关于触敏显示器上的用户触摸的事件处理的讨论还适用于利用输入设备操作多功能设备200的其他形式的用户输入,并不是所有用户输入都是在触摸屏上
发起的。例如,任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下;触控
板上的接触移动,诸如轻击、拖动、滚动等;触笔输入;设备的移动;口头指令;检测到的眼睛
移动;生物特征输入;和/或它们的任何组合任选地被用作对应于限定要识别的事件的子事
件的输入。
[0156] 图3示出了根据一些实施方案的具有触摸屏212的便携式多功能设备200。触摸屏任选地在用户界面(UI)300内显示一个或多个图形。在本实施方案中以及在下文中描述的
其他实施方案中,用户能够通过例如利用一个或多个手指302(在附图中没有按比例绘制)
或者利用一个或多个触笔303(在附图中没有按比例绘制)在图形上做出手势来选择这些图
形中的一个或多个图形。在一些实施方案中,当用户中断与一个或多个图形的接触时,将发
生对一个或多个图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次或
多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发生接触的手指的滚动
(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下,不经意地与图
形接触不选择图形。例如,当与选择对应的手势是轻击时,在应用程序图标上方扫动的轻扫
手势任选地不选择对应的应用程序。
[0157] 设备200还包括一个或多个物理按钮,诸如“home”或菜单按钮304。如前所述,菜单按钮304用于导航到在设备200上执行的一组应用程序中的任何应用程序236。另选地,在一
些实施方案中,菜单按钮实现为显示在触摸屏212上的GUI中的软键。
[0158] 在一些实施方案中,设备200包括触摸屏212、菜单按钮304、用于使设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮308、用户身份模块(SIM)卡槽
310、耳麦插孔312和对接/充电外部端口224。下压按钮306任选地用于通过压下该按钮并且
将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机;通过压下该按钮
并在该预定义的时间间隔过去之前释放该按钮来锁定设备;和/或对设备进行解锁或发起
解锁过程。在另选的实施方案中,设备200还通过麦克风213接受用于激活或去激活某些功
能的语音输入。设备200还任选地包括用于检测触摸屏212上的接触的强度的一个或多个接
触强度传感器265和/或用于为设备200的用户生成触觉输出的一个或多个触觉输出发生器
267。
[0159] 图4是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备400不必为便携式的。在一些实施方案中,设备400为膝上型计算机、台式计算机、平板
电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备
(例如,家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一
个或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个或多个通信总
线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有
时被叫做芯片组)。设备400包括具有显示器440的输入/输出(I/O)接口430,该显示器通常
是触摸屏显示器。I/O接口430还任选地包括键盘和/或鼠标(或其他指向设备)450以及触控
板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如,类似于以上参考图2A
所述的一个或多个触觉输出发生器267)、传感器459(例如,光学传感器、加速度传感器、接
近传感器、触敏传感器和/或类似于以上参考图2A所述的一个或多个接触强度传感器265的
接触强度传感器)。存储器470包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随
机存取固态存储器设备;并且任选地包括非易失性存储器,诸如一个或多个磁盘存储设备、
光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器470任选地包括远离
一个或多个CPU 410定位的一个或多个存储设备。在一些实施方案中,存储器470存储与便
携式多功能设备200(图2A)的存储器202中存储的程序、模块和数据结构类似的程序、模块
和数据结构或其子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中
不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选地存储绘图模块480、
呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488和/或电子表格模块
490,而便携式多功能设备200(图2A)的存储器202任选地不存储这些模块。
[0160] 图4中的上述元件中的每一者在一些示例中存储在一个或多个先前提到的存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例
如,指令集)不必被实现为独立的软件程序、过程或模块,因此这些模块的各种子集在各种
实施方案中组合或以其他方式重新布置。在一些实施方案中,存储器470存储上述模块和数
据结构的子组。此外,存储器470存储上文未描述的另外的模块和数据结构。
[0161] 现在将注意力转到可在例如便携式多功能设备200上实现的用户界面的实施方案。
[0162] 图5A示出了根据一些实施方案的便携式多功能设备200上的应用程序的菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方案中,用户界面500包括以
下元件或者其子集或超集:
[0163] 一种或多种无线通信(诸如蜂窝信号和Wi-Fi信号)的一个或多个信号强度指示器502;
[0164] ·时间504;
[0165] ·蓝牙指示器505;
[0166] ·电池状态指示器506;
[0167] ·具有常用应用程序的图标的托盘508,常用应用程序图标诸如:
[0168] ο电话模块238的被标记为“电话”的图标516,该图标任选地包括未接来电或语音留言的数量的指示符514;
[0169] ο电子邮件客户端模块240的被标记为“邮件”的图标518,该图标任选地包括未读电子邮件的数量的指示符510;
[0170] ο浏览器模块247的被标记为“浏览器”的图标520;以及
[0171] ο视频和音乐播放器模块252(也称为iPod(苹果公司(Apple Inc.)的商标)模块252)的被标记为“iPod”的图标522;以及
[0172] ·其他应用的图标,诸如:
[0173] οIM模块241的被标记为“消息”的图标524;
[0174] ο日历模块248的被标记为“日历”的图标526;
[0175] ο图像管理模块244的被标记为“照片”的图标528;
[0176] ο相机模块243的被标记为“相机”的图标530;
[0177] ο在线视频模块255的被标记为“在线视频”的图标532;
[0178] ο股市桌面小程序249-2的被标记为“股市”的图标534;
[0179] ο地图模块254的被标记为“地图”的图标536;
[0180] ο天气桌面小程序249-1的被标记为“天气”的图标538;
[0181] ο闹钟桌面小程序249-4的被标记为“时钟”的图标540;
[0182] ο健身支持模块242的被标记为“健身支持”的图标542;
[0183] ο记事本模块253的标记为“记事本”的图标544;以及
[0184] ο用于设置应用程序或模块的被标记为“设置”的图标546,该图标提供对设备200及其各种应用程序236的设置的访问。
[0185] 需注意,图5A中示出的图标标签仅是示例性的。例如,视频和音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。对于各种应用程序图标任选地使用其
他标签。在一些实施方案中,相应应用程序图标的标签包括与该相应应用程序图标对应的
应用程序的名称。在一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序
图标对应的应用程序的名称。
[0186] 图5B示出了具有与显示器550(例如,触摸屏显示器212)分开的触敏表面551(例如,图4的平板或触摸板455)的设备(例如,图4的设备400)上的示例性用户界面。设备400还
任选地包括用于检测触敏表面551上的接触的强度的一个或多个接触强度传感器(例如,传
感器457中的一个或多个传感器)和/或用于为设备400的用户生成触觉输出的一个或多个
触觉输出发生器459。
[0187] 尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输入给出随后的示例中的一些示例,但是在一些实施方案中,设备检测与显示器分开的触敏表面上的输
入,如图5B中所示。在一些实施方案中,触敏表面(例如,图5B中的551)具有与显示器(例如,
550)上的主轴(例如,图5B中的553)对应的主轴(例如,图5B中的552)。根据这些实施方案,
设备检测在与显示器上的相应位置对应的位置(例如,在图5B中,560对应于568并且562对
应于570)处的与触敏表面551的接触(例如,图5B中的560和562)。这样,在触敏表面(例如,
图5B中的551)与多功能设备的显示器(例如,图5B中的550)分开时,由设备在触敏表面上检
测到的用户输入(例如,接触560和562以及它们的移动)被该设备用于操纵显示器上的用户
界面。应当理解,类似的方法任选地用于本文所述的其他用户界面。
[0188] 另外,虽然主要是参考手指输入(例如,手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例,但是应当理解的是,在一些实施方案中,这些手指输入中的一个或多个
手指输入由来自另一输入设备的输入(例如,基于鼠标的输入或触笔输入)替代。例如,轻扫
手势任选地由鼠标点击(例如,而不是接触),之后是光标沿着轻扫的路径的移动(例如,而
不是接触的移动)替代。又如,轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标
点击(例如,代替对接触的检测,之后是停止检测接触)替代。类似地,当同时检测到多个用
户输入时,应当理解的是,多个计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被
同时使用。
[0189] 图6A示出了示例性个人电子设备600。设备600包括主体602。在一些实施方案中,设备600包括相对于设备200和400(例如,图2A-图4)所述的特征中的一些或全部特征。在一
些实施方案中,设备600具有在下文中称为触摸屏604的触敏显示屏604。作为触摸屏604的
替代或补充,设备600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方
案中,触摸屏604(或触敏表面)具有用于检测正在施加的接触(例如,触摸)的强度的一个或
多个强度传感器。触摸屏604(或触敏表面)的一个或多个强度传感器提供表示触摸的强度
的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应,这意味着不同强度的触
摸可调用设备600上的不同的用户界面操作。
[0190] 用于检测和处理触摸强度的技术可见于例如相关申请中:国际专利申请No.PCT/US2013/040061,标题为“Device,Method,and Graphical User Interface for 
Displaying User Interface Objects Corresponding to an Application(用于显示对
应于应用的用户界面对象的设备、方法和图形用户界面)”,2013年5月8日提交;以及国际专
利申请No.PCT/US2013/069483,标题为“Device,Method,and Graphical User Interface 
for Transitioning Between Touch Input to Display Output Relationships(用于触
摸输入到显示输出之间关系转换的设备、方法和图形用户界面)”,2013年11月11日提交,这
两个专利申请中的每个专利申请据此全文以引用方式并入本文。
[0191] 在一些实施方案中,设备600具有一个或多个输入机构606和608。输入机构606和608(如果包括的话)是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一
些实施方案中,设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将
设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱
包、背包等附接。这些附接机构允许用户穿戴设备600。
[0192] 图6B示出了示例性个人电子设备600。在一些实施方案中,设备600包括相对于图2A、图2B和图4所述的部件中的一些或全部部件。设备600具有总线612,该总线将I/O部分
614与一个或多个计算机处理器616和存储器618操作性地耦接。I/O部分614被连接到显示
器604,该显示器可具有触敏部件622并且任选地还具有触摸强度敏感部件624。此外,I/O部
分614与通信单元630连接,以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通
信技术来接收应用程序和操作系统数据。设备600包括输入机构606和/或608。例如,输入机
构606是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中,输入机
构608是按钮。
[0193] 在一些示例中,输入机构608是麦克风。个人电子设备600包括例如各种传感器,诸如GPS传感器632、加速度计634、方向传感器640(例如,罗盘)、陀螺仪636、运动传感器638
和/或其组合,所有这些设备均可操作性连接到I/O部分614。
[0194] 个人电子设备600的存储器618包括用于存储计算机可执行指令的一个或多个非暂态计算机可读存储介质,该指令当由一个或多个计算机处理器616执行时例如使得计算
机处理器执行上述技术和过程。该计算机可执行指令也例如在任何非暂态计算机可读存储
介质内进行存储和/或传送,以供指令执行系统、装置或设备诸如基于计算机的系统、包含
处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与
其结合。个人电子设备600不限于图6B的部件和配置,而是可包括多种配置的其他部件或附
加部件。
[0195] 如本文所用,术语“示能表示”是指例如在设备200、400、600和/或1008(图2A、图4、图6A至图6B以及图10)的显示屏上显示的用户交互式图形用户界面对象。例如,图像(例如,
图标)、按钮和文本(例如,超链接)各自构成示能表示。
[0196] 如本文所用,术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具体实施中,光标充当“焦点选择
器”,使得当光标在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)上方时
在触敏表面(例如,图4中的触摸板455或图5B中的触敏表面551)上检测到输入(例如,按压
输入)的情况下,该特定用户界面元素根据所检测到的输入加以调节。在包括能够实现与触
摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如,图2A中的触敏显示系统
212或图5A中的触摸屏212)的一些具体实施中,触摸屏上的所检测到的接触充当“焦点选择
器”,使得当在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界
面元素)的位置处检测到输入(例如,由接触进行的按压输入)时,该特定用户界面元素根据
所检测到的输入加以调节。在一些具体实施中,焦点从用户界面的一个区域移动到用户界
面的另一个区域,而无需光标的对应移动或触摸屏显示器上的接触的移动(例如,通过使用
制表键或箭头键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择器根
据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器所采取的具体形式,
焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如,通过向设
备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的
接触)。例如,在触敏表面(例如,触摸板或触摸屏)上检测到按压输入时,焦点选择器(例如,
光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显
示器上示出的其他用户界面元素)。
[0197] 如说明书和权利要求中所使用的,接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中,特征强度基于多个强度样本。特征强度任
选地基于相对于预定义事件(例如,在检测到接触之后,在检测到接触抬离之前,在检测到
接触开始移动之前或之后,在检测到接触结束之前,在检测到接触的强度增大之前或之后
和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1
秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。
接触的特征强度任选地基于以下各项中的一者或多者:接触强度的最大值、接触强度的均
值、接触强度的平均值、接触强度的前10%处的值、接触强度的半最大值、接触强度的90%
最大值等。在一些实施方案中,在确定特征强度时使用接触的持续时间(例如,在特征强度
是接触的强度在时间上的平均值时)。在一些实施方案中,将特征强度与一组一个或多个强
度阈值进行比较,以确定用户是否已执行操作。例如,该组一个或多个强度阈值包括第一强
度阈值和第二强度阈值。在该示例中,特征强度未超过第一阈值的接触导致第一操作,特征
强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作,而特征强度超过第二
阈值的接触导致第三操作。在一些实施方案中,使用特征强度与一个或多个阈值之间的比
较来确定是否要执行一个或多个操作(例如,是执行相应操作还是放弃执行相应操作),而
不是用于确定执行第一操作还是第二操作。
[0198] 在一些实施方案中,识别手势的一部分以用于确定特征强度。例如,触敏表面接收连续的轻扫接触,该连续的轻扫接触从起始位置过渡并到达结束位置,在该结束位置处,接
触的强度增加。在该示例中,接触在结束位置处的特征强度仅基于连续轻扫接触的一部分,
而不是整个轻扫接触(例如,仅轻扫接触在结束位置处的部分)。在一些实施方案中,在确定
接触的特征强度之前向轻扫手势的强度应用平滑算法。例如,平滑算法任选地包括以下各
项中的一种或多种:不加权滑动平均平滑算法、三角平滑算法、中值滤波器平滑算法和/或
指数平滑算法。在一些情况下,这些平滑算法消除了轻扫接触的强度中的窄的尖峰或凹陷,
以实现确定特征强度的目的。
[0199] 相对于一个或多个强度阈值诸如接触检测强度阈值、浅按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的强度。在一些实施方案
中,浅按压强度阈值对应于这样的强度:在该强度下设备将执行通常与点击物理鼠标或触
摸板的按钮相关联的操作。在一些实施方案中,深按压强度阈值对应于这样的强度:在该强
度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些
实施方案中,当检测到特征强度低于浅按压强度阈值(例如,并且高于标称接触检测强度阈
值,比标称接触检测强度阈值低的接触不再被检测到)的接触时,设备将根据接触在触敏表
面上的移动来移动焦点选择器,而不执行与浅按压强度阈值或深按压强度阈值相关联的操
作。一般来讲,除非另有陈述,否则这些强度阈值在不同组的用户界面附图之间是一致的。
[0200] 接触特征强度从低于浅按压强度阈值的强度增大到介于浅按压强度阈值与深按压强度阈值之间的强度有时被称为“浅按压”输入。接触特征强度从低于深按压强度阈值的
强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特征强度从低于接
触检测强度阈值的强度增大到介于接触检测强度阈值与浅按压强度阈值之间的强度有时
被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低
于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在一些实施方案中,
接触检测强度阈值为零。在一些实施方案中,接触检测强度阈值大于零。
[0201] 在本文中所述的一些实施方案中,响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作,其中至
少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到
相应按压输入。在一些实施方案中,响应于检测到相应接触的强度增大到高于按压输入强
度阈值(例如,相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中,按压输入
包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按
压输入强度阈值,并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如,
相应按压输入的“向上冲程”)来执行相应操作。
[0202] 在一些实施方案中,设备采用强度滞后以避免有时被称为“抖动”的意外输入,其中设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如,滞后强度
阈值比按压输入强度阈值低X个强度单位,或滞后强度阈值是按压输入强度阈值的75%、
90%或某个合理比例)。因此,在一些实施方案中,按压输入包括相应接触的强度增大到高
于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后
强度阈值,并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如,相应按
压输入的“向上冲程”)来执行相应操作。类似地,在一些实施方案中,仅在设备检测到接触
强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且
任选地接触强度随后减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于
检测到按压输入(例如,根据环境,接触强度增大或接触强度减小)来执行相应操作。
[0203] 为了容易解释,任选地,响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作
的描述:接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增
大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值和/或接触强
度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检
测到接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于检测到接触
的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。
[0204] 3.数字助理系统
[0205] 图7A示出根据各种示例的数字助理系统700的框图。在一些示例中,数字助理系统700在独立式计算机系统上实现。在一些示例中,数字助理系统700跨多个计算机分布。在一
些示例中,数字助理的模块和功能中的一些被划分成服务器部分和客户端部分,其中客户
端部分位于一个或多个用户设备(例如,设备104、122、200、400、600或1008)上并通过一个
或多个网络与服务器部分(例如,服务器系统108)通信,例如,如图1中所示。在一些示例中,
数字助理系统700是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指
出,数字助理系统700仅为数字助理系统的一个示例,且该数字助理系统700具有比所示更
多或更少的部件、组合两个或更多个部件,或者可具有部件的不同配置或布局。图7A中所示
的各种部件在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号
处理集成电路和/或专用集成电路),或其组合中实现。
[0206] 数字助理系统700包括存储器702、输入/输出(I/O)接口706、网络通信接口708,以及一个或多个处理器704。这些部件可通过一条或多条通信总线或信号线710彼此通信。
[0207] 在一些示例中,存储器702包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或
其他非易失性固态存储器设备)。
[0208] 在一些示例中,I/O接口706将数字助理系统700的输入/输出设备716诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。I/O接口706,与用户界面模块722结合,接
收用户输入(例如,语音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一
些示例中,例如,当数字助理在独立式用户设备上实现时,数字助理系统700包括分别相对
于图2A、图4、图6A至图6B以及图10中的设备200、400、600或1008所描述的部件和I/O通信接
口中的任一者。在一些示例中,数字助理系统700代表数字助理具体实施的服务器部分,并
且可通过位于用户设备(例如,设备104、200、400、600或1008)上的客户端部分与用户进行
交互。
[0209] 在一些示例中,网络通信接口708包括一个或多个有线通信端口712,以及/或者无线传输和接收电路714。一个或多个有线通信端口经由一个或多个有线接口例如以太网、通
用串行总线(USB)、火线等接收和发送通信信号。无线电路714从通信网络及其他通信设备
接收RF信号和/或光学信号以及将RF信号和/或光学信号发送至通信网络及其他通信设备。
无线通信使用多种通信标准、协议和技术中的任一种,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-
Fi、VoIP、Wi-MAX或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网
络,诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网
(MAN),与其他设备之间的通信成为可能。
[0210] 在一些示例中,存储器702或存储器702的计算机可读存储介质存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统718、通信模块720、用户界面模
块722、一个或多个应用程序724和数字助理模块726。具体地讲,存储器702或存储器702的
计算机可读存储介质存储用于执行上述过程的指令。一个或多个处理器704执行这些程序、
模块和指令,并从数据结构读取数据或将数据写到数据结构。
[0211] 操作系统718(例如,Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、
电源管理等)的各种软件组件和/或驱动器,并且有利于各种硬件、固件和软件组件之间的
通信。
[0212] 通信模块720促成数字助理系统700与其他设备之间通过网络通信接口708进行的通信。例如,通信模块720与电子设备诸如分别在图2A、图4、图6A至图6B中所示的设备200、
400或600的RF电路208通信。通信模块720还包括各种部件,用于处理由无线电路714和/或
有线通信端口712所接收的数据。
[0213] 用户界面模块722经由I/O接口706接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模
块722还准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将其经由
I/O接口706(例如,通过显示器、音频通道、扬声器、触控板等)传送给用户。
[0214] 应用程序724包括被配置为由所述一个或多个处理器704执行的程序和/或模块。例如,如果数字助理系统在独立式用户设备上实施,则应用程序724包括用户应用程序,诸
如游戏、日历应用程序、导航应用程序或邮件应用程序。如果数字助理系统700在服务器上
实现,则应用程序724包括例如资源管理应用程序、诊断应用程序或调度应用程序。
[0215] 存储器702还存储数字助理模块726(或数字助理的服务器部分)。在一些示例中,数字助理模块726包括以下子模块或者其子集或超集:输入/输出处理模块728、语音转文本
(STT)处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务
处理模块738和语音合成处理模块740。这些模块中的每一者均具有对以下数字助理模块
726的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:本体论760、词汇
索引744、用户数据748、任务流模型754、服务模型756和ASR系统758。
[0216] 在一些示例中,使用在数字助理模块726中实现的处理模块、数据和模型,数字助理可执行以下中的至少一些:将语音输入转换成文本;识别在从用户接收的自然语言输入
中表达的用户意图;主动引出并获得完全推断用户意图所需的信息(例如,通过消除字词、
姓名、意图的歧义等);确定用于满足推断出的意图的任务流;以及执行该任务流以满足推
断出的意图。
[0217] 在一些示例中,如图7B中所示,I/O处理模块728可通过图7A中的I/O设备716与用户交互或通过图7A中的网络通信接口708与用户设备(例如,设备104、设备200、设备400或
设备600)交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语
音输出)。I/O处理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地
获得与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数
据、词汇和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户
请求时的用户设备的软件状态和硬件状态和/或在接收到用户请求时与用户的周围环境相
关的信息。在一些示例中,I/O处理模块728还向用户发送与用户请求有关的跟进问题,并从
用户接收回答。在用户请求被I/O处理模块728接收且用户请求包括语音输入时,I/O处理模
块728将语音输入转发至STT处理模块730(或语音识别器)以进行语音文本转换。
[0218] STT处理模块730包括一个或多个ASR系统758。该一个或多个ASR系统758可处理通过I/O处理模块728接收到的言语输入,以产生识别结果。每个ASR系统758可包括前端言语
预处理器。前端语音预处理器从语音输入中提取代表性特征。例如,前端语音预处理器对语
音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。另
外,每个ASR系统758包括一个或多个言语识别模型(例如,声学模型和/或语言模型)并且实
现一个或多个言语识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深
层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例包括基于动态时间
规整的引擎和基于加权有限状态变换器(WFST)的引擎。使用一个或多个语音识别模型和一
个或多个语音识别引擎来处理前端语音预处理器的所提取的代表性特征以产生中间识别
结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串或符
号序列)。在一些示例中,语音输入至少部分地由第三方服务处理或在用户的设备(例如,设
备104、设备200、设备400或设备600)上处理,以产生识别结果。一旦STT处理模块730产生包
含文本串(例如,字词,或字词的序列,或符号序列)的识别结果,识别结果就被传送至自然
语言处理模块732以供意图推断。在一些示例中,STT处理模块730产生言语输入的多个候选
文本表示。每个候选文本表示是与语音输入对应的字词或符号的序列。在一些示例中,每个
候选文本表示与言语识别置信度得分相关联。基于语音识别置信度得分,STT处理模块730
对候选文本表示进行排序并将n个最佳(例如,n个排名最高)候选文本表示提供给自然语言
处理模块732以供意图推断,其中n为大于零的预先确定的整数。例如,在一个示例中,仅将
排名最高的(n=1)候选文本表示递送至自然语言处理模块732以供意图推断。又如,将5个
排名最高的(n=5)候选文本表示传递给自然语言处理模块732以供意图推断。
[0219] 有关语音转文本处理的更多细节在提交于2011年9月20日的名为“Consolidating Speech Recognition Results(巩固语音识别结果)”的美国实用新型专利申请序列号13/
236,942中有所描述,其全部公开内容以引用方式并入本文。
[0220] 在一些示例中,STT处理模块730包括可识别字词的词汇和/或经由语音字母转换模块731访问该词汇。每个词汇字词与语音识别语音字母表中表示的字词的一个或多个候
选发音相关联。具体地讲,可识别字词的词汇包括与多个候选发音相关联的字词。例如,该
词汇包括与 和 的候选发音相关联的字词“tomato”。另外,词汇字词
与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音存储在
STT处理模块730中,并且经由设备上的用户配置文件与特定用户相关联。在一些示例中,字
词的候选发音基于字词的拼写以及一个或多个语言学和/或语音学规则确定。在一些示例
中,候选发音手动生成,例如,基于已知的标准发音而手动生成。
[0221] 在一些示例中,基于候选发音的普遍性来对候选发音进行排名。例如,候选语音的排序高于 因为前者是更常用的发音(例如,在所有用户中,对于
特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,基于
候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排序。例如,自定义候
选发音的排名高于标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名
词。在一些示例中,候选发音与一个或多个语音特征(诸如地理起源、国家或种族)相关联。
例如,候选发音 与美国相关联,而候选发音 与英国相关联。此外,候
选发音的排序基于存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理
起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国
相关联,候选发音 (与美国相关联)可比候选发音 (与英国相关联)
排名更高。在一些示例中,经排序的候选发音中的一个可被选作预测发音(例如,最可能的
发音)。
[0222] 接收到语音输入时,STT处理模块730被用来(例如,使用声音模型)确定对应于该语音输入的音素,然后尝试(例如,使用语言模型)确定匹配该音素的字词。例如,如果STT处
理模块730首先识别对应于该语音输入的一部分的音素序列 那么它随后可基
于词汇索引744确定该序列对应于字词“tomato”。
[0223] 在一些示例中,STT处理模块730使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块730确定音素序列 对应于字词“tomato”,即使该特定音素序列
不是该字词的候选音素序列。
[0224] 数字助理的自然语言处理模块732(“自然语言处理器”)获取由STT处理模块730生成的n个最佳候选文字表示(“字词序列”或“符号序列”),并尝试将候选文本表示中的每个
与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”(或“用户意图”)表
示可由数字助理执行并且可具有在任务流模型754中实现的相关联的任务流的任务。相关
联任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力
范围取决于已在任务流模型754中实现并存储的任务流的数量和种类,或换言之,取决于数
字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还取决于助理从以
自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。
[0225] 在一些示例中,除从STT处理模块730获取的字词或符号的序列之外,自然语言处理模块732还(例如,从I/O处理模块728)接收与用户请求相关联的上下文信息。自然语言处
理模块732任选地使用上下文信息来明确、补充和/或进一步限定在从STT处理模块730接收
的候选文本表示中包含的信息。上下文信息包括例如用户偏好,用户设备的硬件和/或软件
状态,在用户请求之前、期间或之后不久收集的传感器信息,数字助理与用户之间的先前交
互(例如,对话),等等。如本文所述,在一些示例中,上下文信息是动态的,并且随对话的时
间、位置、内容、以及其他因素而变化。
[0226] 在一些示例中,自然语言处理基于例如本体论760。本体论760为包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相
关的“属性”。如上所述,“可执行意图”表示数字助理能够执行的任务,即,该任务为“可执行
的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。本体论
760中可执行意图节点与属性节点之间的连接定义由属性节点表示的参数如何从属于由可
执行意图节点表示的任务。
[0227] 在一些示例中,本体论760由可执行意图节点和属性节点组成。在本体论760内,每个可执行意图节点直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节
点。类似地,每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个
可执行意图节点。例如,如图7C所示,本体论760包括“餐厅预订”节点(即,可执行意图节
点)。属性节点“餐厅”、“日期/时间”(针对预订)和“同行人数”均直接连接至可执行意图节
点(即,“餐厅预订”节点)。
[0228] 此外,属性节点“菜系”、“价格区间”、“电话号码”和“位置”是属性节点“餐厅”的子节点,并且均通过中间属性节点“餐厅”连接至“餐厅预订”节点(即,可执行意图节点)。又
如,如图7C所示,本体论760还包括“设定提醒”节点(即,另一个可执行意图节点)。属性节点
“日期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒”节点。由于属性“日
期/时间”与进行餐厅预订的任务和设定提醒的任务二者相关,因此属性节点“日期/时间”
连接至本体论760中的“餐厅预订”节点和“设定提醒”节点二者。
[0229] 可执行意图节点连同其链接的属性节点一起,被描述为“域”。在本讨论中,每个域与相应的可执行意图相关联,并涉及与特定可执行意图相关联的一组节点(以及这些节点
之间的关系)。例如,图7C中示出的本体论760包括在本体论760内的餐厅预订域762的示例
以及提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日
期/时间”和“同行人数”以及子属性节点“菜系”、“价格区间”、“电话号码”和“位置”。提醒域
764包括可执行意图节点“设定提醒”和属性节点“主题”和“日期/时间”。在一些示例中,本
体论760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除了
餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不同域(例如,行程安排
域、旅行预订域、电影票域等)相关联。
[0230] 尽管图7C示出本体论760内的两个示例性域,但其他域包括例如“查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发送消息”以及“提供问题的回答”、“阅读列表”、
“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点
相关联,并且进一步包括属性节点诸如“一个或多个接收人”、“消息类型”和“消息正文”。属
性节点“接收人”进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来限定。
[0231] 在一些示例中,本体论760包括数字助理能够理解并对其起作用的所有域(以及因而可执行意图)。在一些示例中,本体论760诸如通过添加或移除整个域或节点,或者通过修
改本体论760内的节点之间的关系进行修改。
[0232] 在一些示例中,将与多个相关可执行意图相关联的节点群集在本体论760中的“超级域”下。例如,“旅行”超级域包括与旅行相关的属性节点和可执行意图节点的群集。与旅
行相关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“获取路线”、“寻找兴
趣点”,等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点具有多个共用的属性
节点。例如,针对“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”和“寻找感兴趣的点”的
可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”
和“同行人数”中的一者或多者。
[0233] 在一些示例中,本体论760中的每个节点与跟由节点代表的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语是所谓的与
节点相关联的“词汇”。将与每个节点相关联的相应组的字词和/或短语存储在与由节点所
代表的属性或可执行意图相关联的词汇索引744中。例如,返回图7B,与“餐厅”属性的节点
相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”
等。又如,与“发起电话呼叫”可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、
“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包
括不同语言的字词和短语。
[0234] 自然语言处理模块732接收来自STT处理模块730的候选文本表示(例如,一个或多个文本字符串或一个或多个符号序列),并针对每个候选表示,确定候选文本表示中的字词
涉及哪些节点。在一些示例中,如果发现候选文本表示中的字词或短语(经由词汇索引744)
与本体论760中的一个或多个节点相关联,则所述字词或短语“触发”或“激活”这些节点。基
于已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意图中的一个可
执行意图作为用户意图使数字助理执行的任务。在一些示例中,选择具有最多“已触发”节
点的域。在一些示例中,选择具有最高置信度(例如,基于其各个已触发节点的相对重要性)
的域。在一些示例中,基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在
选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请
求。
[0235] 用户数据748包括特定于用户的信息,诸如特定于用户的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表,以及每位用户的其他短期或长期信
息。在一些示例中,自然语言处理模块732使用特定于用户的信息来补充用户输入中所包含
的信息以进一步限定用户意图。例如,针对用户请求“邀请我的朋友参加我的生日派对”,自
然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”应当于
何时何地举行,而不需要用户在其请求中明确地提供此类信息。
[0236] 应认识到,在一些示例中,利用一个或多个机器学习机构(例如,神经网络)来实现自然语言处理模块732。具体地,一个或多个机器学习机构被配置为接收候选文本表示和与
候选文本表示相关联的上下文信息。基于候选文本表示和相关联的上下文信息,一个或多
个机器学习机构被配置为基于一组候选可执行意图确定意图置信度得分。自然语言处理模
块732可基于所确定的意图置信度得分从一组候选可执行意图中选择一个或多个候选可执
行意图。在一些示例中,还利用本体论(例如,本体论760)从一组候选可执行意图中选择一
个或多个候选可执行意图。
[0237] 基于符号串搜索本体论的其他细节在2008年12月22日提交的名为“Method and Apparatus for Searching Using An Active Ontology(使用主动本体论用于搜索的方法
和装置)”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用
方式并入本文。
[0238] 在一些示例中,一旦自然语言处理模块732基于用户请求识别出可执行意图(或域),自然语言处理模块732就生成结构化查询以表示所识别的可执行意图。在一些示例中,
结构化查询包括针对可执行意图的域内的一个或多个节点的参数,并且所述参数中的至少
一些参数填充有用户请求中指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上
7点的座位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地
识别为“餐厅预订”。根据本体论,“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时
间}、{日期}、{同行人数}等。在一些示例中,基于语音输入和使用STT处理模块730从语音输
入得出的文本,自然语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构
化查询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该示例中,用户话语
包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询
中未指定其他必要参数诸如{同行人数}和{日期}。在一些示例中,自然语言处理模块732用
所接收的上下文信息来填充结构化查询的一些参数。例如,在一些示例中,如果请求“附近
的”寿司店,自然语言处理模块732用来自用户设备的GPS坐标来填充结构化查询中的{位
置}参数。
[0239] 在一些示例中,自然语言处理模块732识别针对从STT处理模块730所接收的每个候选文本表示的多个候选可执行意图。另外,在一些示例中,针对每个所识别的候选可执行
意图生成相应的结构化查询(部分地或全部地)。自然语言处理模块732确定针对每个候选
可执行意图的意图置信度得分,并基于意图置信度得分对候选可执行意图进行排序。在一
些示例中,自然语言处理模块732将所生成的一个或多个结构化查询(包括任何已完成的参
数)传送至任务流处理模块736(“任务流处理器”)。在一些示例中,针对m个最佳(例如,m个
排名最高的)候选可执行意图的一个或多个结构化查询被提供给任务流处理模块736,其中
m为预先确定的大于零的整数。在一些示例中,将针对m个最佳候选可执行意图的一个或多
个结构化查询连同对应的候选文本表示提供给任务流处理模块736。
[0240] 基于根据语音输入的多个候选文本表示所确定的多个候选可执行意图推断用户意图的其他细节在2014年6月6日提交的名称为“System and Method for Inferring User 
Intent From Speech Inputs”(用于从语音输入推断用户意图的系统和方法)的美国实用
新型专利申请No.14/298,725中有所描述,其全部公开内容以引用方式并入本文。
[0241] 任务流处理模块736被配置为接收来自自然语言处理模块732的一个或多个结构化查询,(必要时)完成结构化查询,以及执行“完成”用户最终请求所需的动作。在一些示例
中,完成这些任务所必需的各种过程在任务流模型754中提供。在一些示例中,任务流模型
754包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作
的任务流。
[0242] 如上所述,为了完成结构化查询,任务流处理模块736需要发起与用户的附加对话,以便获取附加信息和/或弄清可能有歧义的话语。当有必要进行此类交互时,任务流处
理模块736调用对话流处理模块734来参与同用户的对话。在一些示例中,对话流处理器模
块734确定如何(和/或何时)向用户请求附加信息,并且接收和处理用户响应。通过I/O处理
模块728将问题提供给用户并从用户接收回答。在一些示例中,对话处理模块734经由音频
和/或视频输出向用户呈现对话输出,并接收经由口头或物理(例如,点击)响应的来自用户
的输入。继续上述示例,在任务流处理模块736调用对话流处理模块734来确定针对与域“餐
厅预订”相关联的结构化查询的“同行人数”和“日期”信息时,对话流处理模块734生成诸如
“一行几位?”和“预订哪天?”之类的问题传递给用户。一旦收到来自用户的回答,对话流处
理模块734就用缺失信息填充结构化查询,或将信息传递给任务流处理模块736以根据结构
化查询完成缺失信息。
[0243] 一旦任务流处理模块736已针对可执行意图完成结构化查询,任务流处理模块736就开始执行与可执行意图相关联的最终任务。因此,任务流处理模块736根据结构化查询中
包含的特定参数来执行任务流模型中的步骤和指令。例如,针对可执行意图“餐厅预订”的
任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定同行人数的预订的步骤
和指令。例如,使用结构化查询诸如:餐厅预订、{餐厅=ABC咖啡馆、日期=3/12/2012、时间
=7pm、同行人数=5},任务流处理模块736可执行以下步骤:(1)登录ABC咖啡馆的服务器或
诸如 的餐厅预订系统,(2)以网站上的形式输入日期、时间和同行人数信
息,(3)提交表单,以及(4)在用户的日历中形成针对预订的日历条目。
[0244] 在一些示例中,任务流处理模块736在服务处理模块738(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处
理模块738代表任务流处理模块736发起电话呼叫、设定日历条目、调用地图搜索、调用用户
设备上安装的其他用户应用程序或与所述其他应用程序进行交互,以及调用第三方服务
(例如,餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务进行交互。在一些
示例中,通过服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接
口(API)。服务处理模块738针对服务访问适当的服务模型,并依据服务模型根据该服务所
需的协议和API生成针对该服务的请求。
[0245] 例如,如果餐厅已启用在线预订服务,则餐厅提交服务模型,该服务模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的API。在被任务流处理模块736
请求时,服务处理模块738可使用存储在服务模型中的Web地址来建立与在线预订服务的网
络连接,并将预订的必要参数(例如,时间、日期、同行人数)以根据在线预订服务的API的格
式发送至在线预订界面。
[0246] 在一些示例中,自然语言处理模块732、对话处理模块734以及任务流处理模块736被共同且反复地使用,以推断并限定用户的意图、获取信息以进一步明确并细化用户意图、
并最终生成响应(即,输出至用户,或完成任务)以满足用户的意图。所生成的响应是至少部
分地满足用户意图的对语音输入的对话响应。另外,在一些示例中,所生成的响应被输出为
语音输出。在这些示例中,所生成的响应被发送到语音合成处理模块740(例如,语音合成
器),在语音合成处理模块中,可处理所生成的响应以将对话响应以语音形式合成。在其他
示例中,所生成的响应是与满足语音输入中的用户请求相关的数据内容。
[0247] 在任务流处理模块736接收到来自自然语言处理模块732的多个结构化查询的示例中,任务流处理模块736首先处理所接收结构化查询的第一结构化查询以试图完成第一
结构化查询和/或执行由第一结构化查询所表示的一个或多个任务或动作。在一些示例中,
第一结构化查询对应于排名最高的可执行意图。在其他示例中,第一结构化查询选自基于
对应的语音识别置信度得分和对应的意图置信度得分的结合所接收的结构化查询。在一些
示例中,如果任务流处理模块736在第一结构化查询的处理期间(例如,由于无法确定必要
的参数)遇到错误,任务流处理模块736可继续选择和处理所接收结构化查询的与排名较低
的可执行意图对应的第二结构化查询。例如基于对应候选文本表示的语音识别置信度得
分、对应候选可执行意图的意图置信度得分、第一结构化查询中的缺失必要参数或它们的
任何组合来选择第二结构化查询。
[0248] 语音合成处理模块740被配置为合成用于呈现给用户的语音输出。语音合成处理模块740基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应是文本串的形
式。语音合成处理模块740将文本串转换成可听语音输出。语音合成处理模块740使用任何
适当语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单元选择合成、双
音素合成、域特定合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成,以及正
弦波合成。在一些示例中,语音合成处理模块740被配置为基于对应于这些字词的音素串来
合成各个字词。例如,音素串与所生成的对话响应中的字词相关联。音素串存储在与字词相
关联的元数据中。语音合成处理模型740被配置为直接处理元数据中的音素串,以合成语音
形式的字词。
[0249] 在一些示例中,替代使用语音合成处理模块740(或除此之外),在远程设备(例如,服务器系统108)上执行语音合成,并且将合成的语音发送至用户设备以输出给用户。例如,
这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。而且由于服务器
系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获得比客户端合成应当
实现的质量更高的语音输出。
[0250] 有关数字助理的另外细节可见于:美国实用新型专利申请No.12/987,982,名称为“Intelligent Automated Assistant(智能自动化助理”,2011年1月10日提交;和美国实用
新型专利申请No.13/251,088,名称为“Generating and Processing Task Items That 
Represent Tasks to Perform(生成和处理代表要执行的任务的任务项)”,2011年9月30日
提交,其全部公开内容以引用方式并入本文。
[0251] 4.用于检测数字助理的触发的过程
[0252] 图8示出了根据各种示例的用于检测数字助理的触发的过程800。例如使用实现数字助理的一个或多个电子设备来执行过程800。在一些示例中,使用客户端-服务器系统(例
如,系统100)来执行过程800,并且在服务器(例如,DA服务器106)和客户端设备之间以任何
方式来划分过程800的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智
能手表)之间划分过程800的框。因此,虽然过程800的部分在本文中被描述为由客户端-服
务器系统的特定设备执行,但应当理解,过程800不限于此。在其他示例中,仅使用客户端设
备(例如,用户设备104)或仅使用多个客户端设备来执行过程800。在过程800中,一些框被
任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可以
结合过程800来执行额外的步骤。
[0253] 在框802处,电子设备在电子设备的多个麦克风中的每一个处对音频信号进行采样以获得多个音频信号。在一些示例中,多个麦克风中的第一麦克风与第一方向相关联(例
如,被配置为面向第一方向),并且多个麦克风中的第二麦克风与不同于第一方向的第二方
向相关联(例如,被配置为面向第二方向)。例如,电子设备可包括六个麦克风,并且六个麦
克风中的每一个可面向不同的方向并对来自该方向的音频信号进行采样,从而总共获得六
个样本音频信号。在一些示例中,电子设备可以是电话、膝上型计算机、台式计算机、平板电
脑、可穿戴设备(例如,智能手表)、扬声器、机顶盒、电视、家庭自动化设备(例如,恒温器)或
者其任何组合或子组合。
[0254] 多个音频信号可包括由用户发出的用于触发数字助理的语音触发(例如,“嗨西丽”),在一些示例中,随后是针对数字助理的请求(例如,“天气怎么样?”)。多个音频信号还
可包括干扰信号,包括但不限于:来自竞争说话者(例如,物理上接近电子设备的用户以外
的人)的语音、来自噪声源(例如,房间中的电视)的音频输出、混响等。参考图10,例如电子
设备1008通过多个麦克风对多个音频信号进行采样,这些音频信号包括来自用户1000的自
然语言语音输入1034(“嗨西丽,天气怎么样?”)以及来自电子设备1006的音频输出1036
(“下面是历史频道”)。
[0255] 在框804处,电子设备处理多个音频信号以获得多个音频流。在一些示例中,处理每个音频信号以获得相应的音频流。在其他示例中,处理多个音频信号以获得多个音频流
的音频流。在一些示例中,多个音频流包括一个或多个音频波束。例如,电子设备处理多个
音频信号以获得多个音频波束的单个音频波束(例如,通过波束形成技术)。在一些示例中,
使用源分离技术来获得多个音频波束中的至少一个音频波束。例如,当存在多个活动音频
源(例如,用户以及物理上接近电子设备的一个或多个竞争说话者)时,电子设备能够在干
扰源的方向上转向空间零点,以便从感兴趣的源获得音频的独立表示。参考图10,例如电子
设备1008可在电子设备1006(电视)的方向上转向空间零点,以便从用户1000获得语音输入
1034的独立表示。
[0256] 在一个示例性具体实施中,电子设备具有六个麦克风,麦克风中的每个对音频信号进行采样,并处理六个音频信号以获得六个音频波束。应当理解,电子设备可基于六个音
频信号获得更多或更少音频波束。
[0257] 在一些示例中,电子设备修改多个音频波束中的至少一个音频波束,以便在随后的语音识别分析中获得更好的语音识别结果。在一些示例中,音频波束的修改基于电子设
备的硬件配置、电子设备的软件配置、音频波束的音频特性和/或用于处理音频波束的语音
识别器。例如,如果已经基于与由特定类型的麦克风(例如,与电子设备的麦克风不同)采样
的近场语音音频相对应的数据训练了用于处理音频波束的语音识别器(例如,STT处理模块
730),则电子设备可以修改音频波束,由此使得音频波束呈现由特定类型的麦克风采样的
近场语音的音频特性(例如,通过使由硬件配置、软件配置和/或特定于电子设备的环境因
素引起的音频波束的特性和/或方面最小化)。在一些示例中,电子设备进一步调节音频波
束以使混响、失真和/或回声最小化。在调节音频波束之后,电子设备将多个音频波束传递
到语音识别器以进行语音识别。
[0258] 在框806处,电子设备基于多个音频流(例如,音频波束)确定多个音频信号中的任一个是否对应于语音触发(例如,“嗨西丽”)。在一些示例中,确定多个音频信号中的任一个
是否对应于语音触发包括确定多个音频流中的每一个是否包括语音触发。在一些其他示例
中,确定多个音频信号中的任一个是否对应于语音触发包括确定多个音频流的任何组合或
子组合是否包括语音触发。在一些示例中,多个音频流中的每一个与方向信息相关联,并且
电子设备基于该方向信息确定多个音频信号中的任一个是否对应于语音触发。例如,电子
设备可基于多个音频流的方向信息将多个音频流组合成单个音频流(例如,单个音频波
束),并确定该单个音频流是否包括语音触发。
[0259] 在一些示例中,电子设备基于一个或多个置信得分(或触发得分)确定多个音频信号中的任一个是否对应于语音触发。电子设备可以获得与多个音频流中的一个或多个音频
流相对应的一个或多个触发得分。触发得分表示触发短语(例如,“嗨西丽”)包括在音频流
中的置信水平。例如,如果电子设备对音频流执行语音识别分析(例如,使用STT处理模块
730)并获得触发短语作为识别结果,则电子设备可以作为语音识别过程的一部分将语音识
别置信得分分配给识别结果。触发得分可以基于语音识别置信得分。在一些示例中,电子设
备将多个音频流中的每一个提供给神经网络以获得相应的触发得分。
[0260] 参考图10,电子设备1008检测包括语音输入1034(“嗨西丽,天气怎么样?”)的音频流中的触发短语“嗨西丽”,并为识别结果分配第一触发得分。此外,电子设备1008检测包括
音频1036(“下面是历史频道”)的另一音频流中的触发短语“嗨西丽”,并为识别结果分配第
二触发得分(例如,低于第一触发得分)。基于一个或多个触发得分,电子设备确定多个音频
信号中的任一个是否对应于语音触发。例如,电子设备确定音频信号包括语音触发,因为最
高触发得分超过预定阈值。
[0261] 在一些示例中,电子设备基于与电子设备的用户(例如,被授权访问数字助理的用户)相关联的声学信息确定多个音频信号中的任一个是否对应于语音触发。例如,电子设备
可以提示并从用户接收样本话语(例如,作为数字助理的设置过程或配置过程的一部分),
并且基于该样本话语获得与用户相关联的声学信息。此后,在获得音频流之后,电子设备可
以通过例如确定所识别语音的声学特性(例如,韵律特性、频率、音量、音量一致性)是否与
与用户相关联的声学信息一致来确定音频流包括来自用户的语音的可能性。例如,参考图
10,电子设备1008可确定包括语音输入1034(“嗨西丽,天气怎么样?”)的音频波束包括触发
短语,因为语音输入的声学特性与与用户1000相关联的声学信息匹配。此外,电子设备1008
可确定包括音频1036(“下面是历史频道”)的另一音频流不包括触发短语,因为音频1036的
声学特性与与用户1000相关联的声学信息不匹配。以这种方式,电子设备使与电子设备无
关联(例如,未被授权访问电子设备)的说话者触发数字助理的情况最小化。特定于用户的
声学模型的其他描述在下述文献中提供:美国专利申请No.62/505,680,“USER-SPECIFIC 
ACOUSTIC MODELS(特定于用户的声学模型)”,2017年5月12日提交,,该专利申请据此全文
以引用方式并入。美国专利申请No.62/505,680描述了用于尤其是基于语音输入和由独立
于用户的声学模型提供的语音结果来调节特定于用户的声学模型的示例性技术。
[0262] 在一些示例中,电子设备通过对一个或多个音频流(例如,音频波束)执行语音识别和/或自然语言处理来确定多个音频信号中的任一个是否对应于语音触发。例如,电子设
备可以对一个或多个音频流执行语音识别分析,以获得一个或多个语音识别结果(例如,多
个字词)。此外,电子设备可以对语音识别结果执行自然语言处理,以获得一个或多个解析
结果(例如,语义解析、句法解析)。此外,电子设备可以对语音识别结果执行自然语言处理,
以获得一个或多个可执行意图(或用户意图的表示)。另外,对于多个所识别字词中的至少
一个,电子设备可以获得指示所发出字词的声学特性和/或与所发出字词相关联的方向的
信息。
[0263] 此后,电子设备可以基于上述信息(例如,一个或多个所识别字词、一个或多个解析结果、一个或多个意图、与字词相关联的方向、与字词相关联的声学特性)确定多个音频
信号中的任一个是否对应于语音触发。在一些示例中,基于多个字词,电子设备可以确定特
定序列中的多个字词的特定组合(或子组合)是否在语义上有意义(例如,符合句法规则和/
或语法规则)。此外,电子设备可以确定多个字词的特定组合(或子组合)是否与同一音频源
相关联(例如,与同一方向相关联)。此外,电子设备可以确定多个字词的特定组合(或子组
合)是否指示授权说话者(例如,具有与电子设备的用户的音频特性一致的音频特性)。此
外,电子设备可以确定多个字词的特定组合(或子组合)是否对应于由数字助理识别的可执
行意图。
[0264] 在一些示例中,如果从多个音频流中识别的多个字词(或其组合或子组合)在语义上有意义、与同一音频源相关联、与同一说话者相关联并且/或者对应于数字助理的可执行
意图,则电子设备确定多个音频信号对应于语音触发。例如,参考图10,电子设备1008获得
包括音频1036(“下面是历史频道”)的音频波束,并确定该音频波束不包括数字助理的触
发,至少因为该音频不具有与用户1000的音频特性一致的音频特性并且/或者不对应于由
数字助理识别的可执行意图。
[0265] 在一些示例中,电子设备通过将一个或多个候选音频流提供给验证器以进行进一步分析来确定多个音频信号中的任一个是否对应于语音触发。在一些示例中,从多个音频
流中,电子设备识别一组候选音频流,候选音频流中的每个由电子设备确定以包括语音触
发(例如,具有不同的置信水平)。在识别该组候选音频流之后,电子设备将该组候选音频流
中的一个或多个候选音频流提供给验证器(例如,在远程设备上)。在一些示例中,验证器包
括一个或多个软件模块。在一些示例中,验证器在电子设备上、在一个或多个远程电子设备
上或其组合上实现。在一些示例中,验证器的至少一部分由电子设备本地提供,并且电子设
备将对应于该组候选音频流的数据传递到电子设备上的软件模块。在一些其他示例中,验
证器的至少一部分由远程电子设备(例如,DA服务器106)提供,并且电子设备将对应于该组
候选音频流的数据发送到远程电子设备。此后,电子设备从验证器获得验证信息。
[0266] 在一些示例中,一个或多个候选音频流(提供给验证器)是该组候选音频流的子集,并且电子设备使用一个或多个预定标准从该组候选音频流中选择一个或多个候选音频
流。例如,电子设备可以基于与一个或多个候选音频流相关联的相应触发得分来选择一个
或多个候选音频流(例如,向验证器提供具有最高触发得分的候选音频流)。作为另一个示
例,电子设备可以基于与一个或多个候选音频流相关联的相应熵信息来选择一个或多个候
选音频流(例如,向验证器提供具有最高熵的候选音频流)。可基于与由电子设备的STT处理
模块提供的与语音触发相关的一个或多个输出(例如,与触发短语“嗨西丽”相关的后验概
率)来计算与候选音频流相关联的熵信息(例如,使用STT处理模块730的深度神经网络模
型)。在一些示例中,输出指示在音频流中如何“清晰地”表示触发短语。作为又一个示例,电
子设备可以基于电子设备从候选音频流中的每个中检测到触发的相应时间来选择一个或
多个候选音频流。例如,如果电子设备在确定第二候选音频流包括语音触发之前确定第一
候选音频流包括语音触发,则电子设备可向验证器提供第一候选音频流,而不是第二候选
音频流。
[0267] 在框808处,根据确定多个音频信号对应于语音触发,电子设备发起数字助理的会话。在一些示例中,电子设备通过提供由数字助理输出的音频(例如,“是?”)并且/或者开始
对附加音频输入进行采样来发起数字助理的会话。在一些示例中,数字助理基于与多个音
频流相关联的方向信息来提供音频输出。例如,如果电子设备检测到多个音频流(音频流中
的每个与方向信息相关联)中的特定音频流中的语音触发,则电子设备可以选择面向与该
特定音频流相关联的方向的说话者。在框810处,根据确定多个音频信号不对应于语音触
发,电子设备放弃发起数字助理的会话。
[0268] 在一些示例中,根据确定多个音频信号对应于语音触发,电子设备识别多个音频流中的音频流的第一段,识别该音频流的第二段,并确定第一段和第二段是否对应于同一
用户。在一些示例中,电子设备通过将与第一段相关联的声学信息与与第二段相关联的声
学信息进行比较来确定第一段和第二段是否对应于同一用户。例如,参考图10,电子设备可
以识别第一段“嗨西丽,天气”和第二段“怎么样”,并基于相似的声学特性确定这两段与同
一用户相关联。另一方面,电子设备可以识别第一段“嗨西丽,天气”和第二段“历史频道”,
并基于这两段的不同声学特性确定这两段不与同一用户相关联。
[0269] 在一些示例中,电子设备通过识别与第一段相关联的第一熵、识别与第二段相关联的第二熵并将第一熵与第二熵进行比较来确定第一段和第二段是否对应于同一用户。例
如,电子设备1008可以确定第一段“嗨西丽,天气”和第二段“怎么样”与同一用户相关联,因
为与第一段相关联的熵与与第二段相关联的熵相似或相同。
[0270] 在一些示例中,电子设备通过基于第一段和第二段识别解析结果来确定第一段和第二段是否对应于同一用户。例如,参考图10,电子设备可以识别第一段“嗨西丽,天气”、第
二段“怎么样”和第三段“是历史频道”。此外,电子设备可以确定第一段和第二段的组合
(即,“嗨西丽,天气怎么样”)产生语义上有意义的解析结果。因此,电子设备确定第一段和
第二段与同一用户相关联。另一方面,电子设备可以确定第一段和第三段的组合(即,“嗨西
丽,是历史信道”)在语义上没有意义,因此这两段不与同一用户相关联。在一些示例中,根
据确定第一段和第二段对应于同一用户,电子设备例如基于第一段和第二段的声学特性进
一步确定该用户是否是电子设备的授权用户(例如,被授权访问数字助理)。在一些示例中,
基于第一段和第二段,电子设备获得用户意图(或用户意图的表示)。
[0271] 在一些示例中,基于多个音频流,电子设备选择一组麦克风以对后续音频输入进行采样。例如,如果电子设备从多个音频流中的一个或多个音频流检测到语音触发,则电子
设备可以选择对应于该一个或多个音频流的一个或多个麦克风以对后续音频信号进行采
样。例如,参考图10,如果电子设备1008从与朝向用户1000的方向相关联的特定音频波束检
测到语音触发“嗨西丽”,则电子设备可以选择对应于该音频波束的一个或多个麦克风以对
后续音频信号进行采样。在一些示例中,如果麦克风与音频波束的方向相关联(例如,被配
置为面向音频波束的方向)并且/或者麦克风已对形成音频波束的音频信号进行采样,则麦
克风对应于该音频波束。此外,电子设备1008可禁用电子设备上的其余麦克风(例如,持续
预定的时间段)。此外,电子设备1008可抑制与不同于用户1000的说话者相关联的任何音频
信号的识别和解释(例如,通过分配低语音识别置信得分、低意图置信得分)。
[0272] 在一些示例中,如果电子设备确定与感兴趣的音频源相关联的方向已经改变(例如,用户1000在房间内四处走动),则电子设备可选择不同组的麦克风来对后续音频信号进
行采样。该组麦克风的选择可基于由电子设备采样的音频信号的方向信息或基于检测到的
用户的物理存在进行。检测人的物理存在的其他描述在下述文献中提供:美国专利申请62/
506,981,“INTELLIGENT AUTOMATED ASSISTANT FOR MEDIA EXPLORATION(智能自动化媒体
探索助手)”,2017年5月16日提交,该专利申请据此全文以引用方式并入。美国专利申请62/
506,981描述了用于尤其是例如通过检测与人相关联的电子设备和/或通过检测人的语音
特征来检测人的物理存在的示例性技术。
[0273] 应当理解,上述技术是用于由电子设备处理音频信号的示例性技术。因此,上述技术可以用于检测数字助理的触发以及用于处理由电子设备采样的任何后续音频信号。例
如,上述技术可以用于选择麦克风以对音频信号进行采样(例如,当用户在房间内四处走动
时),选择扬声器以提供音频输出,以确定音频信号是否包括来自授权用户的对数字助理的
请求,以及确定两个音频段是否与同一用户和/或同一用户请求相关联。
[0274] 在一些示例中,电子设备基于由另一电子设备采样的音频信号来检测数字助理的触发。在一些示例中,电子设备是第一电子设备,并且从第二电子设备接收对应于在第二电
子设备处检测到的音频信号的信息。在一些示例中,第二电子设备与不同于第一电子设备
的设备类型相关联。参考图10,例如电子设备1008可以从电子设备1002(例如,智能手表)接
收对应于在电子设备1002处检测到的音频信号的信息。在所描绘的示例中,电子设备1008
具有比电子设备1002更多的处理能力(例如,更多的本地存储器)。
[0275] 在一些示例中,从第二电子设备接收的信息包括:在第二电子设备处检测到的音频信号的方向信息、与第二电子设备相关联的设备类型、第二电子设备的一个或多个麦克
风的位置信息、在第二电子设备处检测到的音频信号的一部分或其任何组合。基于该信息,
第一电子设备确定在第二电子设备处检测到的音频信号是否对应于语音触发。参考图10,
例如电子设备1008可以从电子设备1002接收包括以下各项的信息:电子设备1002(例如,智
能手表)的设备类型、麦克风在电子设备1002上的位置(例如,GPS坐标)和被采样信号(例
如,对应于语音输入1034)的方向信息。基于所接收的信息,电子设备1008可以确定在电子
设备1002处检测到的音频信号是否包括语音触发。电子设备1008还可以将在电子设备1002
处检测到的音频信号与在本地检测到的任何音频信号组合,以确定是否可以从组合音频信
号中检测到语音触发。
[0276] 以上参考图8描述的操作任选地由图1至图4、图6A至图6B以及图7A至图7C描绘的部件来实现。例如,过程800的操作可由本文所述的任何设备(或其部件)实现,包括但不限
于设备104、200、400、600和1008。本领域的普通技术人员应当清楚地知道如何基于在图1至
图4、图6A至图6B以及图7A至图7C中所描绘的部件来实现其他过程。
[0277] 图9示出了根据各种示例的用于检测数字助理的触发的过程900。例如使用实现数字助理的一个或多个电子设备来执行过程900。在一些示例中,使用客户端-服务器系统(例
如,系统100)来执行过程900,并且在服务器(例如,DA服务器106)和客户端设备之间以任何
方式来划分过程900的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智
能手表)之间划分过程900的框。因此,虽然过程900的部分在本文中被描述为由客户端-服
务器系统的特定设备执行,但应当理解,过程900不限于此。在其他示例中,仅使用客户端设
备(例如,用户设备104)或仅使用多个客户端设备来执行过程900。在过程900中,一些框被
任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可以
结合过程900来执行额外的步骤。
[0278] 在框902处,第一电子设备使用第一电子设备的第一麦克风对第一音频信号进行采样。在框904处,第二电子设备使用第二电子设备的第二麦克风对第二音频信号进行采
样。第二电子设备与第一电子设备不同。在一些示例中,第一电子设备和第二电子设备中的
每一者可以是电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如,智能手表)、
扬声器、机顶盒、电视、家庭自动化设备(例如,恒温器)或者其任何组合或子组合。参考图
10,例如电子设备1004(电话)使用设备1004上的麦克风对第一音频信号进行采样,并且电
子设备1002(智能手表)使用设备1002上的不同麦克风对第二音频信号进行采样。
[0279] 在框906处,第三电子设备确定第一音频信号和第二音频信号中的任一个是否对应于语音触发。第三电子设备可以是第一电子设备和第二电子设备中的一者(例如,电话
1004和智能手表1002中的一者)、不同于第一电子设备和第二电子设备的电子设备(例如,
扬声器1008)或远程设备(例如,DA服务器106)。在一些示例中,第三电子设备(例如,扬声器
1008)是不同于第二电子设备(例如,智能手表1002)的设备类型。在一些示例中,第三电子
设备具有比第一电子设备和/或第二电子设备更多的处理能力。
[0280] 在一些示例中,第三电子设备获得对应于第一音频信号和第二音频信号的信息。该信息可以包括:第一麦克风和/或第二麦克风的位置信息、第一音频信号和/或第二音频
信号的方向信息、与第一电子设备和/或第二电子设备相关联的设备类型或其任何组合。基
于所获得的信息,第三电子设备确定第一音频信号、第二音频信号以及/或者第一音频信号
和第二音频信号的组合是否对应于语音触发。在一些示例中,第三电子设备使用上文关于
图8描述的任何技术来进行确定。
[0281] 在框908处,根据确定第一音频信号或第二音频信号对应于语音触发,第四电子设备发起数字助理的会话。在框910处,根据确定第一音频信号和第二音频信号不对应于语音
触发,第四电子设备放弃发起数字助理的会话。
[0282] 第四电子设备可以是第一电子设备(例如,电话1004)、第二电子设备(例如,智能手表1002)、第三电子设备(例如,扬声器1008)或不同的电子设备中的任一者。在一些示例
中,发起数字助理的会话包括由数字助理提供音频输出(例如,“你好”)。在一些示例中,第
四电子设备基于第一音频信号和第二音频信号获得与音频源(例如,用户1000)相关联的方
向信息,并基于该方向信息提供音频输出。
[0283] 例如,参考图10,电子设备1008(扬声器)基于由电子设备1004(电话)采样的第一音频信号和由电子设备1002(智能手表)采样的第二音频信号确定产生语音输入1034的方
向(例如,朝向用户1000的方向)。此后,电子设备1008使用与音频源的方向相关联(例如,被
配置为面向频源的方向)的扬声器来提供音频输出(例如,“外面天气……”),同时放弃使用
电子设备1008上的其余扬声器来提供音频输出。
[0284] 以上参考图9描述的操作任选地由图1至图4、图6A至图6B以及图7A至图7C描绘的部件来实现。例如,过程900的操作可由本文所述的任何设备(或其部件)实现,包括但不限
于设备104、200、400、600和1008。本领域的普通技术人员应当清楚地知道如何基于在图1至
图4、图6A至图6B以及图7A至图7C中所描绘的部件来实现其他过程。
[0285] 根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程
序,该一个或多个程序包括用于执行本文所述方法或过程中的任一个的指令。
[0286] 根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括用于执行本文所述的方法和过程中的任一个的装置。
[0287] 根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法和过程中的任一个。
[0288] 根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器,该
一个或多个程序包括用于执行本文所描述的方法和过程中的任一个的指令。
[0289] 出于解释的目的,前面的描述是通过参考具体实施方案来描述的。然而,上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很
多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术
的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合
于所预期的特定用途的各种修改的各种实施方案。
[0290] 虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包
括在由权利要求书所限定的本公开和示例的范围内。