检测数字助理的触发转让专利
申请号 : CN201910574413.3
文献号 : CN110288994B
文献日 : 2021-03-30
发明人 : Y·金姆 , J·布雷德勒 , J·D·阿特金斯 , 李飞鹏 , M·索登
申请人 : 苹果公司
摘要 :
权利要求 :
1.一种用于操作数字助理的方法(800),包括:在具有一个或多个处理器、存储器和多个麦克风的电子设备处:在所述电子设备的所述多个麦克风中的每一个处,对音频信号进行采样(802)以获得第一多个音频信号,其中所述第一多个音频信号的至少一部分与所述电子设备的第一用户相关联;
利用波束形成技术处理(804)所述第一多个音频信号的所述至少一部分以获得多个音频流;
基于所述多个音频流,确定(806)所述第一多个音频信号中的任一个是否对应于语音触发,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:从所述多个音频流中的一个或多个音频流检测所述语音触发;
根据确定所述第一多个音频信号中的任一个对应于所述语音触发:识别所述第一多个音频信号的第一段和第二段,其中所述第一段和第二段中的每一个对应于用户意图;
响应于确定所述第一多个音频信号的第一段和第二段中的每一个对应于同一用户,由所述电子设备发起(808)所述数字助理的会话,其中发起所述数字助理的会话包括:基于所述一个或多个音频流,选择所述多个麦克风中的第一组麦克风;
使用所述第一组麦克风,对第二多个音频信号进行采样;以及响应于确定所述第二多个音频信号的至少一部分与所述电子设备的第二用户相关联,至少部分地抑制对所述第二多个音频信号的所述至少一部分的识别和解释;并且根据确定所述第一多个音频信号不对应于所述语音触发:放弃(810)发起所述数字助理的所述会话。
2.根据权利要求1所述的方法,其中所述多个麦克风中的第一麦克风与第一方向相关联,并且其中所述多个麦克风中的第二麦克风与不同于所述第一方向的第二方向相关联。
3.根据权利要求1所述的方法,其中所述多个音频流包括多个音频波束。
4.根据权利要求1所述的方法,其中处理所述第一多个音频信号的所述至少一部分以获得所述多个音频流包括使用源分离来处理所述第一多个音频信号中的音频信号。
5.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:
确定所述多个音频流中的每一个是否包括所述语音触发。
6.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:
确定所述多个音频流中的两个或更多个音频流的组合是否包括所述语音触发。
7.根据权利要求1所述的方法,还包括:获得对应于所述多个音频流的一个或多个触发得分;
其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于所述一个或多个触发得分确定所述第一多个音频信号中的任一个是否对应于所述语音触发。
8.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:
基于与所述电子设备的所述第一用户相关联的声学信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。
9.根据权利要求1所述的方法,还包括:基于所述多个音频流获得多个字词;
其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于对应于所述多个字词的信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。
10.根据权利要求9所述的方法,还包括:基于所述多个字词获得一个或多个解析结果;
其中对应于所述多个字词的所述信息包括所述一个或多个解析结果。
11.根据权利要求9所述的方法,还包括:基于所述多个字词获得所述用户意图的一个或多个表示;
其中对应于所述多个字词的所述信息包括所述用户意图的所述一个或多个表示。
12.根据权利要求9所述的方法,其中对应于所述多个字词的所述信息指示方向。
13.根据权利要求9所述的方法,其中对应于所述多个字词的所述信息指示说话者。
14.根据权利要求1所述的方法,其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:
从所述多个音频流中识别一组候选音频流;
从所述一组候选音频流中向远程设备提供一个或多个候选音频流;以及从所述远程设备获得验证信息。
15.根据权利要求14所述的方法,还包括:基于与所述一个或多个候选音频流相关联的相应触发得分来从所述一组候选音频流中选择所述一个或多个候选音频流。
16.根据权利要求15所述的方法,还包括:将所述多个音频流中的每一个音频流提供给神经网络以获得相应的触发得分。
17.根据权利要求14所述的方法,还包括:基于与所述一个或多个候选音频流相关联的相应熵信息从所述一组候选音频流中选择所述一个或多个候选音频流。
18.根据权利要求14所述的方法,还包括:确定第一候选音频流对应于在第一时间检测到的所述语音触发;
在第二时间确定第二候选音频流对应于在第二时间检测到的所述语音触发;以及基于所述第一时间和所述第二时间从所述一组候选音频流中选择所述一个或多个候选音频流。
19.根据权利要求1所述的方法,还包括:根据确定所述第一多个音频信号中的任一个对应于所述语音触发,确定所述第一段和所述第二段是否对应于所述第一用户。
20.根据权利要求1至19中任一项所述的方法,还包括:根据确定所述第一段和所述第二段对应于同一用户,确定所述第一用户是所述电子设备的用户;以及基于所述第一段和所述第二段获得用户意图的表示。
21.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:
将和所述第一段相关联的声学信息与和所述第二段相关联的声学信息进行比较。
22.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:
识别与所述第一段相关联的第一熵;
识别与所述第二段相关联的第二熵;以及将所述第一熵与所述第二熵进行比较。
23.根据权利要求19所述的方法,其中确定所述第一段和所述第二段是否对应于所述第一用户包括:
基于所述第一段和所述第二段识别解析结果。
24.根据权利要求1所述的方法,其中所述电子设备是第一电子设备,所述方法还包括:从第二电子设备接收对应于在所述第二电子设备处检测到的音频信号的信息;
其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于从所述第二电子设备接收的所述信息确定在所述第二电子设备处检测到的所述音频信号是否对应于所述语音触发。
25.根据权利要求24所述的方法,其中所述信息包括所述第二电子设备的一个或多个麦克风的位置信息。
26.根据权利要求24所述的方法,其中所述信息包括在所述第二电子设备处检测到的所述音频信号的方向信息。
27.根据权利要求24所述的方法,其中所述信息包括与所述第二电子设备相关联的设备类型。
28.根据权利要求24所述的方法,其中所述第二电子设备与和所述第一电子设备不同的设备类型相关联。
29.根据权利要求1所述的方法,其中发起所述数字助理的会话包括由所述数字助理提供音频输出。
30.根据权利要求29所述的方法,其中所述多个音频流中的每一个与方向信息相关联,并且其中提供所述音频输出包括:由所述数字助理基于与所述多个音频流相关联的所述方向信息提供所述音频输出。
31.根据权利要求1所述的方法,其中所述多个音频流中的每一个与方向信息相关联,并且其中确定所述第一多个音频信号中的任一个是否对应于所述语音触发包括:基于所述多个音频流和相关联的方向信息确定所述第一多个音频信号中的任一个是否对应于所述语音触发。
32.根据权利要求1所述的方法,其中所述电子设备是计算机、机顶盒、扬声器、智能手表、电话或其组合。
33.一种电子设备,包括:一个或多个处理器;
存储器;
多个麦克风;和
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至32中任一项所述的方法的指令。
34.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由具有多个麦克风的电子设备的一个或多个处理器执行时,使得所述电子设备执行根据权利要求1至32中任一项所述的方法。
说明书 :
检测数字助理的触发
日提交;丹麦专利申请No.PA201770420,名称为“DETECTING A TRIGGER OF A DIGITAL
ASSISTANT(检测数字助理的触发)”,2017年5月31日提交;和丹麦专利申请
No.PA201770421,名称为“DETECTING A TRIGGER OF A DIGITAL ASSISTANT(检测数字助理
的触发)”,2017年5月31日提交。以上专利申请的内容据此全文以引用方式并入。
技术领域
背景技术
户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。数字助理可从该语
音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多
项服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。
音频信号可能包括干扰音频信号,诸如来自竞争说话者(例如,物理上接近电子设备的用户
以外的人)的语音、来自噪声源(例如,房间中的电视)的音频输出、混响等。因此,电子设备
可能由于干扰噪声而未能检测到来自用户的语音触发,或者可能错误地检测到来自干扰音
频信号的语音触发(例如,误将竞争说话者发出的“History(历史)”误认为“Hey Siri(嗨西
丽)”)。此外,电子设备可能无法区分针对数字助理的被采样音频信号的部分和不针对数字
助理的被采样音频信号的部分(例如,两个说话者之间的对话)。这继而导致用户体验混乱
和低效,因为电子设备可能在用户没有发出语音触发时发起数字助理会话,在用户发出语
音触发时未能发起数字助理会话,并且/或者误解用户对数字助理的请求。
发明内容
得多个音频信号;处理多个音频信号以获得多个音频流;基于多个音频流确定多个音频信
号中的任一个是否对应于语音触发。该方法还包括:根据确定多个音频信号对应于语音触
发,由电子设备发起数字助理的会话;并且根据确定多个音频信号不对应于语音触发,放弃
发起数字助理的会话。
第三电子设备处确定第一音频信号和第二音频信号中的任一个是否对应于语音触发。该方
法还包括:根据确定第一音频信号或第二音频信号对应于语音触发,由第四电子设备发起
数字助理的会话;并且根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由
第四电子设备发起数字助理的会话。
的一个或多个处理器执行时,使得电子设备:在电子设备的多个麦克风中的每一个处对音
频信号进行采样以获得多个音频信号;处理多个音频信号以获得多个音频流;基于多个音
频流确定多个音频信号中的任一个是否对应于语音触发,根据确定多个音频信号对应于语
音触发,由电子设备发起数字助理的会话;根据确定多个音频信号不对应于语音触发,放弃
发起数字助理的会话。
多个电子设备:使用一个或多个电子设备中的第一电子设备的第一麦克风对第一音频信号
进行采样;使用一个或多个电子设备中的第二电子设备的第二麦克风对第二音频信号进行
采样,其中第二电子设备与第一电子设备不同。一个或多个程序还包括这样的指令,其使一
个或多个电子设备:在一个或多个电子设备中的第三电子设备处确定第一音频信号和第二
音频信号中的任一个是否对应于语音触发;根据确定第一音频信号或第二音频信号对应于
语音触发,由一个或多个电子设备中的第四电子设备发起数字助理的会话;根据确定第一
音频信号和第二音频信号不对应于语音触发,放弃由第四电子设备发起数字助理的会话。
一个或多个处理器执行。一个或多个程序包括用于以下操作的指令:在电子设备的多个麦
克风中的每一个处对音频信号进行采样以获得多个音频信号;处理多个音频信号以获得多
个音频流;基于多个音频流确定多个音频信号中的任一个是否对应于语音触发,根据确定
多个音频信号对应于语音触发,由电子设备发起数字助理的会话;根据确定多个音频信号
不对应于语音触发,放弃发起数字助理的会话。
于多个音频流确定多个音频信号中的任一个是否对应于语音触发;根据确定多个音频信号
对应于语音触发,由电子设备发起数字助理的会话;根据确定多个音频信号不对应于语音
触发,放弃发起数字助理的会话。
配置为由一个或多个处理器执行的一个或多个程序。一个或多个程序包括用于以下操作的
指令:使用一个或多个电子设备中的第一电子设备的第一麦克风对第一音频信号进行采
样;使用一个或多个电子设备中的第二电子设备的第二麦克风对第二音频信号进行采样,
其中第二电子设备与第一电子设备不同;在一个或多个电子设备中的第三电子设备处确定
第一音频信号和第二音频信号中的任一个是否对应于语音触发;根据确定第一音频信号或
第二音频信号对应于语音触发,由一个或多个电子设备中的第四电子设备发起数字助理的
会话;根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由第四电子设备发
起数字助理的会话。
号进行采样;在第三电子设备处确定第一音频信号和第二音频信号中的任一个是否对应于
语音触发;根据确定第一音频信号或第二音频信号对应于语音触发,由第四电子设备发起
数字助理的会话;根据确定第一音频信号和第二音频信号不对应于语音触发,放弃由第四
电子设备发起数字助理的会话。
来检测触发。这些音频流为数字助理提供丰富的信息,从而允许数字助理准确地检测从不
同方向发出的语音触发,使干扰音频信号的影响最小化,并正确地解释用户对数字助理的
请求。以这种方式提高数字助理的准确性增强了设备的可操作性并且使用户-设备界面更
有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过减少重复的用户
输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使用并且延长了设
备的电池寿命。
地检测触发。此外,使来自多个电子设备的电子设备(例如,具有最高处理能力)分析被采样
音频信号使其他电子设备不分配本地资源进行分析,从而允许其他电子设备更有效地操
作。有效且准确地对音频信号进行采样和分析增强了设备的可操作性并且使用户-设备界
面更有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过减少重复的
用户输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使用并且延长
了设备的电池寿命。
助理准确地检测语音触发并且提供了对用户请求的最佳响应,而无需用户确定触发哪个电
子设备。减少用户输入的数量并且减少用户的认知负担增强了设备的可操作性并且使用
户-设备界面更有效(例如,通过改进用户请求的解释、通过减少数字助理的错误以及通过
减少重复的用户输入),此外,通过使用户能够更快速且有效地使用设备,还减少了电力使
用并且延长了设备的电池寿命。
附图说明
具体实施方式
变更。
发。这类技术可以增强设备的可操作性并且使用户-设备界面更有效(例如,通过改进用户
请求的解释、通过减少数字助理的错误以及通过减少重复的用户输入),此外,通过使用户
能够更快速且有效地使用设备,还减少了电力使用并且延长了设备的电池寿命。
的范围的情况下,第一输入可被称为第二输入,并且类似地,第二输入可被称为第一输入。
第一输入和第二输入均为输入,并且在一些情况下为独立且不同的输入。
数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将
理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或
多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、
“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的
特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整
数、步骤、操作、元件、部件和/或其分组。
的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述
的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
和/或文本形式的自然语言输入来推断用户意图,并且基于推断出的用户意图来执行动作
的任何信息处理系统。例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或
多个:识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推断出的用
户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以
可听(例如,语音)和/或可视形式来生成对用户的输出响应。
助理执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求
的任务或这两者的组合。例如,用户向数字助理提出问题,诸如“我现在在哪里?”。基于用户
的当前位置,数字助理回答“你在中央公园西门附近。”用户还请求执行任务,例如“请邀请
我的朋友们下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马
上”来确认请求,然后代表用户将合适的日历邀请发送到用户电子通讯录中列出的用户朋
友中的每位朋友。在执行所请求的任务期间,数字助理有时在很长时间段内在涉及多次信
息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任
务的许多其他方法。除提供言语响应并采取经编程的动作之外,数字助理还提供其他视频
或音频形式的响应,例如作为文本、警报、音乐、视频、动画等。
108上执行的服务器端部分106(以下简称“DA服务器106”)。DA客户端102通过一个或多个网
络110与DA服务器106通信。DA客户端102提供客户端功能,诸如面向用户的输入和输出处
理,以及与DA服务器106通信。DA服务器106为各自位于相应用户设备104上的任意数量的DA
客户端102提供服务器端功能。
DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型
116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114
基于推断出的用户意图来执行任务执行。在一些示例中,DA服务器106通过一个或多个网络
110与外部服务设施120通信以完成任务或采集信息。到外部服务设施的I/O接口118促成此
类通信。
400)或个人电子设备(例如,下面参考图6A至图6B描述的设备600)。便携式多功能设备是例
如还包含诸如PDA和/或音乐播放器功能的其他功能的移动电话。便携式多功能设备的特定
示例包括来自加利福尼亚州库比蒂诺的苹果公司(Apple Inc.of Cupertino,California)
的Apple iPod 和 设备。便携式多功能设备的其他示例
包括但不限于耳塞式耳机/头戴式耳机、扬声器以及膝上型电脑或平板电脑。此外,在一些
示例中,用户设备104是非便携式多功能设备。具体地讲,用户设备104是台式计算机、游戏
机、扬声器、电视或电视机顶盒。在一些示例中,用户设备104包括触敏表面(例如,触摸屏显
示器和/或触控板)。此外,用户设备104任选地包括一个或多个其他物理用户接口设备,诸
如物理键盘、鼠标和/或操纵杆。下文更详细地描述了电子设备诸如多功能设备的各种示
例。
太网、通用串行总线(USB)、火线(FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境
(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX或
任何其他合适的通信协议。
种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。
6A至图6B描述的设备200、设备400或设备600。用户设备104被配置为经由直接通信连接诸
如蓝牙、NFC、BTLE等或者经由有线或无线网络诸如局域Wi-Fi网络而通信耦接到第二用户
设备122。在一些示例中,第二用户设备122被配置为充当用户设备104与DA服务器106之间
的代理。例如,用户设备104的DA客户端102被配置为经由第二用户设备122向DA服务器106
传输信息(例如,在用户设备104处接收的用户请求)。DA服务器106处理该信息,并经由第二
用户设备122将相关数据(例如,响应于用户请求的数据内容)返回到用户设备104。
求的补充信息,以生成完整的请求来传输到DA服务器106。该系统架构可有利地通过使用具
有较强通信能力和/或电池电力的第二用户设备122(例如,移动电话、膝上型计算机、平板
电脑等)作为到DA服务器106的代理,允许具有有限通信能力和/或有限电池电力的用户设
备104(例如,手表或类似的紧凑型电子设备)访问DA服务器106提供的服务。虽然图1中仅示
出两个用户设备104和122,但应当理解,在一些示例中,系统100可包括在此代理配置中被
配置为与DA服务器系统106通信的任意数量和类型的用户设备。
独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具
体实施中可变化。例如,在一些示例中,DA客户端为仅提供面向用户的输入和输出处理功
能,并将数字助理的所有其他功能委派给后端服务器的瘦客户端。
显示器212有时为了方便被叫做“触摸屏”,并且有时被称为或被叫做“触敏显示系统”。设备
200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、一
个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电路210、扬声器211、麦克
风213、输入/输出(I/O)子系统206、其他输入控制设备216和外部端口224。设备200任选地
包括一个或多个光学传感器264。设备200任选地包括用于检测设备200(例如设备200的触
敏表面诸如触敏显示系统212)上的接触的强度的一个或多个接触强度传感器265。设备200
任选地包括用于在设备200上生成触觉输出的一个或多个触觉输出发生器267(例如,在触
敏表面诸如设备200的触敏显示系统212或设备400的触摸板455上生成触觉输出)。这些部
件任选地通过一个或多个通信总线或信号线203进行通信。
触的力或压力的替代物(代用物)。接触的强度具有值范围,该值范围包括至少四个不同的
值并且更典型地包括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法
和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方或相邻于触敏表面
的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中,
来自多个力传感器的力测量值被组合(例如,加权平均)以确定所估计的接触力。类似地,触
笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的
接触区域的大小和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附
近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。
在一些具体实施中,接触力或压力的替代物测量直接用于确定是否已经超过强度阈值(例
如,强度阈值以对应于替代物测量的单位来描述)。在一些具体实施中,接触力或压力的替
代物测量被转换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值
(例如,强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的
属性,从而允许用户访问用户在实地面积有限的尺寸更小的设备上本来不可访问的附加设
备功能,该尺寸更小的设备用于(例如,在触敏显示器上)显示示能表示和/或接收用户输入
(例如,经由触敏显示器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。
于设备的另一个部件(例如,外壳)的物理位移或部件相对于设备的质心的位移。例如,在设
备或设备的部件与用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触
的情况下,通过物理位移生成的触觉输出将由用户解释为触感,该触感对应于设备或设备
的部件的物理特征的所感知的变化。例如,触敏表面(例如,触敏显示器或触控板)的移动任
选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下,用户将感
觉到触感,诸如“按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压(例如,
被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如,即使在触敏表面的光滑度
无变化时,触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用
户对触摸的此类解释将受到用户的个体化感官知觉的限制,但是对触摸的许多感官知觉是
大多数用户共有的。因此,当触觉输出被描述为对应于用户的特定感官知觉(例如,“按下点
击”、“松开点击”、“粗糙度”)时,除非另外陈述,否则所生成的触觉输出对应于设备或其部
件的物理位移,该物理位移将会生成典型(或普通)用户的所述感官知觉。
些部件的不同配置或布置。图2A所示的各种部件以硬件、软件或硬件与软件两者的组合来
实现,包括一个或多个信号处理电路和/或专用集成电路。
诸如一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备。存储器
控制器222控制设备200的其他部件访问存储器202。
包含处理器的系统或可从指令执行系统、装置或设备取出指令并执行指令的其他系统使用
或与其结合使用。在其他示例中,指令(例如,用于执行下文描述的过程的各方面)存储在服
务器系统108的非暂态计算机可读存储介质(未示出)上,或在存储器202的非暂态计算机可
读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。
执行设备200的各种功能并处理数据。在一些实施方案中,外围设备接口218、CPU 220和存
储器控制器222在单个芯片诸如芯片204上实现。在一些其他实施方案中,它们在独立的芯
片上实现。
进行通信。RF电路208任选地包括用于执行这些功能的熟知的电路,包括但不限于天线系
统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯
片组、用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信与网络以及其他
设备进行通信,该网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如
蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路208任选地包括用于诸如通过
近程通信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用多种通
信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(GSM)、增强型数据GSM环
境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据
(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分
多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-
Fi)(例如,IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n和/或IEEE
802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如,互联网消息访问协议
(IMAP)和/或邮局协议(POP))、即时消息(例如,可扩展消息处理和存在协议(XMPP)、用于即
时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))和/或短消
息服务(SMS),或者任何其他适当的通信协议,包括在本文档提交日期时尚未开发出的通信
协议。
扬声器211。扬声器211将电信号转换为人耳可听见的声波。音频电路210还接收由麦克风
213根据声波转换来的电信号。音频电路210将电信号转换为音频数据,并将音频数据传输
到外围设备接口218以进行处理。音频数据通过外围设备接口218检索自和/或传输至存储
器202和/或RF电路208。在一些实施方案中,音频电路210还包括耳麦插孔(例如,图3中的
312)。该耳麦插孔提供音频电路210与可移除的音频输入/输出外围设备之间的接口,该可
移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如,单耳耳机或双耳耳
机)和输入(例如,麦克风)两者的耳麦。
制器258、强度传感器控制器259、触觉反馈控制器261,以及用于其他输入或控制设备的一
个或多个输入控制器260。一个或多个输入控制器260从其他输入控制设备216接收电信号/
将电信号发送到所述其他输入控制设备。其他输入控制设备216任选地包括物理按钮(例
如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选实施方案中,
一个或多个输入控制器260任选地耦接至以下各项中的任一者(或不耦接至以下各项中的
任一者):键盘、红外线端口、USB端口以及指针设备诸如鼠标。一个或多个按钮(例如,图3中
的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多
个按钮任选地包括下压按钮(例如,图3中的306)。
Performing Gestures on an Unlock Image”(通过在解锁图像上执行手势解锁设备)的美
国专利No.7,657,849的美国专利申请11/322,549中所述的,该美国专利申请据此全文以引
用方式并入本文。较长地按下下压按钮(例如,306)使设备200开机或关机。用户能够自定义
一个或多个按钮的功能。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。
输出包括图形、文本、图标、视频及其任何组合(统称为“图形”)。在一些实施方案中,一些视
觉输出或全部视觉输出对应于用户界面对象。
令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断),并且将所检测到的接触
转换为与被显示在触摸屏212上的用户界面对象(例如,一个或多个软键、图标、网页或图
像)的交互。在示例性实施方案中,触摸屏212和用户之间的接触点与用户的手指对应。
目前已知或以后将开发的多种触摸感测技术中的任何技术,以及其他接近传感器阵列或用
于确定与触摸屏212接触的一个或多个点的其他元件来检测接触及其任何移动或中断,所
述多种触摸感测技术包括但不限于电容式、电阻式、红外和表面声波技术。在一个示例性实
施方案中,使用投射式互电容感测技术,诸如在来自加利福尼亚州库比蒂诺的苹果公司
(Apple Inc.of Cupertino,California)的 和iPod 中使用的技术。
利公开2002/0015024A1中所述的多触敏触控板,这些专利申请中的每个均据此全文以引用
方式并入本文。然而,触摸屏212显示来自设备200的视觉输出,而触敏触控板不提供视觉输
出。
2006年5月2日提交;(2)美国专利申请No.10/840,862,“Multipoint Touchscreen(多点触
摸屏)”,2004年5月6日提交;(3)美国专利申请No.10/903,964,“Gestures For Touch
Sensitive Input Devices(触敏入设备的手势)”,2004年7月30日提交;(4)美国专利申请
No.11/048,264,“Gestures For Touch Sensitive Input Devices(触敏入设备的手势)”,
2005年1月31日提交;(5)美国专利申请No.11/038,590,“Mode-Based Graphical User
Interfaces For Touch Sensitive Input Devices(用于触敏输入设备的基于模式的图形
用户界面)”,2005年1月18日提交;(6)美国专利申请No.11/228,758,“Virtual Input
Device Placement On A Touch Screen User Interface(放置在触摸屏用户界面上的虚
拟输入设备)”,2005年9月16日提交;(7)美国专利申请No.11/228,700,“Operation Of A
Computer With A Touch Screen Interface(具有触摸屏界面的计算机的操作)”,2005年9
月16日提交;(8)美国专利申请No.11/228,737,“Activating Virtual Keys Of A Touch-
Screen Virtual Keyboard(激活触摸屏虚拟键盘的虚拟键)”,2005年9月16日提交;以及
(9)美国专利申请No.11/367,749,“Multi-Functional Hand-Held Device(多功能手持设
备)”,2006年3月3日提交。所有这些申请全文以引用方式并入本文。
行接触。在一些实施方案中,将用户界面设计为主要通过基于手指的接触和手势来工作,由
于手指在触摸屏上的接触区域较大,因此这可能不如基于触笔的输入精确。在一些实施方
案中,设备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所
期望的动作。
区域不显示视觉输出。触控板是与触摸屏212分开的触敏表面,或者是由触摸屏形成的触敏
表面的延伸。
换器或逆变器、电力状态指示器(例如,发光二极管(LED))和与便携式设备中电力的生成、
管理和分配相关联的任何其他部件。
氧化物半导体(CMOS)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射
的光,并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块),光学传感器
264捕获静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与设备前部
的触摸屏显示器212相背对,使得触摸屏显示器被用作用于静态图像和/或视频图像采集的
取景器。在一些实施方案中,光学传感器位于设备的前部,使得在用户在触摸屏显示器上查
看其他视频会议参与者的同时获取该用户的图像以用于视频会议。在一些实施方案中,光
学传感器264的位置可由用户改变(例如,通过旋转设备外壳中的透镜和传感器),使得单个
光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和/或视频图像采集
两者。
个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容
式触敏表面或其他强度传感器(例如,用于测量触敏表面上的接触的力(或压力)的传感
器)。接触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的代用物)。
在一些实施方案中,至少一个接触强度传感器与触敏表面(例如,触敏显示系统212)并置排
列或邻近。在一些实施方案中,至少一个接触强度传感器位于设备200的与位于设备200的
前部上的触摸屏显示器212相背对的后部上。
传感器266如以下美国专利申请中所述的那样执行:No.11/241,839,“Proximity Detector
In Handheld Device(手持设备中的接近检测器)”;No.11/240,788,“Proximity Detector
In Handheld Device(手持设备中的接近检测器)”;No.11/620,702,“Using Ambient
Light Sensor To Augment Proximity Sensor Output(使用环境光线传感器增强接近传
感器输出)”;No.11/586,862,“Automated Response To And Sensing Of User Activity
In Portable Devices(自动响应和感测便携式设备中的用户活动”);以及No.11/638,251,
“Methods And Systems For Automatic Configuration Of Peripherals(用于外围设备
的自动配置的方法和系统)”,这些美国专利申请据此全文以引用方式并入本文。在一些实
施方案中,当多功能设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接
近传感器关闭并且禁用触摸屏212。
或多个电声设备诸如扬声器或其他音频部件;和/或用于将能量转换成线性运动的机电设
备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例
如,用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块
233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的用户感觉到的触觉输
出。在一些实施方案中,至少一个触觉输出发生器与触敏表面(例如,触敏显示系统212)并
置排列或邻近,并且任选地通过竖直地(例如,向设备200的表面内/外)或侧向地(例如,在
与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方
案中,至少一个触觉输出发生器传感器位于设备200的后部上,与位于设备200的前部上的
触摸屏显示器212相对。
如以下美国专利公开中所述那样执行:美国专利公开No.20050190059,“Acceleration-
based Theft Detection System for Portable Electronic Devices(用于基于加速度的
便携式电子设备盗窃检测系统)”和美国专利公开No.20060017692,“Methods And
Apparatuses For Operating A Portable Device Based On An Accelerometer(用于基
于加速度计操作便携式设备的方法和装置)”,这两个美国专利公开全文以引用方式并入本
文。在一些实施方案中,基于对从一个或多个加速度计接收的数据的分析来在触摸屏显示
器上以纵向视图或横向视图显示信息。设备200任选地除了加速度计268之外还包括磁力仪
(未示出)和GPS(或GLONASS或其他全球导航系统)接收器(未示出),以用于获取关于设备
200的位置和取向(例如,纵向或横向)的信息。
(或指令集)234、全球定位系统(GPS)模块(或指令集)235、数字助理客户端模块229以及应
用程序(或指令集)236。此外,存储器202存储数据与模型,诸如用户数据与模型231。此外,
在一些实施方案中,存储器202(图2A)或470(图4)存储设备/全局内部状态257,如图2A和图
4中所示。设备/全局内部状态257包括以下中的一者或多者:活动应用程序状态,其指示哪
些应用程序(如果有的话)当前是活动的;显示状态,其指示什么应用、视图或其他信息占据
触摸屏显示器212的各个区域;传感器状态,包括从设备的各个传感器和输入控制设备216
获取的信息;以及关于设备的位置和/或姿态的位置信息。
电源管理等)的各种软件部件和/或驱动程序,并且促进各种硬件部件和软件部件之间的通
信。
如,通用串行总线(USB)、火线等)适于直接耦接到其他设备,或间接地通过网络(例如,互联
网、无线LAN等)进行耦接。在一些实施方案中,外部端口是与 (苹果公司(Apple
Inc.)的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30
针)连接器。
执行与接触检测相关的各种操作,诸如确定是否已发生接触(例如,检测手指按下事件)、确
定接触强度(例如,接触的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的
移动并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件),以及确定接触是
否已停止(例如,检测手指抬起事件或接触断开)。接触/运动模块230从触敏表面接收接触
数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加
速度(量值和/或方向的改变),所述接触点的移动由一系列接触数据表示。这些操作任选地
被应用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸”/多个手指接
触)。在一些实施方案中,接触/运动模块230和显示控制器256检测触控板上的接触。
来确定强度阈值的至少一个子集(例如,强度阈值不是由具体物理致动器的激活阈值来确
定的,并且可在不改变设备200的物理硬件的情况下加以调节)。例如,在不改变触控板或触
摸屏显示器硬件的情况下,触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的
大范围中的任一个阈值。另外,在一些具体实施中,向设备的用户提供用于调节一组强度阈
值中的一个或多个强度阈值(例如,通过调节各个强度阈值和/或通过利用对“强度”参数的
系统级点击来一次调节多个强度阈值)的软件设置。
定接触模式来检测手势。例如,检测手指轻击手势包括检测手指按下事件,然后在与手指按
下事件相同的位置(或基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离)
事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按下事件,然后检测
一个或多个手指拖动事件,并且随后检测手指抬起(抬离)事件。
或其他视觉特征)的组件。如本文所用,术语“图形”包括可被显示给用户的任何对象,非限
制性地包括文本、网页、图标(诸如,包括软键的用户界面对象)、数字图像、视频、动画等。
或多个代码,在必要的情况下还一起接收坐标数据和其他图形属性数据,并且然后生成屏
幕图像数据,以输出至显示控制器256。
处产生触觉输出。
程序)中输入文本的软键盘。
供给提供基于位置的服务的应用,诸如天气桌面小程序、本地黄页桌面小程序和地图/导航
桌面小程序)。
如,麦克风213、加速度计268、触敏显示系统212、光学传感器229、其他输入控制设备216等)
接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块
229还能够通过便携式多功能设备200的各种输出接口(例如,扬声器211、触敏显示系统
212、触觉输出生成器267等)提供音频形式的输出(例如,语音输出)、视觉形式的输出和/或
触觉形式的输出。例如,将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、
振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块229使用RF电路208
与DA服务器106通信。
以提供数字助理的客户端功能。此外,用户数据与模型231包括用于处理用户输入并且确定
用户意图的各种模型(例如,语音识别模型、统计语言模型、自然语言处理模型、本体论、任
务流模型、服务模型等)。
户、当前用户交互和/或当前用户输入相关联的上下文。在一些示例中,数字助理客户端模
块229将上下文信息或其子集与用户输入一起提供至DA服务器106以帮助推断用户意图。在
一些示例中,数字助理还使用上下文信息来确定如何准备输出并将其传送给用户。上下文
信息被称为上下文数据。
状态,例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强
度等。在一些示例中,将与DA服务器106的软件状态相关的信息,例如便携式多功能设备200
的运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等,作为
与用户输入相关联的上下文信息提供至DA服务器106。
理客户端模块229还在DA服务器106请求时引出来自用户经由自然语言对话或其他用户接
口的附加输入。数字助理客户端模块229将该附加输入传送至DA服务器106,以帮助DA服务
器106进行意图推断和/或满足在用户请求中表达的用户意图。
典桌面小程序249-5和用户获取的其他桌面小程序,以及用户创建的桌面小程序249-6;
理、声音识别和声音复制。
中的联系人模块237的应用程序内部状态292中),包括:将姓名添加到通讯录;从地址簿删
除姓名;将电话号码、电子邮件地址、物理地址或其他信息与姓名关联;将图像与姓名关联;
对姓名进行归类和分类;提供电话号码或电子邮件地址来发起和/或促进通过电话238、视
频会议模块239、电子邮件240或即时消息241的通信;等等。
话号码的字符序列、访问联系人模块237中的一个或多个电话号码、修改已经输入的电话号
码、拨打相应的电话号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使
用多种通信标准、协议和技术中的任一种。
块234、联系人模块237和电话模块238,视频会议模块239包括根据用户指令来发起、执行和
终止用户与一个或多个其他参与者之间的视频会议的可执行指令。
电子邮件的可执行指令。结合图像管理模块244,电子邮件客户端模块240使得非常容易创
建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。
应的字符序列,修改先前输入的字符,传输相应即时消息(例如,使用用于基于电话的即时
消息的短消息服务(SMS)或多媒体消息服务(MMS)协议或者使用用于基于互联网的即时消
息的XMPP、SIMPLE或IMPS),接收即时消息以及查看所接收的即时消息。在一些实施方案中,
所传输和/或接收的即时消息包括图形、照片、音频文件、视频文件和/或如MMS和/或增强型
消息服务(EMS)中支持的其他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使
用SMS或MMS发送的消息)和基于互联网的消息(例如,使用XMPP、SIMPLE或IMPS发送的消息)
两者。
以下各项的可执行指令:创建健身(例如,具有时间、距离和/或卡路里燃烧目标);与健身传
感器(运动设备)进行通信;接收健身传感器数据;校准用于监视健身的传感器;为健身选择
和播放音乐;以及显示、存储和传输健身数据。
的可执行指令:捕获静态图像或视频(包括视频流)并且将它们存储到存储器202中、修改静
态图像或视频的特征,或从存储器202删除静态图像或视频。
编辑)或以其他方式操控、加标签、删除、呈现(例如,在数字幻灯片或相册中),以及存储静
态图像和/或视频图像。
收和显示网页或其部分,以及链接至网页的附件和其他文件)的可执行指令。
令来创建、显示、修改和存储日历以及与日历相关联的数据(例如,日历条目、待办事项等)
的可执行指令。
程序(例如,天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟
桌面小程序249-4和词典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建
的桌面小程序249-6)。在一些实施方案中,桌面小程序包括HTML(超文本标记语言)文件、
CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中,桌面小程序包括XML(可扩展
标记语言)文件和JavaScript文件(例如,Yahoo!桌面小程序)。
(例如,使网页的用户指定部分变成桌面小程序)。
如,一个或多个用户指定的搜索词)的文本、音乐、声音、图像、视频和/或其他文件的可执行
指令。
户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声
音文件的可执行指令,以及用于显示、呈现或以其他方式回放视频(例如,在触摸屏212上或
在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备200任选
地包括MP3播放器诸如iPod(苹果公司(Apple Inc.)的商标)的功能。
指令。
修改和存储地图以及与地图相关联的数据(例如,驾驶方向、与特定位置处或附近的商店及
其他兴趣点有关的数据,以及其他基于位置的数据)。
视频模块255包括允许用户访问、浏览、接收(例如,通过流式传输和/或下载)、回放(例如,
在触摸屏上或经由外部端口224在所连接的外部显示器上)、发送具有至特定在线视频的链
接的电子邮件,以及以其他方式管理一种或多种文件格式(诸如,H.264)的在线视频的指
令。在一些实施方案中,使用即时消息模块241而不是电子邮件客户端模块240来发送至特
定在线视频的链接。在线视频应用程序的其他描述可见于下述文献:美国临时专利申请
No.60/936,562,“Portable Multifunction Device,Method,and Graphical User
Interface for Playing Online Videos(用于播放在线视频的便携式多功能设备、方法和
图形用户界面)”,2007年6月20日提交;和美国专利申请11/968,067,“Portable
Multifunction Device,Method,and Graphical User Interface for Playing Online
Videos(用于播放在线视频的便携式多功能设备、方法和图形用户界面)”,2007年12月31日
提交,这两个专利申请的内容据此全文以引用方式并入本文。
指令集。这些模块(例如,指令集)不必被实现为独立的软件程序、过程或模块,并因此在各
种实施方案中可组合或以其他方式重新布置这些模块的各种子集。例如,视频播放器模块
可与音乐播放器模块组合成单个模块(例如,图2A中的视频和音乐播放器模块252)。在一些
实施方案中,存储器202存储上述模块和数据结构的子组。此外,存储器202存储上文未描述
的另外的模块和数据结构。
的主要输入控制设备,减少设备200上的物理输入控制设备(诸如下压按钮、拨盘等)的数
量。
200上的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中,使用触摸板
来实现“菜单按钮”。在一些其他实施方案中,菜单按钮是物理下压按钮或者其他物理输入
控制设备,而不是触摸板。
中)以及相应的应用程序236-1(例如,前述应用程序237至251、255、480至490中的任一个应
用程序)。
274。在一些实施方案中,应用程序236-1包括应用程序内部状态292,该应用程序内部状态
指示当应用程序是活动的或正在执行时被显示在触敏显示器212上的当前应用程序视图。
在一些实施方案中,设备/全局内部状态257被事件分类器270用于确定哪个(哪些)应用程
序当前是活动的,并且应用程序内部状态292被事件分类器270用于确定要将事件信息递送
到的应用程序视图291。
的信息或准备好用于被应用程序显示的信息的用户界面状态信息、用于使得用户能够返回
到应用程序236-1的前一状态或视图的状态队列以及用户采取的先前动作的重复/撤销队
列。
输其从I/O子系统206或传感器诸如接近传感器266、加速度计268和/或麦克风213(通过音
频电路210)接收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显示
器212或触敏表面的信息。
当存在显著事件(例如,接收到高于预先确定的噪声阈值的输入和/或接收到超过预先确定
的持续时间的输入)时才传输事件信息。
控件和其他元素构成。
(相应应用程序的)应用程序视图对应于应用程序的程序化分级结构或视图分级结构内的
程序化水平。例如,在其中检测到触摸的最低水平视图被称为命中视图,并且被认为是正确
输入的事件集至少部分地基于初始触摸的命中视图来确定,该初始触摸开始基于触摸的手
势。
件进行处理的分级结构中的最低视图。在大多数情况下,命中视图是发起子事件(例如,形
成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中
视图被命中视图确定模块272识别,命中视图通常就接收与被识别为命中视图的同一触摸
或输入源相关的所有子事件。
定子事件序列。在其他实施方案中,活动事件识别器确定模块273确定包括子事件的物理位
置的所有视图都是活跃参与的视图,并且由此确定所有活跃参与的视图都应接收特定子事
件序列。在其他实施方案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,
分级结构中的较高视图应当仍然保持为活跃参与的视图。
动事件识别器确定模块273确定的事件识别器。在一些实施方案中,事件分配器模块274在
事件队列中存储事件信息,该事件信息由相应事件接收器282进行检索。
器202中的另一个模块(诸如接触/运动模块230)的一部分。
视图内的触摸事件的指令。应用程序236-1的每个应用程序视图291包括一个或多个事件识
别器280。通常,相应应用程序视图291包括多个事件识别器280。在其他实施方案中,事件识
别器280中的一个或多个事件识别器是独立模块的一部分,该独立模块为诸如用户界面工
具包(未示出)或应用程序236-1从中继承方法和其他属性的较高级别的对象。在一些实施
方案中,相应事件处理程序290包括以下一者或多者:数据更新器276、对象更新器277、GUI
更新器278和/或从事件分类器270接收的事件数据279。事件处理程序290利用或调用数据
更新器276、对象更新器277或GUI更新器278来更新应用程序内部状态292。另选地,应用程
序视图291中的一个或多个应用程序视图包括一个或多个相应的事件处理程序290。另外,
在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278中的一个或多个包括
在相应的应用程序视图291中。
案中,事件识别器280还包括元数据283和事件传递指令288(其包括子事件传递指令)的至
少一个子集。
子事件涉及触摸的运动时,事件信息还包括子事件的速率和方向。在一些实施方案中,事件
包括设备从一个取向旋转到另一取向(例如,从纵向取向旋转到横向取向,或反之亦然),并
且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。
比较器284包括事件定义286。事件定义286包含事件的定义(例如,预定义的子事件序列),
例如事件1(287-1)、事件2(287-2)、以及其他事件。在一些实施方案中,事件287中的子事件
包括例如,触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中,事件1
(287-1)的定义是在显示的对象上的双击。例如,双击包括被显示对象上的预先确定时长的
第一次触摸(触摸开始)、预先确定时长的第一次抬离(触摸结束)、被显示对象上的预先确
定时长的第二次触摸(触摸开始)以及预先确定时长的第二次抬离(触摸结束)。在另一个示
例中,事件2(287-2)的定义是被显示对象上的拖动。例如,拖动包括被显示对象上的预先确
定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸的抬离(触摸结束)。在
一些实施方案中,事件还包括用于一个或多个相关联的事件处理程序290的信息。
联。例如,在触敏显示器212上显示三个用户界面对象的应用程序视图中,当在触敏显示器
212上检测到触摸时,事件比较器284执行命中测试,以确定这三个用户界面对象中的哪一
个用户界面对象与该触摸(子事件)相关联。如果每个所显示的对象与相应的事件处理程序
290相关联,则事件比较器使用该命中测试的结果,以确定哪个事件处理程序290应当被激
活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。
手势的后续子事件。在这种情况下,对于命中视图保持活动的其他事件识别器(如果有的
话)继续跟踪并处理持续进行的基于触摸的手势的子事件。
或列表。在一些实施方案中,元数据283包括指示事件识别器彼此如何交互或如何能够交互
的可配置属性、标志和/或列表。在一些实施方案中,元数据283包括指示子事件是否递送到
视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。
相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送
(和延期发送)到相应命中视图。在一些实施方案中,事件识别器280发出与所识别的事件相
关联的标志,并且与该标志相关联的事件处理程序290获取该标志并执行预定义的过程。
列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图
相关联的事件处理程序接收事件信息并执行预先确定的过程。
模块中所使用的视频文件进行存储。在一些实施方案中,对象更新器277创建并更新在应用
程序236-1中使用的对象。例如,对象更新器277创建新用户界面对象或更新用户界面对象
的位置。GUI更新器278更新GUI。例如,GUI更新器278准备显示信息,并且将显示信息发送到
图形模块232用以显示在触敏显示器上。
在一些实施方案中,数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程
序236-1或应用程序视图291的单个模块中。在其他实施方案中,它们被包括在两个或更多
个软件模块中。
发起的。例如,任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下;触控
板上的接触移动,诸如轻击、拖动、滚动等;触笔输入;设备的移动;口头指令;检测到的眼睛
移动;生物特征输入;和/或它们的任何组合任选地被用作对应于限定要识别的事件的子事
件的输入。
其他实施方案中,用户能够通过例如利用一个或多个手指302(在附图中没有按比例绘制)
或者利用一个或多个触笔303(在附图中没有按比例绘制)在图形上做出手势来选择这些图
形中的一个或多个图形。在一些实施方案中,当用户中断与一个或多个图形的接触时,将发
生对一个或多个图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次或
多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发生接触的手指的滚动
(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下,不经意地与图
形接触不选择图形。例如,当与选择对应的手势是轻击时,在应用程序图标上方扫动的轻扫
手势任选地不选择对应的应用程序。
些实施方案中,菜单按钮实现为显示在触摸屏212上的GUI中的软键。
310、耳麦插孔312和对接/充电外部端口224。下压按钮306任选地用于通过压下该按钮并且
将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机;通过压下该按钮
并在该预定义的时间间隔过去之前释放该按钮来锁定设备;和/或对设备进行解锁或发起
解锁过程。在另选的实施方案中,设备200还通过麦克风213接受用于激活或去激活某些功
能的语音输入。设备200还任选地包括用于检测触摸屏212上的接触的强度的一个或多个接
触强度传感器265和/或用于为设备200的用户生成触觉输出的一个或多个触觉输出发生器
267。
电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备
(例如,家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一
个或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个或多个通信总
线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有
时被叫做芯片组)。设备400包括具有显示器440的输入/输出(I/O)接口430,该显示器通常
是触摸屏显示器。I/O接口430还任选地包括键盘和/或鼠标(或其他指向设备)450以及触控
板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如,类似于以上参考图2A
所述的一个或多个触觉输出发生器267)、传感器459(例如,光学传感器、加速度传感器、接
近传感器、触敏传感器和/或类似于以上参考图2A所述的一个或多个接触强度传感器265的
接触强度传感器)。存储器470包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随
机存取固态存储器设备;并且任选地包括非易失性存储器,诸如一个或多个磁盘存储设备、
光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器470任选地包括远离
一个或多个CPU 410定位的一个或多个存储设备。在一些实施方案中,存储器470存储与便
携式多功能设备200(图2A)的存储器202中存储的程序、模块和数据结构类似的程序、模块
和数据结构或其子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中
不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选地存储绘图模块480、
呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488和/或电子表格模块
490,而便携式多功能设备200(图2A)的存储器202任选地不存储这些模块。
如,指令集)不必被实现为独立的软件程序、过程或模块,因此这些模块的各种子集在各种
实施方案中组合或以其他方式重新布置。在一些实施方案中,存储器470存储上述模块和数
据结构的子组。此外,存储器470存储上文未描述的另外的模块和数据结构。
下元件或者其子集或超集:
他标签。在一些实施方案中,相应应用程序图标的标签包括与该相应应用程序图标对应的
应用程序的名称。在一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序
图标对应的应用程序的名称。
任选地包括用于检测触敏表面551上的接触的强度的一个或多个接触强度传感器(例如,传
感器457中的一个或多个传感器)和/或用于为设备400的用户生成触觉输出的一个或多个
触觉输出发生器459。
入,如图5B中所示。在一些实施方案中,触敏表面(例如,图5B中的551)具有与显示器(例如,
550)上的主轴(例如,图5B中的553)对应的主轴(例如,图5B中的552)。根据这些实施方案,
设备检测在与显示器上的相应位置对应的位置(例如,在图5B中,560对应于568并且562对
应于570)处的与触敏表面551的接触(例如,图5B中的560和562)。这样,在触敏表面(例如,
图5B中的551)与多功能设备的显示器(例如,图5B中的550)分开时,由设备在触敏表面上检
测到的用户输入(例如,接触560和562以及它们的移动)被该设备用于操纵显示器上的用户
界面。应当理解,类似的方法任选地用于本文所述的其他用户界面。
手指输入由来自另一输入设备的输入(例如,基于鼠标的输入或触笔输入)替代。例如,轻扫
手势任选地由鼠标点击(例如,而不是接触),之后是光标沿着轻扫的路径的移动(例如,而
不是接触的移动)替代。又如,轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标
点击(例如,代替对接触的检测,之后是停止检测接触)替代。类似地,当同时检测到多个用
户输入时,应当理解的是,多个计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被
同时使用。
些实施方案中,设备600具有在下文中称为触摸屏604的触敏显示屏604。作为触摸屏604的
替代或补充,设备600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方
案中,触摸屏604(或触敏表面)具有用于检测正在施加的接触(例如,触摸)的强度的一个或
多个强度传感器。触摸屏604(或触敏表面)的一个或多个强度传感器提供表示触摸的强度
的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应,这意味着不同强度的触
摸可调用设备600上的不同的用户界面操作。
Displaying User Interface Objects Corresponding to an Application(用于显示对
应于应用的用户界面对象的设备、方法和图形用户界面)”,2013年5月8日提交;以及国际专
利申请No.PCT/US2013/069483,标题为“Device,Method,and Graphical User Interface
for Transitioning Between Touch Input to Display Output Relationships(用于触
摸输入到显示输出之间关系转换的设备、方法和图形用户界面)”,2013年11月11日提交,这
两个专利申请中的每个专利申请据此全文以引用方式并入本文。
些实施方案中,设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将
设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱
包、背包等附接。这些附接机构允许用户穿戴设备600。
614与一个或多个计算机处理器616和存储器618操作性地耦接。I/O部分614被连接到显示
器604,该显示器可具有触敏部件622并且任选地还具有触摸强度敏感部件624。此外,I/O部
分614与通信单元630连接,以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通
信技术来接收应用程序和操作系统数据。设备600包括输入机构606和/或608。例如,输入机
构606是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中,输入机
构608是按钮。
和/或其组合,所有这些设备均可操作性连接到I/O部分614。
机处理器执行上述技术和过程。该计算机可执行指令也例如在任何非暂态计算机可读存储
介质内进行存储和/或传送,以供指令执行系统、装置或设备诸如基于计算机的系统、包含
处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与
其结合。个人电子设备600不限于图6B的部件和配置,而是可包括多种配置的其他部件或附
加部件。
图标)、按钮和文本(例如,超链接)各自构成示能表示。
器”,使得当光标在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)上方时
在触敏表面(例如,图4中的触摸板455或图5B中的触敏表面551)上检测到输入(例如,按压
输入)的情况下,该特定用户界面元素根据所检测到的输入加以调节。在包括能够实现与触
摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如,图2A中的触敏显示系统
212或图5A中的触摸屏212)的一些具体实施中,触摸屏上的所检测到的接触充当“焦点选择
器”,使得当在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界
面元素)的位置处检测到输入(例如,由接触进行的按压输入)时,该特定用户界面元素根据
所检测到的输入加以调节。在一些具体实施中,焦点从用户界面的一个区域移动到用户界
面的另一个区域,而无需光标的对应移动或触摸屏显示器上的接触的移动(例如,通过使用
制表键或箭头键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择器根
据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器所采取的具体形式,
焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如,通过向设
备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的
接触)。例如,在触敏表面(例如,触摸板或触摸屏)上检测到按压输入时,焦点选择器(例如,
光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显
示器上示出的其他用户界面元素)。
选地基于相对于预定义事件(例如,在检测到接触之后,在检测到接触抬离之前,在检测到
接触开始移动之前或之后,在检测到接触结束之前,在检测到接触的强度增大之前或之后
和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1
秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。
接触的特征强度任选地基于以下各项中的一者或多者:接触强度的最大值、接触强度的均
值、接触强度的平均值、接触强度的前10%处的值、接触强度的半最大值、接触强度的90%
最大值等。在一些实施方案中,在确定特征强度时使用接触的持续时间(例如,在特征强度
是接触的强度在时间上的平均值时)。在一些实施方案中,将特征强度与一组一个或多个强
度阈值进行比较,以确定用户是否已执行操作。例如,该组一个或多个强度阈值包括第一强
度阈值和第二强度阈值。在该示例中,特征强度未超过第一阈值的接触导致第一操作,特征
强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作,而特征强度超过第二
阈值的接触导致第三操作。在一些实施方案中,使用特征强度与一个或多个阈值之间的比
较来确定是否要执行一个或多个操作(例如,是执行相应操作还是放弃执行相应操作),而
不是用于确定执行第一操作还是第二操作。
触的强度增加。在该示例中,接触在结束位置处的特征强度仅基于连续轻扫接触的一部分,
而不是整个轻扫接触(例如,仅轻扫接触在结束位置处的部分)。在一些实施方案中,在确定
接触的特征强度之前向轻扫手势的强度应用平滑算法。例如,平滑算法任选地包括以下各
项中的一种或多种:不加权滑动平均平滑算法、三角平滑算法、中值滤波器平滑算法和/或
指数平滑算法。在一些情况下,这些平滑算法消除了轻扫接触的强度中的窄的尖峰或凹陷,
以实现确定特征强度的目的。
中,浅按压强度阈值对应于这样的强度:在该强度下设备将执行通常与点击物理鼠标或触
摸板的按钮相关联的操作。在一些实施方案中,深按压强度阈值对应于这样的强度:在该强
度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些
实施方案中,当检测到特征强度低于浅按压强度阈值(例如,并且高于标称接触检测强度阈
值,比标称接触检测强度阈值低的接触不再被检测到)的接触时,设备将根据接触在触敏表
面上的移动来移动焦点选择器,而不执行与浅按压强度阈值或深按压强度阈值相关联的操
作。一般来讲,除非另有陈述,否则这些强度阈值在不同组的用户界面附图之间是一致的。
强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特征强度从低于接
触检测强度阈值的强度增大到介于接触检测强度阈值与浅按压强度阈值之间的强度有时
被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低
于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在一些实施方案中,
接触检测强度阈值为零。在一些实施方案中,接触检测强度阈值大于零。
少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到
相应按压输入。在一些实施方案中,响应于检测到相应接触的强度增大到高于按压输入强
度阈值(例如,相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中,按压输入
包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按
压输入强度阈值,并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如,
相应按压输入的“向上冲程”)来执行相应操作。
阈值比按压输入强度阈值低X个强度单位,或滞后强度阈值是按压输入强度阈值的75%、
90%或某个合理比例)。因此,在一些实施方案中,按压输入包括相应接触的强度增大到高
于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后
强度阈值,并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如,相应按
压输入的“向上冲程”)来执行相应操作。类似地,在一些实施方案中,仅在设备检测到接触
强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且
任选地接触强度随后减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于
检测到按压输入(例如,根据环境,接触强度增大或接触强度减小)来执行相应操作。
的描述:接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增
大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值和/或接触强
度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检
测到接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于检测到接触
的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。
些示例中,数字助理的模块和功能中的一些被划分成服务器部分和客户端部分,其中客户
端部分位于一个或多个用户设备(例如,设备104、122、200、400、600或1008)上并通过一个
或多个网络与服务器部分(例如,服务器系统108)通信,例如,如图1中所示。在一些示例中,
数字助理系统700是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指
出,数字助理系统700仅为数字助理系统的一个示例,且该数字助理系统700具有比所示更
多或更少的部件、组合两个或更多个部件,或者可具有部件的不同配置或布局。图7A中所示
的各种部件在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号
处理集成电路和/或专用集成电路),或其组合中实现。
其他非易失性固态存储器设备)。
收用户输入(例如,语音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一
些示例中,例如,当数字助理在独立式用户设备上实现时,数字助理系统700包括分别相对
于图2A、图4、图6A至图6B以及图10中的设备200、400、600或1008所描述的部件和I/O通信接
口中的任一者。在一些示例中,数字助理系统700代表数字助理具体实施的服务器部分,并
且可通过位于用户设备(例如,设备104、200、400、600或1008)上的客户端部分与用户进行
交互。
用串行总线(USB)、火线等接收和发送通信信号。无线电路714从通信网络及其他通信设备
接收RF信号和/或光学信号以及将RF信号和/或光学信号发送至通信网络及其他通信设备。
无线通信使用多种通信标准、协议和技术中的任一种,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-
Fi、VoIP、Wi-MAX或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网
络,诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网
(MAN),与其他设备之间的通信成为可能。
块722、一个或多个应用程序724和数字助理模块726。具体地讲,存储器702或存储器702的
计算机可读存储介质存储用于执行上述过程的指令。一个或多个处理器704执行这些程序、
模块和指令,并从数据结构读取数据或将数据写到数据结构。
电源管理等)的各种软件组件和/或驱动器,并且有利于各种硬件、固件和软件组件之间的
通信。
400或600的RF电路208通信。通信模块720还包括各种部件,用于处理由无线电路714和/或
有线通信端口712所接收的数据。
块722还准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将其经由
I/O接口706(例如,通过显示器、音频通道、扬声器、触控板等)传送给用户。
如游戏、日历应用程序、导航应用程序或邮件应用程序。如果数字助理系统700在服务器上
实现,则应用程序724包括例如资源管理应用程序、诊断应用程序或调度应用程序。
(STT)处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务
处理模块738和语音合成处理模块740。这些模块中的每一者均具有对以下数字助理模块
726的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:本体论760、词汇
索引744、用户数据748、任务流模型754、服务模型756和ASR系统758。
中表达的用户意图;主动引出并获得完全推断用户意图所需的信息(例如,通过消除字词、
姓名、意图的歧义等);确定用于满足推断出的意图的任务流;以及执行该任务流以满足推
断出的意图。
设备600)交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语
音输出)。I/O处理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地
获得与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数
据、词汇和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户
请求时的用户设备的软件状态和硬件状态和/或在接收到用户请求时与用户的周围环境相
关的信息。在一些示例中,I/O处理模块728还向用户发送与用户请求有关的跟进问题,并从
用户接收回答。在用户请求被I/O处理模块728接收且用户请求包括语音输入时,I/O处理模
块728将语音输入转发至STT处理模块730(或语音识别器)以进行语音文本转换。
预处理器。前端语音预处理器从语音输入中提取代表性特征。例如,前端语音预处理器对语
音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。另
外,每个ASR系统758包括一个或多个言语识别模型(例如,声学模型和/或语言模型)并且实
现一个或多个言语识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深
层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例包括基于动态时间
规整的引擎和基于加权有限状态变换器(WFST)的引擎。使用一个或多个语音识别模型和一
个或多个语音识别引擎来处理前端语音预处理器的所提取的代表性特征以产生中间识别
结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串或符
号序列)。在一些示例中,语音输入至少部分地由第三方服务处理或在用户的设备(例如,设
备104、设备200、设备400或设备600)上处理,以产生识别结果。一旦STT处理模块730产生包
含文本串(例如,字词,或字词的序列,或符号序列)的识别结果,识别结果就被传送至自然
语言处理模块732以供意图推断。在一些示例中,STT处理模块730产生言语输入的多个候选
文本表示。每个候选文本表示是与语音输入对应的字词或符号的序列。在一些示例中,每个
候选文本表示与言语识别置信度得分相关联。基于语音识别置信度得分,STT处理模块730
对候选文本表示进行排序并将n个最佳(例如,n个排名最高)候选文本表示提供给自然语言
处理模块732以供意图推断,其中n为大于零的预先确定的整数。例如,在一个示例中,仅将
排名最高的(n=1)候选文本表示递送至自然语言处理模块732以供意图推断。又如,将5个
排名最高的(n=5)候选文本表示传递给自然语言处理模块732以供意图推断。
236,942中有所描述,其全部公开内容以引用方式并入本文。
选发音相关联。具体地讲,可识别字词的词汇包括与多个候选发音相关联的字词。例如,该
词汇包括与 和 的候选发音相关联的字词“tomato”。另外,词汇字词
与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音存储在
STT处理模块730中,并且经由设备上的用户配置文件与特定用户相关联。在一些示例中,字
词的候选发音基于字词的拼写以及一个或多个语言学和/或语音学规则确定。在一些示例
中,候选发音手动生成,例如,基于已知的标准发音而手动生成。
特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,基于
候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排序。例如,自定义候
选发音的排名高于标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名
词。在一些示例中,候选发音与一个或多个语音特征(诸如地理起源、国家或种族)相关联。
例如,候选发音 与美国相关联,而候选发音 与英国相关联。此外,候
选发音的排序基于存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理
起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国
相关联,候选发音 (与美国相关联)可比候选发音 (与英国相关联)
排名更高。在一些示例中,经排序的候选发音中的一个可被选作预测发音(例如,最可能的
发音)。
理模块730首先识别对应于该语音输入的一部分的音素序列 那么它随后可基
于词汇索引744确定该序列对应于字词“tomato”。
不是该字词的候选音素序列。
与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”(或“用户意图”)表
示可由数字助理执行并且可具有在任务流模型754中实现的相关联的任务流的任务。相关
联任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力
范围取决于已在任务流模型754中实现并存储的任务流的数量和种类,或换言之,取决于数
字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还取决于助理从以
自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。
理模块732任选地使用上下文信息来明确、补充和/或进一步限定在从STT处理模块730接收
的候选文本表示中包含的信息。上下文信息包括例如用户偏好,用户设备的硬件和/或软件
状态,在用户请求之前、期间或之后不久收集的传感器信息,数字助理与用户之间的先前交
互(例如,对话),等等。如本文所述,在一些示例中,上下文信息是动态的,并且随对话的时
间、位置、内容、以及其他因素而变化。
关的“属性”。如上所述,“可执行意图”表示数字助理能够执行的任务,即,该任务为“可执行
的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。本体论
760中可执行意图节点与属性节点之间的连接定义由属性节点表示的参数如何从属于由可
执行意图节点表示的任务。
点。类似地,每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个
可执行意图节点。例如,如图7C所示,本体论760包括“餐厅预订”节点(即,可执行意图节
点)。属性节点“餐厅”、“日期/时间”(针对预订)和“同行人数”均直接连接至可执行意图节
点(即,“餐厅预订”节点)。
如,如图7C所示,本体论760还包括“设定提醒”节点(即,另一个可执行意图节点)。属性节点
“日期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒”节点。由于属性“日
期/时间”与进行餐厅预订的任务和设定提醒的任务二者相关,因此属性节点“日期/时间”
连接至本体论760中的“餐厅预订”节点和“设定提醒”节点二者。
之间的关系)。例如,图7C中示出的本体论760包括在本体论760内的餐厅预订域762的示例
以及提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日
期/时间”和“同行人数”以及子属性节点“菜系”、“价格区间”、“电话号码”和“位置”。提醒域
764包括可执行意图节点“设定提醒”和属性节点“主题”和“日期/时间”。在一些示例中,本
体论760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除了
餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不同域(例如,行程安排
域、旅行预订域、电影票域等)相关联。
“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点
相关联,并且进一步包括属性节点诸如“一个或多个接收人”、“消息类型”和“消息正文”。属
性节点“接收人”进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来限定。
改本体论760内的节点之间的关系进行修改。
行相关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“获取路线”、“寻找兴
趣点”,等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点具有多个共用的属性
节点。例如,针对“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”和“寻找感兴趣的点”的
可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”
和“同行人数”中的一者或多者。
节点相关联的“词汇”。将与每个节点相关联的相应组的字词和/或短语存储在与由节点所
代表的属性或可执行意图相关联的词汇索引744中。例如,返回图7B,与“餐厅”属性的节点
相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”
等。又如,与“发起电话呼叫”可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、
“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包
括不同语言的字词和短语。
涉及哪些节点。在一些示例中,如果发现候选文本表示中的字词或短语(经由词汇索引744)
与本体论760中的一个或多个节点相关联,则所述字词或短语“触发”或“激活”这些节点。基
于已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意图中的一个可
执行意图作为用户意图使数字助理执行的任务。在一些示例中,选择具有最多“已触发”节
点的域。在一些示例中,选择具有最高置信度(例如,基于其各个已触发节点的相对重要性)
的域。在一些示例中,基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在
选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请
求。
息。在一些示例中,自然语言处理模块732使用特定于用户的信息来补充用户输入中所包含
的信息以进一步限定用户意图。例如,针对用户请求“邀请我的朋友参加我的生日派对”,自
然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”应当于
何时何地举行,而不需要用户在其请求中明确地提供此类信息。
候选文本表示相关联的上下文信息。基于候选文本表示和相关联的上下文信息,一个或多
个机器学习机构被配置为基于一组候选可执行意图确定意图置信度得分。自然语言处理模
块732可基于所确定的意图置信度得分从一组候选可执行意图中选择一个或多个候选可执
行意图。在一些示例中,还利用本体论(例如,本体论760)从一组候选可执行意图中选择一
个或多个候选可执行意图。
和装置)”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用
方式并入本文。
结构化查询包括针对可执行意图的域内的一个或多个节点的参数,并且所述参数中的至少
一些参数填充有用户请求中指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上
7点的座位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地
识别为“餐厅预订”。根据本体论,“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时
间}、{日期}、{同行人数}等。在一些示例中,基于语音输入和使用STT处理模块730从语音输
入得出的文本,自然语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构
化查询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该示例中,用户话语
包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询
中未指定其他必要参数诸如{同行人数}和{日期}。在一些示例中,自然语言处理模块732用
所接收的上下文信息来填充结构化查询的一些参数。例如,在一些示例中,如果请求“附近
的”寿司店,自然语言处理模块732用来自用户设备的GPS坐标来填充结构化查询中的{位
置}参数。
意图生成相应的结构化查询(部分地或全部地)。自然语言处理模块732确定针对每个候选
可执行意图的意图置信度得分,并基于意图置信度得分对候选可执行意图进行排序。在一
些示例中,自然语言处理模块732将所生成的一个或多个结构化查询(包括任何已完成的参
数)传送至任务流处理模块736(“任务流处理器”)。在一些示例中,针对m个最佳(例如,m个
排名最高的)候选可执行意图的一个或多个结构化查询被提供给任务流处理模块736,其中
m为预先确定的大于零的整数。在一些示例中,将针对m个最佳候选可执行意图的一个或多
个结构化查询连同对应的候选文本表示提供给任务流处理模块736。
Intent From Speech Inputs”(用于从语音输入推断用户意图的系统和方法)的美国实用
新型专利申请No.14/298,725中有所描述,其全部公开内容以引用方式并入本文。
中,完成这些任务所必需的各种过程在任务流模型754中提供。在一些示例中,任务流模型
754包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作
的任务流。
理模块736调用对话流处理模块734来参与同用户的对话。在一些示例中,对话流处理器模
块734确定如何(和/或何时)向用户请求附加信息,并且接收和处理用户响应。通过I/O处理
模块728将问题提供给用户并从用户接收回答。在一些示例中,对话处理模块734经由音频
和/或视频输出向用户呈现对话输出,并接收经由口头或物理(例如,点击)响应的来自用户
的输入。继续上述示例,在任务流处理模块736调用对话流处理模块734来确定针对与域“餐
厅预订”相关联的结构化查询的“同行人数”和“日期”信息时,对话流处理模块734生成诸如
“一行几位?”和“预订哪天?”之类的问题传递给用户。一旦收到来自用户的回答,对话流处
理模块734就用缺失信息填充结构化查询,或将信息传递给任务流处理模块736以根据结构
化查询完成缺失信息。
包含的特定参数来执行任务流模型中的步骤和指令。例如,针对可执行意图“餐厅预订”的
任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定同行人数的预订的步骤
和指令。例如,使用结构化查询诸如:餐厅预订、{餐厅=ABC咖啡馆、日期=3/12/2012、时间
=7pm、同行人数=5},任务流处理模块736可执行以下步骤:(1)登录ABC咖啡馆的服务器或
诸如 的餐厅预订系统,(2)以网站上的形式输入日期、时间和同行人数信
息,(3)提交表单,以及(4)在用户的日历中形成针对预订的日历条目。
理模块738代表任务流处理模块736发起电话呼叫、设定日历条目、调用地图搜索、调用用户
设备上安装的其他用户应用程序或与所述其他应用程序进行交互,以及调用第三方服务
(例如,餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务进行交互。在一些
示例中,通过服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接
口(API)。服务处理模块738针对服务访问适当的服务模型,并依据服务模型根据该服务所
需的协议和API生成针对该服务的请求。
请求时,服务处理模块738可使用存储在服务模型中的Web地址来建立与在线预订服务的网
络连接,并将预订的必要参数(例如,时间、日期、同行人数)以根据在线预订服务的API的格
式发送至在线预订界面。
并最终生成响应(即,输出至用户,或完成任务)以满足用户的意图。所生成的响应是至少部
分地满足用户意图的对语音输入的对话响应。另外,在一些示例中,所生成的响应被输出为
语音输出。在这些示例中,所生成的响应被发送到语音合成处理模块740(例如,语音合成
器),在语音合成处理模块中,可处理所生成的响应以将对话响应以语音形式合成。在其他
示例中,所生成的响应是与满足语音输入中的用户请求相关的数据内容。
结构化查询和/或执行由第一结构化查询所表示的一个或多个任务或动作。在一些示例中,
第一结构化查询对应于排名最高的可执行意图。在其他示例中,第一结构化查询选自基于
对应的语音识别置信度得分和对应的意图置信度得分的结合所接收的结构化查询。在一些
示例中,如果任务流处理模块736在第一结构化查询的处理期间(例如,由于无法确定必要
的参数)遇到错误,任务流处理模块736可继续选择和处理所接收结构化查询的与排名较低
的可执行意图对应的第二结构化查询。例如基于对应候选文本表示的语音识别置信度得
分、对应候选可执行意图的意图置信度得分、第一结构化查询中的缺失必要参数或它们的
任何组合来选择第二结构化查询。
式。语音合成处理模块740将文本串转换成可听语音输出。语音合成处理模块740使用任何
适当语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单元选择合成、双
音素合成、域特定合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成,以及正
弦波合成。在一些示例中,语音合成处理模块740被配置为基于对应于这些字词的音素串来
合成各个字词。例如,音素串与所生成的对话响应中的字词相关联。音素串存储在与字词相
关联的元数据中。语音合成处理模型740被配置为直接处理元数据中的音素串,以合成语音
形式的字词。
这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。而且由于服务器
系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获得比客户端合成应当
实现的质量更高的语音输出。
新型专利申请No.13/251,088,名称为“Generating and Processing Task Items That
Represent Tasks to Perform(生成和处理代表要执行的任务的任务项)”,2011年9月30日
提交,其全部公开内容以引用方式并入本文。
如,系统100)来执行过程800,并且在服务器(例如,DA服务器106)和客户端设备之间以任何
方式来划分过程800的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智
能手表)之间划分过程800的框。因此,虽然过程800的部分在本文中被描述为由客户端-服
务器系统的特定设备执行,但应当理解,过程800不限于此。在其他示例中,仅使用客户端设
备(例如,用户设备104)或仅使用多个客户端设备来执行过程800。在过程800中,一些框被
任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可以
结合过程800来执行额外的步骤。
如,被配置为面向第一方向),并且多个麦克风中的第二麦克风与不同于第一方向的第二方
向相关联(例如,被配置为面向第二方向)。例如,电子设备可包括六个麦克风,并且六个麦
克风中的每一个可面向不同的方向并对来自该方向的音频信号进行采样,从而总共获得六
个样本音频信号。在一些示例中,电子设备可以是电话、膝上型计算机、台式计算机、平板电
脑、可穿戴设备(例如,智能手表)、扬声器、机顶盒、电视、家庭自动化设备(例如,恒温器)或
者其任何组合或子组合。
可包括干扰信号,包括但不限于:来自竞争说话者(例如,物理上接近电子设备的用户以外
的人)的语音、来自噪声源(例如,房间中的电视)的音频输出、混响等。参考图10,例如电子
设备1008通过多个麦克风对多个音频信号进行采样,这些音频信号包括来自用户1000的自
然语言语音输入1034(“嗨西丽,天气怎么样?”)以及来自电子设备1006的音频输出1036
(“下面是历史频道”)。
的音频流。在一些示例中,多个音频流包括一个或多个音频波束。例如,电子设备处理多个
音频信号以获得多个音频波束的单个音频波束(例如,通过波束形成技术)。在一些示例中,
使用源分离技术来获得多个音频波束中的至少一个音频波束。例如,当存在多个活动音频
源(例如,用户以及物理上接近电子设备的一个或多个竞争说话者)时,电子设备能够在干
扰源的方向上转向空间零点,以便从感兴趣的源获得音频的独立表示。参考图10,例如电子
设备1008可在电子设备1006(电视)的方向上转向空间零点,以便从用户1000获得语音输入
1034的独立表示。
频信号获得更多或更少音频波束。
备的硬件配置、电子设备的软件配置、音频波束的音频特性和/或用于处理音频波束的语音
识别器。例如,如果已经基于与由特定类型的麦克风(例如,与电子设备的麦克风不同)采样
的近场语音音频相对应的数据训练了用于处理音频波束的语音识别器(例如,STT处理模块
730),则电子设备可以修改音频波束,由此使得音频波束呈现由特定类型的麦克风采样的
近场语音的音频特性(例如,通过使由硬件配置、软件配置和/或特定于电子设备的环境因
素引起的音频波束的特性和/或方面最小化)。在一些示例中,电子设备进一步调节音频波
束以使混响、失真和/或回声最小化。在调节音频波束之后,电子设备将多个音频波束传递
到语音识别器以进行语音识别。
是否对应于语音触发包括确定多个音频流中的每一个是否包括语音触发。在一些其他示例
中,确定多个音频信号中的任一个是否对应于语音触发包括确定多个音频流的任何组合或
子组合是否包括语音触发。在一些示例中,多个音频流中的每一个与方向信息相关联,并且
电子设备基于该方向信息确定多个音频信号中的任一个是否对应于语音触发。例如,电子
设备可基于多个音频流的方向信息将多个音频流组合成单个音频流(例如,单个音频波
束),并确定该单个音频流是否包括语音触发。
流相对应的一个或多个触发得分。触发得分表示触发短语(例如,“嗨西丽”)包括在音频流
中的置信水平。例如,如果电子设备对音频流执行语音识别分析(例如,使用STT处理模块
730)并获得触发短语作为识别结果,则电子设备可以作为语音识别过程的一部分将语音识
别置信得分分配给识别结果。触发得分可以基于语音识别置信得分。在一些示例中,电子设
备将多个音频流中的每一个提供给神经网络以获得相应的触发得分。
音频1036(“下面是历史频道”)的另一音频流中的触发短语“嗨西丽”,并为识别结果分配第
二触发得分(例如,低于第一触发得分)。基于一个或多个触发得分,电子设备确定多个音频
信号中的任一个是否对应于语音触发。例如,电子设备确定音频信号包括语音触发,因为最
高触发得分超过预定阈值。
可以提示并从用户接收样本话语(例如,作为数字助理的设置过程或配置过程的一部分),
并且基于该样本话语获得与用户相关联的声学信息。此后,在获得音频流之后,电子设备可
以通过例如确定所识别语音的声学特性(例如,韵律特性、频率、音量、音量一致性)是否与
与用户相关联的声学信息一致来确定音频流包括来自用户的语音的可能性。例如,参考图
10,电子设备1008可确定包括语音输入1034(“嗨西丽,天气怎么样?”)的音频波束包括触发
短语,因为语音输入的声学特性与与用户1000相关联的声学信息匹配。此外,电子设备1008
可确定包括音频1036(“下面是历史频道”)的另一音频流不包括触发短语,因为音频1036的
声学特性与与用户1000相关联的声学信息不匹配。以这种方式,电子设备使与电子设备无
关联(例如,未被授权访问电子设备)的说话者触发数字助理的情况最小化。特定于用户的
声学模型的其他描述在下述文献中提供:美国专利申请No.62/505,680,“USER-SPECIFIC
ACOUSTIC MODELS(特定于用户的声学模型)”,2017年5月12日提交,,该专利申请据此全文
以引用方式并入。美国专利申请No.62/505,680描述了用于尤其是基于语音输入和由独立
于用户的声学模型提供的语音结果来调节特定于用户的声学模型的示例性技术。
备可以对一个或多个音频流执行语音识别分析,以获得一个或多个语音识别结果(例如,多
个字词)。此外,电子设备可以对语音识别结果执行自然语言处理,以获得一个或多个解析
结果(例如,语义解析、句法解析)。此外,电子设备可以对语音识别结果执行自然语言处理,
以获得一个或多个可执行意图(或用户意图的表示)。另外,对于多个所识别字词中的至少
一个,电子设备可以获得指示所发出字词的声学特性和/或与所发出字词相关联的方向的
信息。
信号中的任一个是否对应于语音触发。在一些示例中,基于多个字词,电子设备可以确定特
定序列中的多个字词的特定组合(或子组合)是否在语义上有意义(例如,符合句法规则和/
或语法规则)。此外,电子设备可以确定多个字词的特定组合(或子组合)是否与同一音频源
相关联(例如,与同一方向相关联)。此外,电子设备可以确定多个字词的特定组合(或子组
合)是否指示授权说话者(例如,具有与电子设备的用户的音频特性一致的音频特性)。此
外,电子设备可以确定多个字词的特定组合(或子组合)是否对应于由数字助理识别的可执
行意图。
意图,则电子设备确定多个音频信号对应于语音触发。例如,参考图10,电子设备1008获得
包括音频1036(“下面是历史频道”)的音频波束,并确定该音频波束不包括数字助理的触
发,至少因为该音频不具有与用户1000的音频特性一致的音频特性并且/或者不对应于由
数字助理识别的可执行意图。
流中,电子设备识别一组候选音频流,候选音频流中的每个由电子设备确定以包括语音触
发(例如,具有不同的置信水平)。在识别该组候选音频流之后,电子设备将该组候选音频流
中的一个或多个候选音频流提供给验证器(例如,在远程设备上)。在一些示例中,验证器包
括一个或多个软件模块。在一些示例中,验证器在电子设备上、在一个或多个远程电子设备
上或其组合上实现。在一些示例中,验证器的至少一部分由电子设备本地提供,并且电子设
备将对应于该组候选音频流的数据传递到电子设备上的软件模块。在一些其他示例中,验
证器的至少一部分由远程电子设备(例如,DA服务器106)提供,并且电子设备将对应于该组
候选音频流的数据发送到远程电子设备。此后,电子设备从验证器获得验证信息。
流。例如,电子设备可以基于与一个或多个候选音频流相关联的相应触发得分来选择一个
或多个候选音频流(例如,向验证器提供具有最高触发得分的候选音频流)。作为另一个示
例,电子设备可以基于与一个或多个候选音频流相关联的相应熵信息来选择一个或多个候
选音频流(例如,向验证器提供具有最高熵的候选音频流)。可基于与由电子设备的STT处理
模块提供的与语音触发相关的一个或多个输出(例如,与触发短语“嗨西丽”相关的后验概
率)来计算与候选音频流相关联的熵信息(例如,使用STT处理模块730的深度神经网络模
型)。在一些示例中,输出指示在音频流中如何“清晰地”表示触发短语。作为又一个示例,电
子设备可以基于电子设备从候选音频流中的每个中检测到触发的相应时间来选择一个或
多个候选音频流。例如,如果电子设备在确定第二候选音频流包括语音触发之前确定第一
候选音频流包括语音触发,则电子设备可向验证器提供第一候选音频流,而不是第二候选
音频流。
对附加音频输入进行采样来发起数字助理的会话。在一些示例中,数字助理基于与多个音
频流相关联的方向信息来提供音频输出。例如,如果电子设备检测到多个音频流(音频流中
的每个与方向信息相关联)中的特定音频流中的语音触发,则电子设备可以选择面向与该
特定音频流相关联的方向的说话者。在框810处,根据确定多个音频信号不对应于语音触
发,电子设备放弃发起数字助理的会话。
用户。在一些示例中,电子设备通过将与第一段相关联的声学信息与与第二段相关联的声
学信息进行比较来确定第一段和第二段是否对应于同一用户。例如,参考图10,电子设备可
以识别第一段“嗨西丽,天气”和第二段“怎么样”,并基于相似的声学特性确定这两段与同
一用户相关联。另一方面,电子设备可以识别第一段“嗨西丽,天气”和第二段“历史频道”,
并基于这两段的不同声学特性确定这两段不与同一用户相关联。
如,电子设备1008可以确定第一段“嗨西丽,天气”和第二段“怎么样”与同一用户相关联,因
为与第一段相关联的熵与与第二段相关联的熵相似或相同。
二段“怎么样”和第三段“是历史频道”。此外,电子设备可以确定第一段和第二段的组合
(即,“嗨西丽,天气怎么样”)产生语义上有意义的解析结果。因此,电子设备确定第一段和
第二段与同一用户相关联。另一方面,电子设备可以确定第一段和第三段的组合(即,“嗨西
丽,是历史信道”)在语义上没有意义,因此这两段不与同一用户相关联。在一些示例中,根
据确定第一段和第二段对应于同一用户,电子设备例如基于第一段和第二段的声学特性进
一步确定该用户是否是电子设备的授权用户(例如,被授权访问数字助理)。在一些示例中,
基于第一段和第二段,电子设备获得用户意图(或用户意图的表示)。
设备可以选择对应于该一个或多个音频流的一个或多个麦克风以对后续音频信号进行采
样。例如,参考图10,如果电子设备1008从与朝向用户1000的方向相关联的特定音频波束检
测到语音触发“嗨西丽”,则电子设备可以选择对应于该音频波束的一个或多个麦克风以对
后续音频信号进行采样。在一些示例中,如果麦克风与音频波束的方向相关联(例如,被配
置为面向音频波束的方向)并且/或者麦克风已对形成音频波束的音频信号进行采样,则麦
克风对应于该音频波束。此外,电子设备1008可禁用电子设备上的其余麦克风(例如,持续
预定的时间段)。此外,电子设备1008可抑制与不同于用户1000的说话者相关联的任何音频
信号的识别和解释(例如,通过分配低语音识别置信得分、低意图置信得分)。
行采样。该组麦克风的选择可基于由电子设备采样的音频信号的方向信息或基于检测到的
用户的物理存在进行。检测人的物理存在的其他描述在下述文献中提供:美国专利申请62/
506,981,“INTELLIGENT AUTOMATED ASSISTANT FOR MEDIA EXPLORATION(智能自动化媒体
探索助手)”,2017年5月16日提交,该专利申请据此全文以引用方式并入。美国专利申请62/
506,981描述了用于尤其是例如通过检测与人相关联的电子设备和/或通过检测人的语音
特征来检测人的物理存在的示例性技术。
如,上述技术可以用于选择麦克风以对音频信号进行采样(例如,当用户在房间内四处走动
时),选择扬声器以提供音频输出,以确定音频信号是否包括来自授权用户的对数字助理的
请求,以及确定两个音频段是否与同一用户和/或同一用户请求相关联。
子设备处检测到的音频信号的信息。在一些示例中,第二电子设备与不同于第一电子设备
的设备类型相关联。参考图10,例如电子设备1008可以从电子设备1002(例如,智能手表)接
收对应于在电子设备1002处检测到的音频信号的信息。在所描绘的示例中,电子设备1008
具有比电子设备1002更多的处理能力(例如,更多的本地存储器)。
风的位置信息、在第二电子设备处检测到的音频信号的一部分或其任何组合。基于该信息,
第一电子设备确定在第二电子设备处检测到的音频信号是否对应于语音触发。参考图10,
例如电子设备1008可以从电子设备1002接收包括以下各项的信息:电子设备1002(例如,智
能手表)的设备类型、麦克风在电子设备1002上的位置(例如,GPS坐标)和被采样信号(例
如,对应于语音输入1034)的方向信息。基于所接收的信息,电子设备1008可以确定在电子
设备1002处检测到的音频信号是否包括语音触发。电子设备1008还可以将在电子设备1002
处检测到的音频信号与在本地检测到的任何音频信号组合,以确定是否可以从组合音频信
号中检测到语音触发。
于设备104、200、400、600和1008。本领域的普通技术人员应当清楚地知道如何基于在图1至
图4、图6A至图6B以及图7A至图7C中所描绘的部件来实现其他过程。
如,系统100)来执行过程900,并且在服务器(例如,DA服务器106)和客户端设备之间以任何
方式来划分过程900的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智
能手表)之间划分过程900的框。因此,虽然过程900的部分在本文中被描述为由客户端-服
务器系统的特定设备执行,但应当理解,过程900不限于此。在其他示例中,仅使用客户端设
备(例如,用户设备104)或仅使用多个客户端设备来执行过程900。在过程900中,一些框被
任选地组合,一些框的次序被任选地改变,并且一些框被任选地省略。在一些示例中,可以
结合过程900来执行额外的步骤。
样。第二电子设备与第一电子设备不同。在一些示例中,第一电子设备和第二电子设备中的
每一者可以是电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如,智能手表)、
扬声器、机顶盒、电视、家庭自动化设备(例如,恒温器)或者其任何组合或子组合。参考图
10,例如电子设备1004(电话)使用设备1004上的麦克风对第一音频信号进行采样,并且电
子设备1002(智能手表)使用设备1002上的不同麦克风对第二音频信号进行采样。
1004和智能手表1002中的一者)、不同于第一电子设备和第二电子设备的电子设备(例如,
扬声器1008)或远程设备(例如,DA服务器106)。在一些示例中,第三电子设备(例如,扬声器
1008)是不同于第二电子设备(例如,智能手表1002)的设备类型。在一些示例中,第三电子
设备具有比第一电子设备和/或第二电子设备更多的处理能力。
信号的方向信息、与第一电子设备和/或第二电子设备相关联的设备类型或其任何组合。基
于所获得的信息,第三电子设备确定第一音频信号、第二音频信号以及/或者第一音频信号
和第二音频信号的组合是否对应于语音触发。在一些示例中,第三电子设备使用上文关于
图8描述的任何技术来进行确定。
触发,第四电子设备放弃发起数字助理的会话。
中,发起数字助理的会话包括由数字助理提供音频输出(例如,“你好”)。在一些示例中,第
四电子设备基于第一音频信号和第二音频信号获得与音频源(例如,用户1000)相关联的方
向信息,并基于该方向信息提供音频输出。
向(例如,朝向用户1000的方向)。此后,电子设备1008使用与音频源的方向相关联(例如,被
配置为面向频源的方向)的扬声器来提供音频输出(例如,“外面天气……”),同时放弃使用
电子设备1008上的其余扬声器来提供音频输出。
于设备104、200、400、600和1008。本领域的普通技术人员应当清楚地知道如何基于在图1至
图4、图6A至图6B以及图7A至图7C中所描绘的部件来实现其他过程。
序,该一个或多个程序包括用于执行本文所述方法或过程中的任一个的指令。
一个或多个程序包括用于执行本文所描述的方法和过程中的任一个的指令。
多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术
的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合
于所预期的特定用途的各种修改的各种实施方案。
括在由权利要求书所限定的本公开和示例的范围内。