增强第一文档的方法和系统转让专利

申请号 : CN200580028904.4

文献号 : CN101031915B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 舒密特·巴鲁贾维伯胡·米塔尔迈赫兰·萨哈米

申请人 : GOOGLE公司

摘要 :

本公开涉及增强第一文档的方法和系统,所述方法包括:接收与用户相关的个人信息,接收用户请求的第一文档,通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息,通过将基于个人信息的一个或多个术语与所识别的特定的文本信息级连,形成搜索查询,基于由搜索引擎利用所述搜索查询执行的搜索,识别附加文档,将对附加文档的引用嵌入到与所识别的特定的文本信息内嵌的第一文档中,以形成修改的第一文档,以及发送修改的第一文档给用户。在有些实现中,附加文档可以例如通过内嵌链接或文本浮框内嵌呈现在正读取的文档中。因此,可以有效地向用户呈现与正读取的原始文档相关的附加信息。

权利要求 :

1.一种增强第一文档的方法,包括:

接收与用户相关的个人信息,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;

接收用户请求的第一文档;

通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,

第一文档中包括的日期,或

第一文档中的作者和出版物名;

通过将基于个人信息的一个或多个术语与所识别的特定的文本信息级连,形成搜索查询;

基于由搜索引擎利用所述搜索查询执行的搜索,识别附加文档;

将对附加文档的引用与所识别的特定的文本信息内嵌嵌入到第一文档中,以形成修改的第一文档;以及发送修改的第一文档给用户。

2.如权利要求1所述的方法,其中对附加文档的引用包括链接。

3.如权利要求2所述的方法,其中链接包括描述所述对附加文档的引用的文本。

4.如权利要求2所述的方法,其中链接包括漂浮文本。

5.如权利要求1所述的方法,其中所述特定的文本信息包含包括第一文档中的在命名实体列表中匹配的命名实体的文本。

6.如权利要求5所述的方法,其中命名实体列表包括位置名或消费品。

7.如权利要求1所述的方法,其中所述特定的文本信息包括在第一文档中出现的次数多于预定次数的文本。

8.如权利要求1所述的方法,其中个人信息包括从由用户生成的文档提取的信息。

9.如权利要求1所述的方法,其中个人信息包括时间信息。

10.一种增强第一文档的系统,包括:

用于接收与用户相关的个人信息的装置,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;

用于接收用户请求的第一文档的装置;

用于通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息的装置:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,

第一文档中包括的日期,或

第一文档中的作者和出版物名;

用于通过将基于个人信息的一个或多个术语与所识别的特定的文本信息级连而形成搜索查询的装置;

用于基于由搜索引擎利用所述搜索查询执行的搜索而识别附加文档的装置;

用于将对附加文档的引用与所识别的特定的文本信息内嵌嵌入到第一文档中以形成修改的第一文档的装置;以及用于发送修改的第一文档给用户的装置。

11.如权利要求10所述的系统,其中所述特定的文本信息中的多个特定的预定义的术语在搜索查询中被赋予附加权重。

12.一种增强第一文档的方法,包括:

接收来自用户的对第一文档的请求;

基于以下至少一项来在第一文档中识别文本:所述文本中的术语在第一文档中出现的次数结合所述文本中的术语在第一文档语言中出现的频率、从命名实体列表匹配出的命名实体、第一文档的作者、第一文档的日期、或者第一文档的出版实体;

定位与第一文档相关的至少一个第二文档,其中第二文档与第一文档的相关性基于所述文本并基于第一文档要发往的用户的个人信息,所述个人信息包括要发往的用户的地理位置、由要发往的用户在注册账号时提供的信息或者基于要发往的用户的浏览历史的信息;

在第一文档中与所述文本内嵌的位置嵌入对第二文档的链接,以获得第一文档的修改版本;以及发送第一文档的修改版本给用户。

13.如权利要求12所述的方法,其中命名实体列表包括位置名或消费品。

14.如权利要求12所述的方法,其中个人信息包括从由用户生成的文档提取的信息。

15.如权利要求12所述的方法,其中第二文档作为与第一文档中命名实体关联的超链接嵌入到第一文档中。

16.如权利要求12所述的方法,其中在第一文档中嵌入对第二文档的链接的步骤还包括:插入包括描述第二文档的文本的超链接。

17.一种增强第一文档的系统,包括:

用于接收来自用户的对第一文档的请求的装置;

用于基于以下至少一项来在第一文档中识别文本的装置:所述文本中的术语在第一文档中出现的次数结合所述文本中的术语在第一文档语言中出现的频率、从命名实体列表匹配出的命名实体、第一文档的作者、第一文档的日期、或者第一文档的出版实体;

用于定位与第一文档相关的至少一个第二文档的装置,其中第二文档与第一文档的相关性基于所述文本并基于第一文档要发往的用户的个人信息,所述个人信息包括要发往的用户的地理位置、由要发往的用户在注册账号时提供的信息或者基于要发往的用户的浏览历史的信息;

用于在第一文档中与所述文本内嵌的位置嵌入对第二文档的链接以获得第一文档的修改版本的装置;以及用于发送第一文档的修改版本给用户的装置。

18.如权利要求17所述的系统,其中命名实体列表包括位置名或消费品。

19.如权利要求17所述的系统,其中个人信息包括从由用户生成的文档提取的信息。

20.一种增强第一文档的方法,包括:

接收与用户相关的个人信息,其中个人信息包括用户的地理位置、由用户在注册账号时提供的信息或者基于用户的浏览历史的信息中的至少一个;

通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,

第一文档中包括的日期,或

第一文档中的作者和出版物名;

基于所识别的特定的文本信息和基于所接收的个人信息生成多个不同的搜索查询;

通过向一个或多个搜索引擎提交所述多个搜索查询而定位文档组;

将在所述文档组中的多个文档中出现的文档确定为相关文档;

生成包括第一文档的内容的第二文档,所述第一文档被修改成包括引用所述相关文档的与第一文档内嵌嵌入的链接,所述链接位于所述特定的文本信息附近;以及发送第二文档给用户。

21.如权利要求20所述的方法,还包括:为链接提供漂浮文本,其中漂浮文本包括描述相关文档的文本。

22.如权利要求20所述的方法,其中所述一个或多个搜索引擎包括新闻搜索引擎、产品搜索引擎或通用的基于web的搜索引擎中的至少一个。

23.一种增强第一文档的系统,包括:

用于接收与用户相关的个人信息的装置,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;

用于通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息的装置:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,

第一文档中包括的日期,或

第一文档中的作者和出版物名;

用于基于所识别的特定的文本信息和基于所接收的个人信息而生成多个不同搜索查询的装置;

用于通过向一个或多个搜索引擎提交多个不同搜索查询而定位文档组的装置;

用于将在所述文档组中的多个文档中出现的文档确定为相关文档的装置;

用于生成包括第一文档的内容的第二文档的装置,所述第一文档被修改成包括引用所述相关文档的与第一文档内嵌嵌入的链接,所述链接位于所述特定的文本信息附近;以及用于发送第二文档给用户的装置。

24.如权利要求23所述的系统,其中用于定位文档组的装置包括:用于基于文档的相关性得分、文档被选择的次数、或者文档日期中的至少一个来将所述一个或多个搜索引擎之一返回的结果进行排队的装置。

25.如权利要求23所述的系统,其中所述特定的文本信息中的多个特定的预定义的术语在搜索查询中的至少一个中被赋予附加权重。

说明书 :

增强第一文档的方法和系统

技术领域

[0001] 在此所描述的系统与方法总体上涉及信息检索,更具体而言,涉及用于浏览信息的技术。

背景技术

[0002] 万维网(“web”)包含非常大量的信息。Web的一种非常通用的用途是读取文档,例如新闻文章或其它出版物。
[0003] 当读取特定的文档时,例如新闻文章,已知的是提供对以某种方式与该特定文档相关的其它文档的链接。例如,当用户从新闻搜索引擎或内嵌新闻服务选择新闻文档时,web站点可以提供对与该新闻文档相关的其它新闻文章或广告的链接。一般来说,这种相关的文档是基于正读取文档的内容确定的并作为显示在文档内容之外的附加链接显示。通过提供对相关材料的方便链接,这些附加文档可以增强读者的浏览体验。
[0004] 期望通过向读者提供对相关信息的自动生成的链接来提供用于增强文档浏览的改进技术。

发明内容

[0005] 根据一方面,增强第一文档的方法包括:接收与用户相关的个人信息,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;接收用户请求的第一文档;通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,第一文档中包括的日期,或第一文档中的作者和出版物名;通过将基于个人信息的一个或多个术语与所识别的特定的文本信息级连,形成搜索查询;基于由搜索引擎利用所述搜索查询执行的搜索,识别附加文档;将对附加文档的引用嵌入到与所识别的特定的文本信息内嵌(in-line)的第一文档中,以形成修改的第一文档;以及发送修改的第一文档给用户。
[0006] 在另一方面,增强第一文档的系统包括:用于接收与用户相关的个人信息的装置,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;用于接收用户请求的第一文档的装置;用于通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息的装置:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,第一文档中包括的日期,或第一文档中的作者和出版物名;用于通过将基于个人信息的一个或多个术语与所识别的特定的文本信息级连而形成搜索查询的装置;用于基于由搜索引擎利用所述搜索查询执行的搜索而识别附加文档的装置;用于将对附加文档的引用嵌入到与所识别的特定的文本信息内嵌的第一文档中以形成修改的第一文档的装置;以及用于发送修改的第一文档给用户的装置。
[0007] 在另一方面,增强第一文档的方法包括:接收来自用户的对第一文档的请求;基于以下至少一项来在第一文档中识别文本:所述文本中的术语在第一文档中出现的次数结合所述文本中的术语在第一文档语言中出现的频率、从命名实体列表匹配出的命名实体、第一文档的作者、第一文档的日期、或者第一文档的出版实体;定位与第一文档相关的至少一个第二文档,其中第二文档与第一文档的相关性基于所述文本并基于第一文档要发往的用户的个人信息,所述个人信息包括要发往的用户的地理位置、由要发往的用户在注册账号时提供的信息或者基于要发往的用户的浏览历史的信息;在第一文档中与所述文本内嵌的位置嵌入对第二文档的链接,以获得第一文档的修改版本;以及发送第一文档的修改版本给用户。
[0008] 在另一方面,增强第一文档的系统包括:用于接收来自用户的对第一文档的请求的装置;用于基于以下至少一项来在第一文档中识别文本的装置:所述文本中的术语在第一文档中出现的次数结合所述文本中的术语在第一文档语言中出现的频率、从命名实体列表匹配出的命名实体、第一文档的作者、第一文档的日期、或者第一文档的出版实体;用于定位与第一文档相关的至少一个第二文档的装置,其中第二文档与第一文档的相关性基于所述文本并基于第一文档要发往的用户的个人信息,所述个人信息包括要发往的用户的地理位置、由要发往的用户在注册账号时提供的信息或者基于要发往的用户的浏览历史的信息;用于在第一文档中与所述文本内嵌的位置嵌入对第二文档的链接以获得第一文档的修改版本的装置;以及用于发送第一文档的修改版本给用户的装置。
[0009] 在另一方面,增强第一文档的方法包括:接收与用户相关的个人信息,其中个人信息包括用户的地理位置、由用户在注册账号时提供的信息或者基于用户的浏览历史的信息中的至少一个;通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,第一文档中包括的日期,或第一文档中的作者和出版物名;基于所识别的特定的文本信息和基于所接收的个人信息生成多个不同的搜索查询;通过向一个或多个搜索引擎提交所述多个搜索查询而定位文档组;将在所述文档组中的多个文档中出现的文档确定为相关文档;生成包括第一文档的内容的第二文档,所述第一文档被修改成包括引用所述相关文档的与第一文档内嵌嵌入的链接,所述链接位于所述特定的文本信息附近;以及发送第二文档给用户。
[0010] 在再一方面,增强第一文档的系统包括:用于接收与用户相关的个人信息的装置,所述个人信息包括用户的地理位置、由用户在注册帐号时提供的信息或者基于用户的浏览历史的信息中的至少一个;用于通过处理第一文档的文本以获得以下中的至少一项来识别特定的文本信息的装置:在第一文档中出现次数超过预定次数的术语,第一文档中的命名实体,第一文档中包括的日期,或第一文档中的作者和出版物名;用于基于所识别的特定的文本信息和基于所接收的个人信息而生成多个不同搜索查询的装置;用于通过向一个或多个搜索引擎提交多个不同搜索查询而定位文档组的装置;用于将在所述文档组中的多个文档中出现的文档确定为相关文档的装置;用于生成包括第一文档的内容的第二文档的装置,所述第一文档被修改成包括引用所述相关文档的与第一文档内嵌嵌入的链接,所述链接位于所述特定的文本信息附近;以及用于发送第二文档给用户的装置。

附图说明

[0011] 结合进本说明书并构成其一部分的附图说明了本发明的实施方式并与描述一起解释本发明。在附图中,
[0012] 图1A和1B是说明可以呈现给用户的示例图形界面的图;
[0013] 图2是其中与本发明原理一致的概念可以实现的网络的示例图;
[0014] 图3是在图2网络中显示的客户端或服务器的示例图;
[0015] 图4是说明图2所示文档定位器的概念元件的框图;
[0016] 图5是说明图4所示搜索组件的示例实现的图;
[0017] 图6是说明由图2所示文档定位器执行的示例操作的流程图;及
[0018] 图7是说明在内容提供web站点情境下文档定位器的示例实现的图。

具体实施方式

[0019] 以下本发明的具体描述参考附图。该具体描述不限制本发明。
[0020] 概述
[0021] 如在此所描述的,与例如用户所读取文档的原始文档相关的附加文档是自动定位的。附加文档可以根据其内容和/或根据用户的个人信息定位。附加文档可以与原始文档一起内嵌显示。因此,可以有效地向用户呈现与正读取的原始文档相关的附加信息。
[0022] 图1A和1B是说明可以呈现给用户的示例图形界面的图。图形界面可以通过正用于浏览web的web浏览器100呈现。图1A和1B中所示的例子文档105关于攀登Mt.Everest的徒步旅行者(BillCross)的进展。
[0023] 多个附加文档可能与文档105相关。例如,在图1A中,对三个附加文章的链接110、112和114嵌入到文档105中。链接110可以引用关于Mt.Everest的文档,链接112可以引用关于Novolog Peaks和Poles Challenge的文档,而链接114可以引用关于diabetes的文档。链接110、112和114中的每一个都引用以某种方式与原始文档105相关的内容。
在这个例子中,链接110、112和114以通知读者带下划线链接的内容的简单摘要文本(例如,“related content:Mt.Everest”)显示。此外,摘要文本是带下划线的,指示该摘要文本与链接关联。假定图1A中文档105的读者位于California的San Jose。关于San J0se徒步旅行装备零售商的广告115可以附加地显示。此外,由链接110、112和114引用的文档可以是特别适于San Jose地区读者的文档。
[0024] 尽管没有在图1A中示出,但其它链接,例如甚至更直接地定制成读者个人信息的链接,也可以显示。例如,如果读者先前在搜索引擎中输入了搜索查询,例如与照片相关的搜索查询,则其它链接可以是对描述“Everest照片”的文档的链接。
[0025] 图1B中的文档105与图1A中的完全相同。多个链接120、122和124包括在图1B的文档105中。在这个例子中,链接120、122和124不是示为链接的摘要文本,而是通过简单地修改与文档105中特定词或短语相关的格式或显示来实现。例如,链接120通过给“Mt.Everest”加下划线,由此向读者说明该链接引用关于Mt.Everest的文档向读者显示。另一链接126内嵌插入到文档105中,它包括类似于链接110、112和114的摘要文本。对于这个例子,假定读者来自Seattle而不是San Jose。可以根据这个事实生成的链接126引用关于徒步旅行Mt.Rainer-Seattle附加的一座山峰的文档。
[0026] 示例网络概述
[0027] 图2是其中与本发明原理一致的概念可以实现的网络200的示例图。网络200可以包括通过网络240连接到服务器220的多个客户端210。网络240可以包括局域网(LAN)、广域网(WAN)、例如公共交换电话网(PSTN)的电话网络、内联网、因特网或网络的组合。为了简单,两个客户端210和一个服务器220被示出为连接到网络240。实际上,可以有更多客户端和/或服务器。而且,在有些情况下,客户端可以执行服务器的一种或多种功能,而服务器也可以执行客户端的一种或多种功能。
[0028] 客户端210可以包括例如无线电话、个人计算机、个人数字助理(PDA)、膝上型电脑或其它类型的计算或通信设备的设备、运行在这些设备中一个上的线程或过程和/或可以由这些设备中一个执行的对象。服务器220可以包括以与本发明原理一致的方式处理、搜索和/或维护文档与图像的服务器设备。客户端210与服务器220可以通过有线、无线或光连接连接到网络240。
[0029] 服务器220可以包括附加文档定位器组件225(在此也简单地称为“文档定位器225”)。文档定位器225可以定位并添加对与输入文档相关的其它文档的引用,例如添加到文档105的引用(图1A和1B)。
[0030] 作为在此所使用的术语,文档广义地解释为包括任何机器可读和机器可存储作品。文档可以是电子邮件、web日志(博克)、文件、文件的组合、具有对其它文件的嵌入链接的一个或多个文件、新闻组粘贴等。在因特网情境下,常用文档是web页面,例如HTMLweb页面。Web页面常常包括内容,而且可以包括嵌入的信息(例如元信息、超链接等)和/或嵌入的指令(例如Java script等)。在此所讨论的文档通常包括嵌入的图像。在此作为术语使用的“链接”广义地解释为包括从文档到另一文档或同一文档的另一部分的引用/从另一文档或同一文档的另一部分到本文档的任何引用。
[0031] 示例客户端/服务器体系结构
[0032] 图3是客户端210或服务器220的示例图。客户端/服务器210/220可以包括总线310、处理器320、主存储器330、只读存储器(ROM)340、存储设备350、输入设备360、输出设备370及通信接口380。总线310可以包括允许在客户端/服务器210/220的组件之间通信的导体。
[0033] 处理器320可以包括解释并执行指令的传统处理器、微处理器或处理逻辑。主存储器330可以包括随机存取存储器(RAM)或存储信息与由处理器320所执行指令的另一类型的动态存储设备。ROM340可以包括传统ROM设备或存储静态信息与由处理器320使用的指令的另一类型的静态存储设备。存储设备350可以包括磁和/或光记录介质及其对应的驱动器。
[0034] 输入设备360可以包括允许用户向客户端/服务器210/220输入信息的一种或多种传统机构,例如键盘、鼠标、笔、语音识别和/或生物测量机构等。输出设备370可以包括向用户输出信息的一种或多种传统机构,包括显示器、打印机、扬声器等。通信接口380可以包括使客户端/服务器210/220与其它设备和/或系统通信的任何象收发器那样的机构。例如,通信接口380可以包括通过网络(例如网络240),与其它设备或系统通信的机构。
[0035] 与本发明的原理一致的服务器220可以实现附加文档定位器225。附加文档定位器225可以存储在计算机可读介质中,例如存储器330中。计算机可读介质可以定义为一个或多个物理或逻辑存储器设备和/或载波。
[0036] 定义附加文档定位器225的软件指令可以从另一计算机可读介质(例如数据存储设备350),或通过通信接口380从另一设备读到存储器330中。包含在存储器330中的软件指令可以使处理器320执行后述处理。可选地,硬连线电路或其它逻辑可以代替或与软件指令组合使用以实现与本发明一致的处理。因此,与本发明原理一致的实现不限于硬件电路与软件的任何特定的组合。
[0037] 文档定位器225
[0038] 图4是说明文档定位器225的概念元件的框图。文档定位器225可以包括描述信息生成器405、搜索组件410及格式化组件415。描述信息生成器405可以生成描述当前文档并基于用户个人信息的描述信息。在一种实现中,描述信息可以包括搜索查询。描述信息生成器405可以基于用户的个人信息和/或当前输入的文档(或与当前文档相关的信息)生成描述信息。
[0039] 从描述信息生成器405输出的描述信息可以输入到搜索组件410,搜索组件410可以使用该描述信息生成附加文档。对附加文档的链接或其它引用可以由格式化组件415插入到原始文档中。
[0040] 描述信息生成器405、搜索组件410及格式化组件415分别在下面具体描述。
[0041] 描述信息生成器405
[0042] 如所提到的,描述信息生成器405可以生成描述信息,例如搜索查询。描述信息通常可以基于与用户当前在观看(或请求观看)的文档相关的信息及用户的个人信息。与当前文档相关的信息可以包括基于当前文档文本的信息。该文本可以处理成包含例如:(1)出现次数超过某一预定次数的所有术语,(2)可以自动提取的命名实体,(3)文档中的日期,(4)作者和出版物名,和/或关键字或类别提取。
[0043] 关于上面的(1),出现次数超过某一预定次数的术语可以看做是重要的或者文档中特别描述的术语,而且可以看作是该文档的描述信息。例如,选择成包括在描述信息中的术语个数可以限定为最频繁出现术语的预定个数。在这种概念的可能变体中,术语出现的次数可以联系术语在文档语言中出现的总频率一起考虑。因此,语言中趋于较少出现的术语可以在文档中出现多次的通用术语之前选择。
[0044] 预定命名实体或其它名词的列表可以由描述信息生成器405存储。例如,位置名、名人名字、众所周知的商品或消费品名及公司名可以由手动(即,由人操作员输入)或自动技术预先产生。如上面所提到的,文档的文本可以与包括在该文档的描述信息中的这些命名实体和匹配进行比较。参考图1A和1B的例子,预定命名实体的列表可能已经包括了例如“Mt.Everest”和“Novolog Peaks and PolesChallenge”的术语,使得这些术语包括在文档105的描述信息中。
[0045] 文档中的日期(以上的项(3))、文档作者及出版物名(项(4))可以包括在描述信息中。这种信息常常可以通过应用到文档的模式匹配技术自动确定。文档的日期可以用于定位其它同期出版的文档。类似地,出版实体(例如,web站点)和文档作者可以用于定位来自相同或类似出版社的文档或同一作者所写的或文档。文档日期、作者和出版社在新闻报道的情境下特别有用。关于(5),可以分析文档的关键字,例如基于术语频率或通过命名实体提取所提取的关键字。
[0046] 除了基于文档生成描述信息,描述信息生成器405还可以基于特定于用户的信息(“个人信息”)生成描述信息。个人信息可以包括例如用户的地理位置(例如,先前搜索查询提交的或链接所选的)、用户在注册账号时提供的个人信息、基于用户浏览历史的个人信息、从用户所生成文档或其它个人信息源提取的个人信息。用户的地理位置可以根据用户的IP地址估计。个人信息还可以包括时间信息,例如当前的日期或季节。时间信息可以用于将事件与个人偏好或文档内容关联。例如,如果正浏览的文档关于Edinburgh,且当前月份是七月或八月,则可以显示关于Edinburgh艺术节的相关文档。
[0047] 在一种实现中,个人信息可以基于由提交到搜索引擎的先前搜索查询构成的用户简档。类列匹配技术可以用于从搜索项目推断用户的兴趣。例如,即使用户实际上从来没有输入搜索项“摄影”,但查询了术语“尼康”、“光圈”和“f制光圈”,这些术语可以用于推断用户对摄影感兴趣。
[0048] 用于从搜索查询生成类别映射的一种技术基于收集大量的基于用户搜索会话标记的历史用户搜索查询。基本原理是搜索例如“佳能”的搜索项的人很有可能在相同的搜索会话中输入与相同类相关的其它搜索查询,例如“摄影”或“f制光圈”。通过分析许多这种搜索查询会话,可以进行类别推断(例如,如果有人搜索“尼康”,则有可能他们对摄影感兴趣)。
[0049] 描述信息生成器405可以将描述信息格式化为搜索查询。在一种实现中,搜索查询可以通过级连描述信息(例如,用户的个人信息和与文档相关的描述信息)以获得搜索查询来获得。作为例子,考虑图1A中的文档105。基于对文档和用户个人信息的分析,描述信息生成器405可以生成描述信息“Mt.Everest”、“Novolog Peaks and PolesChallenge”、“diabetes”、“San Jose”与“photography”。这些术语可以组合成单个搜索查询“Mt.Everest Novolog Peaks Poles Challengediabetes San Jose photography”。在其它实现中,可以生成多个搜索查询,每个搜索查询包括来自该文档和用户个人信息的术语子集,其例如搜索查询:“Mt.Everest San Jose”,“hiking San Jose”,“photography Mt.Everest”等等。
[0050] 本领域普通技术人员将认识到用于从所生成的描述信息形成搜索查询的其它技术也可以使用。例如,附加信息可以用于确定查询中是否包括术语,例如术语在语言中出现的总频率。此外,在确定在查询中是否包括特定名、实体或其它预定义术语时,可以赋予它们附加权重。例如地区名的有些术语可以与例如产品名的其它术语有不同的权重。产品名可以通过将其关联的公司名附加到产品名后自动限定。此外,描述信息可以与如以上所描述的那些的簇或类匹配技术一起使用,以便生成可以用在搜索查询中的其它术语。
[0051] 搜索组件410
[0052] 图5是更具体说明搜索组件410的示例实现的图。搜索组件410可以包括搜索引擎505和排队(rank)组件510。
[0053] 搜索引擎505可以从描述信息生成器405接收描述信息,并且作为响应,定位与该描述信息相关的一个或多个文档。搜索引擎505可以是返回与所输入搜索查询相关的排队文档集合的基于查询的搜索引擎。搜索引擎505可以是例如基于来自大集合的所有文档(例如web上的文档)的搜索引擎的通用搜索引擎或者例如新闻搜索引擎的更专用的搜索引擎。用于实现搜索引擎的技术一般在本领域中是已知的,因此在此将不进一步公开。
[0054] 排队组件510可以操作成排队和/或修剪由搜索引擎505返回的文档集合。在一种实现中,排队组件510可以基于定义所返回文档集合中每个文档与搜索查询匹配得多好的查询匹配得分来排队所返回的文档集合。与搜索查询“较好”匹配的文档,例如包括搜索查询中多个术语例子的文档,将倾向于比匹配不好的文档有更高的相关性得分。排队组件510还可以基于其它相关性或质量的测量值(例如基于基于链接的文档质量测量值)来排序文档。前N个排序文档(例如,N=3)可以由排队组件510选择呈现给用户。
[0055] 用于排队或修剪相关文档集合的其它技术也可以由排队组件510使用。例如,可以选择在对应于多个相关搜索查询的多个文档集合中出现的文档,可以选择那些最新近的文档,可以选择那些最受欢迎的文档(例如,基于文档链接被选择的次数)。作为其它例子,来自商业站点的文档可以明确地排除(或包括)。
[0056] 在有些实现中,可以接收对应于描述信息的多个可能的搜索查询,并可以使用返回“最佳”结果的查询。“最佳”结果可以多种方式测量,例如通过看对应于响应可能的搜索查询从搜索引擎返回的文档的目标排队值。此外,可以使用多种不同的搜索引擎,例如新闻搜索引擎、产品搜索引擎或通用的基于web的搜索引擎。
[0057] 格式化组件415
[0058] 格式化组件415可以将由搜索组件410定位的附加文档并到当前文档中(即,用户当前观看的文档)或加到包括当前文档的新文档中。附加文档可以通知用户文档可用的方式与当前文档合并,而不会过度干扰用户对当前文档的读取。
[0059] 在一种实现中,格式化组件415可以将链接(例如,超链接)插入到与当前文档的文本内嵌的附加文档中。当可能时,对每个附加文档的链接可以插入到当前文档中与附加文档特别相关的部分中。这个概念在图1A和1B中说明,其中对相关内容的链接,例如对关于Mt.Everest的文档的链接,插入到文档105中靠近术语“Mt.Everest”的地方。尽管图1A和1B中的链接示为包括括号中的摘要信息和示为通过修改当前输入文档中词显示来识别的链接,但其它用于图形显示链接的技术也可以使用。
[0060] 除内嵌超链接以外的技术可以用于将附加文档嵌入到当前文档中。例如,可以使用当用户将光标放到当前文档中的特定单词、图像或其它对象上时显示的“漂浮(float-over)”文本。
[0061] 文档定位器225的操作
[0062] 图6是说明文档定位器225所执行的示例操作的流程图。文档定位器225可以响应用户请求文档(例如从web站点或搜索引擎进行的请求)而开始操作。
[0063] 文档定位器225可以接收或定位用户的个人信息(动作601)。个人信息可以包括以下信息,例如用户的地理位置、用户当注册账号时(或在其它时候)所提供的个人信息、基于用户浏览历史的个人信息或从用户生成的文档提取的个人信息。文档定位器还接收用户正请求的当前输入文档(动作602)。
[0064] 可以生成与输入文档相关的描述信息(动作603)。如前面所讨论的,描述信息可以由描述信息生成器405生成并可以包括包含与当前输入文档与用户个人信息相关的术语的搜索查询。描述信息可以用于定位附加相关文档(动作604)。如所讨论的,这可以由搜索组件410向搜索引擎提交搜索查询来执行。
[0065] 附加相关文档中的一个或多个可以嵌入到当前输入文档或者与其关联(动作605)。如图1A和1B所示出的,附加相关文档可以与当前输入文档内嵌嵌入。然后,包括对附加相关文档的链接的当前输入文档的修改版本可以呈现给用户(动作606)。
[0066] 文档定位器225的示例实现
[0067] 图7是说明在内容提供web站点情境下实现的附加文档定位器225的示例实现的图,其中web站点例如专用于关于特定嗜好(例如,汽车)的文章的web站点。本领域普通技术人员将理解文档定位器225可以在多种附加联网环境中实现,例如在新闻搜索引擎或更通用的搜索引擎的通用情境下实现。
[0068] 多个用户705可以通过网络715连接到内容web站点710。用户可以从内容web站点710请求特定的文档。在向用户返回所请求的文档之前,web站点710向文档定位器225发送文档(或识别文档的信息)以及可能的还有发出请求的用户的个人信息。如前面所讨论的,文档定位器225可以向web站点710返回其所请求文档的修改版本,然后,web站点710可以将文档转发到用户。以这种方式,来自web站点710的文档在返回给用户之前可能被自动扩张,以增强其期望性。
[0069] 对这个例子的许多变体都是可能的。例如,代替文档定位器225向web站点710返回增强的文档,web站点710可以简单地将用户的文档请求重定向到文档定位器225,然后文档定位器225可以向用户返回增强的文档。
[0070] 结论
[0071] 在此描述了用于自动定位与原始文档和/或用户个人信息相关的附加文档的技术,其中文档例如由用户正读取的文档。在一种实现中,附加文档是基于用户的个人信息及基于与用户正读取的文档相关的内容定位的。例如通过插入在文档中特别相关于附加文档的位置的链接,附加文档可以与正读取的文档内嵌呈现。因此,可以有效地向用户呈现与正读取的原始文档相关的附加信息。
[0072] 对本领域普通技术人员而言,很显然如上面所描述的本发明的各方面可以附图中所说明的实现中的软件、固件和硬件的许多不同形式实现。用于实现与本发明一致的各方面的实际软件代码或专用控制硬件不限制本发明。因此,各方面的操作与行为不是参考特定的软件代码描述的-应当理解,本领域普通技术人员将能够基于这里的描述设计实现各方面的软件和控制硬件。
[0073] 本发明优选实施方式的以上描述提供了说明与描述,但不是穷尽的或者要将本发明限定到所公开的精确形式。按照以上教义,多种修改与变体都是可能的,或者多种修改与变体可以通过本发明的实践获得。例如,尽管上述许多操作是以特定顺序描述的,但许多操作可以同时执行或者以不同顺序执行,以获得相同或等效的结果。
[0074] 除非明确地描述了,否则在本申请中所使用的所有元件、动作或指令都不应当看作是对本发明关键的或者必需的。而且,如在此所使用的,冠词“一个”是要可能允许一个或多个项目。此外,除非另外明确申明,否则短语“基于”意思是“至少部分地基于”。