信息处理设备、信息提取方法、程序和信息处理系统转让专利

申请号 : CN201010540061.9

文献号 : CN102054024B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 礒津政明

申请人 : 索尼公司

摘要 :

本发明公开了一种信息处理设备、信息提取方法、程序和信息处理系统,该信息处理设备包括:数据存储单元,存储用于从使用标记语言写成的文档中提取的信息的至少两个规则;选择单元,根据使用标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从数据存储单元中所存储的至少两个规则中选择要应用于所述部分的规则;以及提取单元,使用由选择单元所选择的规则来从所述部分中提取信息。

权利要求 :

1.一种信息处理设备,包括:

数据存储单元,所述数据存储单元存储用于从使用标记语言写成的文档中提取信息的至少两个规则;

选择单元,所述选择单元根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;以及提取单元,所述提取单元使用由所述选择单元所选择的规则来从所述部分中提取信息,其中,所述特定字符串是能够在所述标记语言中使用的至少一个标签,并且所述选择单元还根据所述部分中除标签以外的至少一个字符串的出现频率来选择要应用于所述部分的规则。

2.根据权利要求1所述的信息处理设备,还包括:

分析单元,所述分析单元基于定义所述标记语言中至少两种类型的标签之间的文本结构上的层次关系的定义数据,来从所述输入文档生成至少所述定义数据中所包括的标签和与所述标签有关的文本被设置为节点的树结构,其中,所述选择单元选择要应用于所述输入文档的每个部分的规则,所述每个部分对应于由所述分析单元生成的树结构中特定深度的局部树。

3.根据权利要求1所述的信息处理设备,还包括:

数据库,所述数据库存储由所述提取单元从所述输入文档的至少一个部分中逐部分提取的信息;和搜索单元,所述搜索单元搜索所述数据库来查找与从另一信息处理设备接收到的关键字相匹配的信息。

4.根据权利要求3所述的信息处理设备,

其中,所述数据库将从所述输入文档的每个部分提取的信息与和所述信息被从其提取的那个部分相对应的标题字符串相关联地存储,并且所述搜索单元从所述数据库获取与和所述关键字相匹配的标题字符串相关联的信息,作为搜索结果。

5.根据权利要求4所述的信息处理设备,

其中,所述搜索单元向所述另一信息处理设备发送根据从所述另一信息处理设备接收的与显示有关的限制条件而从自所述数据库获得的信息中选出的信息。

6.根据权利要求1所述的信息处理设备,

其中,所述数据存储单元将根据所述特定字符串的出现频率分类的至少两个样式中的每个样式与所述至少两个规则中的每个规则相关联地存储。

7.一种信息提取方法,使用包括数据存储单元的信息处理设备,该数据存储单元存储用于从使用标记语言写成的文档中提取信息的至少两个规则,该信息提取方法包括以下步骤:根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;以及使用所选择的规则来从所述部分提取信息,其中,所述特定字符串是能够在所述标记语言中使用的至少一个标签,并且选择步骤还根据所述部分中除标签以外的至少一个字符串的出现频率来选择要应用于所述部分的规则。

8.一种信息处理系统,包括:

终端设备,所述终端设备发送包括搜索关键字的搜索请求,并且在用户界面上显示作为对所述搜索请求的响应而被提供的信息;和信息处理设备,所述信息处理设备包括:

数据存储单元,所述数据存储单元存储用于从使用标记语言写成的文档中提取信息的至少两个规则;

选择单元,所述选择单元根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;

提取单元,所述提取单元使用由所述选择单元所选择的规则来从所述部分中提取信息;

数据库,所述数据库存储由所述提取单元从所述输入文档的至少一个部分中的每个部分提取的信息;以及搜索单元,所述搜索单元从所述数据库获取与从所述终端设备接收到的搜索关键字相匹配的信息,并且将所获得的信息发送给所述终端设备,其中,所述特定字符串是能够在所述标记语言中使用的至少一个标签,并且所述选择单元还根据所述部分中除标签以外的至少一个字符串的出现频率来选择要应用于所述部分的规则。

说明书 :

信息处理设备、信息提取方法、程序和信息处理系统

技术领域

[0001] 本发明涉及信息处理设备、信息提取方法、程序和信息处理系统。

背景技术

[0002] 伴随着互联网的成长,互联网上可获得的网页包括各种数字信息变得越来越普遍。从用户的角度来看,这样的数字信息包括有用信息和不必要信息的混合。因此,已经在开发用于从网页中自动提取所希望的信息的方法。
[0003] 作为一个示例,在“Wrapper induction:efficiency and expressiveness”,Artificial Intelligence,2000,vol.118,p15-68,Nicholas Kushmerick中,提出了称为“LR Rapper”的方法。根据LR Wrapper,设置在HTML(超文本标记语言)文档中被置于所希望的信息前后的标签的位置的规则被预先定义,并且网页中与该规则相匹配的信息被提取出。然而,由于LR Wrappe方法对整个网页上执行匹配,所以,当页面中包括有关多个不同字段的信息时,存在不希望的信息被提取出的风险。另一方面,作为其它示例,日本专利申请文件特开2007-279964号公报和特开2004-70405号公报提出了将网页划分成多个块然后对照每个块来匹配关键字的方法。作为另一示例,日本专利申请文件特开2007-47974号公报提出了将网页划分成多个块然后评估是否应从每个块提取信息的方法。
[0004] 上述信息提取技术的一个示例应用是以聊天、电子邮件等为代表文本通信。例如,如果与已变成聊天或电子邮件中写入的文本的话题的关键字有关的信息可以从互联网等被自动获得,则增强型通信可以通过将获得的信息并入文本中来实现。具体地,在要求实时响应的在线文本通信(例如,聊天)期间,代替用户来自动提取信息以使得通信更顺畅地进行的应用将特别有益。注意,从互联网等获得的每条信息称为“片段”(snippet)。作为一个示例,上述LR Wrapper方法可以说是用于从网页中提取片段的技术。

发明内容

[0005] 然而,上述信息提取技术还没有足够的精度来从大量网页中自动提取各种信息。例如,当根据LR wrapper方法等提供的规则被不加选择地应用于大量网页(或块),则存在由于不适合各个网页(或块)的规则而更有可能提取不合适的信息这样的问题。这里,尽管可以构想到成对的各个网页(或块)和规则被预先定义的方法,但是预先定义这样的对的成本是不容忽视的并且难以将这样的方法应用于未知的网页。
[0006] 另一方面,可以相信,如果有可能根据信息源(即,网页、网页内的块、等等)的特征来相适应地选择要应用于每个信息源的规则,则可以提高信息被自动提取的精度。
[0007] 鉴于以上所述,希望提供能够相适应地选择要应用于诸如网页或网页内的块之类的信息源的用于提取信息的规则的新颖和改进的信息处理设备、信息提取方法、程序和信息处理系统。
[0008] 根据本发明一个实施例,提供一种信息处理设备,包括:数据存储单元,所述数据存储单元存储用于从使用标记语言写成的文档中提取信息的至少两个规则;选择单元,所述选择单元根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;以及提取单元,所述提取单元使用由所述选择单元所选择的规则来从所述部分中提取信息。
[0009] 所述特定字符串可以是能够在所述标记语言中使用的至少一个标签。
[0010] 所述选择单元还可以根据所述部分中除标签以外的至少一个字符串的出现频率来选择要应用于所述部分的规则。
[0011] 所述信息处理设备还可以包括分析单元,所述分析单元基于定义所述标记语言中至少两种类型的标签之间的文本结构上的层次关系的定义数据,来从所述输入文档生成至少所述定义数据中所包括的标签和与所述标签有关的文本被设置为节点的树结构。所述选择单元可以选择要应用于所述输入文档的每个部分的规则,所述每个部分对应于由所述分析单元生成的树结构中特定深度的局部树。
[0012] 所述信息处理设备还可以包括:数据库,所述数据库存储由所述提取单元从所述输入文档的至少一个部分中逐部分提取的信息;和搜索单元,所述搜索单元搜索所述数据库来查找与从另一信息处理设备接收到的关键字相匹配的信息。
[0013] 所述数据库可以将从所述输入文档的每个部分中提取的信息与和所述信息被从其提取的那个部分相对应的标题字符串相关联地存储。所述搜索单元可以从所述数据库获取与和所述关键字相匹配的标题字符串相关联的信息,作为搜索结果。
[0014] 所述搜索单元可以向所述另一信息处理设备发送根据从所述另一信息处理设备发送的与显示有关的限制条件而从自所述数据库获得的信息中选出的信息。
[0015] 所述数据存储单元可以将根据所述特定字符串的出现频率分类的至少两个样式中的每个样式与所述至少两个规则中的每个规则相关联地存储。
[0016] 根据本发明另一实施例,提供一种信息提取方法,使用包括数据存储单元的信息处理设备,该数据存储单元存储用于从使用标记语言写成的文档中提取信息的至少两个规则,该信息提取方法包括以下步骤:根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;以及使用所选择的规则来从所述部分中提取信息。
[0017] 根据本发明另一实施例,提供了一种用于使计算机用作下面的单元的程序,其中所述计算机控制包括存储用于从使用标记语言写成的文档中提取信息的至少两个规则的数据存储单元的信息处理设备:选择单元,所述选择单元根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则;以及提取单元,所述提取单元使用由所述选择单元所选择的规则来从所述部分中提取信息。
[0018] 根据本发明另一实施例,提供一种信息处理系统,包括终端设备和信息处理设备,所述终端设备发送包括搜索关键字的搜索请求并且在用户界面上显示作为对所述搜索请求的响应而被提供的信息,所述信息处理设备包括:数据存储单元,所述数据存储单元存储用于从使用标记语言写成的文档中提取的信息的至少两个规则,选择单元,所述选择单元根据使用所述标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从所述数据存储单元中所存储的所述至少两个规则中选择要应用于所述部分的规则,提取单元,所述提取单元使用由所述选择单元所选择的规则来从所述部分中提取信息,数据库,所述数据库存储由所述提取单元从所述输入文档的至少一个部分的每个部分中提取的信息,以及搜索单元,所述搜索单元从所述数据库获取与从所述终端设备接收到的搜索关键字相匹配的信息并且将所获得的信息发送给所述终端设备。
[0019] 根据上述本发明的实施例,可以提供能够相适应地选择要应用于诸如网页或网页内的块之类的信息源的用于提取信息的规则的新颖和改进的信息处理设备、信息提取方法、程序和信息处理系统。

附图说明

[0020] 图1是在说明根据本发明一个实施例的信息处理系统的概览时有用的示图;
[0021] 图2是示出根据本发明一个实施例的信息处理设备的配置的一个示例的框图;
[0022] 图3是示出分析单元的详细配置的一个示例的框图;
[0023] 图4是在说明当使用标记语言写成的文档被浏览器显示时的显示内容的一个示例时有用的示图;
[0024] 图5是在以文本格式示出图3中示出的文档时有用的示图;
[0025] 图6是在说明由分析单元的解析器从图3中所示出的文档中生成的第一树结构的一个示例时有用的示图;
[0026] 图7是在说明使用“h”标签的输入文档的一个示例时有用的示图。
[0027] 图8是在说明从图7中所示出的输入文档中生成的第一树结构的一个示例时有用的示图;
[0028] 图9是在说明当图7中示出的输入文档被浏览器显示时的显示内容的一个示例时有用的示图;
[0029] 图10是在说明定义标签之间的层次关系的定义数据的一个示例时有用的示图;
[0030] 图11是示出树结构变换处理的流程的一个示例的流程图;
[0031] 图12是在说明作为树结构变换处理的结果生成的第二树结构的一个示例时有用的示图;
[0032] 图13是在说明根据LR Rapper的语法写成的规则的示例时有用的示图;
[0033] 图14是在说明根据LR Rapper的语法写成的规则的另一示例时有用的示图;
[0034] 图15A是在说明与用于提取信息的规则有关的数据结构的一个示例时有用的示图;
[0035] 图15B是在说明与用于提取信息的规则有关的数据结构的另一个示例时有用的示图;
[0036] 图16是示出用于学习规则和特定字符串的出现频率样式之间的关联的信息处理设备的配置的一个示例的框图;
[0037] 图17是示出用于学习规则与出现频率样式之间的关联的学习处理的流程的一个示例的流程图。
[0038] 图18是在说明从第二树结构中所识别的块的示例时有用的示图;
[0039] 图19是在说明使用所选择的规则的信息提取处理时有用的示图;
[0040] 图20是在说明作为提取信息的结果被存储在数据库中的片段的示例时有用的示图;
[0041] 图21是示出根据本发明一个实施例的终端设备的配置的一个示例的框图;
[0042] 图22是在说明终端设备的屏幕上所显示的画面的一个示例时有用的示图;
[0043] 图23是示出从信息处理设备向终端设备提供片段的流程的一个示例的时序图;以及
[0044] 图24是示出通用计算机的配置的一个示例的框图。

具体实施方式

[0045] 以下将参考附图来详细描述本发明的优选实施例。注意,在该说明书和附图中,基本具有相同功能和结构的结构元件用相同的标号表示,并且省略对这些结构元件的重复描述。
[0046] 将以如下顺序来描述本发明的实施例:
[0047] 1.信息处理系统的概览
[0048] 2.信息处理设备的示例配置
[0049] 2-1.输入文档的分析
[0050] 2-2.数据存储单元的配置
[0051] 2-3.规则学习
[0052] 2-4.片段的提取和存储
[0053] 2-5.片段的供应
[0054] 3.终端设备的示例配置
[0055] 3-1.用户界面的示例
[0056] 3-2.针对片段的搜索
[0057] 4.硬件配置示例
[0058] 5.总结
[0059] 1.信息处理系统的概览
[0060] 首先,将描述根据本发明一个实施例的信息处理系统的概览。图1是在说明根据本发明一个实施例的信息处理系统1的概览时有用的示图。如图1中所示,信息处理系统1包括信息处理设备100和终端设备200。信息处理设备100经由网络3连接到终端设备
200。至少一个web服务器5a、5b……也连接到网络3。
[0061] 信息处理设备100是用于经由网络3获取使用标记语言写成的文档并从所获得的文档中提取信息的装置。例如,信息处理设备100可以是通用计算机,诸如像图1中所示出的那样的PC(个人计算机)或工作站之类。作为可替换示例,信息处理设备100可以是家庭网络上所设置的数字家电。在本实施例中,信息处理设备100用作服务器,向充当客户端的终端设备200提供使用相适应地选择的规则已提取出的信息。
[0062] 终端设备200是用于经由网络3获取由信息处理设备100提取出的信息并且向用户呈现所获得的信息的装置。终端设备200也可以是通用计算机,诸如PC或工作站之类。作为可替换示例,终端设备200可以是便携式终端设备(可以包括移动电话等)、数字家电或其它这样的装置。
[0063] 网络3是连接信息处理设备100和终端设备200的通信网络。网络3可以是任意通信网络,例如,互联网、IP-VPN(互联网协议-虚拟专用网)、专用线路、LAN(局域网)或WAN(广域网)。网络3可以是有线的或无线的。
[0064] web服务器5a和5b是每一个都能够从信息处理设备100经由网络3被访问的web服务器。web服务器5a或5b响应于来自信息处理设备100的请求发送网页,网页是使用标记语言写成的文档的一个示例。注意,web服务器5a和5b可以都是典型的web服务器。可以提供存储使用标记语言写成的文档的数据服务器(或文件服务器)来代替web服务器
5a和5b。另外,这样的服务器可以由与操作信息处理设备100的实体不同的实体操作。
[0065] 在以上作为一个示例描述的信息处理系统1中,信息处理设备100从web服务器5a或5b或另外的源经由网络3来获得诸如网页之类的文档。然后,信息处理设备100从所获得的网页中提取信息并将所提取的信息存储在数据库中。在本说明书中,由信息处理设备100存储的各条信息称为“片段(snippet)”。另外,信息处理设备100响应于来自终端设备200的请求将已被存储在数据库中的片段提供给终端设备200。首先,以下将详细描述这种类型的信息处理设备100的具体配置的一个示例。
[0066] 2.信息处理设备的示例配置
[0067] 图2是示出根据本实施例的信息处理设备100的示例配置的框图。如图2中所示,信息处理设备100主要包括输入文档获取单元110、分析单元120、数据存储单元130、选择单元150、提取单元160、数据库170和搜索单元180。
[0068] 2-1.输入文档的分析
[0069] 作为一个示例,输入文档获取单元110从图1中所示出的web服务器5a或5b(或另一数据服务器等)获取使用标记语言写成的文档。作为示例,标记语言可以是SGML(标准通用标记语言)、作为SGML的子集的XML(可扩展标记语言)、HTML(超文本标记语言)、Tex等等。在使用标记语言写成的文档中,可以使用对文本进行标记的标签(在某些语言中称为“命令”)来指定文本结构(例如,段落分节和列表)、布局等。然后,输入文档获取单元110将所获得的输入文档输出给分析单元120。
[0070] 从由输入文档获取单元110获得的输入文档,分析单元120生成树结构,其中,在用来写输入文档的标记语言中所使用的标签和与这样的标签有关的文本被设置为节点。更具体地,基于定义上述标记语言中的至少两种类型的标签之间的文档结构上的层次关系的定义数据,分析单元120从输入文档生成树结构,其中,至少定义数据中所包括的标签和与这些标签有关的文本被设置为节点。
[0071] 图3是示出分析单元120的详细配置的一个示例的框图。如图3中所示,分析单元120包括解析器122和树结构变换单元124。在这些组件中,解析器122解析使用标记语言写成的输入文档。例如,当输入文档是HTML格式的文档时,解析器122可以是公知的HTML解析器。另一方面,树结构变换单元124将作为由解析器122执行的解析处理的结果获得的第三树结构变换成更适于提取信息的第二树结构。
[0072] 解析处理
[0073] 现在,将参考图4到图6来描述通过由解析器122执行的解析处理生成的第一树结构。
[0074] 图4是在说明当作为由本实施例处理的文档的一个示例的HTML文档已被网络浏览器解释时所显示的画面的一个示例时有用的示图。如图4中所示,显示了题目(title)栏中写有“公司信息”的网页12。
[0075] 网页12包括两个大标题“历史”和“产品信息”,它们具有大的字符尺寸。字符串“#text1”被显示在标题“历史”下方。两个具有中等字符尺寸的中标题“TV”和“PC”被显示在标题“产品信息”下方。另外,字符串“#text2”和与产品尺寸相对应的两个项目(“52英寸”,“48英寸”)的列表被显示在标题“TV”下方。字符串“#text3”被显示在标题“PC”下方。
[0076] 浏览这种类型的网页12的浏览者例如可以理解通过网页12介绍的公司具有产品“TV”和“PC”并且产品信息被写在画面区域22a中。作为另一示例,观看者也可以理解与“TV”有关的产品信息被写在画面区域22b中。
[0077] 另一方面,图5是在图4中所示的HTML文档的内容未被网络浏览器解释的情况下,以文本格式示出该内容的示图。
[0078] 图5示出已经用HTML标签标记的HTML文档32。HTML文档32的内容利用使用开始标签和结束标签的嵌套结构写成。在这样的内容中,形成该文档的一部分的块26a是与图4中的画面区域22a相对应的那部分。类似地,块26b是与画面区域22b相对应的那部分。
[0079] 图6是示出作为解析处理的结果从图5中示出的HTML文档32生成并将HTML标签和使用HTML标签标记的文本作为节点的第一树结构的一个示例的示图。
[0080] 如图6中所示,HTML文档32由编号为n1到n21的21个节点构成。在这些节点中,节点n2(“head”标签)和节点n5(“body”标签)被置于节点n1(“html”标签)之下。节点n3(“title”标签)被置于节点n2之下,并且节点n4(文本“公司信息”)被置于节点n3之下。同时,编号为n6、n8、n9、n11、n13、n14、n19和n21的8个节点被置于节点n5下的一行中,更低级的节点被置于这样的8个节点之下。在这些节点中,节点n9到n21对应于图5中的块26a。类似地,节点n11到n18对应于图5中的块26b。
[0081] 这里,作为一个示例,当匹配被使用关键字“产品信息”来执行以自动从HTML文档32获取公司的产品信息时,图6中的节点n10与关键字相匹配。然而,如上所述,由于实际上对应于产品信息的节点n9到n21仅仅是位于一行中的节点n6到节点n21中的一些节点,难以从通过匹配指明的节点n10恰当地确定哪些节点对应于产品信息。当自动获取其它任意信息时,例如,与产品“TV”有关的信息或与产品“PC”有关的信息时,也是这种情况。
[0082] 因此,由解析器122生成的如图6所示的第一树结构不适于提取有意义的信息。因此,如以下参考图7到图12所述,树结构变换单元124将如上所述的第一树结构变换成更适于信息提取的第二树结构。
[0083] 树结构变换处理
[0084] 如上所述,树结构变换单元124将作为解析器122的解析处理的结果获得的第一树结构变换成更适于信息提取的第二树结构。在本实施例中,表述“第二树结构”是指基于定义标记语言中至少两种类型的标签之间的文档结构上的层次关系的定义数据而生成的树结构。第二树结构至少将定义信息中所包括的标签以及与这些标签有关的文本设置为节点。
[0085] 作为一个示例,由树结构变换单元124执行的树结构变换处理中所使用的定义数据可以是定义输入文档中所使用的标签中至少与标题有关的那些标签之间的文档结构上的层次关系的数据。作为一个示例,与标题有关的标签对应于HTML中的“h”标签。
[0086] 图7到图9是在说明与“h”标签有关的文档结构上的层次关系时有用的示图。
[0087] 首先,图7示出文档10作为使用标签“h1”、“h2”和“h3”写成的一个示例。在图7中,文档10的“body”部分包括使用“h1”标签标记的一个大标题、置于该大标题之下的主文本、使用“h2”标签标记的两个中标题以及使用“h3”标签标记的两个小标题。
[0088] 图8示出同使用HTML解析器对图7中示出的文档10进行结构分析获得的第一树结构中在“body”标签之下的部分。在图8中,与三种类型的“h“标签“h1”、“h2”和“h3”相对应的标签节点以及与“主文本”相对应的节点全都被置于在“body”标签之下低一级的一行中。使用相应的“h”标签标记的标题字符串的节点被置于“h”标签的相应节点之下。
[0089] 图9示出当网络浏览器解释并显示图7中所示的文档10时的示例显示。如图9中所示,“大标题”被理解为包括“主文本”以及其标题范围内的所有其它标题。同样,“中标题1”可以被理解为将“小标题1”包括在其相应的标题范围,并且“中标题2”被理解为将“小标题2”包括在其相应的标题范围内。即,即使HTML中的“h”标签如在图8中的第一树结构中一样被用在一行中,也至少视觉地呈现了被标记的文本之间文档结构上的包含或不包含关系,换言之,层次关系。为此,在本实施例中提供例如如图10中所示的定义“h”标签之间的文档结构上的层次关系的定义数据。
[0090] 如图10中所示,与“h”标签有关的层次关系在定义数据40中被定义为“body”>“h1”>“h2”>“h3”>“h4”>“h5”>“h6”。定义数据40中的不等号(“>”)示出符号左边的标签被置于比右边的标签更高的级别上。在定义数据40中,从“h1”到“h6”的“h”标签之间的层次关系按数字顺序定义,并且“body”标签被定义在比所有“h”标签更高的级别上。作为一个示例,上述定义数据被预先存储在图2等中所示出的数据存储单元130中。树结构变换单元124使用这样的定义数据来将上述第一树结构变换成第二树结构。
[0091] 注意,定义数据不限于定义与“body”标签和“h”标签有关的文档结构上的层次关系的数据。例如,层次关系用定义数据来定义的标签也可以包括指定HTML中的文本的字体大小的“font”(字体)标签。层次关系用定义数据来定义的标签也可以包括其它任意标签,例如指定在样式表中用属性定义的规定类的标签。
[0092] 图11是示出由树结构变换单元124执行的树结构变换处理的流程的一个示例的流程图。
[0093] 如图11中所示,树结构变换单元124首先生成与“body”标签相对应的“body”节点,并且将“body”节点设置为第二树结构的开始节点。然后,树结构变换单元124将“body”节点设置为关注节点P(步骤S102)
[0094] 接着,树结构变换单元124判断在第一树结构是否剩余任何未处理的节点(步骤S104)。这里,如果剩余未处理的节点,则处理进行到S106。另一方面,如果没有剩余未处理的节点,则处理结束。
[0095] 在S106中,树结构变换单元124将第一树结构中未处理的节点中的第一节点设置为比较节点X(步骤S106)。这里,第一节点可以是与文档的开始最接近地写入的标签或文本相对应的节点。作为可替换示例,第一节点可以是在第一树结构的深度优先搜索期间被最先发现的节点。例如,在图8中所示的第一树结构中,当直到“body”节点为止的节点都已经被处理时,“h1”节点是第一未处理节点。相反地,当直到“h1”节点为止的节点都已经被处理时,“大标题”节点是第一未处理节点。
[0096] 接着,树结构变换单元124判断比较节点X是否是与上述定义数据中定义了其文档结构上的层次关系的标签相对应的标签节点(步骤S108)。作为一个示例,当图10中的定义数据40被定义时,如果比较节点X是与“body”标签或“h1”到“h6”范围内的“h”标签相对应的节点,则处理继续进行到S112。另一方面,如果比较节点不是以上列出的节点之一(例如,与用标签标记并且与主文本相对应的标题字符串相对应的节点),则处理继续进行到S110。
[0097] 在S110中,S106中所设置的比较节点X被添加到关注节点P的子节点(步骤S110)。例如,如果关注节点P是图8中所示的第一树结构中的“h1”节点并且比较节点X是“主文本”节点,则“主文本”节点被添加在第二树结构中的“h1”节点之下。作为另一示例,如果关注节点P是图8中示出的第一树结构中的“h2”节点并且比较节点X是“中标题1”节点,则“中标题1”节点被添加在第二树结构中的“h2”节点之下。此后,处理返回S104并且再次判断是否存在任何未处理的节点。
[0098] 另一方面,如果比较节点X是与其层次关系在文档结构中被定义的标签相对应的标签节点,则在S112中,关注节点P与比较节点X之间的层次关系被比较(步骤S112)。例如,当图10中的定义数据40被定义时,如果关注节点P是“body”节点并且比较节点X是与“h”标签相对应的标签节点,则判定比较节点X<关注节点P。作为另一示例,如果关注节点P是“h1”节点并且比较节点X也是“h1”节点,则判定比较节点X=关注节点P。作为另一示例,如果关注节点P是“h2”节点并且比较节点X是“h1”节点,则判定比较节点X>关注节点P。这里,如果比较节点X>关注节点P,则处理进行到S114。如果比较节点X=关注节点P,则处理进行到S116。如果比较节点X<关注节点P,则处理进行到S118。
[0099] 接着,如果比较节点X>关注节点P,则在S114中,关注节点P的父节点被设置为新的关注节点P(步骤S114)。例如,如果关注节点P是图8中示出的第一树结构中的第一“h3”节点并且比较节点X是第二“h2”节点,则作为第一“h3”节点的父节点的第一“h2”节点再次被设置为关注节点P。然后,处理返回S112并且关注节点P和比较节点X之间的层次关系再次被比较。
[0100] 如果比较节点X=关注节点P,则在S116中,比较节点X被添加作为第二树结构中关注节点P的父节点的子节点(即,关注节点P的兄弟节点)。作为一个示例,如果关注节点P是图8中示出的第一树结构中的第一“h2”节点并且比较节点X是第二“h2”节点,则第二“h2”节点被添加作为是第一“h2”节点的父节点的那个“h1”节点的子节点。增加的第二“h2”节点之后被设置为新的关注节点P。此后,处理返回S104,并且再次判断是否存在任何未处理节点。
[0101] 如果比较节点X<关注节点P,则在S118中,比较节点X被添加作为第二树结构中的关注节点P的子节点。例如,如果关注节点P是图8中示出的第一树结构中的第一“h2”节点并且比较节点X是第一“h3”节点,则该“h3”节点被添加作为第一“h2”节点的子节点。所添加的“h3”节点之后被设置为新的关注节点P。此后,处理返回S104并且再次判断是否存在任何未处理的节点。
[0102] 作为由树结构变换单元124执行的树结构变换处理的结果,从图8中作为一个示例示出的第一树结构中生成图12中示出的如图12所示的第二树结构。
[0103] 如图12中所示,“h1”节点被置于“body”节点下第一级上,并且“大标题”、“主文本”、第一“h2”节点和第二“h2”节点比该“h1”节点低一级。“中标题1”节点或“中标题2”节点以及“h3”节点比各个“h2”节点低一级。另外,“小标题1”节点或“小标题2”节点比各个“h3”节点低一级。第二树结构对应于图9中视觉呈现的文档10的文档结构中的包含和不包含关系。树结构变换单元124例如向选择单元150输出以XML格式表示第二树结构的数据。
[0104] 2-2.数据存储单元的配置
[0105] 作为一个示例,数据存储单元130使用存储介质(例如硬盘装置或半导体存储器)构成并且预先存储由分析单元120的树结构变换单元124使用的上述定义数据。数据存储单元130还存储用于从使用标记语言写成的文档中提取信息的至少两个规则。由数据存储单元130存储的规则可以是例如根据LR Rapper的语法写成的规则。作为替换,数据存储单元130中所存储的规则例如可以是使用常规表述的公式。更具体地,由数据存储单元130存储的规则可以是用于指定用来从使用标记语言写成的文档中提取信息的条件的工具。
[0106] 示例规则
[0107] 图13和图14是示出根据LR Rapper的语法写成的规则的示例的示图。
[0108] 图13示出规则R1作为第一示例。规则R1包括三个条件Cd11、Cd12和Cd13。在这些条件中,第一条件Cd11匹配具有这样的样式的文档,其中,标签“

”先出现,并且标签“

”后出现。第二条件Cd12匹配具有这样的样式的文档,其中,标签“

”先出现,并且标签“

”后出现。第三条件Cd13匹配具有这样的样式的文档,其中,标签“

”先出现,并且标签“

”后出现。包括这样的条件的规则R1例如与图13中示出的文档10a的部分11a相匹配。作为一个示例,信息S1(“我们制造和发布全世界第一个……”)可以根据第一条件Cd11被提取出。作为另一示例,信息S2(“除了东京以外,我们还在纽约和伦敦交易所上市”)可以根据第三条件Cd13被提取出。注意尽管可以根据第二条件Cd12提取出其它字符串,但是这样的字符串已经被从图中省略。
[0109] 图14示出规则R2作为第二示例。规则R2包括三个条件Cd21、Cd22和Cd23。在这些条件中,第一条件Cd21匹配具有这样的样式的文档,其中,标签“

  • ”先出现,并且标签“
  • ”后出现。第二条件Cd22匹配具有这样的样式的文档,其中,标签“
  • ”先出现,并且标签“
  • ”后出现。第三条件Cd23匹配具有这样的样式的文档,其中,标签“
  • ”先出现,并且标签“
”后出现。包括这样的条件的规则R2例如与图14中示出的文档10b的部分11b相匹配。作为一个示例,信息S3(“个人计算机”)可以根据第一条件Cd21被提取出。作为另一示例,信息S4(“数码相机”)可以根据第二条件Cd22被提取出。作为另一示例,信息S5(“数码相框”)可以根据第三条件被提取出。
[0110] 注意,图13和图14中所示出的规则R1和R2仅仅是示例。至少两个这样的用于提取信息的规则被预先使用下述数据结构存储在数据存储单元130中。
[0111] 示例数据结构
[0112] 作为一个示例,数据存储单元130将在使用标记语言写成的输入文档的至少一部分中具体字符串的出现频率与要应用于输入文档的这一部分的规则相关联地存储。图15A是在说明与上述用于提取信息的规则有关的数据存储单元130的数据结构的一个示例时有用的示图。
[0113] 图15A示出用于将输入文档的至少一部分中具体字符串的出现频率与要应用于输入文档的这一部分的规则相关联的规则管理表T1。在本实施例中,字符串为HTML中可使用的三种标签类型“h2”、“li”和“p”。在规则管理表T1中,各个标签的出现频率被分类到“高”和“低”两个等级中。这里,根据三种标签类型的出现频率,可以定义最多8种出现频率样式。
[0114] 例如,规则管理表T1中的第一条目示出:“h2”的出现频率“高”、“li”的出现频率“低”并且“p”的出现频率“高”的样式与规则R1相关联。规则管理表T1中的第二条目示出:“h2”的出现频率“低”、“li”的出现频率“高”并且“p”的出现频率“低”的样式与规则R2相关联。规则管理表T1中的第三条目示出:“h2”的出现频率“高”、“li”的出现频率“高”并且“p”的出现频率“低”的样式与规则R3相关联。
[0115] 注意,除图15A中所示出的三种标签类型以外的标签也可以用来区分与各个规则相关联的出现频率样式。不是标签的字符串(称为“文本”)也可以用来进一步区分出现频率样式。例如,即使使用相同布置的标签,在许多情况中,信息的内容也因其中所包括的标题字符串(“产品”、“服务”等)而不同。在希望仅提取某些信息类型的情况中,最好还考虑一个或多个规定的标题字符串(例如,“产品”)的出现频率来区分样式。
[0116] 图15B是在说明与用于提取信息的规则有关的数据存储单元130的数据结构的另一个示例时有用的示图。图15B示出规则管理表T2,其除了使用HTML中使用的三种标签类型“h2”、“li”和“p”以外,还使用文本“产品”作为识别关键字。在规则管理表T2中,“h2”的出现频率“高”、“li”的出现频率“低”并且“p”的出现频率“高”的样式被根据文本“产品”的出现频率被进一步分类到两种样式中。在这样的样式之一(第一条目)中,文本“产品”的出现频率“大于0”并且该样式与规则R1a相关联。在这样的样式的另一样式(第二条目)中,文本“产品”的出现频率是“0”并且该样式与规则R1b相关联。由于其它条目与图15A中的相同,因此这里省略对它们的描述。这样,通过除了标签以外还根据文本的出现频率来区分规则,可以进一步增大提取信息的精度。
[0117] 这里,作为示例,字符串(即,标签或文本)的“出现频率”可以是这样的字符串在一个输入文档中或一个块中的出现次数。可替换地,字符串的“出现频率”可以是每单位确定数目的字符串(或确定数目的字节)中该字符串的出现次数。并且,不是被分类到两个等级“高”和“低”中,“出现频率”可以被分类到大量等级中。并且,如图15B中所示,“出现频率”可以被分类到两个等级中,例如,“0”和“比0大”(这表示字符串是否存在)。
[0118] 2-3.规则学习
[0119] 如图15A和图15B中所示出的示例中字符串的出现频率样式与规则的关联一般通过学习处理预先执行。学习处理可以由信息处理设备100自己执行或者可以由另一信息处理设备执行。
[0120] 图16是示出用于学习字符串的出现频率样式与规则之间的关联的信息处理设备102的配置的一个示例的框图。如图16中所示,信息处理设备102包括输入文档获取单元
110、分析单元120、数据存储单元130和学习单元140。
[0121] 学习单元140从输入文档获取单元110获取使用标记语言写成并要经历学习的输入文档,并且从分析单元120获取已从这样的输入文档生成的上述第二树结构。通过执行以下参考图17来描述的学习处理,学习单元140学习字符串的出现频率样式与规则之间的关联,并且将这样的学习的结果存储在数据存储单元130中。
[0122] 图17是示出由学习单元140执行的学习处理的流程的一个示例的流程图。如图17中所示,首先,学习单元140从输入文档获取单元110获取输入文档,并且从分析单元120获取已经从输入文档生成的第二树结构(步骤S202)。
[0123] 接着,学习单元140进入针对输入文档中的每个块的处理循环(步骤S204)。这里,“输入文档中的块”等同于输入文档中与由分析单元120生成的第二树结构中具有具体深度的局部树相对应的部分。例如,第二树结构中具有具体深度的局部树可以是图18中所示出的第二树结构(其与图12中示出的结构相同)中的局部树13a、13b等。在这里所描述的示例中,与在比第二树结构中的最上面的节点低两级的节点开始并且包括从那以下的节点的局部树(或从比终端节点高两级的节点开始包括包括从那以下的节点的局部树)相对于的部分被识别为一个块。
[0124] 在处理循环中,学习单元140首先从自第二树结构中识别的各个块中提取标签和文本(步骤S206)。此后,当文本也被用来区分出现频率样式时,所述文档的文本被执行语形分析来提取该文本中所包括的各个词(步骤S208,S210)。注意每当文本使用其中各个词已经使用空格之类的符号被分开的英语之类的语言写成时,可以省略语形分析。接着,学习单元140将标签(和文本)的出现频率样式记录在数据存储单元130中(步骤S212)。这里,例如可以使用贝叶斯滤波器来判决新的块的出现频率样式是否应被分类为已经被登记的出现频率样式之一。当不可以将新的块的出现频率样式分类为已经登记的出现频率样式中的任何一者时,这样的出现频率样式可以被登记在数据存储单元130中作为新的出现频率样式。此后,学习单元140将数据存储单元130中所登记的出现频率样式与适于这样的样式(并且作为学习数据已知)的规则相关联(规则S214)。
[0125] 学习单元140针对从第二树结构识别的每个块重复步骤S206到S214中的处理序列。当已经针对每个块完成了该循环,则学习处理结束(步骤S216)。
[0126] 2-4.片段的提取和存储
[0127] 信息处理设备100的选择单元150使用如图15A或图15B中所示的被预先存储在数据存储单元130中作为上述学习处理的结果的规则管理表来从至少两个规则中选择要应用于输入文档的每个块中的规则。
[0128] 更具体地,对于作为输入文档的一部分并且对应于由分析单元120生成的第二树结构中具体深度的局部树的每个块,选择单元150计算该块中三种标签类型“h2”、“li”和“p”的出现频率。接着,选择单元150指定与三种标签类型的出现频率相对应的样式。例如,当正被处理的块中的标签“h2”和“p”的出现频率高并且标签“li”的出现频率低,则作为图15A中的规则管理表T1中的第一条目的样式可以被指定。在该情况中,选择单元150选择与这样的样式相关联的规则R1作为要被应用来从该块提取信息的规则。
[0129] 接着,提取单元160使用由选择单元150选择的规则来从相应的块中提取信息。提取单元160将从每个块中提取出的信息连续地存储到数据库170中。当这样做时,提取单元160对从每个块中提取出的信息附加作为信息搜索字的标记(label)。
[0130] 图19是在说明由提取单元160执行的信息提取处理时有用的示图。如图19中所示,块11a在输入文档10a中被识别。根据块11a中三种标签类型“h2”、“li”和“p”的出现频率,规则R1被选作要应用于块11a的规则。在该示例中,提取单元160对块11a应用规则R1。结果,作为一个示例,与条件Cd11相匹配的信息S1被提取出。然后,提取单元160将利用作为信息S1的更高级节点的标题标签(“h1”和“h2”)标记的文本L1a(“XX公司”)和L1b(“历史”)作为标记附加到所提取出的信息S1来形成片段。注意,作为标记附加的文本不限于该示例并且作为其它示例,可以是利用指定网页的题目的”title”标签标记的文本或其它任意文本。
[0131] 图20是在说明数据库170中所存储的片段中有用的示图。在图20的示例中,6个片段#1到#6被存储在数据库170中。每个片段包括作为用于搜索信息的关键字的标记以及示出该信息的内容的项目。还针对每个片段给出项目长度(字符数)和得分。
[0132] 片段#1是通过对图19中的输入文档10a中的块11a应用规则R1所提取出的片段。片段#1的项目长度是80并且得分是70。片段的项目长度被用来控制在片段响应于来自终端设备200的请求时被提供时的数据量。作为一个示例,片段的得分可以是与TF-IDF(Term Frequency-Inverse Document Frequency;术语频率-逆向文档频率)相对应的得分,在TF-IDF中,包括特征字(characteristic word)的项目被指派高值。作为替换示例,片段的得分可以被设置为使得信息越新则得分越高,或者,可以是这样的得分和TF-IDF的组合。当片段响应于来自终端设备200的请求被提供时,片段的得分被用来确定哪些片段应被优先提供。
[0133] 2-5.片段的提供
[0134] 搜索单元180搜索数据库170来查找具有与从终端设备200发送的关键字相匹配的标记或项目的片段并且就作为搜索结果获得的片段发送给终端设备200。当这样做时,搜索单元180可以根据已从终端设备200发送并与终端设备200上的显示有关的一个或多个限制条件来从自数据库170中获得的片段中选择片段并且将所选择的片段发送给终端设备200。在接下来的部分中,更详细地描述从终端设备200向信息处理设备100请求片段以及从信息处理设备100向终端设备200提供片段。
[0135] 3.终端设备的示例配置
[0136] 图21是示出根据本实施例的终端设备200的总体配置的一个示例。如图21中所示,终端设备200主要包括用户界面210和搜索请求单元220。
[0137] 3-1.用户界面的示例
[0138] 在本实施例中,用户界面210包括聊天功能作为能够向用户呈现片段的应用的一个示例。图22是在说明通过用户界面210在终端设备200的屏幕上显示的画面的一个示例时有用的示图。图22示出画面212作为通过用户界面210在终端设备200的屏幕上显示的画面的一个示例。画面212包括聊天窗口214、片段列表窗口216和视频显示窗口218。
[0139] 聊天窗口214例如是用于终端设备200的用户(用户A)与另一终端设备的用户(用户B)之间的聊天的窗口。在聊天窗口214中,用户A与用户B之间的文本通信例如在画面上被从上到下依次显示。
[0140] 片段列表窗口216是用于显示由终端设备200从信息处理设备100获得的片段的列表。在图22的示例中,片段Sn1和Sn2被显示在片段列表窗口216中。作为一个示例,终端设备200的用户A能够复制在片段列表窗口216中以这种方式显示的片段Sn1,并将片段Sn1插入到聊天窗口214中用户自己的发言中(见发言St2)。作为一个示例,片段列表窗口216中所显示的片段是由信息处理设备100根据搜索请求单元220从聊天窗口214提取出的关键字K1而发现和提供的片段。
[0141] 作为示例,正在广播的电视节目、正被终端设备200再现或在终端设备200和其它终端设备之间被共享的电影等被显示在视频显示窗口218中。搜索请求单元220可以在发送给信息处理设备100的针对片段的搜索请求中使用从视频显示窗口218中所显示的内容中(通过从字幕提取、语音识别等)获得的关键字。
[0142] 3-2.针对片段的搜索
[0143] 作为一个示例,搜索请求单元220从参考图22描述的聊天窗口214中显示的发言中提取特征搜索字。在图22的示例中,关键字“XX公司”被包括在用户B的发言St1中。作为一个示例,搜索请求单元220可以生成请求提供与以这种方式从发言中提取的这样的关键字相匹配的片段的片段请求,并且将片段请求发送给信息处理设备100。
[0144] 当这样做时,搜索请求单元220可以在片段请求中包括与显示有关的限制条件。作为示例,与显示有关的限制条件可以包括能够被显示的片段数或片段列表窗口216的项目长度的总数。然后,搜索请求单元220响应于片段请求在片段列表窗口216中显示从输入文档获取单元110提供的片段列表。在图22的示例中,由信息处理设备100根据关键字K1获得的片段Sn1和Sn2被显示在片段列表窗口216。
[0145] 图23是示出从信息处理设备100向终端设备200提供片段的流程的示例的时序图。
[0146] 在图23中,首先,终端设备200的搜索请求单元220从聊天窗口214中的发言或从视频显示窗口218中所显示的内容提取关键字(步骤S302)。接着,搜索请求单元220生成包括所提取的关键字以及针对显示的限制条件的片段请求,并且将片段请求经由网络3发送给信息处理设备100(步骤S304)。
[0147] 在接收到来自终端设备200的片段请求之后,信息处理设备100的搜索单元180搜索数据库170来查找与片段请求中所包括的关键字相匹配的片段。作为一个示例,如果片段请求中所包括的关键字是表述“XX公司”的关键字K1,则图20中图示出的片段#1到#6中的片段#1到#5被获得(步骤S312)。注意,当搜索结果不包括甚至一个片段(即,当没有与关键字相匹配的片段时),以后的处理被跳过(步骤S314)并且终端设备200被通知出错(步骤S318)。
[0148] 当至少一个片段被包括在搜索结果中时,搜索单元180从这至少一个片段中选择要提供给终端设备200的片段以满足片段请求中所包括的限制条件(步骤S316)。例如,假定对于片段列表窗口216,可以显示的片段数是4并且项目总长度为150。在该情况中,搜索单元180首先从搜索结果中所包括的片段#1到#5(参见图20)中依次选择高得分片段#1、#2和#3。此时,所选择的片段数是3并且项目的总长度是141。这里,如果具有次高得分的片段#5(“数码相框”)接下来被选择,则项目总长度将超过150并且将不能满足限制条件。因此,在该情况中,搜索单元180选择片段#4(“数码相机”)而不是片段#5。此后,搜索单元180发送为满足片段请求中所包括的限制条件而选择的片段#1到#4发送给终端设备200(步骤S318)
[0149] 在从信息处理设备100接收到这些片段之后(例如,上述片段片段#1到#4)之后,终端设备200的搜索请求单元220在用户界面210的片段列表窗口216中显示接收到的片段(步骤S322)。通过这样做,用户变得能够在聊天期间使用片段列表窗口216中所显示的片段中所包括的希望的信息(步骤S324)
[0150] 注意,信息处理设备100的搜索单元180可以根据片段已被提供给终端设备200的次数或片段已在终端设备200中被使用的次数来改变数据库170中所存储的每个片段的得分。例如,通过降低已被提供给终端设备200的片段的得分,可以避免相同的片段被重复提供给终端设备200。
[0151] 4.硬件配置示例
[0152] 本说明书中所描述的信息处理设备100和终端设备200的各个功能可以使用图24中所示出的与专用硬件结合的计算机或通用计算机来执行。
[0153] 在图24中,CPU(中央控制单元)902控制该通用计算机的整个操作。数据和被写入全部或部分处理序列的程序被存储在ROM(只读存储器)904中。CPU 902在执行处理时使用的程序、数据等被临时存储在RAM(随机存取存储器)906中。
[0154] CPU 902、ROM 904和RAM 906经由总线910相互连接。总线910还连接到输入输出接口912。
[0155] 输入输出接口912是用于将CPU 902、ROM 904和RAM 906与输入设备920、输出设备922、存储设备924、通信设备926和装置930连接的接口。
[0156] 输入设备920接收用户经由输入设备输入的指令或信息,输入设备例如可以是按钮、开关、控制杆、鼠标或键盘。输出设备922将信息经由显示设备或音频输出设备输出给用户,显示设备例如可以是CRT(阴极射线管)、液晶显示器或OLED(等离子发光二极管)显示器,音频输出设备例如是扬声器。
[0157] 存储设备924例如由硬盘驱动器或闪存构成并存储程序、程序数据等。通信设备926经由网络3执行通信处理。驱动器930在必要时被设置在通用计算机中并例如具有装载其中的可移除介质932。
[0158] 如果上述根据本发明实施例的处理序列例如通过软件来执行,则被存储在图24中所示的ROM 904、存储设备924或可移除介质932中的程序在执行时被写入RAM 906并被CPU 902执行。
[0159] 5.总结
[0160] 以上已经参考图1到图24描述了本发明的一个实施例。根据以上实施例,用于从使用标记语言写成的文档中提取信息的规则被根据输入文档中至少一个部分(例如,块)中特定字符串的出现频率而被选择,并且信息使用所选择的规则从这样的部分中被提取出。通过这样做,因为仅预先准备好的规则中的合适规则被应用于每个块,所以降低了从诸如网页的信息源中提取出不合适的信息的可能性。对于未知的网页也是如此,只要这样的页面中所使用的标记语言相同,可以应用以上实施例来根据特定字符串的出现频率来相适应地选择规则。因此,可以高效地高精度地从宽范围的信息源中提取有意义的信息。
[0161] 此外,在以上实施例中,以上提及的特定字符串是标记语言中可使用的标签。例如,通过使得可以根据例如与HTML中的标题有关的“h”标签、与列表有关的“ul”标签或“li”标签或与段落有关的“p”标签的出现频率来选择规则,使得可以从使用HTML写成的网页中有效地提取信息。通过还使用除标签以外的字符串(例如,规定的标题字符串)的出现频率,可以进一步提高提取信息的精度。
[0162] 此外,在以上实施例中,输入文档中的块针对上述第二树结构中的每个局部树被识别,第二树结构是基于定义标记语言中至少两种类型的标签之间文档结构上的层次关系的定义数据从输入文档生成的。所要应用的规则是逐块选择的,并且信息使用所选择的规则被提取。通过这样做,即使对于其结构在层次上未被充分描述的HTML文档,也可以针对准确反映视觉上可以理解的文档结构上的层次关系的多个块中的每一个来恰当地选择规则和提取信息。
[0163] 并且,在本发明的以上实施例中,使用相适应地选择的规则从宽范围的源提取的信息被存储在数据库中并响应于来自终端设备的请求而被提供。当这样做时,所要提供的信息根据有关终端处的显示的限制条件被自动选择。通过这样做,在实现诸如聊天之类的文本通信的终端设备处,可以容易地使用有意义的信息来进一步增强在有关显示的限制条件的范围内的通信。即,用户可以在通信期间利用已使用相应选择的规则从宽范围的源提取的信息,而不必发起启动的搜索画面并执行关键字搜索等。
[0164] 注意,以上已经描述了其中终端设备200的搜索请求单元220自动获取关键字的示例。然而,用户界面210可以另外设置有用于输入关键字的文本框。形成从信息处理设备100提供给终端设备200的项目不限于文本,并且可以包括诸如人的肖像图之类的图像或其它类型的数据。
[0165] 尽管已经参考附图详细描述了本发明的优选实施例,但是本发明不限于以上示例。本领域技术人员应当理解,根据设计要求和其它因素可以进行各种修改、组合、子组合和更改,只要它们在所附权利要求及其等同物的范围内即可。
[0166] 本申请包含与2009年11月9日于日本专利局提交的日本在先专利申请JP2009-256227中所公开的主题有关的主题,该申请的全部内容通过引用结合于此。