对信息项进行搜索的方法和系统转让专利

申请号 : CN200810213334.1

文献号 : CN101661487B

文献日 : 2012-08-08

相似专利: 请登录后查看

本发明提供了一种对信息项进行搜索的方法和系统。方法包括以下步骤：接收对对象的查询；基于该查询，搜索与所述对象相关的信息项以获取对象的信息项集合，其中每个信息项与一个用户相关联；提取该信息项集合中每个关联的用户的历史信息项记录；基于所有用户的历史信息项记录，计算每个用户针对所述对象的有效性权重；基于该有效性权重，对所述对象的信息项集合中的所有信息项进行排序；以及将排序的信息项作为搜索结果进行输出。

1.一种对信息项进行搜索的方法，包括：

接收对对象的查询；

基于该查询，搜索与所述对象相关的信息项以获取对象的信息项集合，其中每个信息项与一个用户相关联；

提取该信息项集合中每个关联的用户的历史信息项记录；

基于所有用户的历史信息项记录，计算每个用户针对所述对象的有效性权重；

基于该有效性权重，对所述对象的信息项集合中的所有信息项进行排序；以及将排序的信息项作为搜索结果进行输出，其中计算每个用户针对所述对象的有效性权重包括：计算该用户评价过的对象类别数目占总的对象类别数目的比例；

计算该用户对每个评价过的对象类别的评价与整体评价的情感倾向一致度；

计算该用户的评价在所有评价中所占的比重。

2.根据权利要求1所述的方法，其中所述信息项是用户对所述对象的评价。

3.根据权利要求1或2所述的方法，还包括：识别所述对象所属的对象类别。

4.根据权利要求2所述的方法，其中计算每个用户针对所述对象的有效性权重还包括：将类别比例、情感倾向一致度和评价比重相乘以得到所述有效性权重。

5.根据权利要求4所述的方法，其中应用自然语言处理从用户评价中分析用户对每个对象类别的情感倾向，并将其表示为情感倾向矢量。

6.根据权利要求5所述的方法，其中计算该用户对每个评价过的对象类别的评价与整体评价的情感倾向一致度包括：将该用户的情感倾向矢量与整体评价的情感倾向矢量进行内积。

7.根据权利要求6所述的方法，其中所述整体评价的情感倾向矢量由所有用户的情感倾向矢量的均值来表示。

8.根据权利要求4-7任一所述的方法，其中根据以下因素计算所述评价比重：该用户对所述对象所属对象类别的评价数目占该用户对所有对象类别的评价数目的比重；以及该用户对所述对象所属对象类别的评价数目占所有用户对所述对象所属对象类别的评价数目的比重。

9.根据权利要求1所述的方法，其中将有效性权重高的信息项排在前面。

10.根据权利要求1所述的方法，其中搜索步骤包括从至少一个数据存储库中搜索与所述对象相关的信息项。

11.一种对信息项进行排序的系统，包括：

接收组件，接收对对象的查询；

搜索组件，基于该查询，搜索与所述对象相关的信息项以获取对象的信息项集合，其中每个信息项与一个用户相关联；

提取组件，提取该信息项集合中每个关联的用户的历史信息项记录；

有效性权重计算组件，基于所有用户的历史信息项记录，计算每个用户针对所述对象的有效性权重；

排序组件，基于该有效性权重，对所述对象的信息项集合中的所有信息项进行排序；以及输出组件，将排序的信息项作为搜索结果进行输出，其中有效性权重计算组件包括：

类别比例计算组件，计算该用户评价过的对象类别数目占总的对象类另数目的比例；

情感倾向一致度计算组件，计算该用户对每个评价过的对象类别的评价与整体评价的情感倾向一致度；

评价比重计算组件，计算该用户的评价在所有评价中所占的比重。

12.根据权利要求11所述的系统，其中所述信息项是用户对所述对象的评价。

13.根据权利要求11或12所述的系统，还包括：识别组件，用于识别所述对象所属的对象类别。

14.根据权利要求13所述的系统，其中有效性权重计算组件进一步包括：乘法器，将所述类别比例、情感倾向一致度和评价比重相乘以得到所述有效性权重。

15.根据权利要求14所述的系统，其中在情感倾向一致度计算组件中，包括自然语言处理组件，用于从用户评价中分析用户对每个评价对象类别的情感倾向，并将其表示为情感倾向矢量。

16.根据权利要求15所述的系统，其中情感倾向一致度计算组件包括将该用户的情感倾向矢量与整体评价的情感倾向矢量进行内积的组件。

17.根据权利要求16所述的系统，其中所述整体评价的情感倾向矢量由所有用户的情感倾向矢量的均值来表示。

18.根据权利要求14-17任一所述的系统，其中评价比重计算组件根据以下因素计算所述评价比重：该用户对所述对象所属对象类别的评价数目占该用户对所有对象类别的评价数目的比重；以及该用户对所述对象所属对象类别的评价数目占所有用户对所述对象所属对象类别的评价数目的比重。

19.根据权利要求11所述的系统，其中排序组件将有效性权重高的信息项排在前面。

20.根据权利要求11所述的系统，其中搜索组件从至少一个数据存储库中搜索与所述对象相关的信息项。

对信息项进行搜索的方法和系统

技术领域

[0001] 本发明总体上涉及对信息项的搜索，更具体地，本发明涉及对对象评估进行搜索的方法及相关系统和计算机程序产品。

背景技术

[0002] 随着计算机技术及网络技术的不断发展，大量的信息通过计算机网络传输。互联网的普及导致信息共享技术飞速地增长，互联网也越来越渗透到人们的生活中，人们在互联网上共享信息的同时，也面临如何从如此庞大的信息量中有效地检索出自己所需的信息。

[0003] 目前所广泛使用的搜索引擎即旨在于协助用户从大量信息中进行检索，以使得用户可以方便、快捷地查找和检索其所需的各种信息。由于互联网上信息内容的数量和类型众多，因此搜索引擎所搜索到的结果数目也不少，有益的是通过对搜索结果进行排序，使得最相关、最重要的结果排在最前面，以便用户能够更快速地获取信息。因此，对各种搜索引擎技术的改进和优化，都直接反应到对搜索结果的排序上。

[0004] 互联网上信息内容的类型丰富，其中随着web使用率的提高以及电子商务的快速扩展，越来越多的人在web上查找与各种产品(诸如服装、电子产品等)相关联的信息或者与各种服务(例如餐饮、住宿、旅游等服务项目)相关联的信息。这些信息通常包括一些已经使用或者购买这些产品或服务的用户对它们的评价和意见，这些评价和意见对于潜在的客户、产品制造商和在线商家实际上都是非常有用的。如何对这些搜索得到或者从相应的数据存储中直接获取的信息项目按照一定顺序排序、以更有效的方式显示给用户，是信息检索领域的一个难题。目前较为常见的方法是对用户的评价和意见根据时间进行排序，也即将时间最近的评价放置在最上面，越往下则时间越早。但是，这种按照时间排序的方法无法体现各种评价的重要性，也即无法有效地帮助用户获得期望的信息。

[0005] 图1示意性地示出了现有技术中对用户评价的搜索结果进行显示的屏幕截图。从图1中可以看出，总共有473条用户评价，其中根据各条评价对特定产品或服务给出的星级评分(包括1星、2星、...、5星)用柱状图直观显示了各个星级评分的用户评价数目，并且在柱状图的右侧通过括号内的数字给出了具体的评价数目。此外，还给出了平均的用户评价。在图1的下半部分显示了“最有用的用户评价”，从图中可以看出，759人中有716人认为其下所列的评价很有用。

[0006] 上述现有技术是通过从用户获取反馈信息来对各种评价和意见进行分级评定，从而提供这种“最有用的用户评价”的显示。图2示意性地示出了现有技术中采集用户反馈信息的屏幕截图。例如在用户阅读完其他用户给出的评价或意见之后，可以要求用户对该评价或意见进行打分或评级，从而为该评价或者意见获得一个分值。在图2中，简单地通过两个按钮“Yes”和“No”由用户点击来选择该评价是否对其有用。基于对这些用户反馈信息的统计，可以对评价或者意见进行打分排序，将分值最高的排在最前面，分值低的排在后面。但是上述方法至少存在以下缺陷：其需要人工参与打分或评级，并且其准确性基本上取决于用户反馈的回复率。而这对于目前阅读者多、反馈回复者少的网络现状来说，是很难进行有效地统计的。

[0007] 因此，需要一种对此类信息项进行有效地搜索、对搜索结果进行排序但不需要用户反馈的方法，使得将对用户最重要、最有价值的信息项排在最前面，从而帮助用户更为直接快速有效的获得产品或服务的信息，也即从少量的信息项就可以获取尽可能多的有用信息。

发明内容

[0008] 因此，为了克服现有技术中存在的不足，本发明提供了一种对信息项进行搜索的方法以及相关系统和计算机程序产品，其特别地适合于对产品或服务的各种评估进行搜索的方法。

[0009] 根据本发明的一个方面，提供一种对信息项进行搜索的方法，包括：接收对对象的查询；基于该查询，搜索与所述对象相关的信息项以获取对象的信息项集合，其中每个信息项与一个用户相关联；提取该信息项集合中每个关联的用户的历史信息项记录；基于所有用户的历史信息项记录，计算每个用户针对所述对象的有效性权重；基于该有效性权重，对所述对象的信息项集合中的所有信息项进行排序；以及将排序的信息项作为搜索结果进行输出。

[0010] 根据本发明的另一方面，提供一种对信息项进行搜索的系统，包括：接收组件，接收对对象的查询；搜索组件，基于该查询，搜索与所述对象相关的信息项以获取对象的信息项集合，其中每个信息项与一个用户相关联；提取组件，提取该信息项集合中每个关联的用户的历史信息项记录；有效性权重计算组件，基于所有用户的历史信息项记录，计算每个用户针对所述对象的有效性权重；排序组件，基于该有效性权重，对所述对象的信息项集合中的所有信息项进行排序；以及输出组件，将排序的信息项作为搜索结果进行输出。 [0011] 根据本发明的另一方面，还提供一种包含用于执行根据本发明的方法的计算机程序代码的计算机程序产品。

[0012] 利用本发明，用户在对产品或者服务进行搜索时，对其最有价值、可靠性最高的信息项通常排在信息项目列表的较靠前的位置。

[0013] 进一步地，本发明的搜索排序方法可以针对数据库或数据存储中的信息项单独使用，也可以与任何已有的搜索引擎结合使用，优化对其搜索结果的显示。附图说明

[0014] 参考以下结合附图的详细说明后，本发明的特征、优点以及其它方面将变得更加明显，其中在附图中：

[0015] 图1示出了现有技术中对用户评价的搜索结果进行显示的屏幕截图； [0016] 图2示出了现有技术中采集用户反馈信息的屏幕截图；

[0017] 图3示出了根据本发明的方法的流程图；

[0018] 图4示出了根据本发明的系统的架构图；以及

[0019] 图5示出了可以实现本发明的计算机系统。

[0020] 请注意，在全部附图中，若存在的话，相同的参考标记表示相同的部件。 [0021] 具体实施方式

[0022] 在以下的详细描述中，为了便于全面理解本发明，通过示例的方式说明了许多特定的细节。不过本领域技术人员可以很清楚，本发明也可以不需要这些细节就能实现。此外，为了更加清楚地解释本发明，在某些示例中，公知的方法、处理、元件和电路仅仅是进行了概括性地描述，而没有详细说明。以下结合附图对本发明进行更详细的解释和说明。应当理解，本发明的附图及实施例仅用于示例性作用，不是用于限制本发明的保护范围。 [0023] 本发明涉及对各种对象的信息项进行搜索和排序。其中，“对象”可以包括各种有形的或者无形的产品、产品特征和/或服务，包括但不限于，例如服装、数码产品、酒店、餐饮、旅游等等。可以针对所有这些对象给出相关的评价，这些对象的信息项例如可以是使用过或购买过此类产品或服务的用户对它们的评价或意见。

[0024] 以下将通过具体实例来描述本发明的方法和系统，其中在该实例中，我们以对各种产品或服务的评价或意见作为信息项的示例。但是，本领域技术人员可以理解，本发明不限于此，而是可以应用在对通过任何途径搜索获取的各种信息项的排序方法中。 [0025] 在现有的各种电子购物网站中，对于一项产品或服务，通常会提供有使用/购买过该产品或享受过该服务的用户对此产品或服务的评价信息，这些信息可以帮助用户判断是否适合选择该产品或服务。但是，随着评价信息数量的增长，尤其在需整合不同来源的评价信息的情况下，对于一项产品或服务的评价信息的数量可以达到成百上千。这样数量的评价信息对于用户来说是很难一一阅读的。为此，用户希望能快速而有效地获得最有参考价值和客观的评价信息。那么，对于用户来说最有参考价值和最有效的评价应该是来自对所述对象有着较为丰富的使用经验或体验的用户所发表的评价信息，而不是专业写手或缺乏使用经验的用户发表的评价信息。而用户对所述对象的使用经验和评价客观性可以通过分析用户历史对此类对象的评价信息获得。

[0026] 由此可知，评价者的历史评价对于分析该评价者的评估标准是非常有用的。可以通过对特定用户的历史评价进行分析，从而提供对其给出的针对特定对象的评价的尽可能准确的评估。

[0027] 在分析评价者的历史评价时，我们考虑要克服以下几个问题，即如何判断评价者给出的评价是否客观，如果一个评价者一直都是正面的意见或者一直都是负面的意见，则该评价者的意见是否有价值？以及如何识别该评价者是否是商家所雇佣的写手？ [0028] 针对上述问题，我们为给出各种对象的信息项(或者评价)的用户分配一个有效性权重，在该有效性权重中反映该对象的信息项的有效性。将用户对对象的评价按照用户的有效性权重进行排序，从而将最有价值的信息项放置在最前面，使得用户可以快速有效地获取有用信息。

[0029] 由于进行评价的对象覆盖面广泛，因此需要对所评价的对象进行分类，以便更有组织地、更合理地分配用户的有效性权重。在已有的购物网站或网上商城中，通常已经存在对产品或服务的分类，例如，粗略地可以分为服饰、鞋包、数码产品、图书音像、家居用品、食品、酒店等等类别。各种产品或服务的信息项就与其相应的类别相关联。上述类别的划分可以根据所提供的产品或服务的数量、类型等进行合理地分配、灵活设置。上述类别可以预先设定好，也可以在之后进行调整，例如在某类产品的型号、品牌等增多时，可以对该类再进行细分，或者在产品数目变少时，合并某些类别。

[0030] 为了解决前面提到的现实中可能存在的问题，本发明提出的评价者的有效性权重中至少包括三个因子：该评价者评价过的对象类别数目占总的对象类别数目的比例；该评价者对每个评论过的对象类别的评价与整体评价的情感倾向一致度；该评价者的评价在所有评价中所占的比重。

[0031] 评价者的有效性权重是这三个因子的函数关系。在一种实施方式中，某一评价者Ri对特定对象类别Oj的有效性权重A(Ri，Oj)由类别比例Rcategory、情感倾向一致度Consenti和评价比重Rcomment这三个因子的连乘表示，也即：

[0032] A(Ri，Oj)＝Rcategory*Consenti*Rcomment(1)

[0033] 本领域技术人员可以理解，还可以使用其他的函数关系来表示该有效性权重，诸如三个因子的线性组合等。

[0034] 类别比例Rcategory表示特定评价者Ri所评价过的对象类别的数目在总的对象类别数目中所占的比例。从其定义上可以直观地得到其计算方法，即：

[0035] Rcategory＝Ri所评价过的对象类别的数目/总的对象类别的数目(2) [0036] 类别比例Rcategory因子能够有效地屏蔽掉商家所雇佣的写手。这是因为，通常商家所雇佣的写手往往只针对一种或者少数几种类别的对象(产品或服务)进行评价，由于其评价过的对象类别的数目较少，因此，在所有对象类别中所占据的比例也较小，从而可以通过类别比例因子反映在该评价者的有效性权重中。

[0037] 情感倾向一致度Consenti表示特定评价者对每个评论过的对象类别的评价与整体评价的情感倾向一致性。在分析评价者对每个评价对象类别的情感倾向时，应用自然语言处理进行分析，并将其表示为情感倾向矢量SentiV(Ri)。随着计算机和互联网的广泛应用，计算机可处理的自然语言文本数量空前增长，自然语言处理技术在针对海量信息的文本挖掘、信息提取、人机交互等应用中发挥着重要的作用。自然语言处理从语法和语义两个层面入手，从文本中抽取相应的内容进行词义和句义的分析，挖掘评价者所表达的意见。可选地，可以将评价者的意见赋予一定的数值，例如从-5到5的数值。很明显，本领域技术人员可以理解，也可以取其他范围的数值来表示。其中情感倾向矢量的各个元素即为该评价者Ri对各个对象类别的评价意见数值。

[0038] 针对前面提到的有的评价者可能出于恶意或者不负责任地做出评价，始终给出正面的或者负面的评价，这种评价基本上没有价值。因此，通过将特定评价者的评价与整体评价的情感倾向进行比较，可以有效地抑制上述现象。整体评价的情感倾向也由情感倾向矢量SentiV(all)来表示。SentiV(all)可以是一个统计值，例如，舍弃极端值之后的平均值，或者只抽取一定数量的样本之后的均值。在一种实施方式中，整体评价的情感倾向矢量SentiV(all)由所有评价者的情感倾向矢量的均值来表示。

[0039] 在一种实施方式中，评价者Ri的情感倾向一致度Consenti计算为该评价者Ri的情感倾向矢量与整体评价的情感倾向矢量的内积，即

[0040] Consenti＝SentiV(Ri)·SentiV(all)(3)

[0041] 很明显，如果评价者Ri对各个对象类别的意见与大部分评价者的意见都是一致的，则情感倾向一致度Consenti的值也较高。如果对于各个对象类别，评价者Ri的意见总是为正(分值很高)或者总是为负(分值很低)，则在与整体评价的情感倾向进行比较，也即计算内积之后，其数值也不大，从而可以通过情感倾向一致度Consenti因子反映在该评价者Ri的有效性权重中。

[0042] 评价比重Rcomment表示特定评价者的评价在所有评价中所占的比重。在一种实施方式中，评价比重由两部分组成，评价者Ri对所述评价对象所属对象类别的评价数目占该评价者对所有对象类别的评价数目的比重；以及该评价者对所述评价对象所属对象类别的评价数目占所有评价者对所述评价对象所属对象类别的评价数目的比重。在一种实施方式中，可以通过下面的公式计算评价比重Rcomment：

[0043]

[0044] 其中，系数λ1和λ2是用来平衡这两部分在评价比重Rcomment中所占的比重，其可以根据经验来调整λ1和λ2的取值。从上述公式可以看出，通过将评价者Ri对Oj类别做出过的评价数目与其自身对所有对象类别的评价数目相比以及与所有评价者对Oj类别的评价数目相比，可以判断该评价者Ri是否侧重于某个对象类别，也即是否是该对象类别领域的权威人士。在Ri针对Oj对象类别的评价比重Rcomment高时，就意味着Ri对Oj的评价更具有价值，反映在有效性权重上其能增加有效性权重的数值。

[0045] 在上文中描述了在一种应用中本发明的实施方式的与信息项相关的有效性权重，基于该有效性权重，可以对搜索到的信息项进行排序，从而有效性权重高的信息项排在前面，有效性权重低的信息项排在后面，使得用户只需要浏览少量的信息，就可以快速获得所期望的有用的信息。

[0046] 下面参考图3描述根据本发明实施方式的对对象的信息项进行搜索的方法流程。在该流程中，仍然以对诸如各种产品或服务的对象的评价或意见作为信息项的示例进行说明。

[0047] 如图3所示，在步骤S300中，开始该处理流程。

[0048] 在步骤S302中，接收用户对评价对象Oj的查询。

[0049] 在步骤S304中，基于用户的查询，搜索与评价对象Oj相关的信息项以获取该评价对象的信息项集合，其中每个信息项与一个用户相关联，也即每个信息项是由与之相关联的用户生成的，该用户也称为评价者。在一种实施方式中，例如，当与搜索引擎结合使用时，根据步骤S302中用户输入的评价对象查询，从各个数据库中基于关键词搜索与该评价对象相关联的信息项，也即对该评价对象的评价或意见，从而得到对象Oj的信息项集合。从这些评价或意见中可以获得生成该评价或意见的用户(即评价者)的ID，从而形成该评价对象的评价者集合。在另一种实施方式中，当各种对象已经按照前面描述的方式进行了分类时，在数据存储中各个对象的评价可以与其所属的类别相关联，也即通过类别对对象评价进行索引，从而可以快速搜索出所查询对象的信息项集合和评价者集合。 [0050] 在步骤S306中，提取信息项集合中每个关联的用户的历史信息项记录，也即提取评价者集合中每个评价者的历史评价记录。例如，根据评价者的ID，检索该评价者所有曾经给出过的评价记录。

[0051] 在以下的步骤中，将计算每个评价者Ri针对所查询的评价对象Oj的有效性权重。 [0052] 在步骤S308中，识别评价者Ri所评价过的所有对象的类别，统计对象类别的数目。该结果可以应用在随后的计算有效性权重中的类别比例因子中。

[0053] 在步骤S310中，计算评价者Ri针对所查询的评价对象Oj的有效性权重。从上文描述中可知，本发明实施方式的有效性权重至少包括三个因子：类别比例Rcategory，评价者Ri评价过的对象类别数目占总的对象类别数目的比例；情感倾向一致度Consenti，评价者Ri对每个评论过的对象类别的评价与整体评价的情感倾向一致度；评价比重Rcomment，评价者Ri的评价在所有评价中所占的比重。在该步骤中，根据前面给出的公式，分别计算这三个因子，然后例如将三个因子连乘以得到有效性权重的值。

[0054] 其中，类别比例Rcategory的计算为：使用在步骤S308中获得的Ri所评价过的对象类别的数目除以总的类别数目，该总的类别数目可以是在前文所描述的对所有对象进行分类的时候确定的。

[0055] 情感倾向一致度Consenti的计算涉及：首先应用自然语言处理技术分析评价者对各个对象类别的评价中的情感倾向，例如赋予一定数值表示其情感倾向的程度。在一个实施方式中，正面的评价例如以1到5的数值表示，负面的评价例如以-5到-1的数值表示，0表示中立。然后，对于每个评价者Ri，建立该评价者Ri的情感倾向矢量SentiV(Ri)。一般说来，评价者Ri的情感倾向矢量的维数是Ri所评价过的对象类别的数目，每个元素即为该评价者Ri对相应的对象类别的评价意见数值。由于各个评价者不一定会对所有的对象类别都进行评价，因此这样使得各自的情感倾向矢量的维数不对应。为了在形式上统一这些矢量以及之后的计算方便，将所有的情感倾向矢量的维数都统一为总的对象类别的数目，对于评价者Ri未做出任何评价的对象类别，其相应的元素值为0。接着，在得到了所有评价者的情感倾向矢量之后，在一种实施方式中，可以对所有这些矢量求平均，以得到整体评价的情感倾向矢量SentiV(all)。很明显，本领域技术人员可以理解还可以采用其他的计算方式根据所有评价者的情感倾向矢量求解整体评价的情感倾向矢量。最后，将评价者Ri的情感倾向矢量SentiV(Ri)与整体评价的情感倾向矢量SentiV(all)进行内积，以得到评价者Ri的情感倾向一致度Consenti。

[0056] 评价比重的计算Rcomment包括：计算评价者Ri对评价对象Oj的类别的评价数目占该评价者Ri对所有对象类别的评价数目的比重；以及计算评价者Ri对评价对象Oj的类别的评价数目占所有评价者对评价对象Oj的类别的评价数目的比重。其中，评价者Ri对所有对象类别的评价数目，基本上就是该评价者Ri所给出过的所有评价的数目。所有评价者对评价对象Oj的类别的评价数目是上面提到的在步骤S304中获取的评价者集合中的所有评价者对评价对象Oj的类别的评价数目，其基本上是对象Oj的类别的所有评价数目。然后，根据前述公式(4)计算评价比重Rcomment，经验系数λ1和λ2可以平衡这两部分结果在评价比重Rcomment中所占的比重。

[0057] 在计算得到上述三个因子之后，就可以获得评价者Ri对对象Oj的有效性权重。 [0058] 接着，在步骤S312中，判断是否所有的评价者的有效性权重都已经计算完毕。 [0059] 如果判断结果为“否”，则处理返回到步骤S308，继续对下一个评价者进行计算，并继续执行以后的步骤。

[0060] 如果判断结果为“是”，则处理前进到步骤S314。

[0061] 在步骤S314中，将所选评价对象Oj的所有评价基于各个评价者的有效性权重进行排序，其中有效性权重高的评价具有较靠前的位置。通过考虑评价者针对特定评价对象的有效性权重，能够获得更好的排序效果。

[0062] 最后，在步骤S316中，将经过排序的信息项作为搜索结果进行输出。在一种实施方式中，例如可以在显示屏上将搜索结果呈现给用户，其中例如可以只显示排序后的前10-50条信息项，以便于用户浏览。本领域技术人员可以理解，也可以采用各种各样的图形信息来呈现给用户。

[0063] 可选地，本发明的对搜索结果的排序除了考虑评价者的有效性权重，还可以进一步考虑其他因素，例如给出评价的时间。对于某些类别的对象(产品或服务)，较早给出的评价可能对于当前评估对象价值不大，因此其在排序时的位置较靠后。

[0064] 图4示意性地示出了实现根据本发明一个实施方式的搜索方法的系统示意框图。其中，参考标号400表示根据本发明实施方式的搜索系统，在该搜索系统400中包括：接收组件401、搜索组件402、提取组件404、有效性权重计算组件406、排序组件408以及输出组件409。其中，在图4中还示出了数据存储库410，该数据存储库410可以包含在排序系统
400之中，也可以作为其外部的独立部件，甚至该数据存储库410还可以以分布式分布在计算机网络中。

[0065] 如图4所示，接收组件401例如从用户接收对对象的查询。搜索组件402基于接收的查询，例如从数据存储库410中搜索与所查询的对象相关的信息项，以获取所查询对象的信息项集合，其中每个信息项与一个用户相关联。搜索组件402还从获取的信息项集合中搜索所有的相关联用户，形成用户集合。提取组件404继而为该用户集合中的每个用户提取各自的历史信息项记录，例如也从数据存储库410中获取这些历史信息项记录。接着，有效性权重计算组件406计算各个用户对特定对象的有效性权重。然后，基于所计算的有效性权重，由排序组件408对该特定对象的信息项集合中的所有信息项进行排序，其中，有效性权重高的信息项排列在较靠前的位置，从而获得改善的排序效果。最后，将经过排序的信息项作为搜索结果由输出组件409输出，例如通过显示屏呈现给用户。 [0066] 在本发明的一种应用中，例如，对象的信息项是用户对该对象的评价或意见。在这种应用中，有效性权重计算组件406可以至少包括以下子组件：类别比例计算组件412、情感倾向一致度计算组件414、评价比重计算组件416、函数组件418以及识别组件420。 [0067] 其中，类别比例计算组件412、情感倾向一致度计算组件414以及评价比重计算组件416分别按照前面所描述的方法计算相应的因子。在情感倾向一致度计算组件414中还包括自然语言处理组件(未示出)，此自然语言处理组件可以根据语法和语义分析各个信息项中表达的情感倾向性，并将其表示为情感倾向矢量。

[0068] 识别组件420识别对象所属的类别，也即识别由提取组件404提取的历史信息项记录中各个对象的类别，从而统计出相关的对象类别的数目或相关类别的评价数目，以用于后续的使用或计算。例如，在类别比例计算组件412中用于计算评价者Ri评价过的对象类别数目占总的对象类别数目的比例；在情感倾向一致度计算组件414中，可以使用识别组件420来识别各个信息项中的对象类别以协助建立情感倾向矢量；以及在评价比重计算组件416中用于计算评价者Ri对评价者对象Oj的类别的评价数目等等。

[0069] 函数组件418接收类别比例计算组件412、情感倾向一致度计算组件414和评价比重计算组件416的计算结果，根据函数关系计算有效性权重。在一种实施方式中，函数组件例如可以是乘法器，其将接收到的三个结果(即类别比例、情感倾向度和评价比重)相乘，以得到有效性权重。在可选的实施方式中，函数组件还可以是加法器或者加法器与乘法器的结合或者任意合适的函数关系计算组件。

[0070] 在可选的实施方式中，排序组件408还可以有其他输入，例如各个信息项生成的时间，从而排序组件408可以进一步根据生成时间对信息项进行排序。

[0071] 图4仅示出了能够实现本发明的一种排序系统的示例。本领域技术人员可以理解，在各组件/模块的具体实现上，尤其是通过软件实现各个模块功能时，可以存在多种可选方案。例如，可以将所示的搜索组件402和提取组件404合并到同一模块中。 [0072] 下面，将参考图5来描述可以实现本发明的计算机系统。图5 示意性示出了可以实现根据本发明的实施方式的计算机系统的结构方框图。

[0073] 图5中所示的计算机系统包括CPU(中央处理单元)501、RAM(随机存取存储器)502、ROM(只读存储器)503、系统总线504、硬盘控制器505、键盘控制器506、串行接口控制器507、并行接口控制器508、显示器控制器509、硬盘510、键盘511、串行外部设备512、并行外部设备513和显示器514。在这些部件中，与系统总线504相连的有CPU501、RAM502、ROM503、硬盘控制器505、键盘控制器506、串行接口控制器507、并行接口控制器
508和显示器控制器509。硬盘510与硬盘控制器505相连，键盘511与键盘控制器506相连，串行外部设备512与串行接口控制器507相连，并行外部设备513与并行接口控制器
508相连，以及显示器514与显示器控制器509相连。

[0074] 图5中每个部件的功能在本技术领域内都是众所周知的，滨且图5所示的结构也是常规的。图5所述的结构方框图仅仅为了示例的目的而示出的，并非是对本发明的限制。在一些情况下，可以根据需要添加或者减少其中的一些部件。

[0075] 本发明的搜索以及对搜索结果进行排序方法可以针对数据库或数据存储中的信息项单独使用，也可以与任何已有的搜索引擎结合使用，优化对其搜索结果的显示。从上文的描述可知，对信息项进行搜索的过程可以以任何已知的算法、过程、方式来实现，而该实现本身不属于本发明的范围。

[0076] 此外，本领域技术人员可以理解，尽管本发明的各个方面可以作为框图、流程图或使用其它图示表示加以说明和描述，但可以理解，在此描述的这些模块、组件、设备、系统、技术或方法可以以作为非限制性实例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其组合来实现。

[0077] 尽管本发明的教导是在具体实施的上下文中描述的，但对于本领域技术人员显而易见的是，在不脱离本发明精神的情况下，可以对本发明各实施方式进行修改和变更。本说明书中的描述仅仅是用于说明性的，而不应被认为是限制性的。本发明的范围仅受所附权利要求书的限制。

对信息项进行搜索的方法和系统转让专利

申请号 : CN200810213334.1

文献号 : CN101661487B

文献日 : 2012-08-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 祝慧佳 , 蔡柯柯 , 郭宏蕾 , 苏中

申请人 : 国际商业机器公司

摘要 :

权利要求 :

说明书 :

对信息项进行搜索的方法和系统

技术领域

背景技术

发明内容