一种基于用户行为分析的搜索结果改进的方法及其系统转让专利

申请号 : CN201110445475.8

文献号 : CN102591948B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡海斌吴鸿伟章正道

申请人 : 厦门市美亚柏科信息股份有限公司

摘要 :

本发明公开了一种基于用户行为分析的搜索结果改进的方法及其系统,是在用户的初次查询过程中记录用户对初次搜索结果的搜索行为,而在再次查询过程中,先不将获取的再次搜索结果提供给用户,而是首先判断前后两次查询是否为相同主题,当判断为不是相同主题时则将再次查询过程获取的再次搜索结果提供给用户,当判断为是相同主题时则根据用户的搜索行为,对再次搜索结果进行处理并重新排序,并将处理和重新排序后的搜索结果提供给用户。该方法及其系统,通过对用户的搜索行为进行分析处理,判断用户相邻的两次搜索之间的关联性,进而导出主题相关性高的搜索结果,达到节省人力、提高搜索结果相关性进而提升用户的搜索体验的目的。

权利要求 :

1.一种基于用户行为分析的搜索结果改进的方法,其特征在于:包括如下步骤:接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;

记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;

接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;

对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;

根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上;

所述接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上的过程,包括如下步骤:a1.接收用户提交搜索关键词;

a2.利用查询模块分析关键词,对关键词进行处理;

a3.由查询模块查看缓存是否存在相关检索的结果,如存在则返回搜索结果;否则把关键词和索引库进行相关性判断后返回搜索结果;

a4.记录返回的初次搜索结果和搜索时间;

所述记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存的过程,包括如下步骤:b1.当初次搜索结果显示在用户的使用界面上时,用户搜索行为记录模块启动,开始记录用户的搜索行为;

b2.记录用户点击的链接网址和进入该链接网址的时间;

b3.记录用户返回到初次搜索结果页面的时间从而计算出用户在该链接网址内的停留时间;

b4.重复步骤b2-b3,直至用户改变关键词进行下一次搜索;

b5.对用户的搜索行为进行缓存或入库保存;

所述接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果的过程;以及对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上的过程;包括如下步骤:c1.记录用户再次搜索的时间,进而计算出与初次搜索时间的间隔;

c2.对再次搜索的关键词进行处理,得到再次搜索结果,但不返回给用户;

c3.进行初次用户搜索行为中点击的链接网址与当前返回结果的链接网址的重复情况计算;

c4.进行初次用户搜索行为中返回搜索结果的链接网址与当前返回结果的链接网址的重复情况计算;

c5.综合搜索时间间隔,和步骤c3、c4中的链接网址的重复情况,判断两次的搜索是否是相同主题的搜索;

c6.如果是相同主题的搜索结果则进入搜索结果关联性分析模块进行后续分析处理,否则将再次搜索结果返回给用户。

2.根据权利要求1所述的基于用户行为分析的搜索结果改进的方法,其特征在于:所述对初次搜索结果和再次搜索结果是否为相同主题进行判断,是将用户对初次搜索结果所点中的链接网址与再次搜索结果的链接网址的重复度进行分析以及将初次搜索结果的链接网址与再次搜索结果的链接网址的重复度进行分析,当重复度达到预设的阈值时,就判定为主题相同。

3.根据权利要求1所述的基于用户行为分析的搜索结果改进的方法,其特征在于:所述对再次搜索结果进行处理并重新排序,是根据预设的条件,提取三类的链接网址来作为搜索结果,并根据预设的权重条件将搜索结果重新排序;其中,该三类链接网址分别为初次搜索结果所点中的链接中浏览时间最久的若干链接网址,初次搜索结果和再次搜索结果都匹配的若干链接网址,初次搜索结果和再次搜索结果中排序靠前的若干链接网址。

4.一种基于用户行为分析的搜索结果改进的系统,包括:

第一查询模块,该第一查询模块用来接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;

用户行为记录模块,该用户行为记录模块用来记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;

第二查询模块,该第二查询模块用来接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;

搜索相关性判断模块,该搜索相关性判断模块用来对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时执行搜索结果关联性分析模块的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;

搜索结果关联性分析模块,该搜索结果关联性分析模块用来根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上;

所述第一查询模块进一步包括:

用于接收用户提交搜索关键词的装置;

用于利用查询模块分析关键词,对关键词进行处理的装置;

用于由查询模块查看缓存是否存在相关检索的结果,如存在则返回搜索结果;否则把关键词和索引库进行相关性判断后返回搜索结果的装置;

用于记录返回的初次搜索结果和搜索时间的装置;

所述用户行为记录模块进一步包括:

用于当初次搜索结果显示在用户的使用界面上时,用户搜索行为记录模块启动,开始记录用户的搜索行为的装置;

用于记录用户点击的链接网址和进入该链接网址的时间的装置;

用于记录用户返回到初次搜索结果页面的时间从而计算出用户在该链接网址内的停留时间的装置;

用于重复记录用户点击的链接网址和进入该链接网址的时间和重复记录用户返回到初次搜索结果页面的时间从而计算出用户在该链接网址内的停留时间,直至用户改变关键词进行下一次搜索的装置;

用于对用户的搜索行为进行缓存或入库保存的装置;

所述第二查询模块和搜索相关性判断模块进一步包括:

用于记录用户再次搜索的时间,进而计算出与初次搜索时间的间隔的装置;

用于对再次搜索的关键词进行处理,得到再次搜索结果,但不返回给用户的装置;

用于进行初次用户搜索行为中点击的链接网址与当前返回结果的链接网址的重复情况计算的装置;

用于进行初次用户搜索行为中返回搜索结果的链接网址与当前返回结果的链接网址的重复情况计算的装置;

用于综合搜索时间间隔,进行初次用户搜索行为中点击的链接网址与当前返回结果的链接网址的重复情况和进行初次用户搜索行为中返回搜索结果的链接网址与当前返回结果的链接网址的重复情况,判断两次的搜索是否是相同主题的搜索的装置;

用于如果是相同主题的搜索结果则进入搜索结果关联性分析模块进行后续分析处理,否则将再次搜索结果返回给用户的装置。

说明书 :

一种基于用户行为分析的搜索结果改进的方法及其系统

技术领域

[0001] 本发明涉及计算机技术领域,特别是涉及一种基于用户行为分析的搜索结果改进的方法及其系统。

背景技术

[0002] 搜索引擎(search engine)是一种根据一定的策略、运用特定的计算机程序搜集互联网上的信息,并在对信息进行组织和处理后,将处理后的信息显示给用户,以为用户提供检索服务的系统。目前,随着互联网的迅速发展,搜索引擎已成为互联网的重要应用之一。为了在互联网上数以百亿计的网页中寻找信息,人们往往求助于搜索引擎。
[0003] 通用搜索引擎的工作流程大致为:通过互联网爬虫对互联网上的网页进行爬取和然后进行索引,搜索引擎用户通过发送关键词到搜索引擎提供的接口,搜索引擎对于关键词和庞大的索引库进行匹配,然后,返回搜索结果。由于索引库的庞大,通常对于关键词和索引的匹配搜索结果进行缓存。
[0004] 通用搜索引擎一般专注于索引库的规模(索引网页的数量)和搜索结果排序的算法,比如PageRank和Hits算法等。算法匹配出来的搜索结果通常为可重现的,比如,对于一个特定的关键字多次搜索返回的是相同的结果。
[0005] 目前主流的通用搜索引擎一般通过对于搜索关键字与索引库进行关联性匹配返回搜索的结果,而且通常对于关键字的搜索结果进行缓存。对于这种方式,多次搜索一个特定的关键字返回的是相同的结果。这种搜索结果的返回存在内在的缺陷:搜索的结果完全依赖于关键字与搜索引擎庞大索引库的匹配,依赖于匹配的技术,分词和索引的技术。而忽略了用户在搜索过程中行为的搜索结果所产生的影响。
[0006] 比如,用户使用搜索引擎,可能多次搜索不同的关键字却是为了查询一个相同的主题,由于现有的搜索引擎对用户的多次搜索并不进行记录分析,对于不同关键词的搜索只是返回了与关键词比对的结果,搜索结果之间的关联性不大,所以用户即使使用很多的关键词,而在每次的搜索过程中也只能摘选到很少部分需要的搜索结果,造成耗费过多的人力,导致不好的用户体验。

发明内容

[0007] 本发明的目的在于克服现有技术之不足,提供一种基于用户行为分析的搜索结果改进的方法及其系统,通过对用户的搜索行为进行分析处理,判断用户相邻的两次搜索之间的关联性,进而导出主题相关性高的搜索结果,达到节省人力、提高搜索结果相关性进而提升用户的搜索体验的目的。
[0008] 本发明解决其技术问题所采用的技术方案是:一种基于用户行为分析的搜索结果改进的方法,包括如下步骤:
[0009] 接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;
[0010] 记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;
[0011] 接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;
[0012] 对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;
[0013] 根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上。
[0014] 所述记录用户对初次搜索结果的搜索行为,是包括记录用户对初次搜索结果所点中的链接网址和用户在进入对应链接网址的停留时间。
[0015] 所述对初次搜索结果和再次搜索结果是否为相同主题进行判断,是将用户对初次搜索结果所点中的链接网址与再次搜索结果的链接网址的重复度进行分析以及将初次搜索结果的链接网址与再次搜索结果的链接网址的重复度进行分析,当重复度达到预设的阈值时,就判定为主题相同。
[0016] 所述对再次搜索结果进行处理并重新排序,是根据预设的条件,提取三类的链接网址来作为搜索结果,并根据预设的权重条件将搜索结果重新排序;其中,该三类链接网址分别为初次搜索结果所点中的链接中浏览时间最久的若干链接网址,初次搜索结果和再次搜索结果都匹配的若干链接网址,初次搜索结果和再次搜索结果中排序靠前的若干链接网址。
[0017] 所述接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上的过程,包括如下步骤:
[0018] a1.接收用户提交搜索关键词;
[0019] a2.利用查询模块分析关键词,对关键词进行处理;
[0020] a3.由查询模块查看缓存是否存在相关检索的结果,如存在则返回搜索结果;否则把关键词和索引库进行相关性判断后返回搜索结果;
[0021] a4.记录返回的初次搜索结果和搜索时间。
[0022] 所述记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存的过程,包括如下步骤:
[0023] b1.当初次搜索结果显示在用户的使用界面上时,用户搜索行为记录模块启动,开始记录用户的搜索行为;
[0024] b2.记录用户点击的链接网址和进入该链接网址的时间;
[0025] b3.记录用户返回到初次搜索结果页面的时间从而计算出用户在该链接网址内的停留时间;
[0026] b4.重复步骤b2-b3,直至用户改变关键词进行下一次搜索;
[0027] b5.对用户的搜索行为进行缓存或入库保存。
[0028] 所述接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果的过程;以及对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上的过程;包括如下步骤:
[0029] c1.记录用户再次搜索的时间,进而计算出与初次搜索时间的间隔;
[0030] c2.对再次搜索的关键词进行处理,得到再次搜索结果,但不返回给用户;
[0031] c3.进行初次用户搜索行为中点击的链接网址与当前返回结果的链接网址的重复情况计算;
[0032] c4.进行初次用户搜索行为中返回搜索结果的链接网址与当前返回结果的链接网址的重复情况计算;
[0033] c5.综合搜索时间间隔,和步骤c3、c4中的链接网址的重复情况,判断两次的搜索是否是相关主题的搜索;
[0034] c6.如果是相关主题的搜索果则进入搜索结果关联性分析模块进行后续分析处理,否则将再次搜索结果返回给用户。
[0035] 所述用户搜索行为,是指在一个较短时间内,用户利用搜索引擎进行检索过程中的行为。
[0036] 一种基于用户行为分析的搜索结果改进的系统,包括:
[0037] 第一查询模块,该第一查询模块用来接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;
[0038] 用户行为记录模块,该用户行为记录模块用来记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;
[0039] 第二查询模块,该第二查询模块用来接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;
[0040] 搜索相关性判断模块,该搜索相关性判断模块用来对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;
[0041] 搜索结果关联性分析模块,该搜索结果关联性分析模块用来根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上。
[0042] 本发明的一种基于用户行为分析的搜索结果改进的系统,是一个记录分析用户搜索行为,进而推荐搜索结果、提升用户搜索体验的个性化搜索系统。用户发送关键词到本系统,系统对关键词进行初步处理、查询并返回结果,在用户对返回的查询结果操作中系统记录用户的浏览行为,在用户的第二次查询关键字时,系统判断两次查询的相关联性,如果相关联,系统进入搜索结果的关联性分析模块,推荐更符合用户查询主题的搜索结果。
[0043] 本发明的有益效果是,由于采用了接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上等步骤,通过对用户的搜索行为进行分析处理,判断用户相邻的两次搜索之间的关联性,进而导出主题相关性高的搜索结果,达到节省人力、提高搜索结果相关性进而提升用户的搜索体验的目的。
[0044] 本发明是利用用户的搜索行为分析,关联分析用户的搜索主题,改进搜索的返回结果,节省用户获取主题信息的时间,进而改善用户的搜索体验。本发明致力于搜索返回结果的改进,而非相关的搜索推荐,这是本专利与其他相似名称专利的最大区别。
[0045] 用户利用本发明的方法及其系统,可以改变通用搜索引擎对于关键词仅仅通过算法进行相关性匹配返回固定结果的局限性。系统考虑了用户的搜索行为,对于用户的搜索主题进行分析,可以返回更符合用户期待的搜索结果,进而提升用户的搜索体验。
[0046] 本发明的方法及其系统尤其适用于用户多次进行相同主题的搜索,用户不明确用特定的关键词描述所需主题的情况下。通过多次搜索不同的关键词,系统通过分析搜索关联性,可以帮助用户不断明确用户所需的搜索结果、提升与主题相关度高的结果的排名,提高用户获取信息的效率。
[0047] 以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于用户行为分析的搜索结果改进的方法及其系统不局限于实施例。

附图说明

[0048] 图1是本发明方法的步骤流程图;
[0049] 图2是本发明系统的工作流程图。

具体实施方式

[0050] 实施例,请参见图1所示,本发明的一种基于用户行为分析的搜索结果改进的方法,包括如下步骤:
[0051] 步骤S1,接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;
[0052] 步骤S2,记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;
[0053] 步骤S3,接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;
[0054] 步骤S4,对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;
[0055] 步骤S5,根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上。
[0056] 所述记录用户对初次搜索结果的搜索行为,是包括记录用户对初次搜索结果所点中的链接网址和用户在进入对应链接网址的停留时间。
[0057] 所述对初次搜索结果和再次搜索结果是否为相同主题进行判断,是将用户对初次搜索结果所点中的链接网址与再次搜索结果的链接网址的重复度进行分析以及将初次搜索结果的链接网址与再次搜索结果的链接网址的重复度进行分析,当重复度达到预设的阈值时,就判定为主题相同。
[0058] 所述对再次搜索结果进行处理并重新排序,是根据预设的条件,提取三类的链接网址来作为搜索结果,并根据预设的权重条件将搜索结果重新排序;其中,该三类链接网址分别为初次搜索结果所点中的链接中浏览时间最久的若干链接网址,初次搜索结果和再次搜索结果都匹配的若干链接网址,初次搜索结果和再次搜索结果中排序靠前的若干链接网址。
[0059] 所述步骤S1,包括如下步骤:
[0060] a1.接收用户提交搜索关键词;
[0061] a2.利用查询模块分析关键词,对关键词进行处理;
[0062] a3.由查询模块查看缓存是否存在相关检索的结果,如存在则返回搜索结果;否则把关键词和索引库进行相关性判断后返回搜索结果;
[0063] a4.记录返回的初次搜索结果和搜索时间。
[0064] 所述步骤S2,包括如下步骤:
[0065] b1.当初次搜索结果显示在用户的使用界面上时,用户搜索行为记录模块启动,开始记录用户的搜索行为;
[0066] b2.记录用户点击的链接网址和进入该链接网址的时间;
[0067] b3.记录用户返回到初次搜索结果页面的时间从而计算出用户在该链接网址内的停留时间;
[0068] b4.重复步骤b2-b3,直至用户改变关键词进行下一次搜索;
[0069] b5.对用户的搜索行为进行缓存或入库保存。
[0070] 所述步骤S3和步骤S4;包括如下步骤:
[0071] c1.记录用户再次搜索的时间,进而计算出与初次搜索时间的间隔;
[0072] c2.对再次搜索的关键词进行处理,得到再次搜索结果,但不返回给用户;
[0073] c3.进行初次用户搜索行为中点击的链接网址与当前返回结果的链接网址的重复情况计算;
[0074] c4.进行初次用户搜索行为中返回搜索结果的链接网址与当前返回结果的链接网址的重复情况计算;
[0075] c5.综合搜索时间间隔,和步骤c3、c4中的链接网址的重复情况,判断两次的搜索是否是相关主题的搜索;
[0076] c6.如果是相关主题的搜索果则进入搜索结果关联性分析模块进行后续分析处理,否则将再次搜索结果返回给用户。
[0077] 所述用户搜索行为,是指在一个较短时间内,用户利用搜索引擎进行检索过程中的行为。
[0078] 本发明的一种基于用户行为分析的搜索结果改进的系统,包括:
[0079] 第一查询模块,该第一查询模块用来接收用户提交的初次查询关键词,对该初次查询关键词进行处理,利用关键词与索引库的匹配关系获取初次搜索结果,并将该初次搜索结果显示在用户的使用界面上;
[0080] 用户行为记录模块,该用户行为记录模块用来记录用户对初次搜索结果的搜索行为,并将该搜索行为予以保存;
[0081] 第二查询模块,该第二查询模块用来接收用户提交的再次查询关键词,对该再次查询关键词进行处理,利用关键词与索引库的匹配关系获取再次搜索结果;
[0082] 搜索相关性判断模块,该搜索相关性判断模块用来对初次搜索结果和再次搜索结果是否为相同主题进行判断,当判断为是相同主题时进行下一步骤的处理,否则,将获取的再次搜索结果作为初次搜索结果来显示在用户的使用界面上;
[0083] 搜索结果关联性分析模块,该搜索结果关联性分析模块用来根据用户的搜索行为,对再次搜索结果进行处理并重新排序,以及将处理和重新排序后的搜索结果作为初次搜索结果来显示在用户的使用界面上。
[0084] 本发明的一种基于用户行为分析的搜索结果改进的系统,是一个记录分析用户搜索行为,进而推荐搜索结果、提升用户搜索体验的个性化搜索系统。用户发送关键词到本系统,系统对关键词进行初步处理、查询并返回结果,在用户对返回的查询结果操作中系统记录用户的浏览行为,在用户的第二次查询关键字时,系统判断两次查询的相关联性,如果相关联,系统进入搜索结果的关联性分析模块,推荐更符合用户查询主题的搜索结果。
[0085] 本发明的一种基于用户行为分析的搜索结果改进的系统,第一查询模块和第二查询模块可以由一个查询模块来替代。
[0086] 参见图2所示,本发明的系统在工作时,包括了三个流程:初次检索流程,再次检索流程,自动检索流程。
[0087] 初始工作需要设定一个检索过期的时间,比如一天。
[0088] 初次检索流程中,用户提交搜索关键词;查询模块进行关键词预处理:比如去除空白字符,进行必要的分词等;查询模块查看缓存是否存在相关检索的结果,如存在则返回,否则把关键词和索引库进行相关性判断返回搜索结果;查询模块记录返回的初次搜索结果和时间;查询模块并将第一次搜索结果(相当于初次索结果)提供给用户。当初次的搜索结果返回给用户后,用户行为记录模块启动,开始记录用户的搜索行为;记录的用户搜索行为包括:记录关键词,记录用户点击的链接URL,记录页面停留时间;对用户的搜索行为进行缓存。
[0089] 再次检索流程中,用户提交搜索关键词;查询模块进行关键词预处理并且把关键词和索引库进行相关性判断得到第二次搜索结果(相当于再次搜索结果);该第二次搜索结果暂不提供给用户,查询模块记录返回的再次搜索结果和时间;搜索相关性判断模块启动,结合第一次搜索结果、第二次搜索结果和用户搜索行为进行二次搜索相关性判断,当判断为相关时启动搜索结果关联性分析模块进入自动检索流程,当判断为不相关时,将第二次搜索结果提供给用户,此时的第二次搜索结果是作为下一次搜索用的初次搜索结果来看待。
[0090] 自动检索流程中,搜索结果关联性分析模块启动工作,进行搜索结果关联性分析,得到分析后推荐结果,并将该推荐结果提供给用户,此时的推荐结果也是作为下一次搜索用的初次搜索结果来看待的,这样,用户对推荐结果的搜索行为又被用户行为记录模块所记录,当用户第三次输入关键词进行搜索时,推荐结果就相当于初次搜索结果,第三次搜索结果相当于再次搜索结果,由此进行处理,可以实现多次相同主题的搜索。搜索结果关联性分析模块会削减搜索返回结果,由于搜索引擎返回的结果一般数量巨大,但是关联性高的结果却是不多,所以截取搜索返回结果中排序排名较高的记录可以有效减少后续步骤中数据的处理量。搜索结果关联性分析模块会根据预设的条件,提取三类的链接网址来作为搜索结果,并根据预设的权重条件将搜索结果重新排序;其中,该三类链接网址分别为初次搜索结果所点中的链接中浏览时间最久的若干链接网址,初次搜索结果和再次搜索结果都匹配的若干链接网址,初次搜索结果和再次搜索结果中排序靠前的若干链接网址;也就是依据三个条件提取一个主题相关性较高的一个集合S;集合S一般规模不大,以集合S中的记录或记录子集为中心点对截取后的搜索结果集合进行文本的聚类;对于聚类后的靠近聚类中心即与集合S中的记录相关度较高的记录提供搜索返回结果相关度的权重,进而提高其排名。
[0091] 本发明是利用用户的搜索行为分析,关联分析用户的搜索主题,改进搜索的返回结果,节省用户获取主题信息的时间,进而改善用户的搜索体验。本发明致力于搜索返回结果的改进,而非相关的搜索推荐,这是本专利与其他相似名称专利的最大区别。
[0092] 用户利用本发明的方法及其系统,可以改变通用搜索引擎对于关键词仅仅通过算法进行相关性匹配返回固定结果的局限性。系统考虑了用户的搜索行为,对于用户的搜索主题进行分析,可以返回更符合用户期待的搜索结果,进而提升用户的搜索体验。
[0093] 本发明的方法及其系统尤其适用于用户多次进行相同主题的搜索,用户不明确用特定的关键词描述所需主题的情况下。通过多次搜索不同的关键词,系统通过分析搜索关联性,可以帮助用户不断明确用户所需的搜索结果、提升与主题相关度高的结果的排名,提高用户获取信息的效率。
[0094] 上述实施例仅用来进一步说明本发明的一种基于用户行为分析的搜索结果改进的方法及其系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。