一种基于用户行为的搜索方法及系统转让专利

申请号 : CN201310068715.6

文献号 : CN104035927B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 闫泽华

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明提供了一种基于用户行为的搜索方法及系统,该方法包括:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。根据本发明提供的技术方案,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。

权利要求 :

1.一种基于用户行为的搜索方法,其特征在于,该方法包括:

基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;

排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;其中,生成映射关系的方法为网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据网页数据库中存储的搜索结果页与高频词集合的映射关系,生成高频词集合与搜索词的映射关系,因此进一步生成标签、高频词集合和搜索词的映射关系,并将搜索词、高频词集合和标签的映射关系以搜索词为索引保存到映射信息数据库;

排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。

2.根据权利要求1所述的方法,其特征在于,所述从搜索结果页的正文提取高频词具体包括:从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;

对所述正文进行分词处理,得到一个以上单词;

依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。

3.根据权利要求1所述的方法,其特征在于,生成用户的兴趣类别的方法为:兴趣挖掘服务器从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;

兴趣挖掘服务器依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;

兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。

4.根据权利要求1所述的方法,其特征在于,所述在预先生成的映射关系中获取对应的标签具体包括:排序服务器在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;

或,

排序服务器依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。

5.根据权利要求1所述的方法,其特征在于,获得搜索结果页与标签的相似度的方法为:利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。

6.根据权利要求1所述的方法,其特征在于,利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:Valuenew=Valueold×k

其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。

7.一种基于用户行为的搜索系统,其特征在于,该系统包括:基础搜索服务器和排序服务器;其中,基础搜索服务器,用于依据用户在搜索引擎中输入的搜索词生成搜索结果页;

排序服务器,用于依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;还用于依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户;

该系统还包括网页服务器、网页数据库、搜索信息挖掘服务器和映射信息数据库;其中,网页服务器,用于从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;

搜索信息挖掘服务器,用于当其当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据网页数据库中存储的搜索结果页与高频词集合的映射关系,生成高频词集合与搜索词的映射关系,因此进一步生成标签、高频词集合和搜索词的映射关系,并将搜索词、高频词集合和标签的映射关系以搜索词为索引保存到映射信息数据库。

8.根据权利要求7所述的系统,其特征在于,所述网页服务器在从搜索结果页的正文提取高频词时,具体包括:从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;

对所述正文进行分词处理,得到一个以上单词;

依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。

9.根据权利要求7所述的系统,其特征在于,该系统还包括:兴趣挖掘服务器和兴趣数据库;其中,兴趣挖掘服务器,用于从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。

10.根据权利要求7所述的系统,其特征在于,所述排序服务器在预先生成的映射关系中获取对应的标签时,具体包括:在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。

11.根据权利要求7所述的系统,其特征在于,所述排序服务器在获得搜索结果页与标签的相似度时,具体包括:利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。

12.根据权利要求7所述的系统,其特征在于,所述排序服务器利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:Valuenew=Valueold×k

其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。

说明书 :

一种基于用户行为的搜索方法及系统

【技术领域】

[0001] 本发明涉及互联网领域的搜索技术,尤其涉及一种基于用户行为的搜索方法及系统。
【背景技术】
[0002] 目前,搜索引擎都是依据用户在搜索引擎中的点击行为和相关搜索词对搜索结果的顺序进行调整,例如,在前十个搜索结果中,如果用户点击第五个搜索结果的数量远远超过前四个搜索结果,表示第五个搜索结果与前四个搜索结果相比,与搜索词更加匹配;或
者,用户连续输入“苹果”和“苹果手机”两个搜索词,表示用户的真实需求是搜索“苹果手机”,而第一个搜索词的搜索结果并没有给出用户满意的搜索结果,因此,搜索引擎通过这样的方式获得用户行为反馈,对搜索结果进行调整。
[0003] 但是,在搜索引擎对搜索结果进行调整时获取的用户的信息量较少,而且有效性较低,例如,搜索引擎只能获得用户是否打开某个搜索结果的信息,而不知道用户对该搜索结果的满意程度;而且,搜索引擎是对大规模用户数据进行分析,进而调整搜索结果,因此是对通用搜索需求的搜索结果进行调整,不能有效区分统一搜索词的不同语义信息,不能
根据用户的兴趣爱好进行倾向性的调整,因此没有实现向用户提供更具有针对性和个性化
的搜索结果,搜索引擎的个性化服务水平较低,用户需要在搜索结果中筛选感兴趣的搜索
结果,增加搜索引擎的负担,搜索效率较低;例如,对于具有不同语义的搜索词“苹果”,该搜索词包含两个语义信息:水果和手机,大规模用户数量的调整将导致一个需求较大的语义
信息覆盖另一个语义信息。
【发明内容】
[0004] 本发明提供了一种基于用户行为的搜索方法及系统,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。
[0005] 本发明的具体技术方案如下:
[0006] 根据本发明一优选实施例,一种基于用户行为的搜索方法,包括:
[0007] 基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;
[0008] 排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划
分为一类;
[0009] 排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签
所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。
[0010] 上述方法中,生成映射关系的方法为:
[0011] 网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;
[0012] 当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并将搜索
词、高频词集合和标签的映射关系保存到映射信息数据库。
[0013] 上述方法中,所述从搜索结果页的正文提取高频词具体包括:
[0014] 从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;
[0015] 对所述正文进行分词处理,得到一个以上单词;
[0016] 依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。
[0017] 上述方法中,生成用户的兴趣类别的方法为:
[0018] 兴趣挖掘服务器从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;
[0019] 兴趣挖掘服务器依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;
[0020] 兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴
趣类别作为所述用户的兴趣类别,并将搜索词、高频词集合和标签的映射关系保存到映射
信息数据库。
[0021] 上述方法中,所述在预先生成的映射关系中获取对应的标签具体包括:
[0022] 排序服务器在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,
[0023] 排序服务器依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其
他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找
对应的高频词集合。
[0024] 上述方法中,获得搜索结果页与标签的相似度的方法为:
[0025] 利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向
量,并利用所述向量计算得到搜索结果页与标签的相似度。
[0026] 上述方法中,利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:
[0027] Valuenew=Valueold×k
[0028] 其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。
[0029] 一种基于用户行为的搜索系统,包括:基础搜索服务器和排序服务器;其中,
[0030] 基础搜索服务器,用于依据用户在搜索引擎中输入的搜索词生成搜索结果页;
[0031] 排序服务器,用于依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结
果页划分为一类;还用于依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签
的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标
签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用
户。
[0032] 上述系统中,该系统还包括网页服务器、网页数据库、搜索信息挖掘服务器和映射信息数据库;其中,
[0033] 网页服务器,用于从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;
[0034] 搜索信息挖掘服务器,用于当用户输入搜索词后收藏搜索结果页并标注标签时,依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并
将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。
[0035] 上述系统中,所述网页服务器在从搜索结果页的正文提取高频词时,具体包括:
[0036] 从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;
[0037] 对所述正文进行分词处理,得到一个以上单词;
[0038] 依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。
[0039] 上述系统中,该系统还包括:兴趣挖掘服务器和兴趣数据库;其中,
[0040] 兴趣挖掘服务器,用于从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对
应关系,获得兴趣类别对应的高频词集合;将获得的用户的搜索词和标签与兴趣类别的高
频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频
词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴
趣数据库。
[0041] 上述系统中,所述排序服务器在预先生成的映射关系中获取对应的标签时,具体包括:
[0042] 在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,
[0043] 依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标
签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频
词集合。
[0044] 上述系统中,所述排序服务器在获得搜索结果页与标签的相似度时,具体包括:
[0045] 利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向
量,并利用所述向量计算得到搜索结果页与标签的相似度。
[0046] 上述系统中,所述排序服务器利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:
[0047] Valuenew=Valueold×k
[0048] 其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。
[0049] 由以上技术方案可以看出,本发明提供的具有以下有益效果:
[0050] 依据用户的收藏行为和标注行为,对搜索引擎提供的搜索结果页的显示顺序进行调整,将用户感兴趣的搜索结果页优先显示在所有搜索结果页中,实现向用户提供更具有
针对性和个性化的搜索结果,提升搜索引擎的个性化服务水平,减少用户与搜索引擎的交
互操作,降低搜索引擎的负担,提高搜索效率。
【附图说明】
[0051] 图1是本发明实现基于用户行为的搜索方法的优选实施例的流程示意图;
[0052] 图2是本发明生成高频词集合的方法的示例图;
[0053] 图3是本发明挖掘搜索数据系统架构示例图;
[0054] 图4是本发明搜索词、标签和高频词集合的映射示例图;
[0055] 图5是本发明搜索结果页排序处理时系统架构示例图;
[0056] 图6是本发明实现基于用户行为的搜索系统的优选实施例的结构示意图。【具体实施方式】
[0057] 本发明的基本思想是:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用
与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果
页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标
签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的
标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用
户。
[0058] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0059] 本发明提供一种基于用户行为的搜索方法,图1是本发明实现基于用户行为的搜索方法的优选实施例的流程示意图,如图1所示,该优选实施例包括以下步骤:
[0060] 步骤101,网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库。
[0061] 具体的,对于搜索引擎提供的所有搜索结果页,搜索引擎的网页服务器进行对应的高频词的提取,下面以搜索结果页pa为例说明从搜索结果页的正文提取高频词并生成高
频词集合的方法:
[0062] 第一步,如图2所示,网页服务器从搜索结果页中提取正文,提取正文时先要从搜索结果页中过滤出候选正文,对于HTML网页而言,其正文一般包含在标签名为、<
div>和

的标签中,因此网页服务器依据预设的标签名

,对HTML网页的源码进行过滤,只保留这些标签名以及标签内容,如表1所示:

[0063] 表1
[0064]
[0065]
[0066] 从搜索结果页中过滤出候选正文后,还需要过滤掉该候选正文中的广告内容,可以利用如下公式对候选正文中的广告内容进行过滤:
[0067] AdValue=linkNum/wordCount
[0068] 上述公式中,AdValue表示一段文本中链接文本数目linkNum与总文本数目wordCount的比值;通常网页中的广告区域包含大量的链接,因此AdValue可以用来衡量一
段文本是网页的正文还是网页中的广告内容,如果一段文本的AdValue值大于一定阈值,就可以认为这段文本为广告内容,从而可以在候选文本中过滤掉该广告内容;例如,上述候选文本中“
推荐购买某某商品
”将会作为广告内容被过滤掉。这里,对广告内容进行过滤可以是选择性过滤,就是保留一部分广告内容不被过滤掉,用以提高搜索词的召回率。
[0069] 第二步,网页服务器对从搜索结果页中提取的正文进行分词处理,本优选实施例中,利用隐式马尔科夫模型对提取的正文进行分词,将过滤得到的正文分成一个以上单词;
例如,对于提取的正文“这是一个段落内容”可以分成“这”、“是”、“一”、“个”、“段落”和“内容”,对于提取的正文“正文其余内容”可以分成“正文”、“其余”和“内容”。
[0070] 第三步,网页服务器依据预设的停用词表对分词处理后得到的单词进行停用词过滤,过滤掉单词中的停用词,停用词过滤后留下的单词为搜索结果页的高频词;例如“这”、“是”、“一”、“个”、“段落”、“内容”、“正文”、“其余”和“内容”经过停用词过滤后得到“一”、“个”、“段落”、“内容”、“正文”、“其余”和“内容”,其中的“这”、“是”由于被停用词表覆盖而被过滤掉。
[0071] 第四步,网页服务器统计停用词过滤后每个单词在正文中的出现次数,例如,上述单词经过统计后得到:“一个:1、段落:1、内容:2、正文:1、其余:1、内容:1”。
[0072] 第五步,对经过上述四个步骤后得到的单词按照出现次数由大到小的顺序进行排序,利用排序后的单词组成高频词集合{w1(c1)、w2(c2)、w3(c3)、……、wn(cn)},其中,wi表示第i个单词,ci表示第i个单词在搜索结果页中的出现次数,高频词集合中ci>ci+1,得到的高频词集合就是用户收藏的搜索结果页对应的高频词集合,网页数据库用于存储搜索结果页
及对应的高频词集合。
[0073] 步骤102,当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系。
[0074] 具体的,如图3所示,收藏服务器具有网页收藏功能或网页剪辑插件,因此收藏服务器能够实现对注册的用户后续动作的观察和记录,用户在搜索引擎中输入搜索词后,如
果用户在搜索引擎提供的搜索结果中收藏某个搜索结果页,并利用为该搜索结果页标注标
签时,收藏服务器可以将用户收藏的搜索结果页和对应的标签存储到搜索引擎的用户数据
库中,搜索引擎通过用户数据库与收藏服务器共享用户数据;其中,标签指的是用户基于个人主观判断对网页的标注语;例如,用户输入的搜索词为夏日阳光,然后点击浏览了多个搜索结果页,最后收藏了其中一个来自豆瓣电影的网页,并为该网页标注了“电影”,则“电影”为一个标签。
[0075] 如图3所示,由于用户为搜索结果页标注了标签,搜索信息挖掘服务器依据网页数据库中存储的高频词集合与搜索结果页的映射关系,生成高频词集合与搜索词的映射关
系,因此进一步生成标签、高频词集合、搜索词的映射关系,如qa←{w1(c1)、w2(c2)、w3(c3)、……、wn(cn)}→t;由于对应同一个搜索词qa,不同的用户会收藏不同的搜索结果页,并标注不同的标签,因此对应同一个搜索词qa,会存在对应的一个以上高频词集合和一个
以上标签,依据标签的出现次数由大到小的顺序,对标签进行排序,排序后的标签组成搜索词qa的标签集合{t1、t2、t3、……、tn},标签集合能够体现出搜索词的不同侧面的语义信息,搜索结果页的高频词集合能够体现出搜索词与标签集合之间的映射关系,如图4所示,图中的中心圆圈中qa表示用户输入的搜索词,离散圆圈表示各个用户为收藏的搜索结果页标注
的标签,中心圆圈与离散圆圈之间的连接线表示用户收藏搜索结果页对应的高频词集合;
映射信息数据库中以搜索词为索引存储搜索信息挖掘服务器提供的搜索词、标签、高频词
集合的映射关系。
[0076] 例如,搜索词qa对应标签t1、t2、t3,对应的高频词集合分别为{wa1、wa2、wa3、……、wan}、{wb1、wb2、wb3、……、wbn}和{wc1、wc2、wc3、……、wcn},在映射信息数据库中存储搜索词、标签、高频词集合的映射关系,如表2所示:
[0077] 表2
[0078]
[0079] 图3中的高频词集合构成对应的搜索词的语义空间,每个高频词集合为语义空间的一个坐标轴,搜索词对应的每个标签都可表示为该语义空间的一个向量,例如,对于搜索词qa,有t1和t2两个标签,分别对应高频词集合{wa1(na1)、wa2(na2)、wa3(na3)、……、wan(nan)}和{wb1(nb1)、wb2(nb2)、wb3(nb3)、……、wbn(nbn)},建立的语义空间为两个高频词集合的合集,即{wa1(na1)、wa2(na2)、wa3(na3)、……、wan(nan)、wb1(nb1)、wb2(nb2)、wb3(nb3)、……、wbn(nbn)},该语义空间中,标签t1的向量为{na1,na2,na3,……,nan,0,0,……,0},标签t2的向量为{0,0,
0,……,0,nb1,nb2,nb3,……,nbn};这里,是为了对标签进行归一化处理,才将不同的标签映射到同一个语义空间。
[0080] 可选的,当同一个搜索词的两个标签之间比较相似时,可以将这两个标签进行合并处理,本优选实施例中,利用夹角余弦公式(1)计算两个向量之间的相似度,例如:
[0081] 设:向量a=(x1,y1,z1),向量b=(x2,y2,z2)
[0082] cos=a×b÷(|a|×b)=(x1x2+y1y2+z1z2)÷(|a|×b)   (1)
[0083] 公式(1)中,x、y和z分别表示向量在三维坐标空间中x轴、y轴和z轴的长度,|a|和|b|表示向量a的模长和向量b的模长;当标签为语义空间的向量时,cos表示标签a与标签b的相似度,标签的坐标(x1,y1,z1)、(x2,y2,z2)为标签在各个高频词集合中的出现次数;当两个标签的相似度大于预设阈值时,就认为这两个标签为相似标签,可以组成一个标签
集合,这个标签集合用于作为搜索词的一个语义信息,标签和标签集合都表示搜索词的语
义信息。
[0084] 步骤103,兴趣挖掘服务器依据用户的搜索历史记录和标签历史记录,获得用户的兴趣类别。
[0085] 具体的,如图3所示,搜索引擎的用户数据库还会存储注册的用户一段时间的搜索历史记录和标签历史记录,其中,兴趣挖掘服务器从用户数据库的搜索历史记录和标签历
史记录中获得某个注册用户在一段时间(如一个月)内的所有搜索词{qa、qb、qc、……、qn}和所有的标签{t1、t2、t3、……、tn}。
[0086] 兴趣挖掘服务器依据预设的兴趣类别与对应的一个以上网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;例如,兴趣类别包括数码、体育、时事等,对于兴趣类别中的体育类别,进一步包括足球、篮球、网球等子类别,足球类别对应多家网站的足球频道。
[0087] 兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词与高频词集合的匹配率加上标签与高频词集合的匹配率的和值大于预设阈值
时,则利用该高频词集合对应的兴趣类别作为该用户的兴趣类别,对应每个用户可以有一
个以上兴趣类别;兴趣挖掘服务器将用户及对应的一个以上兴趣类别保存到兴趣数据库
中。
[0088] 例如,对于兴趣类别“体育”有子类别“足球”,对应的网页为新浪的足球频道,该网页的高频词集合为{w1(c1)、w2(c2)、w3(c3)},用户的搜索历史记录中包括搜索词w1(5)、w2(4)、w4(3),用户的标签历史记录中包括标签w3(5)、w5(4),将搜索词和标签与高频词集合进行对比,用户的搜索词和标签的组合包含w1、w2和w3,则判断出该用户对足球有兴趣,用户的兴趣类别为“足球”。
[0089] 步骤104,基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页。
[0090] 具体的,如图5所示,当用户在搜索引擎中输入搜索词,想要获得相应的搜索结果时,搜索引擎的基础搜索服务器依据搜索词生成对应的搜索结果页集合,这个搜索结果页
集合是原始的搜索结果,搜索结果页集合中的搜索结果页没有经过排序处理;基础搜索服
务器将搜索结果页集合和搜索词发送给搜索引擎的排序服务器。
[0091] 步骤105,排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索
结果页划分为一类。
[0092] 具体的,如图5所示,排序服务器依据预先生成的搜索词、标签、高频词集合的映射关系,找到用户输入的搜索词对应的标签和高频词集合;这里,依据搜索词找到的标签和高频词集合是针对所有用户的高频词集合和标签而言,即依据搜索词,在映射关系中获得对应的所有标签和高频词集合。或者,依据用户的兴趣类别,将具有相同兴趣类别且在该兴趣类别下,标签相近的用户归为该兴趣类别下的同一兴趣用户组;其中,标签相近的用户指的是具有相同的兴趣类别,且用户标注标签的重叠度超过预设阈值(如50%)的用户;当用户具有兴趣类别但由于该用户标注的标签数量较少,使得该用户不属于任何用户兴趣组时,或
当该用户的搜索结果页属于兴趣类别,但该用户没有被划分到该兴趣类别下时,在该兴趣
类别下人数最多的用户兴趣组中随机选择一个用户,将选出的用户的标签作为输入搜索词
的用户的标签,并利用这些标签和映射关系找到对应的高频词集合;例如,在兴趣类别“爱情电影”下,有标签“梁朝伟、王家卫、张曼玉”,用户A和用户B的兴趣类别都为“爱情电影”,且用户A和用户B的标签都包含“梁朝伟、王家卫”,则将用户A和用户B归为兴趣类别“爱情电影”下“梁朝伟和王家卫”的用户兴趣组,这里,每个用户可以同时属于一个以上用户兴趣组。
[0093] 排序服务器利用获得的高频词集合组成搜索词的语义空间,每个高频词集合作为语义空间的一个坐标轴;对应搜索词的搜索结果页集合中的每个搜索结果页,获得该搜索
结果页的高频词集合,利用该高频词集合在语义空间中进行匹配,如果该高频词集合中的
高频词在该语义空间中匹配到相同的高频词,则该搜索结果页的向量中相应坐标轴的值为
该高频词的出现次数,对于没有匹配到的高频词,该搜素结果页的向量中相应坐标轴的值
为0,从而获得搜索结果页在该语义空间中的向量;利用搜索结果页在语义空间的向量和标签在语义空间的向量,以及夹角余弦公式(1)计算搜索结果页与每个标签的相似度;依据相似度由高到低的顺序对标签进行排序,利用相似度最高的标签标注该搜索结果页,利用该
方法可以为搜索结果页集合中的每个搜索结果页都标注标签,最后依据标签将搜索结果页
分类,将具有相同标签的搜索结果页归为同一类别。
[0094] 例如,用户输入的搜索词qa在映射关系中对应标签t1、t2和t3,搜索词qa在映射关系中对应的高频词集合构成的语义空间为{w1、w2、w3、……、wn},标签t1、t2和t3在该语义空间中的向量分别为:Va={va1,va2,va3,……,van}、Vb={vb1,vb2,vb3,……,vbn}和Vc={vc1,vc2,vc3,……,vcn},某搜索结果页在该语义空间中的向量为Vp={vp1,vp2,vp3,……,vpn};利用夹角余弦公式分别计算向量Vp与三个标签的向量之间的相似度,利用三个标签中相似度最高的标签标注该搜索结果页。
[0095] 步骤106,排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配
到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送
给用户。
[0096] 具体的,排序服务器依据标签将搜索词的搜索结果页分类后,依据预设的兴趣类别与网页的对应关系,找到搜索结果页对应的兴趣类别,从而获得搜索结果页对应的标签
所对应的兴趣类别。
[0097] 排序服务器从兴趣数据库中获得该用户的兴趣类别,然后将用户的兴趣类别与标签的兴趣类别进行字符串匹配,当用户的兴趣类别与标签的兴趣类别完全匹配时,表示用
户对该标签所标注的搜索结果页感兴趣,从而对该标签所标注的搜索结果页的权重值进行
调整,在搜索结果页的原权重值的基础上增加该搜索结果页的权重值,使得该搜索结果页
在搜索结果中排名靠前,从而向用户提供搜索结果时能够优先显示匹配上的搜索结果页,
能够实现优先显示用户感兴趣的搜索结果;当用户的兴趣类别没有完全匹配的标签的兴趣
类别时,表示用户对搜索结果并无倾向性,则不对搜索结果页的权重值进行调整,按照原权重值由高到低的顺序对搜索结果页进行排序,向用户提供排序后的搜索结果。
[0098] 本优选实施例中,利用如下公式调整用户感兴趣的标签所标注的搜索结果页的权重值:
[0099] Valuenew=Valueold×k
[0100] 其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值调整后的新权重值,k为调权因子且k大于1,k的具体取值可以依据实际情况进行灵活配置。
[0101] 例如,如果搜索词的前20个搜索结果页分别属于三个标签t1、t2和t3,这三个标签分别属于类别1、类别1和类别2;将用户的兴趣类别与类别1、类别2进行匹配,如果用户的兴趣类别与这两个类别都不完全匹配,则用户对搜索结果无倾向性,不进行权重值的调整;如果用户的兴趣类别与类别1完全匹配,表示用户对类别1对应的标签所标注的搜索结果页感兴趣,则对标签t1和t2标注的搜索结果页的权重值进行调整。
[0102] 为实现上述方法,本发明还提供一种基于用户行为的搜索系统,图6是本发明实现基于用户行为的搜索系统的优选实施例的结构示意图,如图6所示,该系统包括:基础搜索服务器60和排序服务器61;其中,
[0103] 基础搜索服务器60,用于依据用户在搜索引擎中输入的搜索词生成搜索结果页;
[0104] 排序服务器61,用于依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索
结果页划分为一类;还用于依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标
签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的
标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用
户。
[0105] 该系统还包括网页服务器62、网页数据库63、搜索信息挖掘服务器64和映射信息数据库65;其中,
[0106] 网页服务器62,用于从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库63;
[0107] 搜索信息挖掘服务器64,用于当用户输入搜索词后收藏搜索结果页并标注标签时,依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库65。
[0108] 其中,所述网页服务器62在从搜索结果页的正文提取高频词时,具体包括:
[0109] 从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;
[0110] 对所述正文进行分词处理,得到一个以上单词;
[0111] 依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。
[0112] 该系统还包括:兴趣挖掘服务器66和兴趣数据库67;其中,
[0113] 兴趣挖掘服务器66,用于从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的
对应关系,获得兴趣类别对应的高频词集合;将获得的用户的搜索词和标签与兴趣类别的
高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高
频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到
兴趣数据库67。
[0114] 其中,所述排序服务器61在预先生成的映射关系中获取对应的标签时,具体包括:在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,依据用户的
兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜
索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的
用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。
[0115] 其中,所述排序服务器61在获得搜索结果页与标签的相似度时,具体包括:
[0116] 利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向
量,并利用所述向量计算得到搜索结果页与标签的相似度。
[0117] 其中,所述排序服务器61利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:
[0118] Valuenew=Valueold×k
[0119] 其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。
[0120] 本发明的上述技术方案具有以下有益效果:
[0121] 依据用户的收藏行为和标注行为,对搜索引擎提供的搜索结果页的显示顺序进行调整,将用户感兴趣的搜索结果页优先显示在所有搜索结果页中,因此能够根据用户的兴
趣爱好对搜索结果页的显示顺序进行倾向性的调整,实现向用户提供更具有针对性和个性
化的搜索结果,提升搜索引擎的个性化服务水平;由于依据用户的兴趣爱好进行搜索结果
的调整,用户可以优先看到感兴趣的搜索结果页,不需要在搜索结果中进行人工筛选,从而减少用户与搜索引擎的交互操作,降低搜索引擎的负担,提高搜索效率。
[0122] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。