一种确定网页类型的方法和装置转让专利

申请号 : CN201110282850.1

文献号 : CN103020067B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄际洲

申请人 : 北京百度网讯科技有限公司

摘要 :

本发明提供了一种确定网页类型的方法和装置,其中方法包括:S1、获取搜索日志中待识别网页被点击时所对应的所有query;S2、确定步骤S1所获取query的各n元词组(n?gram)构成所述待识别网页的特征向量,n为预设的一个或多个正整数;S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。本发明具有提高网页类型确定的效率和速度,抗作弊能力强,适用面更广等优点。

权利要求 :

1.一种确定网页类型的方法,其特征在于,该方法包括:

S1、获取搜索日志中待识别网页被点击时所对应的所有query;

S2、确定步骤S1所获取query的各n元词组n-gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;

S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型;

其中所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的;所述预设类型的训练语料的获取方式包括:获取所述预设类型的种子query;获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;确定保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料。

2.根据权利要求1所述的方法,其特征在于,所述步骤S1还包括:获取所述待识别网页的标题;

所述步骤S2中还包括:确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述步骤S1所获取query的各n-gram共同构成所述待识别网页的特征向量。

3.根据权利要求1所述的方法,其特征在于,所述预设类型的训练语料的获取方法进一步包括:确定所述保留的网页的网页标题,记录各网页标题的出现次数,由所述记录的各query对应的网页被点击次数和各网页标题的出现次数共同构成所述预设类型的训练语料。

4.根据权利要求1至3任一权项所述的方法,其特征在于,所述步骤S3具体包括:

计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。

5.根据权利要求4所述的方法,其特征在于,计算所述待识别网页的特征向量与预设类型的特征向量之间的重叠率包括:计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;

其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。

6.根据权利要求4所述的方法,其特征在于,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度包括:计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;

其中,预设类型的特征向量中各n-gram的权重为:各n-gram的词频tf*逆向文档频率idf;所述待识别网页的特征向量中各n-gram的权重为:各n-gram的tf*idf。

7.根据权利要求4所述的方法,其特征在于,在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为:n-gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf*idf。

8.根据权利要求4所述的方法,其特征在于,所述分类器为:最大熵分类器或者支持向量机SVM分类器。

9.根据权利要求4所述的方法,其特征在于,所述根据计算的重叠率确定待识别网页的类型包括:将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率排在前N1个的预设类型确定为所述待识别网页的类型,所述N1为预设的正整数;

或者,按照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;

所述根据计算的相似度确定待识别网页的类型包括:将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。

10.一种确定网页类型的装置,其特征在于,该装置包括:

query获取单元,用于获取搜索日志中待识别网页被点击时所对应的所有query;

第一向量确定单元,用于确定所述query获取单元所获取query的各n元词组n-gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;

类型确定单元,用于基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型;

第二向量确定单元,用于预先基于各预设类型的训练语料的n-gram形成所述预设类型的特征向量;

语料获取单元,用于获取所述预设类型的种子query;获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;确定保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料。

11.根据权利要求10所述的装置,其特征在于,该装置还包括:标题获取单元,用于获取所述待识别网页的标题;

所述第一向量确定单元,还用于确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述query获取单元所获取query的各n-gram共同构成所述待识别网页的特征向量。

12.根据权利要求10所述的装置,其特征在于,所述语料获取单元,还用确定所述保留的网页的网页标题,记录各网页标题的出现次数,由所述记录的各query对应的网页被点击次数和各网页标题的出现次数共同构成所述预设类型的训练语料。

13.根据权利要求10至12任一权项所述的装置,其特征在于,所述类型确定单元计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。

14.根据权利要求13所述的装置,其特征在于,所述类型确定单元在计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率时,具体计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;

其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。

15.根据权利要求13所述的装置,其特征在于,所述类型确定单元在计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度时,具体计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;

其中,预设类型的特征向量中各n-gram的权重为:各n-gram的词频tf*逆向文档频率idf;所述待识别网页的特征向量中各n-gram的权重为:各n-gram的tf*idf。

16.根据权利要求13所述的装置,其特征在于,所述类型确定单元在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为:n-gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf*idf。

17.根据权利要求13所述的装置,其特征在于,所述分类器为:最大熵分类器或者支持向量机SVM分类器。

18.根据权利要求13所述的装置,其特征在于,所述类型确定单元在根据计算的重叠率确定待识别网页的类型时,将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率排在前N1个的预设类型确定为所述待识别网页的类型,所述N1为预设的正整数;或者,按照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;

所述类型确定单元在根据计算的相似度确定待识别网页的类型时,将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。

说明书 :

一种确定网页类型的方法和装置

【技术领域】

[0001] 本发明涉及计算机技术领域,特别涉及一种确定网页类型的方法和装置。【背景技术】
[0002] 随着网络技术的迅猛发展,网络信息的不断丰富,用户已经习惯于通过搜索引擎从网络中获取关心的信息。在搜索引擎技术中,无论是需求分析、搜索结果排序或个性化搜索,均可能涉及到确定网页类型的操作。诸如,在需求分析中,通过分析搜索日志中query对应的被点击网页的类型即可确定该query的搜索需求;在搜索结果排序中,根据网页类型与query搜索需求之间的一致性确定网页在搜索结果中的排序;在个性化搜索中,通过分析搜索日志中用户所点击、浏览的网页的类型,确定用户的搜索习惯或搜索兴趣,从而为用户提供符合其搜索习惯或搜索兴趣的个性化搜索结果。
[0003] 现有的确定网页类型的方式,主要是抽取网页文本的文本特征向量,利用分类器对各网页进行分类确定网页类型,其中在抽取网页文本的文本特征向量时,需要下载网页内容,对网页内容进行文本分析,提取出核心词及其权重构成文本特征向量。这种方式存在以下缺陷:
[0004] 缺陷一:需要下载和分析网页内容,对于海量数据而言,效率较低,速度较慢。
[0005] 缺陷二:很多网站为了提高其在搜索引擎中的排序,会人为在网页中加入大量的类别关键词,这种作弊手段很大程度上影响了确定这些网页类型的准确性。
[0006] 缺陷三:网络中存在大量不同形式的网页,网页形式的千差万别对于分析网页内容带来难度。【发明内容】
[0007] 有鉴于此,本发明提供了一种确定网页类型的方法和装置,以便于解决现有方式中存在的上述缺陷。
[0008] 具体技术方案如下:
[0009] 一种确定网页类型的方法,该方法包括:
[0010] S1、获取搜索日志中待识别网页被点击时所对应的所有query;
[0011] S2、确定步骤S1所获取query的各n元词组n-gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;
[0012] S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。
[0013] 根据本发明一优选实施例,所述步骤S1还包括:获取所述待识别网页的标题;
[0014] 所述步骤S2中还包括:确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述步骤S1所获取query的各n-gram共同构成所述待识别网页的特征向量。
[0015] 根据本发明一优选实施例,所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的。
[0016] 根据本发明一优选实施例,所述预设类型的训练语料的获取方法包括:
[0017] A1、获取所述预设类型的种子query;
[0018] A2、获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;
[0019] A3、确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料;或者,确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到所述预设类型的训练语料。
[0020] 根据本发明一优选实施例,所述步骤S3具体包括:
[0021] 计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,
[0022] 计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,
[0023] 预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。
[0024] 根据本发明一优选实施例,计算所述待识别网页的特征向量与预设类型的特征向量之间的重叠率包括:
[0025] 计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;
[0026] 其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。
[0027] 根据本发明一优选实施例,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度包括:
[0028] 计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;
[0029] 其中,预设类型的特征向量中各n-gram的权重为:各n-gram的词频tf*逆向文档频率idf;所述待识别网页的特征向量中各n-gram的权重为:各n-gram的tf* idf。
[0030] 根据本发明一优选实施例,在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为:n-gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf* idf。
[0031] 根据本发明一优选实施例,所述分类器为:最大熵分类器或者支持向量机SVM分类器。
[0032] 根据本发明一优选实施例,所述根据计算的重叠率确定待识别网页的类型包括:将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率排在前N1个的预设类型确定为所述待识别网页的类型,所述N1为预设的正整数;或者,按照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;
[0033] 所述根据计算的相似度确定待识别网页的类型包括:将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。
[0034] 一种确定网页类型的装置,该装置包括:
[0035] query获取单元,用于获取搜索日志中待识别网页被点击时所对应的所有query;
[0036] 第一向量确定单元,用于确定所述query获取单元所获取query的各n元词组n-gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;
[0037] 类型确定单元,用于基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。
[0038] 根据本发明一优选实施例,该装置还包括:标题获取单元,用于获取所述待识别网页的标题;
[0039] 所述第一向量确定单元,还用于确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述query获取单元所获取query的各n-gram共同构成所述待识别网页的特征向量。
[0040] 根据本发明一优选实施例,该装置还包括:第二向量确定单元,用于预先基于各预设类型的训练语料的n-gram形成所述预设类型的特征向量。
[0041] 根据本发明一优选实施例,该装置还包括:语料获取单元,用于获取所述预设类型的种子query;获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;确定保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料,或者,确定保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到所述预设类型的训练语料。
[0042] 根据本发明一优选实施例,所述类型确定单元计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,[0043] 计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,
[0044] 预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。
[0045] 根据本发明一优选实施例,所述类型确定单元在计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率时,具体计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;
[0046] 其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。
[0047] 根据本发明一优选实施例,所述类型确定单元在计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度时,具体计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;
[0048] 其中,预设类型的特征向量中各n-gram的权重为:各n-gram的词频tf*逆向文档频率idf;所述待识别网页的特征向量中各n-gram的权重为:各n-gram的tf* idf。
[0049] 根据本发明一优选实施例,所述类型确定单元在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为:n-gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf* idf。
[0050] 根据本发明一优选实施例,所述分类器为:最大熵分类器或者支持向量机SVM分类器。
[0051] 根据本发明一优选实施例,所述类型确定单元在根据计算的重叠率确定待识别网页的类型时,将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率排在前N1个的预设类型确定为所述待识别网页的类型,所述N1为预设的正整数;或者,按照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;
[0052] 所述类型确定单元在根据计算的相似度确定待识别网页的类型时,将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。
[0053] 由以上技术方案可以看出,本发明提供的方法和装置具备以下优点:
[0054] 1)特征向量来自搜索日志,无需下载和分析网页内容,提高了效率和速度,适合于海量的待识别网页的需求,且效果更加明显。
[0055] 2)由于本发明中特征向量来自搜索日志而不是网页内容,因此,对于人为在网页中加入大量类别关键词的作弊手段不会影响网页类型的识别,提高了识别准确性。
[0056] 3)本发明的网页类别确定方式与网页内容和形式都无关,因此,适用面更广。【附图说明】
[0057] 图1为本发明实施例一提供的主要方法流程图;
[0058] 图2为本发明实施例二提供的预设类型的训练语料的获取方法流程图;
[0059] 图3为本发明实施例六提供的确定网页类型的装置结构图。【具体实施方式】
[0060] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0061] 实施例一、
[0062] 通过对用户的搜索行为进行分析后发现,用户提交query进行搜索后,在搜索结果中点击的网页通常能够反映该用户的需求,反过来,被点击网页对应的query也能够反映该网页的类型。基于此,本发明提供的方法如图1所示,主要包括以下步骤:
[0063] 步骤101:获取搜索日志中待识别网页被点击时所对应的所有query。
[0064] 在本发明实施例中,收集待识别网页在搜索日志中被点击时对应的所有query,这些query反映了待识别网页的类型,因此,通过这些query来确定该待识别网页的特征向量。
[0065] 另外,通常用户在搜索后点击某个网页时很大程度上是受到了网页标题(title)的影响,因此这些title通常也表征了网页的重要信息。在此,还可以进一步获取该待识别网页的title,用于形成待识别网页的特征向量。
[0066] 步骤102:确定步骤101所获取query的各n-gram构成该待识别网页的特征向量。
[0067] 在此,对n-gram的概念进行简单介绍,所谓n-gram就是最小粒度的n个词语按顺序出现的组合,其中n为预设的一个或多个正整数。例如,对于query“简单家常菜的做法大全”,对该query进行分词处理和去除停用词后,假设n取1、2、3和4,则确定出的n-gram如下:
[0068] 1-gram:简单、家常菜、做法、大全;
[0069] 2-gram:简单家常菜、家常菜做法、做法大全;
[0070] 3-gram:简单家常菜做法、家常菜做法大全;
[0071] 4-gram:简单家常菜做法大全。
[0072] 如果在步骤101中同时获取了待识别网页的title,则可以同时确定title的n-gram,与上述query的n-gram共同构成待识别网页的特征向量。
[0073] 另外,在待识别网页的特征向量中,同时记录各n-gram在步骤101获取的query和title中的出现次数。
[0074] 步骤103:基于该待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定该待识别网页的类型。
[0075] 在本步骤中,各预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的,所述预设类型包括但不限于:软件类、图片类、视频类、地图类、游戏类、小说类、音乐类等。
[0076] 各预设类型的训练语料中包含多个对应类型的网页在搜索日志中被点击时对应的query集合,也可以进一步包括多个对应类型的网页的title,同时记录各网页在搜索日志中的被点击次数。各预设类型的训练语料的形成过程将在实施例二中具体描述。
[0077] 然后确定预设类型的训练语料的n-gram,并基于各n-gram在训练语料中的出现次数确定各n-gram的权重,构成各n-gram的特征向量。
[0078] 本步骤中,待识别网页的特征向量和各预设类型的特征向量之间的相关性可以通过三种方式确定:
[0079] 其一、计算待识别网页的特征向量与各预设类型的特征向量之间的重叠率,通过该重叠率表征两者之间的相关性,具体参见实施例三。
[0080] 其二、计算待识别网页的特征向量与各预设类型的特征向量之间的相似度,通过相似度表征两者之间的相关性,具体参见实施例四。
[0081] 其三、将各预设类型的特征向量作为特征训练出分类器,利用分类器确定待识别网页的特征向量与各预设类型的特征向量之间的相关度,具体参见实施例五。
[0082] 通常网页通过url进行标识,在本发明的下述实施例中,均采用url标识网页。下面通过实施例二对各预设类型的训练语料的获取过程进行简单描述。
[0083] 实施例二、
[0084] 图2为本发明实施例二提供的预设类型的训练语料的获取方法流程图,如图2所示,针对某类型的训练语料的获取方法包括以下步骤:
[0085] 步骤201:获取该类型的种子query。
[0086] 该种子query能够充分体现出该类型的需求即可,由于种子query的数量不需要很大,通常几十个即可,因此,可以采用人工配置的方式。
[0087] 以菜谱类为例,配置的种子query可以是:家常菜做法、家常菜的做法大全、菜谱、常用菜谱、川菜菜谱、等等。为了方便理解和举例,在此以两个种子query“家常菜做法”和“家常菜的做法大全”为例。
[0088] 步骤202:获取搜索日志中种子query对应的被点击url,保留被点击次数大于设定点击次数阈值的url。
[0089] 例如,种子query“家常菜做法”和“家常菜的做法大全”对应的被点击url中被点击次数满足被点击次数阈值的url如表1所示:
[0090] 表1
[0091]  url   被点击次数
  http://www.meishij.net/chufang/diy/jiangchangcaipu/   127
  http://www.ukdyw.cn/jiachang/   19
  http://www.fancai.com/   17
  http://www.scccjm.com/Get/jiaoninyishou/   12
[0092] 步骤203:获取搜索日志中步骤202获取的url被点击时对应的所有query和title,并记录query对应的所有url被点击的总次数和title的出现次数,构成该类型的训练语料。
[0093] 接续上例,获得的训练语料就包含了url被点击时对应的所有query以及url的title,当然,也可以仅包含url被点击时对应的所有query,在此均以同时包含url的title为例。具体如表2所示。
[0094] 表2
[0095]
[0096]
[0097]
[0098] 下面分别通过实施例三、实施例四和实施例五对确定待识别网页类型的三种方式进行详细描述。
[0099] 实施例三、
[0100] 在该实施例中,通过计算待识别网页的特征向量与各预设类型的特征向量之间的重叠率,来确定待识别网页的类型。
[0101] 这种情况下,由各预设类型的训练语料得到各预设类型的特征向量的方式为:确定预设类型的训练语料的各n-gram、统计各n-gram的出现次数并基于各n-gram的出现次数确定各n-gram的权重,从而得到各预设类型的特征向量。其中n-gram的权重可以采用该n-gram的出现次数与所有n-gram的总出现次数的比值。
[0102] 在确定训练语料的各n-gram时,为了防止粒度过小带来的歧义问题,可以采用粒度较大的n-gram甚至整个query,例如,采用3-gram、4-gram等。
[0103] 假设采用4-gram和整个query,则得到的菜谱类的特征向量可以如表3中所示。
[0104] 表3
[0105]
[0106] 假设待识别网页的url为“http://key.yaolan.com/long/97534/”,假设按照实施例一中步骤101和步骤102得到的待识别网页的特征向量如表4所示。
[0107] 表4
[0108]  n-gram   出现次数
  简单菜谱大全   68
  家常菜做法家常菜菜谱   18
  简单家常菜谱大全摇篮母婴知识库   2
  简单家常菜谱大全   1
  家常菜家常菜做法家常菜   1
  家常菜谱大全摇篮   1
  菜谱大全摇篮母婴   1
  大全摇篮母婴知识库   1
[0109] 然后分别计算待识别网页的特征向量与各预设类型的特征向量之间的重叠率,该重叠率为所有重叠的n-gram的出现次数乘以该n-gram在预设类型的特征向量中的权重之和,再除以待识别网页的特征向量中所有n-gram的出现次数之和所得到的值。
[0110] 以表3和表4所示为例,待识别网页的特征向量与菜谱类的特征向量之间的重叠率为:(68*0.0341+18*0.0012+1*0.0012)/(68+18+2+1+1+1+1+1)=0.0252
[0111] 之后,以待识别网页的特征向量与各预设类型的特征向量之间的重叠率为依据,确定待识别网页的类型。包括但不限于以下几种方式:
[0112] 1)将重叠率大于设定重叠率阈值的预设类型确定为待识别网页的类型。
[0113] 2)将重叠率排在前N1个的预设类型确定为待识别网页的类型,N1为预设的正整数。
[0114] 3)按照预设的重叠率值与类型等级之间的对应关系,确定待识别网页在各类型上的等级。例如,可以按照重叠率值将类型等级分为:高置信度、中置信度、低置信度,然后根据重叠率值,确定待识别网页在各类型上是高置信度、中置信度还是低置信度。
[0115] 实施例四、
[0116] 在该实施例中,通过计算待识别网页的特征向量与预设类型的特征向量之间的相似度,来确定待识别网页的类型。
[0117] 这种情况下,由各预设类型的训练语料得到各预设类型的特征向量的方式为:确定预设类型的训练语料的各n-gram,基于各n-gram的tf*idf确定各n-gram的权重(在此也可以基于诸如各n-gram的出现次数等其他方式确定各n-gram的权重,在此不再穷举),从而得到各预设类型的特征向量。
[0118] 对于待识别网页的特征向量中,同样基于各n-gram的出现次数,计算各n-gram的tf*idf作为其权值,然后采用余弦相似度的方式计算待识别网页的特征向量与各预设类型的特征向量之间的相似度,该相似度体现了两特征向量的语义相似性,再根据计算出的相似度确定待识别网页的类型。包括但不限于以下几种方式:
[0119] 1)将相似度大于设定相似度阈值的预设类型确定为待识别网页的类型。
[0120] 2)将相似度排在前N2个的预设类型确定为待识别网页的类型,N2为预设的正整数。
[0121] 3)按照相似度值与类型等级之间的对应关系,确定待识别网页在各类型上的等级。例如,可以按照相似度值将类型等级分为:高置信度、中置信度、低置信度,然后根据相似度值,确定待识别网页在各类型上是高置信度、中置信度还是低置信度。
[0122] 假设将相似度最高的预设类型确定为待识别query的类型,举几个识别出的url的类型的例子如表5所示。
[0123] 表5
[0124]  待识别网页的url   余弦相似度   类别
  http://www.27txt.com/txt-xx/13/txt-47950.htm   0.532006   小说
  http://netatm.cn/html/kehuantxt/soft679.htm   0.551953   小说
  http://www.xiaoshuo8.cc/88/88183/   0.371882   小说
  http://softbbs.pconline.com.cn/9076400.html   0.343795   软件
  http://iask.sina.com.cn/b/5988818.html   0.228622   软件
  http://download.pchome.net/php/dl.php?sid=5001   0.209444   软件
  http://game.ce.cn/wy/jy/200809/16/t20080916_16817429.shtml   0.369045   游戏
  http://www.9u.com/game/longOL/2009/1230/24385.html   0.138906   游戏[0125]
  http://3dmgame.chnren.com/bbs/showtopic-820330.html   0.091144   游戏[0126] 实施例五、
[0127] 在该实施例中,预先将各预设类型的特征向量作为特征训练出分类器,利用分类器确定待识别网页的类型。
[0128] 这种情况下,由各预设类型的训练语料得到各预设类型的特征向量的方式为:确定预设类型的训练语料的各n-gram,基于各n-gram的出现次数或者tf*idf确定各n-gram的权重,从而得到各预设类型的特征向量。其中,基于各n-gram的出现次数确定各n-gram的权重时,可以采用该n-gram的出现次数与所有n-gram的总出现次数的比值。基于各n-gram的tf*idf确定各n-gram的权重时,可以直接将各n-gram的tf*idf值作为各n-gram的权重。还可以采用其他权重确定方式,在此不再穷举。
[0129] 然后将通过步骤101和步骤102确定出的待识别网页的特征向量作为分类器的输入,采用诸如最大熵分类器、支持向量机(SVM)分类器等分类器即可确定出待识别网页的类型。由于最大熵分类器、SVM分类器为现有的成熟技术,在此不再具体描述。
[0130] 表6为分类器对各待识别url进行分类后得到的结果。
[0131] 表6
[0132]  待识别url   分类器确定的类别
  http://www.ttmeishi.com/CaiPu/869e1e21321a1856.htm   菜谱类
  http://caipuwu.com.cn/zt/jiachangcai/09295B62009/   菜谱类
  http://www.socaipu.com/6/13721.html   菜谱类
  http://www.97book.cc/   小说类
  http://www.wenxuewu.com/files/article/fulltext/3/3537.html   小说类
  http://www.hongxiu.com/x/80888/   小说类
  http://play.zol.com.cn/detail/97783_1.html   游戏类
  http://www.7k7k.com/tag/11   游戏类
  http://games.qq.com/zt/2009/zwjs/   游戏类
[0133] 以上是针对本发明所提供的方法进行的详细描述,下面结合实施例六对本发明所提供的装置进行详细描述。
[0134] 实施例六、
[0135] 图3为本发明实施例六提供的确定网页类型的装置结构图,如图3所示,该装置可以包括:query获取单元301、第一向量确定单元302和类型确定单元303。
[0136] query获取单元301获取搜索日志中待识别网页被点击时所对应的所有query。
[0137] 第一向量确定单元302确定query获取单元301所获取query的各n元词组n-gram构成待识别网页的特征向量,n为预设的一个或多个正整数。
[0138] 类型确定单元303基于待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定待识别网页的类型。
[0139] 由于通常用户在搜索后点击某个网页时很大程度上是受到了网页标题的影响,因此这些标题通常也表征了网页的重要信息,因此,还可以进一步获取该待识别网页的title,用于形成待识别网页的特征向量。此时,该装置还包括:标题获取单元304,用于获取待识别网页的标题。
[0140] 相应地,第一向量确定单元302,还用于确定待识别网页的标题的各n-gram,将待识别网页的标题的各n-gram与query获取单元所获取query的各n-gram共同构成待识别网页的特征向量。
[0141] 第一向量确定单元302在待识别网页的特征向量中,会记录各n-gram在query获取单元301获取的query和标题获取单元304获取的title中的出现次数,供后续类型确定单元303使用。
[0142] 更进一步地,该装置还可以包括:第二向量确定单元305,用于预先基于各预设类型的训练语料的n-gram形成预设类型的特征向量。
[0143] 所述预设类型包括但不限于:软件类、图片类、视频类、地图类、游戏类、小说类、音乐类等。
[0144] 获取训练语料的功能,由该装置中的语料获取单元306实现,语料获取单元306用于获取预设类型的种子query;获取搜索日志中种子query对应的被点击网页,保留点击次数大于设定点击次数阈值的网页;确定保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到预设类型的训练语料,或者,确定保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到预设类型的训练语料。
[0145] 类型确定单元303在确定待识别网页的类型时,可以采用以下三种方式:
[0146] 方式一、计算待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型。
[0147] 类型确定单元303在计算待识别网页的特征向量与各预设类型的特征向量之间的重叠率时,具体计算待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以重叠的n-gram在预设类型的特征向量中的权重之和,再除以待识别网页的特征向量中所有n-gram的出现次数之和所得到的值。
[0148] 其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。该预设类型的特征向量中n-gram的权重可以是第二向量确定单元305确定的。
[0149] 在该方式中,为了防止粒度过小带来的歧义问题,第二向量确定单元305可以采用粒度较大的n-gram甚至整个query,例如,采用3-gram、4-gram等。
[0150] 方式二、计算待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型。
[0151] 类型确定单元303在计算待识别网页的特征向量与各预设类型的特征向量之间的相似度时,具体计算待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度,该相似度体现了两特征向量的语义相似性。
[0152] 其中,预设类型的特征向量中各n-gram的权重为:各n-gram的tf* idf;待识别网页的特征向量中各n-gram的权重为:各n-gram的tf* idf。上述预设类型的特征向量中各n-gram可以是第二向量确定单元305确定的,上述待识别网页的特征向量中各n-gram的权重可以是第一向量确定单元302确定的。
[0153] 方式三、预先将各预设类型的特征向量作为特征训练出分类器,待识别网页的特征向量作为分类器的输入,依据分类器的分类结果确定待识别网页的类型。
[0154] 类型确定单元303在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为:n-gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf* idf。上述预设类型的特征向量中各n-gram可以是第二向量确定单元305确定的。
[0155] 其中,分类器可以为:最大熵分类器或者支持向量机SVM分类器等。
[0156] 对应于上述方式一,类型确定单元303在根据计算的重叠率确定待识别网页的类型时,将重叠率大于设定重叠率阈值的预设类型确定为待识别网页的类型;或者,将重叠率排在前N1个的预设类型确定为待识别网页的类型,N1为预设的正整数;或者,按照预设的重叠率值与类型等级之间的对应关系,确定待识别网页在各类型上的等级。
[0157] 对应于上述方式二,类型确定单元303在根据计算的相似度确定待识别网页的类型时,将相似度大于设定相似度阈值的预设类型确定为待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为待识别网页的类型,N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定待识别网页在各类型上的等级。
[0158] 在采用上述方法和装置确定出网页的类型后,可以用于但不限于以下应用:
[0159] 1)搜索结果排序。在对搜索结果进行排序时,可以将网页类型与用户所输入query的搜索需求一致的网页进行排序的提权,使得更满足用户搜索需求的网页尽量排在搜索结果中靠前的位置。
[0160] 2)需求分析。根据搜索日志中query所对应被点击url的类型分析query的搜索需求,以便于在搜索排序或者垂直搜索中能够返回更满足用户搜索需求的搜索结果。
[0161] 3)个性化搜索。通过分析用户搜索日志中用户所点击、浏览的网页类型,确定用户的搜索习惯或搜索兴趣,从而为用户提供符合其搜索习惯或搜索兴趣的个性化搜索结果。
[0162] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。