网页信息查询方法及其系统转让专利

申请号 : CN200910236057.0

文献号 : CN101673306B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 卫冰洁李亚楠王斌张森

申请人 : 中国科学院计算技术研究所

摘要 :

本发明涉及网页信息查询方法及其系统,方法包括:步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;步骤3,所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。本发明能够对查询结果网页进行分类。

权利要求 :

1.一种网页信息查询方法,其特征在于,包括:

步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;其中:所述步骤1包括:步骤21,预设所述类别和所述参考量;

步骤22,对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;

步骤23,根据所述参考量从所述训练网页文档集合中抽取用于分类的特征;

步骤24,根据所述特征建立分类器;

步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;

步骤3,所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。

2.如权利要求1所述的网页信息查询方法,其特征在于,

所述步骤21进一步为,预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题;

所述步骤23进一步为,对于每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征;

所述步骤24进一步为,对于每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。

3.如权利要求2所述的网页信息查询方法,其特征在于,

对于每个类别,所述类别的特征组成特征集合;

所述步骤23后还包括将特征集合同预设的非特征集合匹配,将所述特征集合中被匹配的特征删除。

4.如权利要求1所述的网页信息查询方法,其特征在于,

所述步骤21进一步为预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;

所述步骤23进一步为根据训练网页文档抽取用于提取正文的特征;所述步骤23进一步为,步骤61,确定所述训练网页文档中的正文;

步骤62,输入正文的候选属性,对于每个候选属性,在所述训练网页文档的正文和非正文中分别统计所述候选属性的数值;

步骤63,根据统计结果从候选属性中选择作为特征的属性,并确定各个属性对应的正文和非正文的分界值;

所述步骤24进一步为建立所述分类器,所述分类器用于根据所述特征从输入分类器的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

5.如权利要求4所述的网页信息查询方法,其特征在于,

所述步骤24进一步为,

步骤64,建立所述分类器,所述分类器用于对输入的查询结果网页的每行,根据所述行对应于特征的属性和所述属性对应的分界值,判断所述行是否为正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

6.如权利要求5所述的网页信息查询方法,其特征在于,

所述分类器在计算占有率时进一步用于将正文中连续的行整合为段,段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率;

所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。

7.如权利要求1所述的网页信息查询方法,其特征在于,

所述步骤21还包括预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;

所述步骤23还包括为根据训练网页文档抽取用于提取正文的特征;

所述步骤24还包括建立第二分类器,所述分类器用于根据所述特征从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

8.如权利要求7所述的网页信息查询方法,其特征在于,

所述导航型搜索类别的分类器为导航类分类器,所述信息型搜索类别的分类器为信息类分类器,所述事务型搜索类别的分类器为事务类分类器,所述步骤3进一步为,

步骤901,导航类分类器判断查询结果网页是否为导航类,如果是,则将所述查询结果网页归为导航类,否则,执行步骤902;

步骤902,信息类分类器判断查询结果网页是否归为信息类,事务类分类器判断查询结果网页是否归为事务类;

如果判断结果为查询结果网页是信息类不是归为事务类,则所述查询结果网页归为信息类;

如果判断结果为查询结果网页是事务类不是归为信息类,则所述查询结果网页归为事务类;

如果判断结果为查询结果网页既是归为事务类又是归为信息类,则所述查询结果网页归为事务类;

如果判断结果为查询结果网页既不是归为事务类又不是归为信息类,则由所述第二类分类器判断所述查询结果网页是否归为信息类,如果是信息类,则所述查询结果网页归为信息类,否则,所述查询结果网页归为事务类。

9.一种网页信息查询系统,其特征在于,包括:

分类器建立模块,用于预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;其中,所述分类器建立模块包括:预设模块,用于预设所述类别和所述参考量;

训练网页建立模块,用于对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合特征抽取模块,用于根据所述参考量从所述训练网页文档集合中抽取用于分类的特征;

分类器生成模块,用于根据所述特征建立分类器;

查询模块,用于输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;

查询结果分类模块,用于应用所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。

10.如权利要求9所述的网页信息查询系统,其特征在于,所述预设模块预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题;

所述特征抽取模块进一步用于对每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征;

所述分类器生成模块进一步用于对每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。

11.如权利要求10所述的网页信息查询系统,其特征在于,对于每个类别,所述类别的特征组成特征集合;

所述特征抽取模块还用于将特征集合同预设的非特征集合匹配,将所述特征集合中被匹配的特征删除。

12.如权利要求9所述的网页信息查询系统,其特征在于,所述预设模块预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;

所述特征抽取模块进一步用于根据训练网页文档抽取用于提取正文的特征;所述特征抽取模块进一步用于确定所述训练网页文档中的正文;输入正文的候选属性,对于每个候选属性,在所述训练网页文档的正文和非正文中分别统计所述候选属性的数值;根据统计结果从候选属性中选择作为特征的属性,并确定各个属性对应的正文和非正文的分界值;

所述分类器生成模块进一步用于建立所述分类器,所述分类器用于根据所述特征从输入分类器的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

13.如权利要求12所述的网页信息查询系统,其特征在于,所述分类器生成模块进一步用于生成所述分类器,所述分类器用于对输入的查询结果网页的每行,根据所述行对应于特征的属性和所述属性对应的分界值,判断所述行是否为正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

14.如权利要求13所述的网页信息查询系统,其特征在于,所述分类器在计算占有率时进一步用于将正文中连续的行整合为段,段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率;

所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。

15.如权利要求9所述的网页信息查询系统,其特征在于,所述预设模块预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;

所述特征抽取模块还用于根据训练网页文档抽取用于提取正文的特征;

所述分类器生成模块还用于建立第二分类器,所述分类器用于根据所述特征从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。

16.如权利要求15所述的网页信息查询系统,其特征在于,所述导航型搜索类别的分类器为导航类分类器,所述信息型搜索类别的分类器为信息类分类器,所述事务型搜索类别的分类器为事务类分类器,所述查询结果分类模块进一步用于应用导航类分类器判断查询结果网页是否归为导航类,如果是,则将所述查询结果网页归归为导航类;否则应用信息类分类器判断查询结果网页是否归为信息类,应用事务类分类器判断查询结果网页是否归为事务类,如果判断结果为查询结果网页是信息类不是归为事务类,则所述查询结果网页归为信息类;

如果判断结果为查询结果网页是事务类不是归为信息类,则所述查询结果网页归为事务类,如果判断结果为查询结果网页既是归为事务类又是归为信息类,则所述查询结果网页归为事务类;

如果判断结果为查询结果网页既不是归为事务类又不是归为信息类,则由所述第二类分类器判断所述查询结果网页是否归为信息类,如果是信息类,则所述查询结果网页归为信息类,否则,所述查询结果网页归为事务类。

说明书 :

网页信息查询方法及其系统

技术领域

[0001] 本发明涉及计算机的信息检测领域,尤其涉及网页信息查询方法及其系统。

背景技术

[0002] 随着网络信息大量增长,造成了用户查找信息的困难。搜索引擎在人们的生活中起着越来越多的作用,搜索引擎通过计算网页和查询词之间相关性向用户返回与其查询相关的网页。但是由于信息的过于丰富,即使去除掉不相关的信息,对于用户而言,同样是庞大的数据资料。另一方面,用户输入查询往往较短,背后可能隐含多种不同意图。例如,用户的目的是得到中科院首页的链接,或解中科院的相关新闻或信息,二者均可通过输入查询词“中科院”得到。
[0003] 现有技术中的搜索引擎仅按照各网页与查询的相似度大小把众多相关网页放在一个单一的列表中,这种单一的排序方式无法体现一个查询所对应的各种不同意图,对于用户的每次有针对性的搜索并不能提供更多帮助。用户的有针对性的搜索为用户查询的目的,称为用户意图。现实搜索引擎日志的统计结果显示,用户查询通常由两三个词组成,查询平均长度不超过三个词。因此,同一查询背后可能隐含着多种意图,不同用户搜索目的不同,甚至同一个用户在不同时间输入同一个搜索词而查询的目的也不相同。
[0004] 因此,现有技术的检索方法具有两个问题:第一,返回结果没有针对性,体现各种用户意图的结果混杂在一起,对用户查找自己所需信息造成困难;第二,当一个查询隐含多种用户意图时,现有技术的排序算法使某些非主流意图对应的结果显示过于滞后,导致某些用户找不到需要的查询结果,并影响具有其他用户意图的用户全面了解信息。
[0005] 本发明涉及相关的现有技术中概念包括:特征选择、特征提取、文本分类。
[0006] 特征选择,在n个特征中选择m个特征。现有技术中的算法多是通过计算特征之间影响度进行特征的取舍,而且也可根据影响度对特征赋予相对应的权重。
[0007] 特征提取,是将n个特征进行变换形成m个特征。特征词为特征中的一种形式,例如存在一个词库,词库中共有n个词,该n个词为最初的n个特征词。存在一个文本库,共有k篇文本,每个文本用一个n维向量表示,向量中的每一位代表词库中对应的词是否在文本中出现,由此获得一个n×k维的矩阵,然后通过数学方法奇异值分解方法(Singular ValueDecomposition,简称SVD)分解变换矩阵最终得到m×k的矩阵,因而获得的m个特征词。词频也是一种特征,是指现有文档集合个数为N,一个词出现的文档个数为M,则M/N便是词频。
[0008] 文本分类,将现有文本分到已确定的类别中。现有技术中实现文本分类的算法包括:投票机制、决策树、支持向量机、神经网络等。
[0009] 投票机制是指现有多个分类器,每个分类器判断出来一个结果,最终选择结果最多的那个类别。决策树是指将文本的特征按照影响程度进行排序,并将每次的特征作为判定条件(子树的根节点)进行扩展,最后生成一颗树,或者可用判决条件表示,例如“如果小明<12岁,则小明属于少年”。
[0010] 作为特征的文本属性包括:文本的长度、文本中词出现的频度、文本中词的个数,以及由此计算出来的词出现概率、互信息等。

发明内容

[0011] 为解决上述问题,本发明提供了网页信息查询方法及其系统,能够对查询结果网页进行分类。
[0012] 本发明公开了一种网页信息查询方法,包括:
[0013] 步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;
[0014] 步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;
[0015] 步骤3,所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。
[0016] 所述步骤1进一步为:
[0017] 步骤21,预设所述类别和所述参考量;
[0018] 步骤22,根据所述类别建立训练网页集合;
[0019] 步骤23,根据所述参考量从所述训练网页文档集合中抽取用于分类的特征;
[0020] 步骤24,根据所述特征建立所述分类器。
[0021] 所述步骤21进一步为,预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题;
[0022] 所述步骤22进一步为,对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0023] 所述步骤23进一步为,对于每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征;
[0024] 所述步骤24进一步为,对于每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。
[0025] 对于每个类别,所述类别的特征组成特征集合;
[0026] 所述步骤23后还包括将特征集合同预设的非特征集合匹配,将所述特征集合中被匹配的特征删除。
[0027] 所述步骤21进一步为预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;
[0028] 所述步骤22进一步为预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0029] 所述步骤23进一步为根据训练网页文档抽取用于提取正文的特征;
[0030] 所述步骤24进一步为建立所述分类器,所述分类器用于根据所述特征从输入分类器的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0031] 所述步骤23进一步为,
[0032] 步骤61,确定所述训练网页文档中的正文;
[0033] 步骤62,输入正文的候选属性,对于每个候选属性,在所述训练网页文档的正文和非正文中分别统计所述候选属性的数值;
[0034] 步骤63,根据统计结果从候选属性中选择作为特征的属性,并确定各个属性对应的正文和非正文的分界值;
[0035] 所述步骤24进一步为,
[0036] 步骤64,建立所述分类器,所述分类器用于对输入的查询结果网页的每行,根据所述行对应于特征的属性和所述属性对应的分界值,判断所述行是否为正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0037] 所述分类器在计算占有率时进一步用于将正文中连续的行整合为段,段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率;
[0038] 所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。
[0039] 所述步骤21还包括预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;
[0040] 所述步骤22还包括为预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0041] 所述步骤23还包括为根据训练网页文档抽取用于提取正文的特征;
[0042] 所述步骤24还包括建立第二分类器,所述分类器用于根据所述特征从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0043] 所述导航型搜索类别的分类器为导航类分类器,所述信息型搜索类别的分类器为信息类分类器,所述事务型搜索类别的分类器为事务类分类器,
[0044] 所述步骤3进一步为,
[0045] 步骤901,导航类分类器判断查询结果网页是否为导航类,如果是,则将所述查询结果网页归为导航类,否则,执行步骤902;
[0046] 步骤902,信息类分类器判断查询结果网页是否归为信息类,事务类分类器判断查询结果网页是否归为事务类;
[0047] 如果判断结果为查询结果网页是信息类不是归为事务类,则所述查询结果网页归为信息类;
[0048] 如果判断结果为查询结果网页事务类不是归为信息类,则所述查询结果网页归为事务类;
[0049] 如果判断结果为查询结果网页既是归为事务类又是归为信息类,则所述查询结果网页归为事务类;
[0050] 如果判断结果为查询结果网页既不是归为事务类又不是归为信息类,则由所述第二类分类器判断所述查询结果网页是否归为信息类,如果是信息类,则所述查询结果网页归为信息类,否则,所述查询结果网页归为事务类。
[0051] 本发明还公开了一种网页信息查询系统,包括:
[0052] 分类器建立模块,用于预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;
[0053] 查询模块,用于输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;
[0054] 查询结果分类模块,用于应用所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。
[0055] 所述分类器建立模块进一步包括:
[0056] 预设模块,用于预设所述类别和所述参考量;
[0057] 训练网页建立模块,用于根据所述类别建立训练网页集合;
[0058] 特征抽取模块,用于根据所述参考量从所述训练网页文档集合中抽取用于分类的特征;
[0059] 分类器生成模块,用于根据所述特征建立所述分类器。
[0060] 所述预设模块预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题;
[0061] 所述训练网页建立模块进一步用于对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0062] 所述特征抽取模块进一步用于对每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征;
[0063] 所述分类器生成模块进一步用于对每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。
[0064] 对于每个类别,所述类别的特征组成特征集合;
[0065] 所述特征抽取模块还用于将特征集合同预设的非特征集合匹配,将所述特征集合中被匹配的特征删除。
[0066] 所述预设模块预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;
[0067] 所述训练网页建立模块进一步用于预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0068] 所述特征抽取模块进一步用于根据训练网页文档抽取用于提取正文的特征;
[0069] 所述分类器生成模块进一步用于建立所述分类器,所述分类器用于根据所述特征从输入分类器的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0070] 所述特征抽取模块进一步用于确定所述训练网页文档中的正文;输入正文的候选属性,对于每个候选属性,在所述训练网页文档的正文和非正文中分别统计所述候选属性的数值;根据统计结果从候选属性中选择作为特征的属性,并确定各个属性对应的正文和非正文的分界值;
[0071] 所述分类器生成模块进一步用于生成所述分类器,所述分类器用于对输入的查询结果网页的每行,根据所述行对应于特征的属性和所述属性对应的分界值,判断所述行是否为正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0072] 所述分类器在计算占有率时进一步用于将正文中连续的行整合为段,段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率;
[0073] 所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。
[0074] 所述预设模块预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文;
[0075] 所述训练网页建立模块还用于预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0076] 所述特征抽取模块还用于根据训练网页文档抽取用于提取正文的特征;
[0077] 所述分类器生成模块还用于建立第二分类器,所述分类器用于根据所述特征从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0078] 所述导航型搜索类别的分类器为导航类分类器,所述信息型搜索类别的分类器为信息类分类器,所述事务型搜索类别的分类器为事务类分类器,
[0079] 所述查询结果分类模块进一步用于应用导航类分类器判断查询结果网页是否归为导航类,如果是,则将所述查询结果网页归归为导航类;否则应用信息类分类器判断查询结果网页是否归为信息类,应用事务类分类器判断查询结果网页是否归为事务类,[0080] 如果判断结果为查询结果网页是信息类不是归为事务类,则所述查询结果网页归为信息类;
[0081] 如果判断结果为查询结果网页事务类不是归为信息类,则所述查询结果网页归为事务类,如果判断结果为查询结果网页既是归为事务类又是归为信息类,则所述查询结果网页归为事务类;
[0082] 如果判断结果为查询结果网页既不是归为事务类又不是归为信息类,则由所述第二类分类器判断所述查询结果网页是否归为信息类,如果是信息类,则所述查询结果网页归为信息类,否则,所述查询结果网页归为事务类。本发明的有益效果在于,能够对查询结果网页进行分类,通过将多个分类器进行整合,能够对查询结果网页进行精确分类;通过将特征集合同预设的非特征集合匹配,能够提高特征选择的精确度,通过对候选属性进行统计分析,能够提高提取正文的准确度。

附图说明

[0083] 图1是本发明网页中信息查询方法流程图;
[0084] 图2是本发明网页中建立分类器的方法流程图;
[0085] 图3是本发明的示例性系统中的展示界面;
[0086] 图4是本发明网页中信息查询系统的结构图。

具体实施方式

[0087] 下面结合附图,对本发明做进一步的详细描述。
[0088] 一种网页中信息查询方法如图1所示。方法包括:
[0089] 步骤S100,预设查询分类的类别和分类依据的参考量,根据该类别和该参考量建立分类器。
[0090] 步骤S200,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页。
[0091] 步骤S300,分类器对查询结果网页进行分类,并按分类显示查询结果网页。
[0092] 所述步骤S100中建立分类器的方法流程如图2所示。
[0093] 步骤S110,预设查询分类的类别和分类依据的参考量。
[0094] 步骤S120,根据该类别建立训练网页集合。
[0095] 步骤S130,根据该参考量从训练网页文档集合中抽取用于分类的特征。
[0096] 步骤S140,根据该特征建立分类器。
[0097] 建立分类器的具体实施方式一如下所述。
[0098] 步骤S111A,预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题。
[0099] 现有技术中用户意图的分类包括多种体系。例如,2002年,IBM的研究人员Andrei Broder提出的分类体系。在该分类体系中,根据用户意图,查询被分成三类。
[0100] 第一类,导航型搜索(Navigational Search)是指用户为了寻找一个特定的网站而进行的搜索,例如,新浪网,这个网站是用户曾经访问过或者听过的网站,但是用户不知道该网站的确切网址,用户为获得确切网址进行搜索。该类搜索对于用户而言,通常只有一个正确答案,就是该搜索内容的主页。
[0101] 第二类,信息型搜索(Information Search)是指用户为了获得关于一个特定主题的深层次信息而进行的搜索,例如,为获得某个问题的答案,该类搜索对于用户来说通常答案是多个的,用户通过浏览多个网页,总结信息,最终得出自己想要的结论。
[0102] 第三类,事务型搜索(Transactional Search)是指用户为了做某件事情或者得到某些东西,东西为非信息,而进行的搜索,例如,飞信下载。该类搜索要求的结果页面上通常具有可交互的链接或表单,用户通过在多个网页中选择其中一个满意的结果,进行动作交互。
[0103] 在具体实施方式中,参考量为网页标题,除了用到网页标题外,参考量还可以为网页的自身链接(url)。
[0104] 步骤112A,对于每个类别,预设该类别对应的训练查询词,搜索引擎依据训练查询词进行查询,获得的查询结果网页为训练网页文档,训练网页文档组成该类别的训练网页集合。
[0105] 将训练查询词输入搜索引擎,本具体实施方式中搜索引擎为谷歌,进行查询,保存每一个查询的前n个结果,并分别将每一个结果的网页标题进行读取,按类别分别存入文件。n的大小,根据具体情况确定,实施例中为100个。
[0106] 步骤113A,对于每个类别的训练网页集合,将其中的训练网页文档的网页标题进行分词处理,将网页标题分为词的集合,按每个词在该类别中出现的次数从词的集合中为该类别选择特征词作为用于分类的特征。
[0107] 分词处理为通过分别对每个类别的训练网页的网页标题进行分词和词性标注,得到分词结果,用于统计。分词是指通过计算机将汉语文本中的句子按照词划分开来。比如,“晚上喝水”可能划分为“晚上喝水”。词性标注是指在给定每个词可能的词性范围的前提下,确定每个单词的词性并加以标注。比如,“晚上喝水”可能标注为“晚上/t喝/v水/n”。根据北大词性标注标准:t代表时间词、v代表动词、n代表名词。
[0108] 通过对分词后的结果进行个数统计,从大到小排序后,存入文本。在个数统计时,除了不区分词性的统计,根据中文的特点,还分别进行了形容词、动词、名词的个数统计。比如,对形容词进行统计,便是先从统计词中筛选出所有词性是形容词的词,然后对每个词进行个数统计,按照个数大小进行排序。其它词性的依此类推。
[0109] 按预设个数从排序中选择词作为特征词,组成该类别的特征集合。
[0110] 特征词提取过程是在所有统计出来的词汇当中挑选,但是,有一些词汇是即使只在一个类别中出现过,但是其不为该类别的特征,例如,网页标题统计数据中只在事务类中出现的“讯”,而“讯”不应该为特征词。因而,预设非特征词集合,将选择的特征词同该非特征词集合匹配,将被匹配的特征词从该类别的特征集合中删除。非特征集合为配置的不可以作为特征的特征词的集合。举例而言,提取出来的特征词如表1所示。其中,个数为类别的特征词的个数,例子为类别的特征词的举例。
[0111]
[0112] 表1
[0113] 步骤114A,建立第一分类器,分类器用于判断输入的查询结果网页的标题中是否包括特征词,如果包括则查询结果网页属于该特征词对应类别。
[0114] 对应输入的查询结果网页,得到了它的网页标题,查找网页标题中出现了哪个类别的特征词,出现了哪个类别的特征词则属于该类别。如果出现了导航类的特征词,则判断它为导航类。
[0115] 同样,可以针对全文或是网页的其他部分建立分类器。最终的第一类分类器,可以由1个或多个分类器组合,若是多个分类器,则现有的整合多分类器的办法都可以使用,如投票机制、并行机制、串行机制等。在示例性系统中实现了对应于url(网页链接)、title(网页标题)、snippet(简短正文)三个分类器,采用的整合办法为投票机制,事先结果分类。
[0116] 步骤S100具体实施方式二如下所述。
[0117] 步骤S111B,预设的类别包括:信息型搜索和非信息型搜索,预设的参考量为网页中正文。
[0118] 步骤S112B,预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合。
[0119] 预设的训练查询词为具体实施方式一中的信息型搜索的特征词。
[0120] 通过搜索引擎,具体实施方式中为谷歌,获得的查询结果网页为训练网页文档,提取每个结果的url,保存起来。
[0121] 由于每个网页若按行提取,最终得到的文本内容会很庞大,因此该步骤中不对所有的url进行处理。在其中随机抽取100个url,取得其代表的网页内容,再对其做后续处理。对每个url得到的HTML网页文本都是经过预处理的,如去除掉网页中一些无关紧要的HTML标签和空格等。
[0122] 在实施例中实验后得到的文本行数为7924行,其中共有6900行是非正文行,1024个为正文行。
[0123] 步骤S113B,根据训练网页文档抽取用于提取正文特征。
[0124] 步骤S113B通过现有技术中的事先对网页文本进行提取,建立网页正文文本数据库的方法。该方法无需考虑时间问题,尽可能的采用准确率高的提取方法,如有基于视觉的,基于网页标签的等算法。基于视觉的算法是先对网页内容进行块状划分,根据位置不同,判断其重要度,然后进行提取,像微软提出的VIPS算法,VIPS算法 如 文 献 a Vision2based Page SegmentationAlgorithm,Microsoft Technical Report(MSR2TR22003-79),2003.中所述。
[0125] 步骤S113B的另一具体实施方式如下所述。
[0126] 步骤S1131B,从训练网页文档中区分正文和非正文。
[0127] 通过简单提取正文文本算法跳过对整个HTML的分析,即不需要知道HTML文件的结构和使用的标签,而是针对网页的每行文本进行判断,最终得到网页的正文文本的重要条件。
[0128] 区分方法,通过现有正文提取算法或者通过区分配置。
[0129] 步骤S1132B,输入正文的候选属性,对于每个候选属性,在训练网页文档的正文和非正文中分别统计所述候选属性的数值。
[0130] 步骤1133B,根据统计结果从候选属性中选择作为特征的属性,并确定选择的各个属性对应的正文和非正文的分界值。
[0131] 候选属性包括:每一行文本密度值;每一行HTML字节数;每一行文本长度;前一行文本的是否为正文的判断结果。
[0132] 每一行文本密度值,在正文和非正文中的数值进行统计。实施例中,非正文部分中90%的文本密度值均小于0.4,而正文部分中有9%的文本密度值小于0.4。依据统计结果,密度值作为用于分类的一个特征。实施例,正文判断正确率是成增加趋势的,非正文判断正确率是成降低趋势的,而且非正文正确率降低的幅度要比正文正确率升高的幅度大。平均正确率每一个文本密度值的整体区分能力,在文本密度值为0.45的时候达到了最高点,平均正确率数值为0.922。因此选择的文本密度值的阈值为0.45。针对具体实施例,其正文和非正文的分界值为0.4。
[0133] 每一行HTML字节数属性,统计结果显示该特征的数值在正文和非正文中的区分不明显。该属性不作为特征。
[0134] 每一行文本长度,进行统计,统计结果显示HTML文本长度属性在区分正文和非正文中数值区分明显。经过数据分析,当长度小于30时,是非正文的概率大于是正文的概率,当长度在100~200之间时,是正文的概率大于是非正文的概率。
[0135] 前一行文本是否为正文的判断结果,统计结果显示,如果前一行文本为正文,则后一行为正文的概率大于为非正文的概率;如果前一行为非正文,则后一行为非正文的概率大于为正文的概率。
[0136] 综上所述,实施例中对四个候选属性的选择结果表2所示。
[0137]特征 结果 阈值
每一行文本密度值 选中 0.45
每一行HTML字节 舍弃

x<=30、
每一行文本长度 选中
100<=x<=200
前一行文本的是否 选中 yy和nn组合
为正文判断结果
[0138] 表2
[0139] y y表示前后均为正文;n n表示前后均为非正文。
[0140] 步骤S114B,建立第二分类器,所述分类器用于根据特征依据所述特征对应的提取正文算法从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定查询结果网页所属类别。
[0141] 对应于现有技术中的提取正文算法,从输入的查询结果网页中提取正文。
[0142] 对于上述的按属性提取的具体实施方式,确定输入的查询结果网页中各行的各个属性对应的值,将属性的值同属性对应的阀值比较,以确定该行是否为正文。
[0143] 所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。
[0144] 实施例中,如果一行的文本密度属性、文本长度属性、前一行文本的是否为正文判断结果属性都满足为正文对应的范围,则该行文本为正文;否则,该行文本为非正文。
[0145] 针对每一行进行如下判断:
[0146] 如果该行文本密度值大于0.45并且该行HTML文本长度小于30并且前一行判断结果为非正文,那么该行为非正文。
[0147] 如果该行文本密度值大于0.45并且该行HTML文本长度小于30并且前一行判断结果为正文,那么该行为正文。
[0148] 如果该行文本密度值大于0.45并且该行HTML文本长度大于等于30,那么该行为正文。
[0149] 如果该行文本密度值小于0.45并且该行HTML文本长度大于100小于200,并且前一行判断结果为正文,那么该行为正文。
[0150] 如果该行文本密度值小于0.45并且该行HTML文本长度大于100小于200,并且前一行判断结果为非正文,那么该行为非正文。
[0151] 如果该行文本密度值小于0.45并且该行HTML文本长度小于等于100或者大于等于200,那么该行为非正文。
[0152] 较佳的,分类器在计算占有率时进一步用于将正文中连续的行整合为段。
[0153] 实施例,通过现有技术中解析HTML文本的工具,例如Python编程语言的库,得到网页的每一行文本,并且去除网页中的网页字段;保存计算所需每一行文本密度值、每一行文本长度和前一行文本的是否为正文判断结果的三个特征涉及到的数据;将计算的结果与上述三个特征的阈值进行比较,判断该行是否为正文。
[0154] 对每一行正文是否连续进行判断。如果该行前面是正文,后面也是正文表示正文连续,则将两个正文整合成为一段正文,以将连续的多行均是正文的文本将合并到一起。
[0155] 整合文本的原因是因为简单提取正文文本算法并不能十分准确的提取出正文,有时候比较长的版本声明、注释等也会判断为正文,而如果程序把所有的正文合起来形成一个段落,就会导致结果的不准确性,特别是对那些真正的正文很少,本身并不属于信息类的网页,会由于错误的正文判断,再加上错误的整合,导致其被判断到了信息类中。
[0156] 较佳的,分类器计算占有率时用于将段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率。
[0157] 计算正文文本占有率公式为正文的权重/(正文的权重+非正文的权重)。
[0158] 实施例,给每一个字节加入权重,第一个字节初始化权重为1,如果字节是连续的,则给下一个字节增加0.2的权重。如此以增加连续文本的权重,进而提高了正文文本所占比率。
[0159] 因为考虑到网页代码中,HTML标签占有的字节数并不少,还经常会超过文本长度,如果仅仅根据字节长度进行比对,并不能得到很好的结果。考虑到正文文本的一个特点是多为连续文本,因此权重的计算方法采取的是:
[0160] 本发明中给出两种分类器的建立的具体实施方式。采用了投票和串行结构,将第一分类器和第二分类器进行整合。按照第一分类器的形成过程,可得到三个分类器,即导航类分类器(简称为nav1)、信息类分类器(简称为inf1)、事务类分类器(简称为tra1);按照第二分类器的形成过程,可得到一个分类器,即信息类二分类器(简称为inf2)。前三个分类器得到的结果是该网页是否属于该类,最后一个分类器得到的结果是该正文文本占有率。将上述的四个分类器整合,整合后过程如下所示。
[0161] 步骤S301,用分类器nav1判断查询结果网页是否为导航类,若是则该查询结果网页为导航类,如不是,则进行步骤S302步骤。
[0162] 步骤S302,用分类器inf1判断该查询结果网页是否为信息类,用分类器tra1判断该查询结果网页是否为事务类。
[0163] 若是信息类,不是事务类,则判断其为信息类
[0164] 若是事务类,不是信息类,则判断其为事务类
[0165] 若既不是事务类又不是信息类,则判断其为信息类。
[0166] 若既是事务类又是信息类,则执行步骤S303。
[0167] 步骤S303,用分类器inf2求该网页的正文文本占有率,若计算结果大于等于0.75,则判断其为信息类;若计算结果小于0.75,则判断其同时属于信息类以及事务类。
[0168] 此处,不排除一个网页本身就属于多个类的情况,本系统中的分类是属于多类分配。
[0169] 图3为输入查询词后结果显示页。图中左边显示的是三类的前三项,省略显示三类,右边显示的某一类别的分类结果。用户点击左边的类别,右边会显示对应的该类别结果。并且在页面上加入了用户判断,即每个结果下面的right和wrong按钮。由此得到用户的判断日志,反馈给系统,循环往复,会不断提高系统最终的判断准确率。
[0170] 一种网页信息查询系统,如图4所示。
[0171] 分类器建立模块410,用于预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器。
[0172] 查询模块420,用于输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页。
[0173] 查询结果分类模块430,用于应用所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。
[0174] 一较佳的实施方式,分类器建立模块410进一步包括:
[0175] 预设模块411,用于预设所述类别和所述参考量。
[0176] 训练网页建立模块412,用于根据所述类别建立训练网页集合。
[0177] 特征抽取模块413,用于根据所述参考量从所述训练网页文档集合中抽取用于分类的特征。
[0178] 分类器生成模块414,用于根据所述特征建立所述分类器。
[0179] 一较佳的实施方式
[0180] 预设模块411预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题。
[0181] 训练网页建立模块412进一步用于对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合。
[0182] 特征抽取模块413进一步用于对每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征。
[0183] 分类器生成模块414进一步用于对每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。
[0184] 一较佳的实施方式
[0185] 对于每个类别,所述类别的特征组成特征集合;
[0186] 所述特征抽取模块413还用于将特征集合同预设的非特征集合匹配,将所述特征集合中被匹配的特征删除。
[0187] 一较佳的实施方式
[0188] 预设模块411预设的所述类别包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文。
[0189] 训练网页建立模块412进一步用于预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合;
[0190] 特征抽取模块413进一步用于根据训练网页文档抽取用于提取正文的特征。
[0191] 分类器生成模块414进一步用于建立所述分类器,所述分类器用于根据所述特征从输入分类器的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0192] 一较佳的实施方式
[0193] 特征抽取模块413进一步用于确定所述训练网页文档中的正文;输入正文的候选属性,对于每个候选属性,在所述训练网页文档的正文和非正文中分别统计所述候选属性的数值;根据统计结果从候选属性中选择作为特征的属性,并确定各个属性对应的正文和非正文的分界值.
[0194] 分类器生成模块414进一步用于生成所述分类器,所述分类器用于对输入的查询结果网页的每行,根据所述行对应于特征的属性和所述属性对应的分界值,判断所述行是否为正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0195] 一较佳的实施方式
[0196] 所述分类器在计算占有率时进一步用于将正文中连续的行整合为段,段中的首字节的权重为预设初始权重值,对段中首字节后的字节依次增加权重值,非正文中字节的权重为预设非正文权重值,计算正文权重值加和同查询结果网页权重值加和比值作为所述占有率。
[0197] 所述分类器在确定类别时进一步用于如果所述占有率超过阀值,则所述查询结果网页为信息型搜索,否则,为非信息型搜索。
[0198] 一较佳的实施方式
[0199] 预设模块411预设的所述类别包括:导航型搜索、信息型搜索和事务型搜索,预设的所述参考量为网页标题;预设模块411预设的所述类别还包括:信息型搜索和非信息型搜索,预设的所述参考量为网页中正文。
[0200] 训练网页建立模块412进一步用于对于每个类别,预设所述类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合。
[0201] 特征抽取模块413进一步用于对每个类别的训练网页集合,将所述训练网页集合中的训练网页文档的网页标题进行分词处理,将所述网页标题分为词的集合,按每个词在所述类别中出现的次数从词的集合中为所述类别选择特征词作为用于分类的特征。
[0202] 分类器生成模块414进一步用于对每个类别建立所述分类器,所述分类器用于判断输入的查询结果网页的网页标题中是否包括特征词,如果包括则查询结果网页属于所述特征词对应类别。
[0203] 所述训练网页建立模块412还用于预设每个类别对应的训练查询词,搜索引擎依据所述训练查询词进行查询,获得的查询结果网页为训练网页文档,所述训练网页文档组成训练网页集合。
[0204] 所述特征抽取模块413还用于根据训练网页文档抽取用于提取正文的特征。
[0205] 所述分类器生成模块414还用于建立第二分类器,所述分类器用于根据所述特征从输入的查询结果网页中提取正文,计算所述正文在所述查询结果网页中的占有率,根据所述占有率确定所述查询结果网页所属类别。
[0206] 所述导航型搜索类别的分类器为导航类分类器,所述信息型搜索类别的分类器为信息类分类器,所述事务型搜索类别的分类器为事务类分类器,
[0207] 查询结果分类模块430进一步用于应用导航类分类器判断查询结果网页是否归为导航类,如果是,则将所述查询结果网页归归为导航类;否则应用信息类分类器判断查询结果网页是否归为信息类,应用事务类分类器判断查询结果网页是否归为事务类,[0208] 如果判断结果为查询结果网页是信息类不是归为事务类,则所述查询结果网页归为信息类;
[0209] 如果判断结果为查询结果网页事务类不是归为信息类,则所述查询结果网页归为事务类,如果判断结果为查询结果网页既是归为事务类又是归为信息类,则所述查询结果网页归为事务类;
[0210] 如果判断结果为查询结果网页既不是归为事务类又不是归为信息类,则由所述第二类分类器判断所述查询结果网页是否归为信息类,如果是信息类,则所述查询结果网页归为信息类,否则,所述查询结果网页归为事务类。
[0211] 本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。