一种筛选网页上链接的方法和装置转让专利

申请号 : CN200810071574.2

文献号 : CN101650715B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈奋腾达吴鸿伟

申请人 : 厦门市美亚柏科信息股份有限公司

摘要 :

本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。

权利要求 :

1.一种筛选网页上链接的方法,其特征在于,包括:从搜索任务网站的首页及部分相关页面中提取链接;

拆分所述链接为域名部分和相对路径部分;

以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;

将所述链接矩阵转换为数值矩阵;

通过智能算法,将所述数值矩阵的行按不同类别分组;

根据所述分组的行数目,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。

2.根据权利要求1所述的方法,其特征在于,所述智能算法为统计学的归纳算法、人工智能中的遗传算法、数据挖掘中的聚类算法中的一种。

3.根据权利要求1或2所述的方法,其特征在于,还包括:根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接。

4.根据权利要求1或2所述的方法,其特征在于,通过智能算法,将所述数值矩阵的行按不同类别分组的步骤具体为:格式化所述数值矩阵为模糊矩阵;

获取所述模糊矩阵各行之间的相似度;

根据所述相似度,将所述模糊矩阵的行分组。

5.一种筛选网页上链接的装置,其特征在于,包括:链接提取模块,用于从搜索任务网站的首页及部分页面中提取链接;

链接拆分模块,用于拆分所述链接为域名部分和相对路径部分;

智能分析模块,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;

链接特征筛选模块,与所述智能分析模块相连,包括:组合模块,用于以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;

转换模块,用于将所述链接矩阵转换为数值矩阵;

分组模块,用于通过智能算法,将所述数值矩阵的行按不同类别分组;

筛选子模块,根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。

说明书 :

一种筛选网页上链接的方法和装置

技术领域

[0001] 本发明涉及通信领域,尤其涉及一种搜索过滤的方法和装置。

背景技术

[0002] 随着信息网络的发展,大量的电子数据通过信息网络存储和发送,信息网络已成为信息获取的主要方式。搜索引擎是一种从海量的数据信息中寻找满足某种需要的信息的重要工具,在现代信息获取应用中,发挥着约来越重要的作用。网络爬虫是搜索引擎系统的一个重要组成部分,它起着分析网页、获取链接以及下载网页的作用。
[0003] 网页链接中存在着很多对于某种搜索目无用的链接,如何过滤掉这些无用链接,是提高网络爬虫运行效率的关键技术,特别是在垂直搜索领域,这种技术尤其显得至关重要。
[0004] 现有技术中,网络爬虫对搜索中无用链接的过滤的方式主要有两种:(1)采用人工设定过滤规则进行过滤的方式;(2)采用内容过滤方式。采用人工设定过滤规则进行过滤的方式在一定程度上能够达到过滤的效果,但这种方式工作量大、不灵活,如网站进行了改动,过滤规则设置也必须进行改动。采用内容过滤的方式必须将网页的内容下载分析,这一定程度上加重了网络爬虫的工作量以及后台分析的工作量,降低了搜索效率。

发明内容

[0005] 本发明实施方式公开了一种筛选网页上链接的方法和一种筛选网页上链接的装置。
[0006] 本发明实施方式公开的一种筛选网页上链接的方法,包括:
[0007] 从搜索任务网站的首页及部分相关页面中提取链接;
[0008] 拆分所述链接为域名部分和相对路径部分;
[0009] 以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;
[0010] 将所述链接矩阵转换为数值矩阵;
[0011] 通过智能算法,将所述数值矩阵的行按不同类别分组;根据所述分组的行数目,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。
[0012] 本发明实施方式公开的一种筛选网页上链接的的装置,包括:
[0013] 链接提取模块,用于从搜索任务网站的首页及部分页面中提取链接;
[0014] 链接拆分模块,用于拆分所述链接为域名部分和相对路径部分;
[0015] 智能分析模块,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;
[0016] 链接特征筛选模块,与所述智能分析模块相连,包括:
[0017] 组合模块,用于以所述域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;
[0018] 转换模块,用于将所述链接矩阵转换为数值矩阵;
[0019] 分组模块,用于通过智能算法,将所述数值矩阵的行按不同类别分组;
[0020] 筛选子模块,根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。
[0021] 本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。

附图说明

[0022] 图1为本发明一个实施方式提供的一种筛选网页上链接的方法示意图;
[0023] 图2为本发明另一实施方式提供的介绍网页特征的提取和与搜索任务无关链接的过滤方法的示意图;
[0024] 图3为本发明再一个实施方式公开的一种筛选网页上链接的装置结构图;
[0025] 图4为网站类别辨别决策树示意图。

具体实施方式

[0026] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合实施方式对本发明做进一步地详细描述。本发明实施方式对网页链接进行特征提取,对网页上的链接进行筛选,提取有价值信息的链接,过滤无用的链接,从而达到过滤链接的目的从而提高网络爬虫的工作效率和搜索准确度。
[0027] 本发明一个实施方式提供了一种筛选网页上链接的方法,如图1所示,包括步骤:
[0028] 步骤101、从搜索任务网站的首页及部分相关页面中提取链接;
[0029] 本步骤中,链接的提取可以通过链接提取算法实现。这里的部分相关页面指的是首页中包含的链接所对应的页面。还可以预先总结各种网站类型的规则,并下载所述搜索任务网站的首页及部分相关页面内容,根据首页和部分相关页面内容,以及各种网站类型的规则,判断所述搜索任务网站所属的网站类型。网站类型的规则,反映了网页中链接的布局、有价值信息链接的特征数据和特征的表达形式。然后根据搜索任务网站的网站类型提取链接,这样提高了提取链接的效率。
[0030] 步骤102、拆分所述链接为域名部分和相对路径部分;
[0031] 本步骤中,还可以首先过滤掉域名和所述搜索任务网站的域名不同的链接,这些链接,可视为和搜索任务网站直接不相关的。
[0032] 步骤103、对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;
[0033] 本步骤中,智能分析可以使用各种统计、聚类算法,其作用是把多个链接相对路径进行分类或分组,便于后面步骤把符合一个筛选规则的组提取出来或过滤掉。我们将在后来的例子中详细介绍具体筛选规则和过程。
[0034] 这里我们举例如下的智能分析方法:
[0035] 首先、以域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;
[0036] 其次、将链接矩阵转换为数值矩阵,将最长的那个链接的长度作为矩阵的行宽,不足的补0;
[0037] 然后、通过智能算法,格式化数值矩阵为模糊矩阵,计算模糊矩阵各行之间的相似度。根据所述相似度,将所述模糊矩阵的行分组。由于模糊矩阵和数值矩阵、链接矩阵都是行对应的,这就间接实现了将数值矩阵的行和链接矩阵的行按不同类别分组。
[0038] 步骤104、根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。
[0039] 本步骤中,聚类的结果实现了把矩阵分组,可以根据分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接。
[0040] 在网络爬虫的使用中,可以仅执行提取与所述搜索任务网站相关链接的特征表达式的功能,这些特征表达式对应有用的链接,网络爬虫利用这些链接继续工作。
[0041] 为了使本实施方式所公开的技术方案更加清晰,本发明另一实施方式将通过举例,详细介绍网页特征的提取和与搜索任务无关链接的过滤方法,如图2所示,主要包括以下步骤:
[0042] 步骤201、总结各种网站类型的规则。
[0043] 由于不同类型网站的链接特征存在着不同的表达形式,在链接特征提取时,不同类型网站,需采用不同策略。表1显示了网站链接特征提取时,不同类型网站的链接特征提取的指导策略。
[0044] 表1
[0045]
[0046] 表1中所示,链接特征表达式可以是连续的字符形式,或符合某种规则的形式,这样每个特征可以以特征表达式的形式表示。针对表1提到的不同类型网站的链接特征的指导策略,表2显示了不同类型网站的链接特征规则实例。
[0047] 表2
[0048]
[0049] 因此,我们在网站链接特征提取前可以首先判断网站的类型,以获得网站链接特征提取的指导策略。
[0050] 各种不同的网站类型,如BBS论坛网站、博客网站、新闻门户网站、企业网站和其他类型网站,都有其特定的组成规则,如含有某些标志性的字符、含有某种特定的组成内容等。本步骤中,我们利用如数据挖掘、机器学习等算法,总结出各种类型网站的规则。在后续步骤中,网络爬虫将利用网站类型规则判断任务网站所属的类型,从而获得链接特征提取的指导策略。
[0051] 本步骤具体过程描述如下:
[0052] a)收集各种类型网站的网页若干作为机器学习的训练素材。
[0053] b)通过分析大量的各种类型的网页,抽取网页的内容属性特征,并用属性标识表示,如表3所示的属性标识与属性特征对应表。这样,一种网站的网页就可以用一个或多个属性标识的组合表示了。
[0054] 表3
[0055]属性标识 属性特征描述
A1 URL是否含有bbs字符
A2 URL是否含有blog字符
A3 URL是否含有日期特征字符
A4 网页内容中的Meta标签中含有bbs或“社区”字符
A5 网页内容中的Meta标签中含有blog或“博客”字符
A6 导航条信息长度
A7 主体内容文本长度
A8 是否包含时间特征
A9 是否含有回复或评论
A10 是否含有相关链接
[0056] c)采用机器学习算法或者数据挖掘的分类算法,如神经网络算法、决策树分类算法等,来学习收集到的训练素材,从而得到表述某种网站类型的指导规则,该规则可由内容属性特征来表示,具体可由代表属性特征的属性表示组合来表示,例如:
[0057] if(A6 and A7 and A10)then(该网站属于新闻网站类型);
[0058] 该表达式表示:如果一个网站同时具备A6、A7、A10三个属性表示所对应的属性特征,即根据表3所示,该网站同时具有导航条信息长度、主体内容文本长度和含有相关链接等三个特征,则该网站属于新闻类型的网站。
[0059] 这里我们通过决策树举例获得的规则列表,如图4所示。
[0060] C1表示新闻网站类型;
[0061] C2表示论坛网站类型;
[0062] C3表示博客网站类型;
[0063] C4表示其他类型;
[0064] 提取的规则如下:
[0065] C1规则:if(A6=1 and A7=1 and A10=1)then C1
[0066] if(A6=1 and A3=1)then C1
[0067] C2规则:if(A8=1 and A1=1)then C2
[0068] if(A8=1 and A4=1)then C2
[0069] C3规则:if(A5=1)then C3
[0070] if(A2=1)then C3
[0071] C4规则:if(A6=1 and A7=1 and A10=0)then C4
[0072] if(A6=1 and A7=0 and A3=0)then C4
[0073] if(A6=0 and A2=0 and A5=0 and A8=0)then C4
[0074] if(A6=0 and A2=0 and A5=0 and A8=1 and A1=0 and A4=0)then C4[0075] 这里,1表示包含该特征,0表示不包含该特征。
[0076] 步骤202、下载搜索任务网站的首页及部分页面内容,利用步骤1的网站类型的判断规则,判断该搜索任务网站所属的类型。
[0077] 本步骤中,首先对照表3提取网页的属性特征,然后利用步骤1得到的网站类型规则,判断出任务网站类型。
[0078] 步骤203、根据搜索任务网站的类型,通过链接提取算法,从搜索任务网站的首页及部分页面中提取所有链接。
[0079] 本步骤中,链接提取算法可以采用正则表达式或者字符特征匹配的方法。一个网页页面中可能出现链接的地方主要有以下几处:
[0080] 1、,表示基URL,在HTML中,路径信息经常通过URL来指定,相对URL根据基URL来决定;
[0081] 2、,这是最常用的链接格式,用于链接到另一个WEB页面或链接到同一页面的其他地方;
[0082] 3、,用于链接WEB页面使用到的CSS样式表地址或者javascript页面地址;
[0083] 4、,在框架页面中用于链接框架所指向的页面地址;
[0084] 5、