一种确定网站可用性的方法及装置转让专利

申请号 : CN201610466058.4

文献号 : CN107544968B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王春侠李新国

申请人 : 北京国双科技有限公司

摘要 :

本发明公开一种确定网站可用性的方法及装置,该方法包括:利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取目标网站中能够被正常访问的网页链接数量,以及目标网站中总的网页链接数量;将能够被正常访问的网页链接数量与总的网页链接数量的比值,作为第一可用性指标。采集目标网站的用户访问历史数据,并从中获取目标网站被访问的总页面数量,以及被访问时出现问题的页面数量;将被访问的总页面数量与被访问时出现问题的页面数量之差与被访问的总页面数量的比值,作为第二可用性指标。根据第一可用性指标与第二可用性指标,确定目标网站的网站可用性。本发明能够为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。

权利要求 :

1.一种确定网站可用性的方法,其特征在于,所述方法包括:

利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;

将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;

采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;

将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;

根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。

2.根据权利要求1所述的确定网站可用性的方法,其特征在于,所述方法还包括:从所述用户访问历史数据中,获取各种浏览器访问所述目标网站的高质量访问概率,以及获取各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标;

相应的,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性,具体为:根据所述目标网站的第一可用性指标、所述第二可用性指标和第三可用性指标,确定所述目标网站的网站可用性。

3.根据权利要求1所述的确定网站可用性的方法,其特征在于,所述方法还包括:从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;

相应的,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性概率,具体为:根据所述目标网站的第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。

4.根据权利要求2所述的确定网站可用性的方法,其特征在于,所述方法还包括:从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;

相应的,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性概率,具体为:根据所述目标网站的第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。

5.根据权利要求1所述的确定网站可用性的方法,其特征在于,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性,包括:分别为所述目标网站的第一可用性指标和所述第二可用性指标设置权重值;

根据所述第一可用性指标和所述第二可用性指标的权重值,确定所述目标网站的网站可用性。

6.根据权利要求1所述的确定网站可用性的方法,其特征在于,所述利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量,包括:利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描;

当对所述目标网站的任一页面上的网页链接进行扫描时,如果接收到返回的Http请求的状态码为200,则将所述网页链接确定为能够被正常访问网页链接;

统计所述目标网站中能够被正常访问的网页链接的数量,以及所述目标网站中总的网页链接数量。

7.根据权利要求1所述的确定网站可用性的方法,其特征在于,所述采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量,包括:采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取同一个会话中刷新次数满足预设阈值的页面,作为被访问时出现问题的页面;

从所述用户访问历史数据中,统计所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。

8.一种确定网站可用性的装置,其特征在于,所述装置包括:

第一获取模块,用于利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;

第一计算模块,用于将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;

第二获取模块,用于采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;

第二计算模块,用于将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;

确定模块,用于根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。

9.根据权利要求8所述的确定网站可用性的装置,其特征在于,所述装置还包括:第三获取模块,用于获取各种浏览器访问所述目标网站的高质量访问概率,以及获取各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

第三计算模块,用于将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标;

相应的,所述确定模块,具体用于:

根据所述目标网站的第一可用性指标、所述第二可用性指标和第三可用性指标,确定所述目标网站的网站可用性。

10.根据权利要求8所述的确定网站可用性的装置,其特征在于,所述装置还包括:第四获取模块,用于从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;

所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

第四计算模块,用于将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;

相应的,所述确定模块,具体用于:

根据所述目标网站的第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。

11.根据权利要求9所述的确定网站可用性的装置,其特征在于,所述装置还包括:第四获取模块,用于从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;

所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;

第四计算模块,用于将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;

相应的,所述确定模块,具体用于:根据所述目标网站的第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。

12.根据权利要求8所述的确定网站可用性的装置,其特征在于,所述确定模块,包括:设置子模块,用于分别为所述目标网站的第一可用性指标和所述第二可用性指标设置权重值;

第一确定子模块,用于根据所述第一可用性指标和所述第二可用性指标的权重值,确定所述目标网站的网站可用性。

说明书 :

一种确定网站可用性的方法及装置

技术领域

[0001] 本发明涉及数据处理领域,具体涉及一种确定网站可用性的方法及装置。

背景技术

[0002] 随着信息技术的发展,各种各样的网站像雨后春笋一样出现。然而,由于各种各样的原因,用户在访问网站的过程中可能会遇到网站不可用的问题,这一定程度上影响了用户的体验。
[0003] 目前缺乏有效的网站可用性计算方法,不能为用户访问网站提供有效的参考指标。

发明内容

[0004] 鉴于上述问题,本发明提供了一种确定网站可用性的方法及装置,能够为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。
[0005] 本发明提供了一种确定网站可用性的方法,所述方法包括:
[0006] 利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;
[0007] 将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;
[0008] 采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;
[0009] 将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;
[0010] 根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。
[0011] 优选地,所述方法还包括:
[0012] 从所述用户访问历史数据中,获取各种浏览器访问所述目标网站的高质量访问概率,以及获取各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0013] 将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标;
[0014] 相应的,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性,具体为:
[0015] 根据所述目标网站的第一可用性指标、所述第二可用性指标和第三可用性指标,确定所述目标网站的网站可用性。
[0016] 优选地,所述方法还包括:
[0017] 从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0018] 将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;
[0019] 相应的,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性概率,具体为:
[0020] 根据所述目标网站的第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性;
[0021] 或,根据所述目标网站的第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。
[0022] 优选地,所述根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性,包括:
[0023] 分别为所述目标网站的第一可用性指标和所述第二可用性指标设置权重值;
[0024] 根据所述第一可用性指标和所述第二可用性指标的权重值,确定所述目标网站的网站可用性。
[0025] 优选地,所述利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量,包括:
[0026] 利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描;
[0027] 当对所述目标网站的任一页面上的网页链接进行扫描时,如果接收到返回的Http请求的状态码为200,则将所述网页链接确定为能够被正常访问网页链接;
[0028] 统计所述目标网站中能够被正常访问的网页链接的数量,以及所述目标网站中总的网页链接数量。
[0029] 优选地,所述采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量,包括:
[0030] 采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取同一个会话中刷新次数满足预设阈值的页面,作为被访问时出现问题的页面;
[0031] 从所述用户访问历史数据中,统计所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。
[0032] 本发明还提供了一种确定网站可用性的装置,所述装置包括:
[0033] 第一获取模块,用于利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;
[0034] 第一计算模块,用于将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;
[0035] 第二获取模块,用于采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;
[0036] 第二计算模块,用于将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;
[0037] 确定模块,用于根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。
[0038] 优选地,所述装置还包括:
[0039] 第三获取模块,用于获取各种浏览器访问所述目标网站的高质量访问概率,以及获取各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0040] 第三计算模块,用于将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标;
[0041] 相应的,所述确定模块,具体用于:
[0042] 根据所述目标网站的第一可用性指标、所述第二可用性指标和第三可用性指标,确定所述目标网站的网站可用性。
[0043] 优选地,所述装置还包括:
[0044] 第四获取模块,用于从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0045] 第四计算模块,用于将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;
[0046] 相应的,所述确定模块,具体用于:
[0047] 根据所述目标网站的第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性;
[0048] 或,根据所述目标网站的第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。
[0049] 优选地,所述确定模块,包括:
[0050] 设置子模块,用于分别为所述目标网站的第一可用性指标和所述第二可用性指标设置权重值;
[0051] 第一确定子模块,用于根据所述第一可用性指标和所述第二可用性指标的权重值,确定所述目标网站的网站可用性。
[0052] 优选地,所述第一获取模块,包括:
[0053] 扫描子模块,用于利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描;
[0054] 第二确定子模块,用于当对所述目标网站的任一页面上的网页链接进行扫描时,如果接收到返回的Http请求的状态码为200,则将所述网页链接确定为能够被正常访问网页链接;
[0055] 第一统计子模块,用于统计所述目标网站中能够被正常访问的网页链接的数量,以及所述目标网站中总的网页链接数量。
[0056] 优选地,所述第二获取模块,包括:
[0057] 获取子模块,用于采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取同一个会话中刷新次数满足预设阈值的页面,作为被访问时出现问题的页面;
[0058] 第二统计子模块,用于从所述用户访问历史数据中,统计所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。
[0059] 借由上述技术方案,本发明提供的确定网站可用性的方法中,首先利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标。其次,采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标。最后,根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。本发明能够为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。
[0060] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

[0061] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0062] 图1示出了本发明实施例提供的一种确定网站可用性的方法流程图;
[0063] 图2示出了本发明实施例提供的另一种确定网站可用性的方法流程图;
[0064] 图3示出了本发明实施例提供的一种确定网站可用性的装置结构示意图;
[0065] 图4示出了本发明实施例提供的另一种确定网站可用性的装置结构示意图。

具体实施方式

[0066] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0067] 以下进行实施例具体内容的介绍。
[0068] 本发明实施例提供了一种确定网站可用性的方法,参考图1,为本发明提供的一种确定网站可用性的方法流程图。所述确定网站可用性的方法具体包括:
[0069] S101:利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量。
[0070] 爬虫系统,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。本发明实施例在对目标网站进行网站可用性的计算时,可以利用爬虫系统,对该目标网站的各个页面上的网页链接进行扫描。具体的,当爬虫系统对该目标网站的某个页面上的网页链接进行扫描时,如果接收到该网页链接对应的网页返回的Http请求的状态码为200,则表示该网页链接是能够被正常访问的,否则,表示该网页链接是不能够被正常访问的。爬虫系统通过对该目标网站中各个页面上的网页链接的扫描,获取该目标网站中能够被正常访问的网页链接的数量,以及该目标网站中总的网页链接数量。
[0071] S102:将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标。
[0072] 由于网站中的各个页面上的网页链接是否能够被用户正常访问,影响该网站的可用性,所以,在计算网站可用性时可以将网站中页面上的网页链接能够被正常访问的概率作为一个指标。本发明实施例中,将利用爬虫系统获取到的该目标网站中能够被正常访问的网页链接数量与该目标网站中总的网页链接数量的比值,作为计算该目标网站的可用性的第一可用性指标。
[0073] S103:采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。
[0074] 实际操作中,可以在该目标网站的服务器上预先部署Tracker,Tracker为用于采集目标网站的用户访问历史数据的JS脚本。所述用户访问历史数据为存储于服务器的,用户对该目标网站访问时产生的数据。在Tracker采集到该目标网站的用户访问历史数据后,通过对该用户访问历史数据的分析,获取该目标网站被访问的总页面数量,即在获取到的用户访问历史数据中存在的用户访问过的页面的总数量。另外,还要获取该目标网站被访问时出现问题的页面数量,如,获取同一个会话中刷新次数满足预设阈值(如5次)的页面,作为被访问时出现问题的页面,统计满足上述条件的页面的数量。
[0075] S104:将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标。
[0076] 由于网站中的各个页面是否能够被用户正常访问,也影响该网站的可用性,所以,在计算网站可用性时可以将网站中页面能够被正常访问的概率作为另一个指标。
[0077] 本发明实施例中,首先计算该目标网站被访问的总页面数量与被访问时出现问题的页面数量之差;其次,将计算得到的差值与该目标网站被访问的总页面数量做比值后得到的值,作为该目标网站的第二可用性指标。
[0078] S105:根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。
[0079] 由于本发明实施例计算得到的第一可用性指标与第二可用性指标,均是用于计算目标网站的网站可用性的指标,所以,可以根据所述第一可用性指标与第二可用性指标确定该目标网站的网站可用性。
[0080] 一种实现方式中,直接将所述第一可用性指标和所述第二可用性指标求平均值,即,网站可用性=(第一可用性指标+第二可用性指标)/2。
[0081] 另一种实现方式中,根据实际应用需求,分别为所述第一可用性指标和所述第二可用性指标设置权重值,比如分别为30%和70%,然后结合权重值计算该目标网站的网站可用性,即,网站可用性=第一可用性指标*30%+第二可用性指标*70%。
[0082] 实际应用中,用于计算网站可用性的方式不限于以上两种,在此不再穷举。另外,S101-S105也并不能作为对实施例中各个步骤的执行顺序的限制。
[0083] 本发明实施例提供的确定网站可用性的方法中,首先利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标。其次,采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标。最后,根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。本发明实施例能够为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。
[0084] 本发明实施例还提供了一种确定网站可用性的方法,参考图2,为本发明实施例提供的另一种确定网站可用性的方法流程图。所述确定网站可用性的方法具体包括:
[0085] S201:利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量。
[0086] S202:将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标。
[0087] S203:采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。
[0088] S204:将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标。
[0089] 对S201-S204的理解请参照上述对S101-S104的解释。
[0090] S205:从所述用户访问历史数据中,获取各种浏览器访问所述目标网站的高质量访问概率,以及各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问。
[0091] 实际应用中,从获取到的用户访问历史数据中,分析出用户在使用各种类型的浏览器访问目标网站时高质量访问的概率,如Chrome为5%,IE为32%。所述高质量访问,是指一次会话中访问停留时间高于某个阈值,以及本次会话中浏览页面数量也高于某个阈值。
[0092] 本发明实施例提供了一种确定高质量访问的方法,具体的,首先统计一段时间内(某个季度内)所有会话的平均访问停留时间和平均浏览页面数量;其次,将访问停留时间高于平均访问停留时间,以及浏览页面数量高于平均浏览页面数量的访问,确定为一个高质量访问。
[0093] 具体的,任一种浏览器访问所述目标网站的高质量访问概率为,用户访问历史数据中利用该浏览器高质量访问所述目标网站的人次与利用该浏览器访问所述目标网站的总人次的比值。
[0094] 另外,各种浏览器的预设高质量访问概率阈值可以是参考全系统网站的整体访问历史数据确定的任一数值。一种优选实施方式中,任一种浏览器的预设高质量访问概率阈值可以为该浏览器的平均高质量访问概率。具体的,该浏览器的平均高质量访问概率为,用户访问各种网站的历史数据中利用该浏览器高质量访问网站的人次与利用该浏览器访问网站的总人次的比值。
[0095] S206:将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标。
[0096] 用户在访问网站时,可能使用各种类型的浏览器对网站进行访问,由于网站对不同的浏览器的兼容性不同,例如有些网站可能对IE、360、搜狗等IE内核浏览器兼容性较强,而对FireFox、Opera、Chrome等非IE内核浏览器兼容性较弱。所以,本发明实施例将网站对浏览器的兼容概率作为计算网站可用性的一个指标。
[0097] 一种实施方式中,预先在全网的网站访问历史数据中,统计各种浏览器的平均高质量访问概率,如Chrome25%,IE 30%。然后,统计所述目标网站的访问历史数据中各种浏览器的高访问质量概率,如Chrome5%,IE 32%。将所述目标网站中各种浏览器的高访问质量概率与平均高质量访问概率进行比较,将高质量访问概率高于平均高质量访问概率的浏览器确定为与所述目标网站兼容的浏览器。如IE浏览器是与所述目标网站兼容的浏览器。再次,统计与所述目标网站兼容的浏览器的个数,以及访问所述目标网站的浏览器的总个数,计算与所述目标网站兼容的浏览器的个数占总个数的概率,作为所述目标网站对浏览器的兼容概率。
[0098] S207:从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问。
[0099] 任一种分辨率的屏幕访问所述目标网站的高质量访问概率为,用户访问历史数据中利用该分辨率的屏幕高质量访问所述目标网站的人次与利用该分辨率的屏幕访问所述目标网站的总人次的比值。
[0100] 另外,各种分辨率的屏幕的预设高质量访问概率阈值可以是参考系统网站的整体访问历史数据确定的任一数值。一种优选实施方式中,任一种分辨率的屏幕的预设高质量访问概率阈值可以为该分辨率的屏幕的平均高质量访问概率。具体的,该分辨率的屏幕的平均高质量访问概率为,用户访问各种网站的历史数据中利用该分辨率的屏幕高质量访问网站的人次与利用该分辨率的屏幕访问网站的总人次的比值。
[0101] S208:将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标。
[0102] 用户在访问网站时,可能使用具有各种分辨率屏幕的终端对网站进行访问,由于网站对不同分辨率的屏幕兼容性不同,所以,本发明实施例将网站对屏幕分辨率的兼容概率作为计算网站可用性的一个指标。
[0103] 一种实施方式中,预先在全网的网站访问历史数据中,统计各种分辨率屏幕的平均高质量访问概率。其次,从获取到的用户访问历史数据中,分析出用户在使用各种分辨率的屏幕访问所述目标网站时的高质量访问概率。然后,将所述目标网站中各种分辨率屏幕的高访问质量概率与平均高质量访问概率进行比较,将高质量访问概率高于平均高质量访问概率的分辨率屏幕确定为与所述目标网站兼容的屏幕。最后,统计与所述目标网站兼容的分辨率屏幕的个数,以及访问所述目标网站使用到的屏幕分辨率的总个数,计算与所述目标网站兼容的屏幕分辨率的个数占总个数的比率,作为所述目标网站对屏幕分辨率的兼容概率。
[0104] S209:根据所述目标网站的所述第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。
[0105] 一种实现方式中,利用所述目标网站的所述第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。具体的,可以利用权重值的方式计算网站可用性;也可以直接利用求平均值的方式计算网站可用性,或者其他方式,在此不再列举。
[0106] 另一种实现方式中,也可以直接利用所述目标网站的所述第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。具体的,可以利用权重值的方式计算网站可用性;也可以直接利用求平均值的方式计算网站可用性,或者其他方式,在此不再列举。
[0107] 另一种实现方式中,也可以直接利用所述目标网站的所述第一可用性指标、所述第二可用性指标和所述第三可用性指标,确定所述目标网站的网站可用性。具体的,可以利用权重值的方式计算网站可用性;也可以直接利用求平均值的方式计算网站可用性,或者其他方式,在此不再列举。
[0108] 本发明实施例提供的确定网站可用性的方法中,通过获取目标网站的第一可用性指标、所述第二可用性指标、第三可用性指标和第四可用性指标,计算出目标网站的网站可用性。由于上述网站可用性的计算方法考虑到的影响网站可用性的因素相对全面,所以,本发明实施例能够为用户提供更准确的网站可用性计算方法,为用户访问网站提供更可靠的参考。
[0109] 本发明实施例还提供了一种确定网站可用性的装置,参考图3,为本发明实施例提供的一种确定网站可用性的装置结构示意图,所述装置包括:
[0110] 第一获取模块310,用于利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;
[0111] 第一计算模块320,用于将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;
[0112] 第二获取模块330,用于采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;
[0113] 第二计算模块340,用于将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;
[0114] 确定模块350,用于根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。
[0115] 为了全面的考虑到影响网站可用性的因素,本发明实施例还提供了一种确定网站可用性的装置,参考图4,为本发明实施例提供的另一种确定网站可用性的装置结构示意图,所述装置除了包括图3中的各个模块,还可以包括:
[0116] 第三获取模块410,用于获取各种浏览器访问所述目标网站的高质量访问概率,以及获取各种浏览器的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0117] 第三计算模块420,用于将高质量访问概率高于预设高质量访问概率阈值的浏览器确定为与所述目标网站兼容的浏览器,计算所述目标网站对浏览器的兼容概率,并将所述目标网站对浏览器的兼容概率作为所述目标网站的第三可用性指标;
[0118] 相应的,所述确定模块,具体用于:
[0119] 根据所述目标网站的第一可用性指标、所述第二可用性指标和第三可用性指标,确定所述目标网站的网站可用性。
[0120] 第四获取模块430,用于从所述用户访问历史数据中,获取使用各种分辨率的屏幕访问所述目标网站的高质量访问概率,以及获取各种分辨率的屏幕的预设高质量访问概率阈值;所述高质量访问包括访问停留时间、浏览页面数量均分别高于预设阈值的访问;
[0121] 第四计算模块440,用于将高质量访问概率高于预设高质量访问概率阈值的分辨率的屏幕,确定为与所述目标网站兼容的屏幕,计算所述目标网站对屏幕分辨率的兼容概率,并将所述目标网站对屏幕分辨率的兼容概率作为所述目标网站的第四可用性指标;
[0122] 相应的,所述确定模块350,具体用于:
[0123] 根据所述目标网站的第一可用性指标、所述第二可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性;
[0124] 或,根据所述目标网站的第一可用性指标、所述第二可用性指标、所述第三可用性指标和所述第四可用性指标,确定所述目标网站的网站可用性。
[0125] 实际应用中,所述确定模块,可以包括:
[0126] 设置子模块,用于分别为所述目标网站的第一可用性指标和所述第二可用性指标设置权重值;
[0127] 第一确定子模块,用于根据所述第一可用性指标和所述第二可用性指标的权重值,确定所述目标网站的网站可用性。
[0128] 所述第一获取模块,可以包括:
[0129] 扫描子模块,用于利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描;
[0130] 第二确定子模块,用于当对所述目标网站的任一页面上的网页链接进行扫描时,如果接收到返回的Http请求的状态码为200,则将所述网页链接确定为能够被正常访问网页链接;
[0131] 第一统计子模块,用于统计所述目标网站中能够被正常访问的网页链接的数量,以及所述目标网站中总的网页链接数量。
[0132] 所述第二获取模块,可以包括:
[0133] 获取子模块,用于采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取同一个会话中刷新次数满足预设阈值的页面,作为被访问时出现问题的页面;
[0134] 第二统计子模块,用于从所述用户访问历史数据中,统计所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量。
[0135] 所述确定网站可用性的装置包括处理器和存储器,上述第一获取模块、第一计算模块、第二获取模块、第二计算模块和确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0136] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。
[0137] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0138] 本发明实施例提供的确定网站可用性的装置能够实现以下功能:利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标。采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标。根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。本发明实施例能够为用户提供一种网站可用性指标,为用户访问网站提供有效的参考。
[0139] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
[0140] 利用爬虫系统,对目标网站的各个页面上的网页链接进行扫描,获取所述目标网站中能够被正常访问的网页链接数量,以及所述目标网站中总的网页链接数量;
[0141] 将所述目标网站中能够被正常访问的网页链接数量与所述目标网站中总的网页链接数量的比值,作为所述目标网站的第一可用性指标;
[0142] 采集所述目标网站的用户访问历史数据,并从所述用户访问历史数据中获取所述目标网站被访问的总页面数量,以及所述目标网站被访问时出现问题的页面数量;
[0143] 将所述目标网站被访问的总页面数量与被访问时出现问题的页面数量之差与所述目标网站被访问的总页面数量的比值,作为所述目标网站的第二可用性指标;
[0144] 根据所述目标网站的第一可用性指标与所述第二可用性指标,确定所述目标网站的网站可用性。
[0145] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0146] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0147] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0148] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0149] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0150] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0151] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0152] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。