一种基于网站用户访问路径的流量预警方法转让专利

申请号 : CN201610553332.1

文献号 : CN106100896A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴海龙房鹏展

申请人 : 焦点科技股份有限公司

摘要 :

基于网站用户访问路径的流量预警方法,1)按周汇用户某一条总访问路径的流量,得到的总周数数据流量矩阵,向量P表示某一条访问路径,流量矩阵PV表示这一条路径对应的流量,PV的每一行表示某一周路径的每一步流量,每一列表示访问路径中某一步的流量,PVij表示第i周第j步的流量;2)计算路径每一步的变异系数,其值是原始数据的标准差与平均数的比;对于流量矩阵PV,计算其每一列的变异系数;3)变异系数加权平均,在计算出访问路径中每一步的变异系数后,需要给出整条路径的变异系数,选择加权每一步变异系数,权重平均分配;4)给出预警,设定预警阈值为15%。

权利要求 :

1.基于网站用户访问路径的流量预警方法,其特征是步骤为:

1)按周汇用户某一条总访问路径的流量,得到的总周数数据流量矩阵,格式为:P=(P1,P2,…,PN)

其中,向量P表示某一条访问路径,数据流量矩阵PV表示这一条路径对应的流量,PV的每一行表示某一周路径的每一步流量,每一列表示访问路径中某一步的流量,PVij表示第i周第j步的流量,PVi为矩阵PV的列向量,i=1,2,…,N,j=1,2,…,M,N表示访问路径中包含的总步数,M表示访问路径统计中的总周数;

2)计算路径每一步的变异系数,变异系数数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响,其值是原始数据的标准差与平均数的比;在每一条路径中,每一步的流量都不在一个数量级上,不适合用标准差或者极差去衡量每一步的变异程度;对于流量矩阵PV,计算其每一列的变异系数;

3)变异系数加权平均,在计算出访问路径中每一步的变异系数后,需要给出整条路径的变异系数,从而可以反映出这一条路径在整个时间范围内的波动性趋势;此处选择加权每一步变异系数,权重平均分配;

4)给出预警,根据统计学方法设定预警阈值为15%。

2.根据权利要求1所述的基于网站用户访问路径的流量预警方法,其特征是具体步骤:访问路径按周流量预警,为了定位到路径中哪些周的流量有异常:

1)按周汇总访问路径流量,同样的按周汇总访问路径的每一步流量,得到流量矩阵PV;

2)计算每一周流量的标准化欧式距离,对流量矩阵PV按列进行z-score标准化,使其列均值向量退化到原点,再按行计算每一行与均值向量的欧式距离即每一行的向量长度,最终得到每一周的标准化欧式距离值;

3)给出预警,标准化欧式距离服从卡方分布,其自由度为访问路径中的总步数N,从而查看卡方分布表,找出在一定的置信水平下的临界值,若标准化欧式距离值大于这一临界值,就可以视其为异常,给出预警。

说明书 :

一种基于网站用户访问路径的流量预警方法

技术领域

[0001] 本发明涉及网站流量预警领域,具体而言,涉及一种基于网站用户访问路径的流量预警方法。

背景技术

[0002] 网站流量预警是指网站系统运行期间,当流量指标超过警戒阈值时,通过发送警报信息给相关人员,让相关人员能够及时参与,找出流量突然变化的原因,能够有针对性的对网站进行一些调整与优化。
[0003] 本发明希望通过对用户访问路径的流量预警,能够及时了解到哪些路径的流量有了明显的波动,及时去排查波动性的原因。比如说网站可能针对某一条特定的路径对某一个页面模块做了优化或者结构的调整,如果路径的流量有上升的趋势,那么对网页的改动就起到了正向的作用;如果路径的流量有下降的趋势,那么就产生了反作用;如果路径的流量没有很大的波动,那么调整就没有起到明显的作用,需要进一步的改进。

发明内容

[0004] 本发明目的是,提出了一种基于网站用户访问路径的流量预警方法,路径流量的波动性预警,其目的主要是明确某一条路径在整个时间范围内是否有明显波动,主要涉及两个方面的预警:路径流量的波动性预警以及路径按周流量预警。路径流量的波动性预警反映了路径流量的整体波动性,路径按周流量预警给出了具体的哪一周流量有明显的异常。
[0005] 本发明的技术方案是:基于网站用户访问路径的流量预警方法,具体步骤:
[0006] 1)按周汇用户某一条总访问路径的流量,得到的总周数数据流量矩阵格式为:
[0007] P=(P1,P2,…,PN)
[0008]
[0009] 其中,向量P表示某一条访问路径,矩阵PV表示这一条路径对应的流量,PV的每一行表示某一周路径的每一步流量,每一列表示访问路径中某一步的流量,PVij表示第i周第j步的流量,PVi为矩阵PV的列向量,i=1,2,…,N,j=1,2,…,M,N表示访问路径中包含的总步数,M表示访问路径统计中的总周数;
[0010] 2)计算路径每一步的变异系数,变异系数数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响,其值是原始数据的标准差与平均数的比;在每一条路径中,每一步的流量都不在一个数量级上,不适合用标准差或者极差去衡量每一步的变异程度。对于流量矩阵PV,计算其每一列的变异系数;
[0011] 3)变异系数加权平均,在计算出访问路径中每一步的变异系数后,需要给出整条路径的变异系数,从而可以反映出这一条路径在整个时间范围内的波动性趋势。此处选择加权每一步变异系数,权重平均分配;
[0012] 4)给出预警,根据统计学方法设定预警阈值为15%。
[0013] 基于网站用户访问路径的流量预警方法,访问路径按周流量预警,是为了定位到路径中哪些周的流量有异常,具体步骤主要包括:
[0014] 1)按周汇总访问路径流量,同样的按周汇总访问路径的每一步流量,得到流量矩阵PV;
[0015] 2)计算每一周流量的标准化欧式距离,对流量矩阵PV按列进行z-score标准化,使其列均值向量退化到原点,再按行计算每一行与均值向量的欧式距离(也即每一行的向量长度),最终得到每一周的标准化欧式距离值;
[0016] 3)给出预警,标准化欧式距离服从卡方分布,其自由度为访问路径中的总步数N,从而可以查看卡方分布表,给找出在一定的置信水平下的临界值,若标准化欧式距离值大于这一临界值,就可以视其为异常,给出预警。
[0017] 需要说明一下:本发明主要讲解的是访问路径流量预警的方法,不会涉及如何去寻找访问路径以及计算路径的每一步流量,在此假设已经得到了用户的访问路径以及流量。明确某一条路径在整个时间范围内是否有明显波动。
[0018] 有益效果:通过对访问路径的流量预警,可以清楚地了解到哪些访问路径的流量发生了明显的波动,从而可以及时的去排查原因,对网站结构做出有效的调整与优化。

附图说明

[0019] 图1为本发明路径流量的波动性预警实施例的流程图。
[0020] 图2是本发明访问路径按周流量预警实施例的流程图。具体实施方案
[0021] 下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述。
[0022] 按周汇用户某一条总访问路径的流量,得到的总周数数据格式为:
[0023] 1)按周汇总访问路径流量
[0024] 原先的用户访问路径流量是以天为单位统计的,由于每条路径每一个星[0025] 期有明显的周期性,而且按天预警也会过于敏感,因此在此处以周为汇总单位统计出每一周每条路径的流量,得到的数据格式为:
[0026] P=(P1,P2,…,PN)
[0027]
[0028] 其中,向量P表示某一条访问路径,矩阵PV表示这一条路径对应的流量,PV的每一行表示某一周路径的每一步流量,每一列表示访问路径中某一步的流量,PVij表示第i周第j步的流量,PVi为矩阵PV的列向量,i=1,2,…,N,j=1,2,…,M,N表示访问路径中包含的总步数,M表示访问路径统计中的总周数。
[0029] 2)计算路径每一步的变异系数
[0030] 变异系数和级差、标准差以及方差一样都是反映数据离散程度的绝对值,其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响,其值是原始数据的标准差与平均数的比。一般来说,当变量值的平均水平高时,其离散程度也会相应的越大,反之就会越小。利用变异系数,可以有效地消除测量尺度和量纲的影响,从而可以横向的比较两组数据的离散程度。
[0031] 很显然,在每一条路径中,每一步的流量都不在一个数量级上,不能直[0032] 接用标准差或者极差去衡量每一步的变异程度,而变异系数就可以做到这一点。对于流量矩阵PV,计算其每一列的变异系数。
[0033] 3)变异系数加权平均
[0034] 在计算出访问路径中每一步的变异系数后,需要给出整条路径的变异系数,从而可以反映出这一条路径在整个时间范围内的波动性趋势。此处选择择加择加权每一步变异系数,权重平均分配。
[0035] 4)给出预警
[0036] 统计上认为,当变异系数大于15%时,就可以说明数据有比较大的异常,[0037] 所以设定预警阈值为15%。当加权变异系数大于15%时,就给出预警。
[0038] 其次介绍访问路径按周流量预警,其目的主要是为了定位到路径中哪些周的流量有异常,具体步骤主要包括:
[0039] 1、按周汇总访问路径流量
[0040] 同样的按周汇总访问路径的每一步流量,得到流量矩阵PV。
[0041] 2、计算每一周流量的标准化欧式距离
[0042] 对流量矩阵PV按列进行z-score标准化,使其列均值向量退化到原点,[0043] 再按行计算每一行与均值向量的欧式距离(也即每一行的向量长度),最终得到每一周的标准化欧式距离值。
[0044] 3、给出预警
[0045] 理论上证明,标准化欧式距离服从卡方分布,其自由度为访问路径中的[0046] 总步数N,从而可以查看卡方分布表,给出在一定的置信水平下的临界值,若标准化欧式距离值大于这一临界值,就可以视其为异常,给出预警。
[0047] 参阅图1所示,路径流量的波动性预警的实施步骤如下:
[0048] S11:按周汇总访问路径流量。
[0049] 对于每一条路径,先按周汇总这条路径的每一步流量,得到流量矩阵PV。
[0050] 比如在网站路径访问中,有如下一条路径:
[0051] P=(MIC首页,关键词搜索产品,MIC首页,关键词搜公司,四级域名展示厅首页)[0052] 其对应的访问流量矩阵PV为:
[0053]
[0054] S12:计算路径每一步的变异系数
[0055] 对于路径中的每一步,我们都需要衡量其离散程度,而由于每一步流量的测量尺度不在一个数量级上,故不能用标准差或者极差去衡量离散程度,在此处选择变异系数,其计算公式为:
[0056] 变异系数CV=(标准差/均值)*100%。
[0057] 接着上例,计算矩阵PV每一列的变异系数:
[0058] CV1=(PV1标准差/PV1均值)*100%=6.73%
[0059] CV2=(PV2标准差/PV2均值)*100%=9.25%
[0060] CV3=(PV3标准差/PV3均值)*100%=12.55%
[0061] CV4=(PV4标准差/PV4均值)*100%=60.47%
[0062] CV5=(PV5标准差/PV5均值)*100%=126.70%
[0063] S13:变异系数加权平均
[0064] 在求解出路径每一步的变异系数之后,需要给出这一路径整个的波动性情况,此处选择加权每一步变异系数,权重平均分配。
[0065] 继续接着上例,最终的变异系数CV为:
[0066] CV=0.2*CV1+0.2*CV2+0.2*CV3+0.2*CV4+0.2*CV5=43.14%
[0067] S14:给出预警
[0068] 统计上认为,当变异系数大于15%时,就可以说明数据有比较大的异常,所以设定预警阈值为15%。
[0069] 在上例中,变异系数43.14%大于15%,故需要给出预警。
[0070] 参阅图2所示,访问路径按周流量预警的实施步骤如下:
[0071] S21:按周汇总访问路径流量与S11实施步骤完全相同,同样的得到流量矩阵PV。
[0072] S22:计算每一周流量的标准化欧式距离
[0073] 对于流量矩阵PV,可以对其按列进行标准化,可以得到标准化流量矩阵为:
[0074]
[0075] 其中,PVSij=(PVij-μj)/σj,i=1,2,3,4,j=1,2,3,4,5,PVij和PVSij分别为矩阵PV与PVS的第i行第j列元素值,μj、σj分别为矩阵PV的第j列的均值与标准差。
[0076] 对于标准化后的矩阵PVS,其列均值向量为(0,0,0,0,0),按行计算每一行与均值向量的欧氏距离,可以得到距离向量为:
[0077] D=(1.57,2.91,1.20,1.62)
[0078] 其中,
[0079] S23:给出预警
[0080] 标准化欧式距离的平方服从自由度为N的卡方分布,N为路径中的总步数,所以在某个置信度水平β下,当距离向量的某个元素值大于 时,其就是异常数据,给出预警。
[0081] 接着上例,在置信水平0.8下,查看自由度为5的卡方分布临界值表,得知:显然只有 故第二周的数据有异常,要给出预警,需要重点
关注。