一种基于深度学习的互联网流量大数据分析方法转让专利

申请号 : CN201710132366.8

文献号 : CN107086925B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘强

申请人 : 珠海城市职业技术学院

摘要 :

本发明公开了一种基于深度学习的互联网流量大数据分析方法,包括:获取原始的互联网流量监测数据;采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理;根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果;根据互联网网站的分类结果进行数据挖掘;根据数据挖掘的结果为用户进行互联网网站推荐。本发明采用了具有反馈连接的无限深度神经网络来取代现有的前馈神经网络,能处理动态数据,实时性较好;采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,精度高。本发明可广泛应用于数据挖掘领域。

权利要求 :

1.一种基于深度学习的互联网流量大数据分析方法,其特征在于:包括以下步骤:获取原始的互联网流量监测数据;

采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,其中,N为设定的最近邻数据总个数;

根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果,其中,无限深度神经网络的同层神经元之间存在反馈连接;

根据互联网网站的分类结果进行数据挖掘;

根据数据挖掘的结果为用户进行互联网网站推荐;

所述采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理这一步骤,其包括:S1、对获取的互联网流量监测数据进行噪声清洗,得到噪声清洗后的数据;

S2、按照数据是否完整将噪声清洗后的数据分别划分到完整数据集C和不完整数据集I中,并使C中的数据直接执行步骤S5以及使I中的数据执行步骤S3;

S3、对I中的数据i在C中进行N近邻数据查找,并判断是否能在C中找出与数据i最相似的N个邻居数据,若是,则以这N个邻居数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则执行步骤S4;

S4、计算I中的数据i与完整数据集C中所有数据的距离之和D,并判断D是否小于设定的门限Th,若是,则以C中所有数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则将数据i从I中删除;

S5、对填充处理后的数据进行依次数据集成、数据转换和数据规约,并将数据规约处理后的数据存储到HDFS中;

所述根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果这一步骤,其包括:从HDFS中读取互联网流量记录;

对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中;

库识别模块采用基于库的识别方法直接对互联网流量记录中每条记录的URL进行识别分类,其中,库识别模块通过库文件来对URL识别结果表和URL未识别结果表进行更新和维护;

以经过库识别模块分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类,以完成不同类型互联网网站的自动识别和分类;

基于深度学习识别的结果,提取出正确分类的URL,对库识别模块中的库文件进行更新和扩充;

所述根据互联网网站的分类结果进行数据挖掘这一步骤,其包括:

获取互联网网站的访问次数、访问人数、用户全天各时段流量和应用商店类网站类型数据;

根据获取数据进行用户行为特征分析,得出互联网网站的用户行为特征,其中,互联网网站的用户行为特征包括互联网网站当前的总用户数、平均每用户访问次数、平均每次访问带来的流量和当前时间所处的时段;

根据互联网网站的用户行为特征采用三次移动平均法预测出互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量;

根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量。

2.根据权利要求1所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中这一步骤,其包括:对读取的互联网流量记录经MapReduce程序进行预处理,得到能进行网页爬取的URL地址,其中,预处理包括URL组合、URL过滤和URL去重;

采用多个并行网页爬取线程对URL地址进行爬取和解析,得到网站标题、关键词和描述这三个字段的内容,并将这三个字段的内容存储到HBase数据库中。

3.根据权利要求2所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述以经过库识别分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类这一步骤,其包括:对库识别分类模块无法识别的URL,爬取该URL对应的网页内容中的网站标题、关键词和描述三个字段;

将爬取的三个字段作为训练集,采用BPTT深度学习算法或RTRL深度学习算法进行训练建模和分类,以完成不同类型互联网网站的自动识别和分类。

4.根据权利要求3所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述三次移动平均法进行预测的过程包括:初始化并读取t时段内的当前值Xt,其中,t=1,2,3,…,T,T为当前日当前时间所处的时段;

计算t时段内Xt的一次移动平均值 所述 的计算公式为:

式中,t=[0.5T],[0.5T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数;

计算t时段内Xt的二次移动平均值 所述 的计算公式为:

式中,t=[0.75T],[0.75T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数;

计算第t=T时段内Xt的三次移动平均值 所述 的计算公式为:式中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T-1表示当前日前一日同一时段,T+1表示当前日下一日同一时段;

计算当前日下一日同一时段内Xt的预测值XT+1,XT+1的计算公式如下:其中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T+1表示当前日下一日同一时段;

结束并输出当前日下一日同一时段内Xt的预测值XT+1。

5.根据权利要求4所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量这一步骤,其具体为:根据预测出的下一日同一时段内的总用户数UT+1、平均每用户访问次数 和平均每次访问带来的流量 计算下一日同一时段内的最大访问流量FLOWT+1,所述FLOWT+1计算的公式为:

6.根据权利要求5所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:逐个互联网网站判断下一日同一时段内的最大访问流量UT+1是否大于用户设定的流量阈值,若是,则将该互联网网站推荐给用户,反之,则转到下一个互联网网站重新进行判断,直到所有互联网网站均已判断结束为止。

7.根据权利要求1-3任一项所述的一种基于深度学习的互联网流量大数据分析方法,其特征在于:所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:根据数据挖掘的结果采用协同过滤的方法为用户进行互联网网站推荐,所述协同过滤的方法包括基于用户的协同过滤算法和基于物品的协同过滤算法。

说明书 :

一种基于深度学习的互联网流量大数据分析方法

技术领域

[0001] 本发明涉及数据挖掘领域,尤其是一种基于深度学习的互联网流量大数据分析方法。

背景技术

[0002] 随着互联网、移动智能终端、物联网等信息与通信技术的迅猛发展,以及计算机存储和计算能力的不断提升,各种数据的爆炸式增长和持续获取成为可能,大数据时代悄然而至。相较于传统的数据,人们将大数据的特征总结为5个V,即体量大(volume)、速度快(velocity)、模态多(variety)、难辨识(veracity)和价值大密度低(value)。如何分析大数据,充分挖掘大数据的潜在价值,成为需要深入探讨的科学问题。
[0003] 在互联网领域,网络流量监测是获取网络流量指标和网络用户行为参数的最有效手段。随着互联网用户的日益增多,互联网需要研究和分析的数据也在不断增多,如何从海量的用户流量数据中挖掘出流量规律和用户行为规律(即如何进行互联网流量大数据分析),就成为业内亟需解决的技术难题。
[0004] 基于深度神经网络的学习算法(简称深度学习方法),作为成功的大数据分析方法,已为学术界和工业界所熟知。与传统方法相比,深度学习方法以数据驱动、能自动地从数据中提取特征(知识),对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势。
[0005] 目前,在互联网流量大数据分析中使用的深度学习方法是基于前馈神经网络的深度学习方法,而前馈神经网络的特点是同层神经元之间没有反馈连接,没有“时间参数”属性,所以基于前馈神经网络的深度学习方法只擅长处理静态数据,却无法处理动态数据(即与时间相关的数据),实时性较差,满足不了人们对互联网流量大数据分析日益增长的高要求。此外,当前在互联网流量大数据分析中,受各种故障的影响,网络流量监测设备监测的数据会有缺失,进而会因监测的数据不完整而严重影响后续互联网流量大数据分析的精度。

发明内容

[0006] 为解决上述技术问题,本发明的目的在于:提供一种实时性好和精度高的,基于深度学习的互联网流量大数据分析方法。
[0007] 本发明所采取的技术方案是:
[0008] 一种基于深度学习的互联网流量大数据分析方法,包括以下步骤:
[0009] 获取原始的互联网流量监测数据;
[0010] 采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,其中,N为设定的最近邻数据总个数;
[0011] 根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果,其中,无限深度神经网络的同层神经元之间存在反馈连接;
[0012] 根据互联网网站的分类结果进行数据挖掘;
[0013] 根据数据挖掘的结果为用户进行互联网网站推荐。
[0014] 进一步,所述采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理这一步骤,其包括:
[0015] S1、对获取的互联网流量监测数据进行噪声清洗,得到噪声清洗后的数据;
[0016] S2、按照数据是否完整将噪声清洗后的数据分别划分到完整数据集C和不完整数据集I中,并使C中的数据直接执行步骤S5以及使I中的数据执行步骤S3;
[0017] S3、对I中的数据i在C中进行N近邻数据查找,并判断是否能在C中找出与数据i最相似的N个邻居数据,若是,则以这N个邻居数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则执行步骤S4;
[0018] S4、计算I中的数据i与完整数据集C中所有数据的距离之和D,并判断D是否小于设定的门限Th,若是,则以C中所有数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则将数据i从I中删除;
[0019] S5、对填充处理后的数据进行依次数据集成、数据转换和数据规约,并将数据规约处理后的数据存储到HDFS中。
[0020] 进一步,所述根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果这一步骤,其包括:
[0021] 从HDFS中读取互联网流量记录;
[0022] 对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中;
[0023] 库识别模块采用基于库的识别方法直接对互联网流量记录中每条记录的URL进行识别分类,其中,库识别模块通过库文件来对URL识别结果表和URL未识别结果表进行更新和维护;
[0024] 以经过库识别模块分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类,以完成不同类型互联网网站的自动识别和分类;
[0025] 基于深度学习识别的结果,提取出正确分类的URL,对库识别模块中的库文件进行更新和扩充。
[0026] 进一步,所述对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中这一步骤,其包括:
[0027] 对读取的互联网流量记录经MapReduce程序进行预处理,得到能进行网页爬取的URL地址,其中,预处理包括URL组合、URL过滤和URL去重;
[0028] 采用多个并行网页爬取线程对URL地址进行爬取和解析,得到网站标题、关键词和描述这三个字段的内容,并将这三个字段的内容存储到HBase数据库中。
[0029] 进一步,所述以经过库识别分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类这一步骤,其包括:
[0030] 对库识别分类模块无法识别的URL,爬取该URL对应的网页内容中的网站标题、关键词和描述三个字段;
[0031] 将爬取的三个字段作为训练集,采用BPTT深度学习算法或RTRL深度学习算法进行训练建模和分类,以完成不同类型互联网网站的自动识别和分类。
[0032] 进一步,所述根据互联网网站的分类结果进行数据挖掘这一步骤,其包括:
[0033] 获取互联网网站的访问次数、访问人数、用户全天各时段流量和应用商店类网站类型数据;
[0034] 根据获取数据进行用户行为特征分析,得出互联网网站的用户行为特征,其中,互联网网站的用户行为特征包括互联网网站当前的总用户数、平均每用户访问次数、平均每次访问带来的流量和当前时间所处的时段;
[0035] 根据互联网网站的用户行为特征采用三次移动平均法预测出互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量;
[0036] 根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量。
[0037] 进一步,所述三次移动平均法进行预测的过程包括:
[0038] 初始化并读取t时段内的当前值Xt,其中,t=1,2,3,…,T,T为当前日当前时间所处的时段;
[0039] 计算t时段内Xt的一次移动平均值 所述 的计算公式为:
[0040]
[0041] 式中,t=[0.5T],[0.5T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数;
[0042] 计算t时段内Xt的二次移动平均值 所述 的计算公式为:
[0043]
[0044] 式中,t=[0.75T],[0.75T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数;
[0045] 计算第t=T时段内Xt的三次移动平均值 所述 的计算公式为:
[0046]
[0047] 式中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T-1表示当前日前一日同一时段,T+1表示当前日下一日同一时段;
[0048] 计算当前日下一日同一时段内Xt的预测值XT+1,XT+1的计算公式如下:
[0049]
[0050] 其中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T+1表示当前日下一日同一时段;
[0051] 结束并输出当前日下一日同一时段内Xt的预测值XT+1。
[0052] 进一步,所述根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量这一步骤,其具体为:
[0053] 根据预测出的下一日同一时段内的总用户数UT+11、平均每用户访问次数 和平均每次访问带来的流量 计算下一日同一时段内的最大访问流量FLOWT+1,所述FLOWT+1计算的公式为:
[0054] 进一步,所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:
[0055] 逐个互联网网站判断下一日同一时段内的最大访问流量UT+1是否大于用户设定的流量阈值,若是,则将该互联网网站推荐给用户,反之,则转到下一个互联网网站重新进行判断,直到所有互联网网站均已判断结束为止。
[0056] 进一步,所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:
[0057] 根据数据挖掘的结果采用协同过滤的方法为用户进行互联网网站推荐,所述协同过滤的方法包括基于用户的协同过滤算法和基于物品的协同过滤算法。
[0058] 本发明的有益效果是:包括获取原始的互联网流量监测数据,采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,根据互联网网站的分类结果进行数据挖掘,根据数据挖掘的结果为用户进行互联网网站推荐的步骤,采用了基于无限深度神经网络的深度学习方法进行分类处理,通过具有反馈连接的无限深度神经网络来取代现有的前馈神经网络进行深度学习,能处理动态数据,实时性较好,满足了人们对互联网流量大数据分析日益增长的高要求;采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,减少了数据不完整的情况发生,提高了互联网流量大数据分析的精度。进一步,基于互联网网站的用户行为特征,以总用户数、用户访问次数、用户每次访问带来的流量间的关系以作为预测的依据,在每日相同的时段使用三次移动平均法预测出互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量,有效地提高了预测的合理性与准确性。

附图说明

[0059] 图1为本发明一种基于深度学习的互联网流量大数据分析方法的整体流程图。

具体实施方式

[0060] 参照图1,一种基于深度学习的互联网流量大数据分析方法,包括以下步骤:
[0061] 获取原始的互联网流量监测数据;
[0062] 采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理,其中,N为设定的最近邻数据总个数;
[0063] 根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果,其中,无限深度神经网络的同层神经元之间存在反馈连接;
[0064] 根据互联网网站的分类结果进行数据挖掘;
[0065] 根据数据挖掘的结果为用户进行互联网网站推荐。
[0066] 进一步,所述采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理这一步骤,其包括:
[0067] S1、对获取的互联网流量监测数据进行噪声清洗,得到噪声清洗后的数据;
[0068] S2、按照数据是否完整将噪声清洗后的数据分别划分到完整数据集C和不完整数据集I中,并使C中的数据直接执行步骤S5以及使I中的数据执行步骤S3;
[0069] S3、对I中的数据i在C中进行N近邻数据查找,并判断是否能在C中找出与数据i最相似的N个邻居数据,若是,则以这N个邻居数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则执行步骤S4;
[0070] S4、计算I中的数据i与完整数据集C中所有数据的距离之和D,并判断D是否小于设定的门限Th,若是,则以C中所有数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则将数据i从I中删除;
[0071] S5、对填充处理后的数据进行依次数据集成、数据转换和数据规约,并将数据规约处理后的数据存储到HDFS中。
[0072] 进一步作为优选的实施方式,所述根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果这一步骤,其包括:
[0073] 从HDFS中读取互联网流量记录;
[0074] 对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中;
[0075] 库识别模块采用基于库的识别方法直接对互联网流量记录中每条记录的URL进行识别分类,其中,库识别模块通过库文件来对URL识别结果表和URL未识别结果表进行更新和维护;
[0076] 以经过库识别模块分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类,以完成不同类型互联网网站的自动识别和分类;
[0077] 基于深度学习识别的结果,提取出正确分类的URL,对库识别模块中的库文件进行更新和扩充。
[0078] 进一步作为优选的实施方式,所述对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中这一步骤,其包括:
[0079] 对读取的互联网流量记录经MapReduce程序进行预处理,得到能进行网页爬取的URL地址,其中,预处理包括URL组合、URL过滤和URL去重;
[0080] 采用多个并行网页爬取线程对URL地址进行爬取和解析,得到网站标题、关键词和描述这三个字段的内容,并将这三个字段的内容存储到HBase数据库中。
[0081] 进一步作为优选的实施方式,所述以经过库识别分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类这一步骤,其包括:
[0082] 对库识别分类模块无法识别的URL,爬取该URL对应的网页内容中的网站标题、关键词和描述三个字段;
[0083] 将爬取的三个字段作为训练集,采用BPTT深度学习算法或RTRL深度学习算法进行训练建模和分类,以完成不同类型互联网网站的自动识别和分类。
[0084] 进一步作为优选的实施方式,所述根据互联网网站的分类结果进行数据挖掘这一步骤,其包括:
[0085] 获取互联网网站的访问次数、访问人数、用户全天各时段流量和应用商店类网站类型数据;
[0086] 根据获取数据进行用户行为特征分析,得出互联网网站的用户行为特征,其中,互联网网站的用户行为特征包括互联网网站当前的总用户数、平均每用户访问次数、平均每次访问带来的流量和当前时间所处的时段;
[0087] 根据互联网网站的用户行为特征采用三次移动平均法预测出互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量;
[0088] 根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量。
[0089] 进一步作为优选的实施方式,所述三次移动平均法进行预测的过程包括:
[0090] 初始化并读取t时段内的当前值Xt,其中,t=1,2,3,…,T,T为当前日当前时间所处的时段;
[0091] 计算t时段内Xt的一次移动平均值 所述 的计算公式为:
[0092]
[0093] 式中,t=[0.5T],[0.5T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数;
[0094] 计算t时段内Xt的二次移动平均值 所述 的计算公式为:
[0095]
[0096] 式中,t=[0.75T],[0.75T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T 的最小整数;
[0097] 计算第t=T时段内Xt的三次移动平均值 所述 的计算公式为:
[0098]
[0099] 式中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T-1表示当前日前一日同一时段,T+1表示当前日下一日同一时段;
[0100] 计算当前日下一日同一时段内Xt的预测值XT+1,XT+1的计算公式如下:
[0101]
[0102] 其中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T+1表示当前日下一日同一时段;
[0103] 结束并输出当前日下一日同一时段内Xt的预测值XT+1。
[0104] 进一步作为优选的实施方式,所述根据互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量计算互联网网站下一日同一时段内的最大访问流量这一步骤,其具体为:
[0105] 根据预测出的下一日同一时段内的总用户数UT+11、平均每用户访问次数 和平均每次访问带来的流量 计算下一日同一时段内的最大访问流量FLOWT+1,所述FLOWT+1计算的公式为:
[0106] 进一步作为优选的实施方式,所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:
[0107] 逐个互联网网站判断下一日同一时段内的最大访问流量UT+1是否大于用户设定的流量阈值,若是,则将该互联网网站推荐给用户,反之,则转到下一个互联网网站重新进行判断,直到所有互联网网站均已判断结束为止。
[0108] 进一步作为优选的实施方式,所述根据数据挖掘的结果为用户进行互联网网站推荐这一步骤,其具体为:
[0109] 根据数据挖掘的结果采用协同过滤的方法为用户进行互联网网站推荐,所述协同过滤的方法包括基于用户的协同过滤算法和基于物品的协同过滤算法。
[0110] 下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
[0111] 实施例一
[0112] 针对现有技术实时性差和精度不高的问题,本发明提出了一种基于深度学习的互联网流量大数据分析方法。
[0113] 如图1所示,本发明的互联网流量大数据分析方法具体包括以下步骤:
[0114] (一)获取原始的互联网流量监测数据。
[0115] 本发明可通过现有的联网流量监测手段或设备来获取互联网流量监测数据。
[0116] (二)采用融合N近邻填充算法和门限填充算法的不完整数据填充算法对获取的互联网流量监测数据进行填充处理。
[0117] 此过程可进一步细分为如下步骤:
[0118] S1、对获取的互联网流量监测数据进行噪声清洗,得到噪声清洗后的数据;
[0119] S2、按照数据是否完整将噪声清洗后的数据分别划分到完整数据集C和不完整数据集I中,并使C中的数据直接执行步骤S5以及使I中的数据执行步骤S3;
[0120] S3、对I中的数据i在C中进行N近邻数据查找,并判断是否能在C中找出与数据i最相似的N个邻居数据,若是,则以这N个邻居数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则执行步骤S4;
[0121] S4、计算I中的数据i与完整数据集C中所有数据的距离之和D,并判断D是否小于设定的门限Th,若是,则以C中所有数据的均值作为数据i填充完整后的数据,然后执行步骤S5,反之,则将数据i从I中删除;
[0122] S5、对填充处理后的数据进行依次数据集成、数据转换和数据规约,并将数据规约处理后的数据存储到HDFS中。
[0123] 其中,噪声清洗是为了去除原始的互联网流量监测数据中的偏差、冗余和随机错误。噪声清洗的方法包括平滑、去重等。数据集成,主要是为了对数据进行统一存储管理;数据转换,主要是为了对数据进行归一化和标准化;数据规约,主要是为了对数据进行维度、数值和标记等约束,以提高后续数据挖掘的效率。
[0124] (三)根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理,得到互联网网站的分类结果。
[0125] 此过程可进一步细分为如下步骤:
[0126] (1)从HDFS中读取互联网流量记录。
[0127] (2)对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理,并将解析出的网页内容存储到HBase数据库中。
[0128] 其中,对读取的互联网流量记录进行MapReduce并行处理是指,对读取的互联网流量记录采用MapReduce的程序进行预处理,得到能进行网页爬取的URL地址。对读取的互联网流量记录采用MapReduce的程序进行预处理包括URL(即统一资源定位符)组合、URL过滤和URL去重。每个URL是由Host和URL字段构成的,所以URL组合,包括了对Host和URL字段的组合。URL过滤和URL去重,是为了删除错误和重复的URL,提高数据的处理效率。
[0129] 数据抓取与解析处理,是指采用多个并行网页爬取线程对URL地址进行爬取和解析,得到网站标题、关键词和描述这三个字段的内容,并将这三个字段的内容存储到HBase数据库中。网站标题、关键词和描述这三个字段为网页的核心内容,为了节省存储空间,本发明只选择了这三个字段进行爬取和解析。数据抓取与解析处理,可采用jsoup解析器来实现。
[0130] (3)库识别模块采用基于库的识别方法直接对互联网流量记录中每条记录的URL进行识别分类。
[0131] 其中,库识别模块通过库文件来对URL识别结果表和URL未识别结果表进行更新和维护。库识别模块进行库识别需要预先有库文件,库文件最初是靠人工添加建立的,之后能基于深度学习识别分类时产生新的URL正确分类来更新原始库文件,使库文件更大和更全面。
[0132] (4)以经过库识别模块分类后未识别的网页内容作为训练集,采用基于无限深度神经网络的深度学习方法进行建模和分类,以完成不同类型互联网网站的自动识别和分类。
[0133] 以经过库识别模块分类后未识别的网页内容作为训练集,是指对库识别分类模块无法识别的URL,爬取该URL对应的网页内容中的网站标题、关键词和描述三个字段作为训练集。
[0134] 采用基于无限深度神经网络的深度学习方法进行建模和分类,是指根据训练集采用基于无限深度神经网络的深度学习方法进行训练和测试,得到正确的分类识别模型及其参数。
[0135] 基于无限深度神经网络的深度学习方法,可采用BPTT深度学习算法或RTRL深度学习算法来实现。BPTT(Back-Propagation  Through Time)深度学习算法,是美国Northeastern University大学的Williams RJ教授提出的能够训练无限深度神经网络的反向传递算法。RTRL(Real-Time Recurrent Learning)深度学习算法,是Robinson&Fallsid等人提出的一种前向传播“活动性”信息的算法。
[0136] (5)基于深度学习识别分类的结果,提取出正确分类的URL来对库识别模块中的库文件进行更新和扩充。
[0137] (四)根据互联网网站的分类结果进行数据挖掘。
[0138] 其中,数据挖掘的一种具体实现方式包括以下步骤:
[0139] (1)获取互联网网站的访问次数、访问人数、用户全天各时段流量和应用商店类网站类型数据。
[0140] 其中,用户全天各时段流量,可以以1小时为流量统计间隔进行统计。应用商店类网站的类型可为苹果应用商店、安卓应用商店等。
[0141] (2)根据获取数据进行用户行为特征分析,得出互联网网站的用户行为特征,其中,互联网网站的用户行为特征包括互联网网站当前的总用户数、平均每用户访问次数、平均每次访问带来的流量和当前时间所处的时段。
[0142] 其中,用户行为特征分析,可采用现有的特征分析方法来实现,如聚类分析算法等。
[0143] (3)根据互联网网站的用户行为特征采用三次移动平均法预测出互联网网站下一日同一时段内的总用户数、平均每用户访问次数和平均每次访问带来的流量。
[0144] 其中,三次移动平均法进行预测的过程包括:
[0145] 1)初始化并读取t时段内的当前值Xt,其中,t=1,2,3,…,T,T为当前日当前时间所处的时段。
[0146] 其中,Xt可为当前的总用户数、平均每用户访问次数、平均每次访问带来的流量。
[0147] 2)计算t时段内Xt的一次移动平均值 所述 的计算公式为:
[0148]
[0149] 式中,t=[0.5T],[0.5T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数。
[0150] 3)计算t时段内Xt的二次移动平均值 所述 的计算公式为:
[0151]
[0152] 式中,t=[0.75T],[0.75T]+1,…,T,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数。
[0153] 4)计算第t=T时段内Xt的三次移动平均值 所述 的计算公式为:
[0154]
[0155] 式中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T-1表示当前日前一日同一时段,T+1表示当前日下一日同一时段。
[0156] 5)计算当前日下一日同一时段内Xt的预测值XT+1,XT+1的计算公式如下:
[0157]
[0158] 其中,“[]”为取整符号,“[0.5T]”表示取不小于0.5T的最小整数,T+1表示当前日下一日同一时段。
[0159] 6)结束并输出当前日下一日同一时段内Xt的预测值XT+1。
[0160] (4)根据互联网网站下一日同一时段内的总用户数UT+1、平均每用户访问次数和平均每次访问带来的流量 计算互联网网站下一日同一时段内的最大访问流量FLOWT+1。
[0161] (五)根据数据挖掘的结果为用户进行互联网网站推荐。
[0162] 为用户进行互联网网站推荐的方法有两种:一种是基于预测的最大访问流量的推荐方法,另一种是基于协同过滤的推荐方法。
[0163] 其中,基于预测的最大访问流量的推荐方法的具体过程为:逐个互联网网站判断下一日同一时段内的最大访问流量UT+1是否大于用户设定的流量阈值,若是,则将该互联网网站推荐给用户,反之,则转到下一个互联网网站重新进行判断,直到所有互联网网站均已判断结束为止。
[0164] 而基于协同过滤的推荐方法,则通过计算相似用户或相似物品来进行推荐。因此协同过滤的推荐方法可分为基于用户的协同过滤算法和基于用户的协同过滤算法,可让用户根据实际的需要进行灵活选取。
[0165] 以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。