一种网页浏览记录统计方法及系统转让专利
申请号 : CN201410383144.X
文献号 : CN104158698A
文献日 : 2014-11-19
发明人 : 朱代林
申请人 : 厦门天锐科技有限公司
摘要 :
权利要求 :
1.一种网页浏览记录统计方法,其特征在于:包括以下步骤:
步骤1、通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口,并对Ip数据帧进行备份,之后将原Ip数据帧放行;
步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容,之后解析原始报文内容,并对得到的网页标题进行记录及统计。
2.根据权利要求1所述的一种网页浏览记录统计方法,其特征在于:所述步骤2具体包括以下步骤:步骤21、提取备份的Ip数据帧及本地端口,根据Tcp/Ip协议的特征,对Ip数据帧进行数据还原及分类,并将得到的应用层数据缓存到本地文件中;
步骤22、读取缓存的应用层数据,根据http协议特征,对应用层数据的类型进行判断,之后提取出应用层数据的原始报文内容;
步骤23、对原始报文内容中的html数据进行解析,获取网页标题并进行记录及统计。
3.根据权利要求2所述的一种网页浏览记录统计方法,其特征在于:所述步骤21具体为:先提取备份的Ip数据帧及本地端口,根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包;再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据;之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类,并缓存到本地文件中。
4.根据权利要求3所述的一种网页浏览记录统计方法,其特征在于:所述步骤22具体为:读取缓存的应用层数据,根据http协议特征判断读取的应用层数据是否为http协议数据,如果是,则对http协议数据进行分析,得到该应用层数据使用的压缩算法、报文类型及网站地址,并解压出原始报文内容;如果不是,则不进行分析,并将该应用层数据的缓存清空。
5.根据权利要求4所述的一种网页浏览记录统计方法,其特征在于:所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成;所述报文类型从http协议响应消息报头的Content-Type信息中得到;所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
6.一种网页浏览记录统计系统,其特征在于:包括:
数据采集模块,通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口,并对Ip数据帧进行备份,之后将原Ip数据帧放行;
数据分析模块,对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容,之后解析原始报文内容,并对得到的网页标题进行记录及统计。
7.根据权利要求6所述的一种网页浏览记录统计系统,其特征在于:所述数据分析模块具体包括:数据还原单元,提取备份的Ip数据帧及本地端口,根据Tcp/Ip协议的特征,对Ip数据帧进行数据还原及分类,并将得到的应用层数据缓存到本地文件中;
判断分析单元,读取缓存的应用层数据,根据http协议特征,对应用层数据的类型进行判断,之后提取出应用层数据的原始报文内容;
解析单元,对原始报文内容中的html数据进行解析,获取网页标题并进行记录及统计。
8.根据权利要求7所述的一种网页浏览记录统计系统,其特征在于:所述数据还原单元具体为:先提取备份的Ip数据帧及本地端口,根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包;再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据;之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类,并缓存到本地文件中。
9.根据权利要求8所述的一种网页浏览记录统计系统,其特征在于:所述判断分析单元具体为:读取缓存的应用层数据,根据http协议特征判断读取的应用层数据是否为http协议数据,如果是,则对http协议数据进行分析,得到该应用层数据使用的压缩算法、报文类型及网站地址,并解压出原始报文内容;如果不是,则不进行分析,并将该应用层数据的缓存清空。
10.根据权利要求8所述的一种网页浏览记录统计系统,其特征在于:所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成;所述报文类型从http协议响应消息报头的Content-Type信息中得到;所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
说明书 :
一种网页浏览记录统计方法及系统
技术领域
背景技术
发明内容
步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容,之后解析原始报文内容,并对得到的网页标题进行记录及统计。
步骤22、读取缓存的应用层数据,根据http协议特征,对应用层数据的类型进行判断,之后提取出应用层数据的原始报文内容;
步骤23、对原始报文内容中的html数据进行解析,获取网页标题并进行记录及统计。
数据分析模块,对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容,之后解析原始报文内容,并对得到的网页标题进行记录及统计。
判断分析单元,读取缓存的应用层数据,根据http协议特征,对应用层数据的类型进行判断,之后提取出应用层数据的原始报文内容;
解析单元,对原始报文内容中的html数据进行解析,获取网页标题并进行记录及统计。
附图说明
具体实施方式
步骤2、对获取的IP数据帧根据Tcp/Ip协议进行还原及分类,然后根据http协议特征进行数据类型判断及原始报文内容解析,并对得到的网页标题进行记录及统计;该步骤可详细为以下步骤:
步骤21、先提取备份的Ip数据帧及本地端口S1,根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包;再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据;过滤完成后,根据建立连接时获取的本地端口S1和Tcp协议中的源端口、目的端口,将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类(S1类)中,并将应用层数据缓存到本地文件中;
步骤22、从本地文件中读取缓存的应用层数据,根据http协议在请求模式中包括请求行、消息报头及请求正文,在响应模式中包括状态行、消息报头及响应正文,判断读取的应用层数据是否为http协议数据,如果是,则对http协议的消息报头及请求行进行分析,得到该应用层数据使用的压缩算法、报文类型及网站地址,并解压出原始报文内容;如果不是,则不进行分析,并将该应用层数据的缓存清空;
其中,所述请求行的格式为:Method Request-URL HTTP-Version CRLF , Method表示请求方法;Request-URL是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行;所述状态行格式为:HTTP-Version Status-Code Reason-Phrase CRLF ,HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL信息和请求消息报头的Host(主要用于指定被请求资源的Internet主机和端口号)信息构成;所述报文类型从响应消息报头的Content-Type(用于指明发送给接收者的实体正文的媒体类型)信息中得到;所述压缩算法从http协议消息报头的Content-Encoding(被用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制进行解码)信息中得到。
…
…
我们只需要根据该格式解析html数据内容,获取
数据分析模块,对获取的IP数据帧根据Tcp/Ip协议进行还原及分类,然后根据http协议特征进行数据类型判断及原始报文内容解析,并对得到的网页标题进行记录及统计;
该模块可详细为以下单元:
数据还原单元,先提取备份的Ip数据帧及本地端口S1,根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包;再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据;过滤完成后,根据建立连接时获取的本地端口S1和Tcp协议中的源端口、目的端口,将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类(S1类)中,并将应用层数据缓存到本地文件中;
判断分析单元,从本地文件中读取缓存的应用层数据,根据http协议在请求模式中包括请求行、消息报头及请求正文,在响应模式中包括状态行、消息报头及响应正文,判断读取的应用层数据是否为http协议数据,如果是,则对http协议的消息报头及请求行进行分析,得到该应用层数据使用的压缩算法、报文类型及网站地址,并解压出原始报文内容;如果不是,则不进行分析,并将该应用层数据的缓存清空;
其中,所述请求行的格式为:Method Request-URI HTTP-Version CRLF , Method表示请求方法;Request-URL是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行;所述状态行格式为:HTTP-Version Status-Code Reason-Phrase CRLF ,HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL信息和请求消息报头的Host(主要用于指定被请求资源的Internet主机和端口号)信息构成;所述报文类型从响应消息报头的Content-Type(用于指明发送给接收者的实体正文的媒体类型)信息中得到;所述压缩算法从http协议消息报头的Content-Encoding(被用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制进行解码)信息中得到。
…
…
我们只需要根据该格式解析html数据内容,获取