…

一种网页浏览记录统计方法及系统转让专利

申请号 : CN201410383144.X

文献号 : CN104158698A

文献日 : 2014-11-19

本发明提供一种网页浏览记录统计方法及系统，所述方法步骤如下：步骤1、通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。本发明还提供一种网页浏览记录统计系统，该系统的主要优点是：可以对工作人员上网的网页标题进行有效统计，解决以往重复统计或者遗漏统计的问题，为企业的管理带来了极大的方便。

1.一种网页浏览记录统计方法，其特征在于：包括以下步骤：

步骤1、通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；

步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。

2.根据权利要求1所述的一种网页浏览记录统计方法，其特征在于：所述步骤2具体包括以下步骤：步骤21、提取备份的Ip数据帧及本地端口，根据Tcp/Ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；

步骤22、读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；

步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。

3.根据权利要求2所述的一种网页浏览记录统计方法，其特征在于：所述步骤21具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。

4.根据权利要求3所述的一种网页浏览记录统计方法，其特征在于：所述步骤22具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。

5.根据权利要求4所述的一种网页浏览记录统计方法，其特征在于：所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。

6.一种网页浏览记录统计系统，其特征在于：包括：

数据采集模块，通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；

数据分析模块，对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。

7.根据权利要求6所述的一种网页浏览记录统计系统，其特征在于：所述数据分析模块具体包括：数据还原单元，提取备份的Ip数据帧及本地端口，根据Tcp/Ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；

判断分析单元，读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；

解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。

8.根据权利要求7所述的一种网页浏览记录统计系统，其特征在于：所述数据还原单元具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。

9.根据权利要求8所述的一种网页浏览记录统计系统，其特征在于：所述判断分析单元具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。

10.根据权利要求8所述的一种网页浏览记录统计系统，其特征在于：所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。

一种网页浏览记录统计方法及系统

技术领域

[0001] 本发明涉及一种网页浏览记录统计方法及系统。

背景技术

[0002] 随着网络技术的发展，大多数企业、事业单位在办公时都要借助网络进行完成，这样，员工就必须能够连上互联网，而企事业单位或有些企业在管理员工时，也要求员工在工作时不得上网娱乐，这就必须有一套行之有效的网络行为管理系统。目前的技术是这样实现的：在pc终端上通过不断获取最前端的窗口句柄，根据各类浏览器的关键标识，进而逐层遍历组件，然后根据预先算好的组件位置进行对应的网页标题、网址等关键信息的提取，从而达到对网页浏览记录进行统计的目的。但是这种做法主要存在以下缺点：1、需要根据浏览器的关键标识来区分当前窗口是否需要被监控，而不同浏览器的关键标识往往不同，如果某种浏览器关键标识没有被预先保存，则会导致这类浏览器浏览的网页记录不能被统计；2、在一个浏览器上打开一些网页后，通过反复切换窗口，会导致相同的记录被重复统计；3、同一类型浏览器因版本升级导致需要统计的信息位置发生变化，也会导致浏览记录不能被统计；4、只能记录当前终端上浏览网页的情况。

发明内容

[0003] 本发明要解决的技术问题，在于提供一种网页浏览记录统计方法及系统，通过对网页标题进行有效统计，解决以往重复统计或者遗漏统计的问题，使企业或事业单位的网络行为管理系统更加完善。

[0004] 本发明要解决的技术问题之一是这样实现的：一种网页浏览记录统计方法，包括如下步骤：步骤1、通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；
步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。

[0005] 进一步的，所述步骤2具体包括以下步骤：步骤21、提取备份的Ip数据帧及本地端口，根据Tcp/Ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；
步骤22、读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；
步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。

[0006] 进一步的，所述步骤21具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。

[0007] 进一步的，所述步骤22具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。

[0008] 进一步的，所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。

[0009] 本发明要解决的技术问题之二是这样实现的：一种网页浏览记录统计系统，包括：数据采集模块，通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；
数据分析模块，对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。

[0010] 进一步的，所述数据分析模块具体包括：数据还原单元，提取备份的Ip数据帧及本地端口，根据Tcp/Ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；
判断分析单元，读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；
解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。

[0011] 进一步的，所述数据还原单元具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。

[0012] 进一步的，所述判断分析单元具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。

[0013] 进一步的，所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。

[0014] 本发明具有如下优点：1、统计浏览记录时，不需要考虑终端采用的浏览工具，具有更强的兼容性和稳定性；2、将该系统部署到网关后，可以有效采集经过该网关的数据，且分析的是原IP数据帧的一个备份，可以保证每次采集的数据只被分析一次，从而达到统计整个内网中的所有用户浏览网页的真实情况；3、避免了因频繁切换窗口和浏览器升级时造成的重复统计、遗漏统计问题。

附图说明

[0015] 下面参照附图结合实施例对本发明作进一步的说明。

[0016] 图1为本发明一种网页浏览记录统计方法执行流程图。

[0017] 图2为本发明一种网页浏览记录统计系统结构框图。

具体实施方式

[0018] 请参照图1所示，一种网页浏览记录统计方法，具体包括以下步骤：步骤1、当一个应用程序建立起网络连接时，传输驱动程序接口TDI的建立连接事件就被触发，并会获取到用于建立连接的本地端口（假设为S1）；当应用层开始传输数据时，传输驱动程序接口TDI的接收事件与发送事件就被触发，并会获取传输的Ip数据帧，然后对Ip数据帧进行备份，备份完后将原Ip数据帧放行，从而不影响网络的正常传输；数据传输完毕后，传输驱动程序接口TDI的关闭连接事件就被触发，从而结束对数据的获取；
步骤2、对获取的IP数据帧根据Tcp/Ip协议进行还原及分类，然后根据http协议特征进行数据类型判断及原始报文内容解析，并对得到的网页标题进行记录及统计；该步骤可详细为以下步骤：
步骤21、先提取备份的Ip数据帧及本地端口S1，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；过滤完成后，根据建立连接时获取的本地端口S1和Tcp协议中的源端口、目的端口，将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类（S1类）中，并将应用层数据缓存到本地文件中；
步骤22、从本地文件中读取缓存的应用层数据，根据http协议在请求模式中包括请求行、消息报头及请求正文，在响应模式中包括状态行、消息报头及响应正文，判断读取的应用层数据是否为http协议数据，如果是，则对http协议的消息报头及请求行进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空；
其中，所述请求行的格式为：Method Request-URL HTTP-Version CRLF ， Method表示请求方法；Request-URL是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行；所述状态行格式为：HTTP-Version Status-Code Reason-Phrase CRLF ，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL信息和请求消息报头的Host（主要用于指定被请求资源的Internet主机和端口号）信息构成；所述报文类型从响应消息报头的Content-Type（用于指明发送给接收者的实体正文的媒体类型）信息中得到；所述压缩算法从http协议消息报头的Content-Encoding（被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制进行解码）信息中得到。

[0019] 步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计，由于原始报文内容中可能包括音频、视频、html数据等数据信息，这里只需要对html数据进行分析即可。其中，html数据格式如下：

…
…

…

我们只需要根据该格式解析html数据内容，获取与之间的数据，即为网页标题。

[0020] 请参照图2所示，一种网页浏览记录统计系统，具体包括数据采集模块，当一个应用程序建立起网络连接时，传输驱动程序接口TDI的建立连接事件就被触发，并会获取到用于建立连接的本地端口（假设为S1）；当应用层开始传输数据时，传输驱动程序接口TDI的接收事件与发送事件就被触发，并会获取传输的Ip数据帧，然后对Ip数据帧进行备份，备份完后将原Ip数据帧放行，从而不影响网络的正常传输；数据传输完毕后，传输驱动程序接口TDI的关闭连接事件就被触发，从而结束对数据的获取；
数据分析模块，对获取的IP数据帧根据Tcp/Ip协议进行还原及分类，然后根据http协议特征进行数据类型判断及原始报文内容解析，并对得到的网页标题进行记录及统计；
该模块可详细为以下单元：
数据还原单元，先提取备份的Ip数据帧及本地端口S1，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；过滤完成后，根据建立连接时获取的本地端口S1和Tcp协议中的源端口、目的端口，将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类（S1类）中，并将应用层数据缓存到本地文件中；
判断分析单元，从本地文件中读取缓存的应用层数据，根据http协议在请求模式中包括请求行、消息报头及请求正文，在响应模式中包括状态行、消息报头及响应正文，判断读取的应用层数据是否为http协议数据，如果是，则对http协议的消息报头及请求行进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空；
其中，所述请求行的格式为：Method Request-URI HTTP-Version CRLF ， Method表示请求方法；Request-URL是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行；所述状态行格式为：HTTP-Version Status-Code Reason-Phrase CRLF ，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL信息和请求消息报头的Host（主要用于指定被请求资源的Internet主机和端口号）信息构成；所述报文类型从响应消息报头的Content-Type（用于指明发送给接收者的实体正文的媒体类型）信息中得到；所述压缩算法从http协议消息报头的Content-Encoding（被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制进行解码）信息中得到。

[0021] 解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计，由于原始报文内容中可能包括音频、视频、html数据等数据信息，这里只需要对html数据进行分析即可。其中，html数据格式如下：

…
…

…

我们只需要根据该格式解析html数据内容，获取与之间的数据，即为网页标题。

[0022] 综上所述，我们可以知道本发明具有以下优点：在统计浏览记录时，不需要考虑终端采用的浏览工具，具有更强的兼容性和稳定性；将该系统部署到网关后，可以有效采集经过该网关的数据，且分析的是原IP数据帧的一个备份，可以保证每次采集的数据只被分析一次，从而达到统计整个内网中的所有用户浏览网页的真实情况；可以避免因频繁切换窗口或浏览器升级时造成的重复统计、遗漏统计问题。

[0023] 虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

一种网页浏览记录统计方法及系统转让专利

申请号 : CN201410383144.X

文献号 : CN104158698A

文献日 : 2014-11-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱代林

申请人 : 厦门天锐科技有限公司

摘要 :

权利要求 :

说明书 :