一种基于信息抽取的多端数据监听采集方法转让专利

申请号 : CN202210946451.9

文献号 : CN115038089B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 程军黄金明张明杰

申请人 : 广州博今网络技术有限公司

摘要 :

本发明属于通信技术领域,提供了一种基于信息抽取的多端数据监听采集方法,通过由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;获取安全日志中的深度链接,从而过滤掉使用频率不大并有篡改嫌疑的日志设备,降低移动设备提供监听访问度计算的波动性,提高监听访问度的准确度,提高对移动设备的监听稳定性和安全性问题。

权利要求 :

1.一种基于信息抽取的多端数据监听采集方法,其特征在于,所述方法包括如下步骤:

S100,由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;

S200,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;

S300,获取安全日志中的深度链接;

其中,在S200中,所述网络请求信号为用户在移动设备的APP中点击链接标志时,按照深度链接自动绕过被链网站的首页而跳到具体内容页的请求信号;当移动设备发送网络请求信号时,获取网络请求信号中的深度链接并写入移动设备的日志文件,通过深度链接绕过被链网站首页直接链接到分页;所述网络请求信号中包括深度链接。

2.根据权利要求1所述的一种基于信息抽取的多端数据监听采集方法,其特征在于,在S100中,所述多端数据监听网络包括至少服务器端和移动设备,移动设备包括安装有IOS、鸿蒙系统或者安卓系统的移动设备;各个移动设备通过有线网络和/或无线网络与服务器端连接;有线网络和/或无线网络包括USB数据线连接、WiFi、蓝牙网络。

3.根据权利要求1所述的一种基于信息抽取的多端数据监听采集方法,其特征在于,在S200中,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志的方法包括:S201,以当前移动设备的监听进程捕捉到网络请求信号的时刻为T1,以当前移动设备的监听进程对应的服务器端接收完移动设备的日志文件的时刻为T2,则T1到T2之间的时间段为T3;以在时间段T3内所述日志文件中深度链接对应的被链网站与当前移动设备之间数据包的数量为监听访问度,或者以在时间段T3内所述日志文件中深度链接对应的被链网站的网站流量为监听访问度;

S202,设置2个空集合分别作为异动集合F1和对照集合F2;获取时间段T3内各个监听访问度大于0的时刻作为监听时刻;计算时间段T3内各个监听时刻之间的间隔时长的平均值为TGY;以i为时间段T3内监听时刻的序号,i∈[1,N1‑1],N1是时间段T3内监听时刻的数量;

在i的取值范围内遍历时间段T3内各个监听时刻,遍历方法具体为:判断时间段T3内第i个监听时刻T4之后的第i+2个监听时刻是否是在从T4到T4+2×TGY的时间段内发生,如果是则将时间段T3内第i个监听访问度D1、时间段T3内第i+1个监听访问度D2和时间段T3内第i+2个监听访问度D3的平均值加入集合F1中,如果否则将D1、D2和D2依次加入集合F2中;

S203,以F1(j)表示集合F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;

在j的取值范围内遍历集合F1中各个元素的值,如果所有的元素F1(j)满足条件:

F2Mean≥F1(j)≥F2Min或者条件:F1(j)≥F2Min+ASS×F2Max则将所述日志文件中标记为安全日志;否则将所述日志文件标记为存疑日志;

其中,ASS=exp(F1Min÷F1Mean)/exp(F1Mean÷F1Max);

其中,ASS为稳态访问系数;F2Mean为集合F2中所有元素的均值;F2Min表示集合F2中的最小值; F2Max表示集合F2中的最大值;F1Mean为集合F1中所有元素的均值;F1Min表示集合F1中的最小值;F1Max表示集合F1中的最大值。

4.根据权利要求3所述的一种基于信息抽取的多端数据监听采集方法,其特征在于,在S200中,包括以下步骤:S204,如果所述日志文件标记为存疑日志,则记集合F2中的各个大于F1Max的监听访问度的总数量为Toa1,集合F2中的各个小于F1Min的监听访问度的总数量为Toa2,当Toa1小于或者等于Toa2时,计算集合F2中的各个大于F1Max的各个监听访问度之和为监听高频指数;

计算集合F2中的各个小于F1Min的各个监听访问度之和为监听低频指数;当监听高频指数小于监听低频指数时,将该存疑日志标记为安全日志。

5.根据权利要求3所述的一种基于信息抽取的多端数据监听采集方法,其特征在于,在S200中,包括以下步骤:S204,计算各个存疑日志的信息抽取度,具体为:

以服务器端在时间段T3中获取的存疑日志的数量为N3,以log(h)表示第h个存疑日志,h∈[1,N3],则每个存疑日志log(h)对应有一个异动集合F1和对照集合F2,则以F1(j)表示F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;以F2(k)表示F2第k个元素,k∈[2,N4],N4是集合F2的元素数量;

计算第h个存疑日志log(h)的信息抽取度LogSafe(h)的公式为:

exp是求指数的函数,PeakGap是异动差值,PeakGap=|F2Max‑F1Max|;F1Max表示集合F1中的最大值,F2Max表示集合F2中的最大值;

S205,计算所有存疑日志的信息抽取度的平均值Ymean,筛选出各个信息抽取度小于或者等于Ymean的所有存疑日志标记为安全日志。

说明书 :

一种基于信息抽取的多端数据监听采集方法

技术领域

[0001] 本发明属于通信技术领域,具体是一种基于信息抽取的多端数据监听采集方法。

背景技术

[0002] 现有的数据监听被广泛应用于数据安全场景,通过信息抽取可对数据有目标地采集并且利用。例如在用户对移动设备的深度链接进行数据监听操作过程中,根据应用场景的不同,在操作过程需要从一个客户端转移到另一个客户端时,往往数据监听不具有延续性,在重新进行客户端登录后,由于系统级的APP日志数据内容不同,往往丢失监听对象或者无法准确监听深度链接。
[0003] 为解决该问题,现有的方法是,将监听程序的配置文件加入目标APP后,监听程序即可读取系统级的APP日志数据,再通过信息抽取的方法拿到深度链接,再为深度链接添加操作人员的用户标识或其他操作人员的信息或者属性,使深度链接具有操作人员的用户属性,从而在操作需要从一个客户端转移到另一个客户端时,只需将具有用户属性的深度链接发送到另一个客户端的APP,另一个客户端的APP则无须要求操作人员重新登录或者补充已有的信息或者属性,大大节省操作时间,降低操作冗余性;然而在监听程序读取系统级的APP日志数据时,构建用于信息抽取的规则模型需要耗费大量的系统资源和时间,目前尚未有方法能够压缩多端数据监听的时间,提高多端数据监听网络的监听的确度并且无法保障深度链接的安全性。

发明内容

[0004] 本发明的目的在于提出一种基于信息抽取的多端数据监听采集方法,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0005] 为了实现上述目的,本发明提出一种基于信息抽取的多端数据监听采集方法,具体包括以下步骤:
[0006] S100,由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;
[0007] S200,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;
[0008] S300,获取安全日志中的深度链接。
[0009] 进一步地,在S100中,所述多端数据监听网络包括至少服务器端和移动设备,移动设备包括安装有IOS、鸿蒙系统或者安卓系统的移动设备;各个移动设备通过有线网络和/或无线网络与服务器端连接。
[0010] 优选地,有线网络和/或无线网络至少包括USB数据线连接、WiFi、蓝牙等网络。
[0011] 进一步地,在S100中,打开移动设备中的监听进程的方法包括:如果移动设备为安卓系统,则开启安卓系统的调试模式,通过安卓系统的ADB命令对服务器端进行授权,从而开启移动设备中的监听进程后开始监听移动设备中日志文件中的深度链接。
[0012] 进一步地,在S100中,打开移动设备中的监听进程的方法包括:如果移动设备为IOS或者鸿蒙系统,则将与监听进程相关联的配置文件加入移动设备中并重新编译后开始监听移动设备中日志文件中的深度链接。
[0013] 进一步地,所述深度链接包括不同的客户编码作为其参数的一部分,在跳转时将该客户编码传输到应用程序,此时应用程序无须再要求访问人重新登录即可识别,比如发给各个客户的深度链接都包括custId=xxx(xxx为用户的ID号)的标识作为客户编码。因此能够允许用户把提供带有相应的客户编码的深度链接,即可为用户提供端到端的客户行为跟踪服务。
[0014] 进一步地,深度链接是URI(网络统一资源标识符),该URI指定特定应用程序、该应用程序将要访问的资源内容、以及当使用深度链接启动该应用程序时应该被实例化的特定用户界面。
[0015] 进一步地,每个深度链接都链接至相应的应用程序,从而使得当用户与在移动设备上引用特定资源的链接交互时,在安装在该移动设备上并且提供最高排名的用户体验以便呈现特定资源的应用程序中呈现该特定资源。
[0016] 进一步地,在S200中,网络请求信号为用户在移动设备的APP中点击链接标志时,按照深度链接自动绕过被链网站的首页而跳到具体内容页的请求信号;当移动设备发送网络请求信号时,获取网络请求信号中的深度链接并写入移动设备的日志文件,通过深度链接绕过被链网站首页直接链接到分页,此时监听进程捕捉到移动设备的网络请求信号;所述网络请求信号中包括深度链接。
[0017] 由于在多端操作的应用场景下,往往各个客户端都集中在相同的地理区域,或者都集中在相同的基站的通信范围之内,日志文件很容易被恶意程序或者带有木马后门的网站监测到并进行更新或篡改为木马链接或者恶意链接,所以在获取日志文件时需要识别出安全的日志文件,具体为:
[0018] 进一步地,在S200中,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志的方法包括:
[0019] S201,以当前移动设备的监听进程捕捉到网络请求信号的时刻为T1,以当前移动设备的监听进程对应的服务器端接收完移动设备的日志文件的时刻为T2,则T1到T2之间的时间段为T3;以在时间段T3内所述日志文件深度链接对应的被链网站与当前移动设备之间数据包的数量为监听访问度,或者以在时间段T3内所述日志文件中深度链接对应的被链网站的网站流量为监听访问度(以此为监听访问度能够准确的避免高频的异常网站,提升监听的准确度);
[0020] S202,设置2个空集合分别作为异动集合F1和对照集合F2;获取时间段T3内各个监听访问度大于0的时刻作为监听时刻;计算时间段T3内各个监听时刻之间的间隔时长的平均值为TGY;以i为时间段T3内监听时刻的序号,i∈[1,N1‑1],N1是时间段T3内监听时刻的数量;
[0021] 在i的取值范围内遍历时间段T3内各个监听时刻,遍历方法具体为:判断时间段T3内第i个监听时刻T4之后的第i+2个监听时刻是否是在从T4到T4+2×TGY的时间段内发生,如果是则将时间段T3内第i个监听访问度D1、时间段T3内第i+1个监听访问度D2和时间段T3内第i+2个监听访问度D3的平均值加入集合F1中,如果否则将D1、D2和D2依次加入集合F2中(集合F1中为T3内高频的异常监听访问度的平均值,集合F2中为T3内正常监听访问度);
[0022] S203,以F1(j)表示F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;
[0023] 在j的取值范围内遍历集合F1中各个元素的值,如果所有的元素F1(j)满足条件:F2Mean≥F1(j)≥F2Min或者条件:F1(j)≥F2Min+ASS×F2Max,则将所述日志文件中标记为安全日志;否则将所述日志文件标记为存疑日志;
[0024] 其中,ASS=exp(F1Min÷F1Mean)/exp(F1Mean÷F1Max);
[0025] 其中,ASS为稳态访问系数,用于表示出集合中高频的异常监听访问度的指数占比;F2Mean为集合F2中所有元素的均值;F2Min表示集合F2中的最小值; F2Max表示集合F2中的最大值;F1Mean为集合F1中所有元素的均值;F1Min表示集合F1中的最小值;F1Max表示集合F1中的最大值。
[0026] 因此,通过以上方法过滤掉可能导致这种信息安全隐患的存疑日志,以提高后续计算信息抽取度的精度。
[0027] 优选地,在S200中,包括以下步骤:
[0028] S204,如果所述日志文件标记为存疑日志,则记集合F2中的各个大于F1Max的监听访问度的总数量为Toa1,集合F2中的各个小于F1Min的监听访问度的总数量为Toa2,当Toa1小于或者等于Toa2时,计算集合F2中的各个大于F1Max的各个监听访问度之和为监听高频指数;计算集合F2中的各个小于F1Min的各个监听访问度之和为监听低频指数;当监听高频指数小于监听低频指数时,将该存疑日志标记为安全日志(监听低频指数和监听低频指数能够根据监听访问度的趋势变化有效的示出日志中的链接对应的网站的安全性)。
[0029] 由于存疑日志中深度链接对应的被链网站可能是虚假的攻击网站或者木马网站,所以还需要通过以下方式进行甄别区分出正常的深度链接对应的被链网站的日志文件,具体为:
[0030] 优选地,在S200中,包括以下步骤:
[0031] S204,计算各个存疑日志的信息抽取度,具体为:
[0032] 以服务器端在时间段T3中获取的存疑日志的数量为N3,以log(h)表示第h个存疑日志,h∈[1,N3],则每个存疑日志log(h)对应有一个异动集合F1和对照集合F2,则以F1(j)表示F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;以F2(k)表示F2第k个元素,k∈[2,N4],N4是集合F2的元素数量;
[0033] 计算第h个存疑日志log(h)的信息抽取度LogSafe(h)的公式为:
[0034] ;
[0035] exp是求指数的函数,PeakGap是异动差值,PeakGap=|F2Max‑F1Max|;F1Max表示集合F1中的最大值,F2Max表示集合F2中的最大值;
[0036] S205,计算所有存疑日志的信息抽取度的平均值Ymean,筛选出各个信息抽取度小于或者等于Ymean的所有存疑日志标记为安全日志。
[0037] 有益效果为:计算信息抽取度有助于获取多端数据监听网络中的存疑日志在通信数据包溢出或者访问流量异常的条件下的强度的稳定性水平,即从存疑日志中通过计算信息抽取度筛选出其中信息抽取度小于或者等于各个存疑日志的信息抽取度的平均值的存疑日志作为稳定的安全日志,从所有的监听存疑日志中判断通信数据包或者访问流量是否会产生强波动性从而鉴别出安全日志数据的安全性。
[0038] 本发明还提供了一种基于信息抽取的多端数据监听采集系统,所述一种基于信息抽取的多端数据监听采集系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于信息抽取的多端数据监听采集方法中的步骤,所述一种基于信息抽取的多端数据监听采集系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:
[0039] 监听网络构建单元,用于由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;
[0040] 日志智能鉴定单元,用于当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;
[0041] 链接解析单元,用于获取安全日志中的深度链接。
[0042] 本发明的有益效果为:本发明通过提供一种基于信息抽取的多端数据监听采集方法,智能的筛选出来短时内日志文件没有被频繁访问和篡改的移动设备,从而过滤掉使用频率不大并有篡改嫌疑的日志设备,降低移动设备提供监听访问度计算的波动性,提高监听访问度的准确度,提高对移动设备的监听稳定性和安全性问题。

附图说明

[0043] 通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
[0044] 图1为一种基于信息抽取的多端数据监听采集方法的流程图;
[0045] 图2为一种基于信息抽取的多端数据监听采集系统的结构图。

具体实施方式

[0046] 以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
[0047] 如图1所示为根据本发明的一种基于信息抽取的多端数据监听采集方法的流程图,根据图1来阐述根据本发明的实施方式的一种基于信息抽取的多端数据监听采集方法,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
[0048] S100,由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;
[0049] S200,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;
[0050] S300,获取安全日志中的深度链接。
[0051] 进一步地,在S100中,所述多端数据监听网络包括至少服务器端和移动设备,移动设备包括安装有IOS、鸿蒙系统或者安卓系统的移动设备;各个移动设备通过有线网络和/或无线网络与服务器端连接。
[0052] 优选地,有线网络和/或无线网络至少包括USB数据线连接、WiFi、蓝牙等网络。
[0053] 进一步地,在S100中,打开移动设备中的监听进程的方法包括:如果移动设备为安卓系统,则开启安卓系统的调试模式,通过安卓系统的ADB命令对服务器端进行授权,从而开启移动设备中的监听进程后开始监听移动设备中日志文件中的深度链接。
[0054] 进一步地,在S100中,打开移动设备中的监听进程的方法包括:如果移动设备为IOS或者鸿蒙系统,则将与监听进程相关联的配置文件加入移动设备中并重新编译后开始监听移动设备中日志文件中的深度链接。
[0055] 进一步地,所述深度链接包括不同的客户编码作为其参数的一部分,在跳转时将该客户编码传输到应用程序,此时应用程序无须再要求访问人重新登录即可识别,比如发给各个客户的深度链接都包括custId=xxx(xxx为用户的ID号)的标识作为客户编码。因此能够允许用户把提供带有相应的客户编码的深度链接,即可为用户提供端到端的客户行为跟踪服务。
[0056] 进一步地,深度链接是URI(网络统一资源标识符),该URI指定特定应用程序、该应用程序将要访问的资源内容、以及当使用深度链接启动该应用程序时应该被实例化的特定用户界面。
[0057] 进一步地,每个深度链接都链接至相应的应用程序,从而使得当用户与在移动设备上引用特定资源的链接交互时,在安装在该移动设备上并且提供最高排名的用户体验以便呈现特定资源的应用程序中呈现该特定资源。
[0058] 进一步地,在S200中,网络请求信号为用户在移动设备的APP中点击链接标志时,按照深度链接自动绕过被链网站的首页而跳到具体内容页的请求信号;当移动设备发送网络请求信号时,获取网络请求信号中的深度链接并写入移动设备的日志文件,通过深度链接绕过被链网站首页直接链接到分页,此时监听进程捕捉到移动设备的网络请求信号;所述网络请求信号中包括深度链接。
[0059] 由于在多端操作的应用场景下,往往各个客户端都集中在相同的地理区域,或者都集中在相同的基站的通信范围之内,日志文件很容易被恶意程序或者带有木马后门的网站监测到并进行更新或篡改为木马链接或者恶意链接,所以在获取日志文件时需要识别出安全的日志文件,具体为:
[0060] 进一步地,在S200中,当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志的方法包括:
[0061] S201,以当前移动设备的监听进程捕捉到网络请求信号的时刻为T1,以当前移动设备的监听进程对应的服务器端接收完移动设备的日志文件的时刻为T2,则T1到T2之间的时间段为T3;以在时间段T3内所述日志文件深度链接对应的被链网站与当前移动设备之间数据包的数量为监听访问度,或者以在时间段T3内所述日志文件中深度链接对应的被链网站的网站流量为监听访问度(以此为监听访问度能够准确的避免高频的异常网站,提升监听的准确度);
[0062] S202,设置2个空集合分别作为异动集合F1和对照集合F2;获取时间段T3内各个监听访问度大于0的时刻作为监听时刻;以时间段T3内第i个监听时刻对应的监听访问度为Ld1;时间段T3内第i+1个监听时刻对应的监听访问度为Ld2;计算时间段T3内各个监听时刻之间的间隔时长的平均值为TGY;其中i为时间段T3内监听时刻的序号,i∈[1,N1‑1],N1是时间段T3内监听时刻的数量;
[0063] 在i的取值范围内遍历时间段T3内各个监听时刻,遍历方法具体为:判断时间段T3内第i个监听时刻T4之后的第i+2个监听时刻是否是在从T4到T4+2×TGY的时间段内发生,如果是则将时间段T3内第i个监听访问度D1、时间段T3内第i+1个监听访问度D2和时间段T3内第i+2个监听访问度D3的平均值加入集合F1中,如果否则将D1、D2和D2依次加入集合F2中(集合F1中为T3内高频的异常监听访问度的平均值,集合F2中为T3内正常监听访问度);
[0064] S203,以F1(j)表示F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;
[0065] 在j的取值范围内遍历集合F1中各个元素的值,如果所有的元素F1(j)满足条件:F2Mean≥F1(j)≥F2Min或者条件:F1(j)≥F2Min+ASS×F2Max,则将所述日志文件中标记为安全日志;否则将所述日志文件标记为存疑日志;
[0066] 其中,ASS=exp(F1Min÷F1Mean)/exp(F1Mean÷F1Max);
[0067] 其中,ASS为稳态访问系数,用于表示出集合中高频的异常监听访问度的指数占比;F2Mean为集合F2中所有元素的均值;F2Min表示集合F2中的最小值; F2Max表示集合F2中的最大值;F1Mean为集合F1中所有元素的均值;F1Min表示集合F1中的最小值;F1Max表示集合F1中的最大值。
[0068] 因此,通过以上方法过滤掉可能导致这种信息安全隐患的存疑日志,以提高后续计算信息抽取度的精度。
[0069] 优选地,在S200中,包括以下步骤:
[0070] S204,如果所述日志文件标记为存疑日志,则记集合F2中的各个大于F1Max的监听访问度的总数量为Toa1,集合F2中的各个小于F1Min的监听访问度的总数量为Toa2,当Toa1小于或者等于Toa2时,计算集合F2中的各个大于F1Max的各个监听访问度之和为监听高频指数;计算集合F2中的各个小于F1Min的各个监听访问度之和为监听低频指数;当监听高频指数小于监听低频指数时,将该存疑日志标记为安全日志。
[0071] 由于存疑日志中深度链接对应的被链网站可能是虚假的攻击网站或者木马网站,所以还需要通过以下方式进行甄别区分出正常的深度链接对应的被链网站的日志文件,具体为:
[0072] 优选地,在S200中,包括以下步骤:
[0073] S204,计算各个存疑日志的信息抽取度,具体为:
[0074] 以服务器端在时间段T3中获取的存疑日志的数量为N3,以log(h)表示第h个存疑日志,h∈[1,N3],则每个存疑日志log(h)对应有一个异动集合F1和对照集合F2,则以F1(j)表示F1第j个元素,j∈[1,N2],N2是集合F1的元素数量;以F2(k)表示F2第k个元素,k∈[2,N4],N4是集合F2的元素数量;
[0075] 计算第h个存疑日志log(h)的信息抽取度LogSafe(h)的公式为:
[0076] ;
[0077] exp是求指数的函数,PeakGap是异动差值,PeakGap=|F2Max‑F1Max|;F1Max表示集合F1中的最大值,F2Max表示集合F2中的最大值;
[0078] S205,计算所有存疑日志的信息抽取度的平均值Ymean,筛选出各个信息抽取度小于或者等于Ymean的所有存疑日志标记为安全日志。
[0079] 有益效果为:计算信息抽取度有助于获取多端数据监听网络中的存疑日志在通信数据包溢出或者访问流量异常的条件下的强度的稳定性水平,即从存疑日志中通过计算信息抽取度筛选出其中信息抽取度小于或者等于各个存疑日志的信息抽取度的平均值的存疑日志作为稳定的安全日志,从所有的监听存疑日志中判断通信数据包或者访问流量是否会产生强波动性从而鉴别出安全日志数据的安全性。
[0080] 本发明的实施例提供的一种基于信息抽取的多端数据监听采集系统,如图2所示,该实施例的一种基于信息抽取的多端数据监听采集系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于信息抽取的多端数据监听采集方法实施例中的步骤,所述处理器执行所述计算机程序运行在以下系统的单元中:
[0081] 监听网络构建单元,用于由服务器端和移动设备连接构成多端数据监听网络;打开移动设备中的监听进程;
[0082] 日志智能鉴定单元,用于当监听进程捕捉到移动设备的网络请求信号后,获取移动设备的日志文件中的安全日志;
[0083] 链接解析单元,用于获取安全日志中的深度链接。
[0084] 所述一种基于信息抽取的多端数据监听采集系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种基于信息抽取的多端数据监听采集系统包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于信息抽取的多端数据监听采集方法的示例,并不构成对一种基于信息抽取的多端数据监听采集方法的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于信息抽取的多端数据监听采集系统还可以包括输入输出设备、网络接入设备、总线等。
[0085] 所述一种基于信息抽取的多端数据监听采集系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于信息抽取的多端数据监听采集方法实施例中的步骤,所述一种基于信息抽取的多端数据监听采集系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群。
[0086] 所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器  (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field‑Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于信息抽取的多端数据监听采集系统的控制中心,利用各种接口和线路连接整个一种基于信息抽取的多端数据监听采集系统的各个分区域。
[0087] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于信息抽取的多端数据监听采集方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0088] 尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。