会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 数学与统计 / 特征向量 / 一种基于特征向量的相似恶意样本匹配方法及系统

一种基于特征向量的相似恶意样本匹配方法及系统

阅读:1066发布:2020-06-30

IPRDB可以提供一种基于特征向量的相似恶意样本匹配方法及系统专利检索,专利查询,专利分析的服务。并且本发明提出了一种基于特征向量的相似恶意样本文件匹配方法及系统,本发明首先 提取海量恶意样本文件库中的各恶意样本文件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组;获取待查询样本文件的待查询特征向量组;求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量样本中快速发现恶意样本文件的共性,查询到所需的相似样本,并生成报告以提供给相关人员进行分析。,下面是一种基于特征向量的相似恶意样本匹配方法及系统专利的具体信息内容。

1.一种基于特征向量的相似恶意样本文件匹配方法,其特征在于,包括:提取海量恶意样本文件库中的各恶意样本文件的行为特征;

过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;

所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];

获取待查询样本文件的待查询特征向量组;

求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;

所述求取样本相似度的具体方法为:

将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;

求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;

所述的全部行为特征向量权重总和为1。

2.如权利要求1所述的方法,其特征在于,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件库进行过滤。

3.如权利要求2所述的方法,其特征在于,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;

计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;

逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;

基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

4.一种基于特征向量的相似恶意样本文件匹配系统, 其特征在于,包括:恶意样本文件库处理模块,用于提取海量恶意样本文件库中的各恶意样本文件的行为特征;

过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;

所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];

待查询样本文件处理模块,用于获取待查询样本文件的待查询特征向量组;

匹配计算模块,用于求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;

所述求取样本相似度的具体方法为:

将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;

求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;

所述的全部行为特征向量权重总和为1。

5.如权利要求4所述的系统, 其特征在于,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件进行过滤。

6.如权利要求5所述的系统,其特征在于,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;

计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;

逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;

基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

说明书全文

一种基于特征向量的相似恶意样本匹配方法及系统

[0001]

技术领域

[0002] 本发明涉及信息安全技术领域,尤其涉及一种基于特征向量的相似恶意样本匹配方法及系统。

背景技术

[0003] 随着近些年来数据的井喷式的增长,在网络安全这个领域,恶意程序的种类、数量也在飞速增长。如何能够在这海量的恶意代码中,发现恶意代码的共性,对于反病毒技术的发展有着很大的帮助。

发明内容

[0004] 针对上述技术问题,本发明提供了一种基于特征向量的相似恶意样本匹配方法及系统,能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,生成报告,以提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。
[0005] 本发明采用如下方法来实现:一种基于特征向量的相似恶意样本匹配方法,包括:提取海量恶意样本文件库中的各恶意样本文件的行为特征;
过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;
所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];
获取待查询样本文件的待查询特征向量组;
求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;
所述求取样本相似度的具体方法为:
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;
所述的全部行为特征向量权重总和为1。
[0006] 进一步地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件库进行过滤。
[0007] 进一步地,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;
计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;
逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0008] 本发明采用如下系统来实现:一种基于特征向量的相似恶意样本匹配系统,包括:恶意样本文件库处理模块,用于提取海量恶意样本文件库中的各恶意样本文件的行为特征;
过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;
所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];
待查询样本文件处理模块,用于获取待查询样本文件的待查询特征向量组;
匹配计算模块,用于求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;
所述求取样本相似度的具体方法为:
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;
所述的全部行为特征向量权重总和为1。
[0009] 进一步地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件进行过滤。
[0010] 进一步地,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;
计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;
逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0011] 综上所述,本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组;获取待查询样本文件的待查询特征向量组;求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,并生成报告以提供给相关人员进行分析。
[0012] 本发明的有益效果为:本发明基于恶意样本文件的行为特征向量,使用了有效的相似样本匹配算法,能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,生成报告,以提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。

附图说明

[0013] 为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014] 图1为本发明提供的一种基于特征向量的相似恶意样本匹配方法实施例流程图;图2为本发明提供的一种基于特征向量的相似恶意样本匹配系统实施例结构图。

具体实施方式

[0015] 本发明给出了一种基于特征向量的相似恶意样本匹配方法及系统,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:本发明首先提供了一种基于特征向量的相似恶意样本匹配方法实施例,如图1所示,包括:
S101提取海量恶意样本文件库中的各恶意样本文件的行为特征;
其中,所述行为特征包括恶意样本文件访问的URL,IP,域名等信息;
S102过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组;
所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;
所述行为特征向量的结构
为:行为特征类型:[行为分量1,行为分量2…行为分量n];
其中,过滤所述行为特征是基于原有的恶意样本库进行的。
[0016] 具体实例如下:假设MD5值为E13A8763AE6F65DF4C72D130B6696056恶意样本文件的行为特征向量组的具体形式如下:
URL:[http://46.211.87.16/mod2/safpro1.exe,http://89.149.101.121/mod1/safpro1.exe, http://188.0.133.161/mod1/safpro1.exe] ;
域名:[“188.0.133.161”,”www.baidu.com”, “www.google.com”]
IP:[39.119.165.76,178.151.173.178,46.148.53.253,86.100.8.75,89.149.101.12
1, 188.0.133.161, 74.82.216.5, 95.141.42.87, 65.98.83.117]
其中,由于www.baidu.com和www.google.com是普通常见的域名,很明显不属于恶意样本文件的行为特征,因此被过滤掉。
[0017] 计算过滤后的各行为特征的hash值如下:URL:[c62f6e80, a097745c, 4b865ed5]
域名: [11b3c408]
IP: [180a97dd, 5ecdccfe, 12d99ac4, 918f478b, 8c870f31, 11b3c408, fbab2cfa, 62f10103, d65c4fb7]
从上述可知,行为特征URL、域名以及IP分别包含3个、1个以及9个行为分量。
[0018] 其中,基于海量恶意样本的行为特征向量组生成倒挂索引表,所述倒挂索引表的结构为:行为分量i:[样本文件1的MD5值、样本文件2的MD5值…样本文件P的MD5值],其中,所述1<=i<=n;所述样本文件P的MD5值为,海量恶意样本文件的特征向量组中具备行为分量i的恶意样本文件的MD5值;行为特征向量URL的索引表如下:
c62f6e80 :[E13A8763AE6F65DF4C72D130B6696056,…]
a097745c:[E13A8763AE6F65DF4C72D130B6696056,…]
4b865ed5 :[E13A8763AE6F65DF4C72D130B6696056,…]
S103获取待查询样本文件的待查询特征向量组;
S104求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;
所述求取样本相似度的具体方法为:
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;
所述的全部行为特征向量权重总和为1。
[0019] 其中,目标相似度为人为设定值。在此,假设目标相似度的值为90%,URL、域名以及IP行为特征向量的预设权重分别为20%,20%,60%。
[0020] 计算公式如下:(n∈I),I为待查询特征向量组, weight(n)为第n类行为
特征向量在待查询特征向量组中所占的权重,in(n)和ord(n)分别代表待查询特征向量组的行为特征向量和各恶意样本文件的行为特征向量。f(n) 为待查询样本文件与各恶意样本文件的样本相似度。计算过程举例如下:
假设恶意样本文件只包含三类行为特征,分别为URL、域名和IP;
则所有中间权重值之和Weight = Weight(UPL) * |in(URL)∩ord(URL)| / |in(URL)|+ Weight(域名) * |in(域名)∩in(域名)| / |in(域名)|+ Weight(ip) * |in(ip)∩ord(ip)| / |in(ip)| = 0.2*2/2+0.2*1/1+0.6*8/9 =93%。则可获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件。
[0021] 优选地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件库进行过滤。
[0022] 优选地,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;
计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;
逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0023] 其中,计算公式如下:x>n-(1-Wd)*n/Wc。Wd为目标相似度。Wc该行为特征类型的行为特征向量的预设权重,x为所求该类行为特征的至少匹配的数目,n该行为特征类型下所包含行为分量的总数目。
[0024] 则计算过程如下:URL至少匹配的数目为2-(1-90%)*2/20%=1个,
域名至少匹配的数目为1-(1-90%)* 1 / 20% = 1个
IP至少匹配的数目为9 -(1-90%)* 9 / 60% = 8个
计算行为分量的子权重的过程为:
每个URL行为分量的子权重为20% / 2 = 10%
每个域名行为分量的子权重20% / 1 = 20%
每个IP行为分量的子权重60% / 9 = 6.67%
由上述可知,从大到小排列,形成倒叙子权重列表为[域名行为分量1,URL行为分量1,URL行为分量2,IP行为分量1,……IP行为分量9],其中,每类行为特征类型间的行为分量排序不分先后。
[0025] 逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;因此最少匹配总数至少为1+2+8=11个。
[0026] 预设过滤条件为,URL,域名以及IP至少匹配的数目分别为1个,1个,8个。最少匹配总数不得少于11个。
[0027] 本发明其次提供了一种基于特征向量的相似恶意样本匹配系统实施例,如图2所示,包括:恶意样本文件库处理模块201,用于提取海量恶意样本文件库中的各恶意样本文件的行为特征;
过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;
所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];
待查询样本文件处理模块202,用于获取待查询样本文件的待查询特征向量组;
匹配计算模块203,用于求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;
所述求取样本相似度的具体方法为:
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;
所述的全部行为特征向量权重总和为1。
[0028] 优选地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本文件库进行过滤。
[0029] 优选地,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;
计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;
逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0030] 综上所述,本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组;获取待查询样本文件的待查询特征向量组;求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,并生成报告以提供给相关人员进行分析。
[0031] 本发明的有益效果为:本发明基于恶意样本文件的行为特征向量,使用了有效的相似样本匹配算法,能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,生成报告,以提供给相关人员进行分析。能有有效解决了传统方法中检索速度慢、耗时长等技术问题。
[0032] 以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用