一种基于特征向量的相似恶意样本匹配方法及系统专利检索-特征向量数学与统计专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

一种基于特征向量的相似恶意样本匹配方法及系统

阅读：1066发布：2020-06-30

IPRDB可以提供一种基于特征向量的相似恶意样本匹配方法及系统专利检索，专利查询，专利分析的服务。并且本发明提出了一种基于特征向量的相似恶意样本文件匹配方法及系统,本发明首先提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量样本中快速发现恶意样本文件的共性，查询到所需的相似样本，并生成报告以提供给相关人员进行分析。，下面是一种基于特征向量的相似恶意样本匹配方法及系统专利的具体信息内容。

权利要求

1.一种基于特征向量的相似恶意样本文件匹配方法,其特征在于，包括：提取海量恶意样本文件库中的各恶意样本文件的行为特征；

过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；

所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量n]；

获取待查询样本文件的待查询特征向量组；

求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；

所述求取样本相似度的具体方法为：

将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；

求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；

所述的全部行为特征向量权重总和为1。

2.如权利要求1所述的方法，其特征在于，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。

3.如权利要求2所述的方法，其特征在于，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；

计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；

逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；

基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

4.一种基于特征向量的相似恶意样本文件匹配系统, 其特征在于，包括：恶意样本文件库处理模块，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；

所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量n]；

待查询样本文件处理模块，用于获取待查询样本文件的待查询特征向量组；

匹配计算模块，用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；

所述求取样本相似度的具体方法为：

将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；

所述的全部行为特征向量权重总和为1。

5.如权利要求4所述的系统，其特征在于，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件进行过滤。

6.如权利要求5所述的系统，其特征在于，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；

计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；

逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；

基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

说明书全文

一种基于特征向量的相似恶意样本匹配方法及系统

[0001]

技术领域

[0002] 本发明涉及信息安全技术领域，尤其涉及一种基于特征向量的相似恶意样本匹配方法及系统。

背景技术

[0003] 随着近些年来数据的井喷式的增长，在网络安全这个领域，恶意程序的种类、数量也在飞速增长。如何能够在这海量的恶意代码中，发现恶意代码的共性，对于反病毒技术的发展有着很大的帮助。

发明内容

[0004] 针对上述技术问题，本发明提供了一种基于特征向量的相似恶意样本匹配方法及系统，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，以提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。

[0005] 本发明采用如下方法来实现：一种基于特征向量的相似恶意样本匹配方法，包括：提取海量恶意样本文件库中的各恶意样本文件的行为特征；
过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；
所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量n]；
获取待查询样本文件的待查询特征向量组；
求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；
所述求取样本相似度的具体方法为：
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；
所述的全部行为特征向量权重总和为1。

[0006] 进一步地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。

[0007] 进一步地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；
计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；
逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

[0008] 本发明采用如下系统来实现：一种基于特征向量的相似恶意样本匹配系统，包括：恶意样本文件库处理模块，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；
过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；
所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量n]；
待查询样本文件处理模块，用于获取待查询样本文件的待查询特征向量组；
匹配计算模块，用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；
所述求取样本相似度的具体方法为：
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；
所述的全部行为特征向量权重总和为1。

[0009] 进一步地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件进行过滤。

[0010] 进一步地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；
计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；
逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

[0011] 综上所述，本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，并生成报告以提供给相关人员进行分析。

[0012] 本发明的有益效果为：本发明基于恶意样本文件的行为特征向量，使用了有效的相似样本匹配算法，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，以提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。

附图说明

[0013] 为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0014] 图1为本发明提供的一种基于特征向量的相似恶意样本匹配方法实施例流程图；图2为本发明提供的一种基于特征向量的相似恶意样本匹配系统实施例结构图。

具体实施方式

[0015] 本发明给出了一种基于特征向量的相似恶意样本匹配方法及系统，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明：本发明首先提供了一种基于特征向量的相似恶意样本匹配方法实施例，如图1所示，包括：
S101提取海量恶意样本文件库中的各恶意样本文件的行为特征；
其中，所述行为特征包括恶意样本文件访问的URL，IP，域名等信息；
S102过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；
所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；
所述行为特征向量的结构
为：行为特征类型：[行为分量1，行为分量2…行为分量n]；
其中，过滤所述行为特征是基于原有的恶意样本库进行的。

[0016] 具体实例如下：假设MD5值为E13A8763AE6F65DF4C72D130B6696056恶意样本文件的行为特征向量组的具体形式如下：
URL：[http://46.211.87.16/mod2/safpro1.exe,http://89.149.101.121/mod1/safpro1.exe, http://188.0.133.161/mod1/safpro1.exe] ；
域名:[“188.0.133.161”,”www.baidu.com”, “www.google.com”]
IP:[39.119.165.76,178.151.173.178,46.148.53.253,86.100.8.75,89.149.101.12
1, 188.0.133.161, 74.82.216.5, 95.141.42.87, 65.98.83.117]
其中，由于www.baidu.com和www.google.com是普通常见的域名，很明显不属于恶意样本文件的行为特征，因此被过滤掉。

[0017] 计算过滤后的各行为特征的hash值如下：URL：[c62f6e80, a097745c, 4b865ed5]
域名: [11b3c408]
IP: [180a97dd, 5ecdccfe, 12d99ac4, 918f478b, 8c870f31, 11b3c408, fbab2cfa, 62f10103, d65c4fb7]
从上述可知，行为特征URL、域名以及IP分别包含3个、1个以及9个行为分量。

[0018] 其中，基于海量恶意样本的行为特征向量组生成倒挂索引表，所述倒挂索引表的结构为：行为分量i：[样本文件1的MD5值、样本文件2的MD5值…样本文件P的MD5值]，其中，所述1<=i<=n；所述样本文件P的MD5值为，海量恶意样本文件的特征向量组中具备行为分量i的恶意样本文件的MD5值；行为特征向量URL的索引表如下：
c62f6e80 :[E13A8763AE6F65DF4C72D130B6696056,…]
a097745c:[E13A8763AE6F65DF4C72D130B6696056,…]
4b865ed5 :[E13A8763AE6F65DF4C72D130B6696056,…]
S103获取待查询样本文件的待查询特征向量组；
S104求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；
所述求取样本相似度的具体方法为：
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；
所述的全部行为特征向量权重总和为1。

[0019] 其中，目标相似度为人为设定值。在此，假设目标相似度的值为90%，URL、域名以及IP行为特征向量的预设权重分别为20%，20%，60%。

[0021] 优选地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。

[0022] 优选地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；
计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；
逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

[0023] 其中，计算公式如下：x>n-(1-Wd)*n/Wc。Wd为目标相似度。Wc该行为特征类型的行为特征向量的预设权重，x为所求该类行为特征的至少匹配的数目，n该行为特征类型下所包含行为分量的总数目。

[0024] 则计算过程如下：URL至少匹配的数目为2-（1-90%）*2/20%=1个，
域名至少匹配的数目为1-（1-90%）* 1 / 20% = 1个
IP至少匹配的数目为9 -（1-90%）* 9 / 60% = 8个
计算行为分量的子权重的过程为：
每个URL行为分量的子权重为20% / 2 = 10%
每个域名行为分量的子权重20% / 1 = 20%
每个IP行为分量的子权重60% / 9 = 6.67%
由上述可知，从大到小排列，形成倒叙子权重列表为[域名行为分量1，URL行为分量1，URL行为分量2，IP行为分量1,……IP行为分量9]，其中，每类行为特征类型间的行为分量排序不分先后。

[0025] 逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；因此最少匹配总数至少为1+2+8=11个。

[0026] 预设过滤条件为，URL，域名以及IP至少匹配的数目分别为1个，1个，8个。最少匹配总数不得少于11个。

[0027] 本发明其次提供了一种基于特征向量的相似恶意样本匹配系统实施例，如图2所示，包括：恶意样本文件库处理模块201，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；
过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；
所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量n]；
待查询样本文件处理模块202，用于获取待查询样本文件的待查询特征向量组；
匹配计算模块203，用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；
所述求取样本相似度的具体方法为：
将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；
求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；
所述的全部行为特征向量权重总和为1。

[0028] 优选地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。

[0029] 优选地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；
计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；
逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；
基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。

[0030] 综上所述，本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，并生成报告以提供给相关人员进行分析。

[0031] 本发明的有益效果为：本发明基于恶意样本文件的行为特征向量，使用了有效的相似样本匹配算法，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，以提供给相关人员进行分析。能有有效解决了传统方法中检索速度慢、耗时长等技术问题。

[0032] 以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。

标题	发布/更新时间	阅读量
基于干扰特征向量数据集的1比1人脸特征向量比对方法-专利编号CN107657216A	2020-05-11	185
生物体特征向量提取装置以及生物体特征向量提取方法-专利编号CN104346619B	2020-05-11	471
人脸特征向量构建-专利编号CN103198292A	2020-05-11	1009
特征向量补偿装置和特征向量补偿方法-专利编号CN101051461A	2020-05-11	639
生成特征向量和基于特征向量进行文本分类的方法和装置-专利编号CN110119445A	2020-05-12	646
基于干扰特征向量数据集的1比N人脸特征向量比对方法-专利编号CN107704809A	2020-05-12	1009
生物体特征向量提取装置以及生物体特征向量提取方法-专利编号CN104346619A	2020-05-13	640
特征向量生成装置，搜索装置，特征向量生成方法和搜索方法-专利编号CN1773507A	2020-05-12	567
特征向量降维方法和装置-专利编号CN110046670A	2020-05-13	194
一种心电图特征向量提取方法-专利编号CN110141245A	2020-05-13	264

一种基于特征向量的相似恶意样本匹配方法及系统

一种基于特征向量的相似恶意样本匹配方法及系统

技术领域

背景技术

发明内容

附图说明

具体实施方式

IPRDB

热门服务

关于我们

友情链接

联系方式