一种基于chrome插件的危险网页识别方法转让专利

申请号 : CN201910720615.4

文献号 : CN110427579B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 成卫青刁健峰褚佳乐蔡晨阳

申请人 : 南京邮电大学

摘要 :

本发明公开了一种基于chrome插件的危险网页识别方法,包括根据网页中所有外部链接的URL提取支持向量机第一维度数据,根据页面html代码中所有 标签内嵌或引用的JavaScript代码提取支持向量机第二维度数据,根据提取到的支持向量机第一维度数据和第二维度数据求解支持向量机,输出是分离超平面的参数w*和b*以及分类决策函数,本发明通过比对域名与知名网页域名的相似程度,以及对网页内嵌或引用JavaScript代码进行分析来判别网页是否为危险网页,有效解决了已有网页安全性识别方法存在的准确率不够高和通用性不够强的问题。

权利要求 :

1.一种基于chrome插件的危险网页识别方法,其特征在于,包括如下步骤:

步骤1)根据网页中所有外部链接的URL提取支持向量机第一维度数据,步骤包括:

步骤1.1)提取一个网页中所有外部链接的URL;

步骤1.2)访问http://data.alexa.com,根据网页URL中的域名获得网页所在网站的Alexa排名;若该网站排名在1000名以内,直接将该网页视为安全,若该网站排名在1000名以外或索取不到排名,则危险因素零danger0置1;

步骤1.3)分析当前网页URL以及网页外部链接的URL中的各级域名,取其中最长的一级域名;若最长的一段域名长度大于18,危险因素三danger3置1,否则为0;对URL的划分方法如下:先以“/”划分URL,取其中的域名段,再在域名段用“.”划分,将各级域名作为字符串加入到一个数组中;

步骤1.4)对当前网页URL以及网页外部链接的URL进行再次切割并提取信息:若域名以“.com.cn”结尾,则提取三级域名;若不是,则提取二级域名;

步骤1.5)将从每个外部链接URL提取的域名与知名域名数据库中的域名一一比对,计算相似率,取相似率小于1的最高值,记为p,与知名域名数据库中某域名相似率为p的从外部链接提取的域名记为dname;

步骤1.6)若dname长度大于6且p值大于0.8,或者dname长度小于6且p值大于0.54,则取危险因素一danger1为1,不符合上述情况,危险因素一置0;

步骤1.7)将从当前网页URL提取的域名与知名域名数据库中的域名一一比对,并计算相似率,若所提取的域名长度大于6且相似率大于0.8,或者所提取的域名长度小于6且相似率大于0.54,则取危险因素二danger2为1,不符合上述情况,危险因素二置0;

步骤1.8)若danger1=1而其他危险因素为0,则输出“The web page is not famous!”,并令danger=danger0+danger1+danger2+danger3,danger为0、1、2或3时分别输出“The web page is safe!”,“The web page is slightly suspicious!”,“The web page is suspicious!”,“The web page is dangerous!”;

步骤2)根据页面html代码中所有