一种基于chrome插件的危险网页识别方法转让专利
申请号 : CN201910720615.4
文献号 : CN110427579B
文献日 : 2020-12-01
发明人 : 成卫青 , 刁健峰 , 褚佳乐 , 蔡晨阳
申请人 : 南京邮电大学
摘要 :
权利要求 :
1.一种基于chrome插件的危险网页识别方法,其特征在于,包括如下步骤:
步骤1)根据网页中所有外部链接的URL提取支持向量机第一维度数据,步骤包括:
步骤1.1)提取一个网页中所有外部链接的URL;
步骤1.2)访问http://data.alexa.com,根据网页URL中的域名获得网页所在网站的Alexa排名;若该网站排名在1000名以内,直接将该网页视为安全,若该网站排名在1000名以外或索取不到排名,则危险因素零danger0置1;
步骤1.3)分析当前网页URL以及网页外部链接的URL中的各级域名,取其中最长的一级域名;若最长的一段域名长度大于18,危险因素三danger3置1,否则为0;对URL的划分方法如下:先以“/”划分URL,取其中的域名段,再在域名段用“.”划分,将各级域名作为字符串加入到一个数组中;
步骤1.4)对当前网页URL以及网页外部链接的URL进行再次切割并提取信息:若域名以“.com.cn”结尾,则提取三级域名;若不是,则提取二级域名;
步骤1.5)将从每个外部链接URL提取的域名与知名域名数据库中的域名一一比对,计算相似率,取相似率小于1的最高值,记为p,与知名域名数据库中某域名相似率为p的从外部链接提取的域名记为dname;
步骤1.6)若dname长度大于6且p值大于0.8,或者dname长度小于6且p值大于0.54,则取危险因素一danger1为1,不符合上述情况,危险因素一置0;
步骤1.7)将从当前网页URL提取的域名与知名域名数据库中的域名一一比对,并计算相似率,若所提取的域名长度大于6且相似率大于0.8,或者所提取的域名长度小于6且相似率大于0.54,则取危险因素二danger2为1,不符合上述情况,危险因素二置0;
步骤1.8)若danger1=1而其他危险因素为0,则输出“The web page is not famous!”,并令danger=danger0+danger1+danger2+danger3,danger为0、1、2或3时分别输出“The web page is safe!”,“The web page is slightly suspicious!”,“The web page is suspicious!”,“The web page is dangerous!”;
步骤2)根据页面html代码中所有