一种钓鱼网站的检测方法、装置和终端转让专利

申请号 : CN201210247230.9

文献号 : CN103546446B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 董文辉邵付东

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明适用于互联网技术领域,提供了一种钓鱼网站的检测方法、装置和终端,所述方法包括:获取内容中包含网站的统一资源定位符URL的微博的相关信息;对微博的相关信息进行分析,提取微博的特征;根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。本发明解决了现有技术无法判断微博中包含的网站的URL是否是钓鱼网站的URL的问题,给用户带来了便利。

权利要求 :

1.一种钓鱼网站的检测方法,其特征在于,所述方法包括:获取内容中包含网站的统一资源定位符URL的微博的相关信息;

对微博的相关信息进行分析,提取微博的特征;

根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;

根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL;

所述微博的相关信息包括功能特征、社会网络特征和传播特征;所述微博的特征包括微博的功能特征、社会网络特征和传播特征。

2.如权利要求1所述的方法,其特征在于,所述功能特征包括微博的长度和/或微博的内容;所述社会网络特征包括微博发布者身份、是否实名认证、微博发布者的年龄、微博注册时间、微博等级、微博条数、听众或粉丝的数量、听众或粉丝的情况和/或活跃度情况;所述传播特征包括转发评论的数量和/或转发评论者的特征。

3.如权利要求1所述的方法,其特征在于,所述获取内容中包含网站的统一资源定位符URL的微博的相关信息之后,所述方法还包括:对微博的相关信息进行降噪处理;

所述对微博的相关信息进行分析具体为:

对降噪处理后的微博的相关信息进行分析。

4.如权利要求1所述的方法,其特征在于,所述根据提取的微博的特征计算微博内容中包含的网站的URL的可信度具体为:假设网站的URL的可信度为c,则c由功能特征、社会网络特征和传播特征按照预定的权重配比综合确定,其中功能特征、社会网络特征和传播特征分别由功能特征、社会网络特征和传播特征所属的多个不同的功能特征描述符按照预定的权重配比综合确定。

5.如权利要求4所述的方法,其特征在于,所述根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL具体为:当网站的URL的可信度c≥TW时,则认为网站的URL为可信的,其中,TW为预定的可信的阈值;

当网站的URL的可信度c≤TB时,则认为网站的URL为不可信的,则认为所述网站的URL为钓鱼网站的URL,其中,TB为预定的不可信的阈值;

当网站的URL的可信度c满足以下条件Tw>c>TB时,则认为网站的URL为未知的。

6.一种钓鱼网站的检测装置,其特征在于,所述装置包括:获取模块,用于获取内容中包含网站的统一资源定位符URL的微博的相关信息;

分析模块,用于对微博的相关信息进行分析,提取微博的特征;

计算模块,用于根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;

确定模块,用于根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL;

所述微博的相关信息包括功能特征、社会网络特征和传播特征;所述微博的特征包括微博的功能特征、社会网络特征和传播特征。

7.如权利要求6所述的装置,其特征在于,所述装置还包括:降噪模块,用于对微博的相关信息进行降噪处理;

所述分析模块具体用于对降噪处理后的微博的相关信息进行分析,分别提取微博的功能特征、社会网络特征和传播特征。

8.如权利要求6所述的装置,其特征在于,所述计算模块具体用于:假设网站的URL的可信度为c,则c由功能特征、社会网络特征和传播特征按照预定的权重配比综合确定,其中功能特征、社会网络特征和传播特征分别由功能特征、社会网络特征和传播特征所属的多个不同的功能特征描述符按照预定的权重配比综合确定。

9.如权利要求8所述的装置,其特征在于,所述确定模块具体用于:当网站的URL的可信度c≥TW时,则认为网站的URL为可信的,其中,TW为预定的可信的阈值;

当网站的URL的可信度c≤TB时,则认为网站的URL为不可信的,则认为所述网站的URL为钓鱼网站的URL,其中,TB为预定的不可信的阈值;

当网站的URL的可信度c满足以下条件Tw>c>TB时,则认为网站的URL为未知的。

10.一种终端,其特征在于,所述终端包括权利要求6至9任一项所述的钓鱼网站的检测装置。

说明书 :

一种钓鱼网站的检测方法、装置和终端

技术领域

[0001] 本发明属于互联网技术领域,尤其涉及一种钓鱼网站的检测方法、装置和终端。

背景技术

[0002] 随着互联网的普及,越来越多的用户开始通过互联网进行交流和商务交易,电子商务、电子银行等互联网业务也随之发展起来。用户访问网站时,需要输入账号和密码等信息,当输入的账号和密码等信息正确时,用户可以进入网站进行网上操作。用户的账号和密码是用户进入这些网站进行操作的唯一标识,如果有人盗用了用户的账号和密码,冒充用户进入网站,则可能对用户的利益造成损害。目前,有些不法分子通过钓鱼网站方式,显示给用户类似真实网站的页面,诱骗用户输入账号和密码,对用户的账号和密码进行盗用。钓鱼网站是指不法分子利用各种手段,仿冒真实网站的统一资源定位符(URL,Uniform Resource Locator)以及页面内容,以此来骗取用户账号和密码等私人资料的网站。
[0003] 另外,据中国互联网络信息中心发布的《第29次中国互联网络发展状况统计报告》显示,截至2011年12月底,我国微博用户数已达2.5亿,在各网站注册的微博账号约8亿个,每日微博信息量达2亿条,微博已成为网络生活的重要服务之一,对社会生活的渗透已日益深入,已成为网民获取信息(例如网站的URL)的重要渠道。然而,微博中包含的网站的URL有可能是钓鱼网站的URL,而现有技术无法判断微博中包含的网站的URL是否是钓鱼网站的URL,因此给用户带来不便。

发明内容

[0004] 本发明实施例的目的在于提供一种钓鱼网站的检测方法,旨在解决现有技术无法判断微博中包含的网站的URL是否是钓鱼网站的URL的问题。
[0005] 本发明实施例是这样实现的,一种钓鱼网站的检测方法,所述方法包括:
[0006] 获取内容中包含网站的统一资源定位符URL的微博的相关信息;
[0007] 对微博的相关信息进行分析,提取微博的特征;
[0008] 根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;
[0009] 根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0010] 本发明实施例的另一目的在于提供一种钓鱼网站的检测装置,所述装置包括:
[0011] 获取模块,用于获取内容中包含网站的统一资源定位符URL的微博的相关信息;
[0012] 分析模块,用于对微博的相关信息进行分析,提取微博的特征;
[0013] 计算模块,用于根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;和
[0014] 确定模块,用于根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0015] 本发明实施例的再一目的在于提供一种终端,所述终端包括上述的钓鱼网站的检测装置。
[0016] 在本发明实施例中,由于获取内容中包含网站的统一资源定位符URL的微博的相关信息,并从微博的相关信息中提取微博的特征,根据提取的微博的特征计算微博内容中包含的网站的URL的可信度,以确定所述网站的URL是否为钓鱼网站的URL。因此解决了现有技术无法判断微博中包含的网站的URL是否是钓鱼网站的URL的问题,给用户带来了便利。

附图说明

[0017] 图1是本发明实施例一提供的钓鱼网站的检测方法流程图;
[0018] 图2是本发明实施例二提供的钓鱼网站的检测装置的功能模块框图;
[0019] 图3是本发明实施例三提供的钓鱼网站的检测方法流程图;
[0020] 图4是本发明实施例四提供的钓鱼网站的检测装置的功能模块框图。

具体实施方式

[0021] 为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0022] 请参阅图1,本发明实施例一提供的钓鱼网站的检测方法包括以下步骤:
[0023] S101、获取内容中包含网站的URL的微博的相关信息;
[0024] 在本发明实施例一中,微博的相关信息包括功能特征、社会网络特征和传播特征;
[0025] S102、对微博的相关信息进行分析,提取微博的特征;
[0026] 在本发明实施例一中,微博的特征包括微博的功能特征、社会网络特征和传播特征。
[0027] S103、根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;
[0028] S104、根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0029] 请参阅图2,本发明实施例二提供的钓鱼网站的检测装置包括:
[0030] 获取模块11,用于获取内容中包含网站的URL的微博的相关信息;在本发明实施例二中,微博的相关信息包括功能特征、社会网络特征和传播特征;
[0031] 分析模块12,用于对微博的相关信息进行分析,提取微博的特征;在本发明实施例二中,微博的特征包括微博的功能特征、社会网络特征和传播特征。
[0032] 计算模块13,用于根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;
[0033] 确定模块14,用于根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0034] 请参阅图3,本发明实施例三提供的钓鱼网站的检测方法包括以下步骤:
[0035] S201、获取内容中包含网站的URL的微博的相关信息;
[0036] 在本发明实施例三中,微博的相关信息包括功能特征、社会网络特征和传播特征,其中功能特征包括微博的长度、微博的内容等;社会网络特征包括微博发布者身份、是否实名认证、微博发布者的年龄、微博注册时间、微博等级、微博条数(包括原创条数和转发条数)、听众或粉丝的数量、听众或粉丝的情况、活跃度情况等;传播特征包括转发评论的数量、转发评论者的特征等。
[0037] S202、对微博的相关信息进行降噪处理;
[0038] S203、对降噪处理后的微博的相关信息进行分析,提取微博的特征;
[0039] 在本发明实施例三中,微博的特征包括微博的功能特征、社会网络特征和传播特征。
[0040] S204、根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;
[0041] 假设网站的URL的可信度为c,则c由功能特征、社会网络特征和传播特征按照预定的权重配比综合确定,其中功能特征、社会网络特征和传播特征又分别由功能特征、社会网络特征和传播特征所属的多个不同的功能特征描述符按照预定的权重配比综合确定。
[0042] 具体为c={(f,pf),(s,ps),(d,pd)},其中,
[0043] f为功能特征,f={(f1,pf1),(f2,pf2),(f3,pf3),...,(fn,pfn)},fi为功能特征描述符,i={1,2,3,...,n},n为功能特征描述符的个数,pfi为功能特征描述符fi的权重;
[0044] pf为功能特征f的权重;
[0045] 例如f1为微博的长度、f2为包含某些文字或情绪词;pf1为微博的长度的权重、pf2为包含某些文字或情绪词的权重;
[0046] s为社会网络特征,s={(s1,ps1),(s2,ps2),(s3,ps3),...,(sn,psn)},si为社会网络特征描述符,i={1,2,3,...,n},n为社会网络特征描述符的个数,psi为社会网络特征描述符si的权重;
[0047] ps为社会网络特征s的权重;
[0048] 例如S1为微博发布者身份、S2为实名认证、S3为年龄、S4为微博注册时间、S5为微博等级、S6为微博条数(原创和转发)、S7为听众或粉丝数、S8为听众或粉丝情况、S9为活跃度情况;
[0049] ps1为微博发布者身份的权重、ps2为实名认证的权重、ps3为年龄的权重、ps4为微博注册时间的权重、ps5为微博等级的权重、ps6为微博条数(原创和转发)的权重、ps7为听众或粉丝数的权重、ps8为听众或粉丝情况的权重、ps9为活跃度情况的权重;
[0050] d为传播特征,d={(d1,pd1),(d2,pd2),(d3,pd3),...,(dn,pdn)},di为传播特征描述符,i={1,2,3,...,n},n为传播特征描述符的个数,pdi为传播特征描述符di的权重;
[0051] pd为传播特征d的权重;
[0052] 例如d1为转发评论数、d2为转发评论者特征;pd1为转发评论数的权重、pd2为转发评论者特征的权重。
[0053] S205、根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0054] 当网站的URL的可信度c≥TW时,则认为网站的URL为可信的,其中,TW为预定的可信的阈值;
[0055] 当网站的URL的可信度c≤TB时,则认为网站的URL为不可信的,则认为所述网站的URL为钓鱼网站的URL,其中,TB为预定的不可信的阈值;
[0056] 当网站的URL的可信度c满足以下条件Tw>c>TB时,则认为网站的URL为未知的。
[0057] 其中,预定的不可信的阈值的TB和预定的可信的阈值TW通过以下方式获得:
[0058] 选取易被钓鱼的关键字(例如银行、淘宝),采集这些关键字下含有URL的微博构成数据集,对数据集进行分词、数据格式化、提取功能特征、社会网络特征和传播特征;
[0059] 对数据集中URL的可信结果进行人工标注,并按4:1随机划分训练集和测试集;
[0060] 使用交叉检验训练和测试分类模型,分类模型可选用SVM、决策树、贝叶斯网络等有监督学习的模型,根据Carlos Castillo等论文《Information Credibility on Twitter》的实验,J48决策树能得到较高的准确率,从决策树根节点到不可信类别叶子节点的概率以及可信类别叶子节点的概率定义为不可信与之及可信阈值,据此可得出预定的不可信的阈值的TB和预定的可信的阈值Tw。
[0061] 请参阅图4,本发明实施例四提供的钓鱼网站的检测装置包括:
[0062] 获取模块21,用于获取内容中包含网站的URL的微博的相关信息;在本发明实施例四中,微博的相关信息包括功能特征、社会网络特征和传播特征,其中功能特征包括微博的长度、微博的内容等;社会网络特征包括微博发布者身份、是否实名认证、微博发布者的年龄、微博注册时间、微博等级、微博条数(包括原创条数和转发条数)、听众或粉丝的数量、听众或粉丝的情况、活跃度情况等;传播特征包括转发评论的数量、转发评论者的特征等。
[0063] 降噪模块22,用于对微博的相关信息进行降噪处理;
[0064] 分析模块23,用于对降噪处理后的微博的相关信息进行分析,提取微博的特征;在本发明实施例四中,微博的特征包括微博的功能特征、社会网络特征和传播特征。
[0065] 计算模块24,用于根据提取的微博的特征计算微博内容中包含的网站的URL的可信度;
[0066] 假设网站的URL的可信度为c,则c由功能特征、社会网络特征和传播特征按照预定的权重配比综合确定,其中功能特征、社会网络特征和传播特征又分别由功能特征、社会网络特征和传播特征所属的多个不同的功能特征描述符按照预定的权重配比综合确定。
[0067] 具体为c={(f,pf),(s,ps),(d,pd)},其中,
[0068] f为功能特征,f={(f1,pf1),(f2,pf2),(f3,pf3),...,(fn,pfn)},fi为功能特征描述符,i={1,2,3,...,n},n为功能特征描述符的个数,pfi为功能特征描述符fi的权重;
[0069] pf为功能特征f的权重;
[0070] 例如f1为微博的长度、f2为包含某些文字或情绪词;pf1为微博的长度的权重、pf2为包含某些文字或情绪词的权重;
[0071] s为社会网络特征,s={(s1,ps1),(s2,ps2),(s3,ps3),...,(sn,psn)},si为社会网络特征描述符,i={1,2,3,...,n},n为社会网络特征描述符的个数,psi为社会网络特征描述符si的权重;
[0072] ps为社会网络特征s的权重;
[0073] 例如S1为微博发布者身份、S2为实名认证、S3为年龄、S4为微博注册时间、S5为微博等级、S6为微博条数(原创和转发)、S7为听众或粉丝数、S8为听众或粉丝情况、S9为活跃度情况;
[0074] ps1为微博发布者身份的权重、ps2为实名认证的权重、ps3为年龄的权重、ps4为微博注册时间的权重、ps5为微博等级的权重、ps6为微博条数(原创和转发)的权重、ps7为听众或粉丝数的权重、ps8为听众或粉丝情况的权重、ps9为活跃度情况的权重;
[0075] d为传播特征,d={(d1,pd1),(d2,pd2),(d3,pd3),...,(dn,pdn)},di为传播特征描述符,i={1,2,3,...,n},n为传播特征描述符的个数,pdi为传播特征描述符di的权重;
[0076] pd为传播特征d的权重;
[0077] 例如d1为转发评论数、d2为转发评论者特征;pd1为转发评论数的权重、pd2为转发评论者特征的权重。
[0078] 确定模块25,用于根据所述网站的URL的可信度确定所述网站的URL是否为钓鱼网站的URL。
[0079] 当网站的URL的可信度c≥TW时,则认为网站的URL为可信的,其中,TW为预定的可信的阈值;
[0080] 当网站的URL的可信度c≤TB时,则认为网站的URL为不可信的,则认为所述网站的URL为钓鱼网站的URL,其中,TB为预定的不可信的阈值;
[0081] 当网站的URL的可信度c满足以下条件Tw>c>TB时,则认为网站的URL为未知的。
[0082] 其中,预定的不可信的阈值的TB和预定的可信的阈值TW通过以下方式获得:
[0083] 选取易被钓鱼的关键字(例如银行、淘宝),采集这些关键字下含有URL的微博构成数据集,对数据集进行分词、数据格式化、提取功能特征、社会网络特征和传播特征;
[0084] 对数据集中URL的可信结果进行人工标注,并按4:1随机划分训练集和测试集;
[0085] 使用交叉检验训练和测试分类模型,分类模型可选用SVM、决策树、贝叶斯网络等有监督学习的模型,根据Carlos Castillo等论文《Information Credibility on Twitter》的实验,J48决策树能得到较高的准确率,从决策树根节点到不可信类别叶子节点的概率以及可信类别叶子节点的概率定义为不可信与之及可信阈值,据此可得出预定的不可信的阈值的TB和预定的可信的阈值Tw。
[0086] 在本发明实施例中,由于获取内容中包含网站的统一资源定位符URL的微博的相关信息,并从微博的相关信息中提取微博的功能特征、社会网络特征和传播特征,根据提取的微博的功能特征、社会网络特征和传播特征计算微博内容中包含的网站的URL的可信度,以确定所述网站的URL是否为钓鱼网站的URL。因此解决了现有技术无法判断微博中包含的网站的URL是否是钓鱼网站的URL的问题,给用户带来了便利。
[0087] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
[0088] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。