处理目的地址的方法和系统转让专利

申请号 : CN200510112742.4

文献号 : CN1760872B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : J·M·莱克

申请人 : 国际商业机器公司

摘要 :

处理目的地址以确定该目的地址是否是伪造的web地址或超链接。可将该目的地址与已知域名的数据库相比较以了解该域名是合法的还是非法的。也可将该目的地址与其他域名相比较以了解它是其他域名的诚实变换还是欺骗性变换。如果该目的地址是另一域名的欺骗性变换,则可采取适当行动。

权利要求 :

1.一种处理网络中的目的地址的方法,该方法包括以下步骤:

通过比较该目的地址与至少一个已知目的地址来确定该目的地址是否为合法地址,其中所述确定包括确定该目的地址是否是该至少一个已知目的地址的欺骗性变换;以及响应于所述确定执行第一功能。

2.根据权利要求1的方法,其中所述至少一个已知目的地址是多个已知合法目的地址中的一个。

3.根据权利要求2的方法,其中所述响应于所述确定执行第一功能的步骤包括响应于确定了所述目的地址不是所述多个已知合法目的地址的一部分而发出警告或阻挡对所述目的地址的访问中的至少一个。

4.根据权利要求1的方法,其中所述至少一个已知目的地址是多个已知非法目的地址中的一个。

5.根据权利要求4的方法,其中所述响应于所述确定执行第一功能的步骤包括响应于确定了所述目的地址是所述多个已知非法目的地址的一部分而发出警告或阻挡对所述目的地址的访问中的至少一个。

6.根据权利要求1的方法,其中所述目的地址是域名。

7.根据权利要求1的方法,其中所述目的地址是IP地址。

8.根据权利要求7的方法,其中所述通过比较所述目的地址与至少一个已知目的地址来确定该目的地址是否为合法地址的步骤包括比较该目的地址与多个已知IP地址,并且其中所述响应于所述确定执行第一功能的步骤包括响应于确定了该目的地址是所述多个已知IP地址的一部分而发出警告或阻挡对该目的地址的访问中的至少一个。

9.根据权利要求1的方法,其中所述通过比较所述目的地址与至少一个已知目的地址来确定该目的地址是否是合法地址的步骤包括执行IP地址的反向查找以确定该IP地址的域名,并比较该域名与至少一个已知域名。

10.根据权利要求9的方法,其中所述比较所述域名与至少一个已知域名的步骤包括确定所述域名是否是所述至少一个已知域名的欺骗性变换。

11.根据权利要10的方法,其中所述欺骗性变换包括视觉混淆。

12.根据权利要求11的方法,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

13.根据权利要求11的方法,其中所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

14.根据权利要求10的方法,其中所述欺骗性变换包括顶级域的替换。

15.根据权利要求10的方法,其中所述确定所述域名是否是所述至少一个已知域名的欺骗性变换的步骤包括确定所述域名和所述至少一个已知域名之间的相似性值是否超过一预定值。

16.根据权利要求15的方法,其中所述相似性值是基于所述域名和所述至少一个已知域名之间的最长共同序列确定的。

17.根据权利要求1的方法,其中所述目的地址是一具有显示文本的超链接的目的地址,并且其中所述通过比较所述目的地址与至少一个已知目的地址来确定所述目的地址是否为合法地址的步骤包括比较所述超链接的目的地址与所述超链接的显示文本。

18.根据权利要求17的方法,其中所述比较所述超链接的目的地址与所述超链接的显示文本的步骤包括确定所述目的地址是否是所述显示文本的欺骗性变换。

19.根据权利要求18的方法,其中所述欺骗性变换包括视觉混淆。

20.根据权利要求18的方法,其中所述欺骗性变换包括顶级域的替换。

21.根据权利要求18的方法,其中所述确定所述目的地址是否是所述显示文本的欺骗性变换的步骤包括确定所述域名和所述显示文本之间的相似性值是否超过一预定值。

22.根据权利要求21的方法,其中所述相似性值是基于所述域名和所述显示文本之间的最长共同序列确定的。

23.根据权利要求18的方法,其中所述第一功能包括响应于确定了所述目的地址是所述显示文本的欺骗性变换而发出警告或阻挡对该目的地址的访问中的一个。

24.根据权利要求1的方法,其中所述目的地址是IP地址,并且其中所述通过比较所述目的地址与至少一个已知目的地址来确定该目的地址是否是合法地址的步骤包括确定该IP地址是否包括与所述至少一个已知目的地址相关联的至少一个IP地址。

25.根据权利要求1的方法,其中所述通过比较所述目的地址与至少一个已知目的地址来确定该目的地址是否是合法地址的步骤包括确定该目的地址是否是所述至少一个已知目的地址的欺骗性变换。

26.根据权利要求26的方法,其中所述至少一个已知地址是多个已知地址的一部分,并且其中所述响应于所述确定执行第一功能的步骤包括响应于确定了所述目的地址是所述至少一个已知地址的诚实变换而将该目的地址添加到所述多个已知地址中。

27.根据权利要求26的方法,其中所述至少一个已知地址是多个已知地址的一部分,并且进一步包括远程存储所述多个已知地址。

28.根据权利要求26的方法,其中所述至少一个已知地址是多个已知地址的一部分,并且进一步包括本地存储所述多个已知地址。

29.一种注册域名的方法,该方法包括以下步骤:

比较该域名与多个已知名称;

确定该域名是否是所述多个已知名称中任何一个的欺骗性变换;以及

如果该域名不是所述多个已知名称中任何一个的欺骗性变换,则允许注册该域名。

30.根据权利要求30的方法,其中所述多个已知名称是商标和服务商标的数据库。

31.根据权利要求30的方法,其中所述多个已知名称是已注册域名的数据库。

32.根据权利要求30的方法,其中所述欺骗性变换包括视觉混淆。

33.根据权利要求33的方法,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

34.根据权利要求33的方法,其中所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

35.根据权利要求30的方法,其中所述欺骗性变换包括顶级域的替换。

36.根据权利要求30的方法,其中所述确定所述域名是否是所述多个已知名称中任何一个的欺骗性变换的步骤包括确定所述域名和所述多个已知名称中任何一个之间的相似性值是否超过一预定值。

37.根据权利要求37的方法,其中所述相似性值是基于所述域名和所述多个已知域名之间的最长共同序列确定的。

38.一种识别欺骗性域名变换的方法,该方法包括以下步骤:

比较一域名与至少一个已知名称;以及

确定该域名是否包括与所述至少一个已知名称的视觉混淆。

39.根据权利要求39的方法,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

40.根据权利要求39的方法,其中所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

41.根据权利要求39的方法,其中所述至少一个名称是从商标和服务商标的数据库中选择的。

42.根据权利要求39的方法,其中所述至少一个名称是从已注册域名的数据库中选择的。

43.根据权利要求39的方法,其中所述至少一个名称包括与所述域名相关联的显示名称。

44.一种处理网络中的目的地址的系统,包括:

被配置为通过比较网络中目的地址与至少一个已知目的地址来确定该目的地址是否为合法地址的第一模块,其中所述确定包括确定所述目的地址是否是所述至少一个已知目的地址的欺骗性变换;以及被配置为响应于所述确定执行第一功能的第二模块。

45.根据权利要求44的系统,其中所述至少一个已知目的地址是多个已知合法目的地址中的一个。

46.根据权利要求44的系统,其中所述至少一个已知目的地址是多个已知非法目的地址中的一个。

47.根据权利要求44的系统,其中所述目的地址是域名。

48.根据权利要求44的系统,其中所述目的地址是IP地址。

49.根据权利要求44的系统,其中所述第一模块被配置为执行IP地址的反向查找以确定该IP地址的域名,以及比较该域名与至少一个已知域名。

50.根据权利要求49的系统,其中所述第一模块被配置为确定所述域名是否是所述至少一个已知域名的欺骗性变换。

51.根据权利要求50的系统,其中所述欺骗性变换包括视觉混淆。

52.根据权利要求51的系统,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

53.根据权利要求52的系统,其中所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

54.根据权利要求50的系统,其中所述欺骗性变换包括顶级域的替换。

55.根据权利要求50的系统,其中所述第一模块被配置为确定所述域名和所述至少一个已知域名之间的相似性值是否超过一预定值。

56.根据权利要求55的系统,其中所述相似性值是基于所述域名和所述至少一个已知域名之间的最长共同序列确定的。

57.根据权利要求44的系统,其中所述目的地址是一具有显示文本的超链接的目的地址,并且其中所述第一模块被配置为比较所述超链接的目的地址与所述超链接的显示文本。

58.根据权利要求57的系统,其中所述第一模块被配置为确定所述目的地址是否是所述显示文本的欺骗性变换。

59.根据权利要求58的系统,其中所述欺骗性变换包括视觉混淆。

60.根据权利要求57的系统,其中所述欺骗性变换包括顶级域的替换。

61.根据权利要求57的系统,其中所述第一模块被配置为确定所述域名和所述显示名称之间的相似性值是否超过一预定值。

62.根据权利要求61的系统,其中所述相似性值是基于所述域名和所述显示名称之间的最长共同序列确定的。

63.根据权利要求44的系统,其中所述目的地址是IP地址,并且其中所述第一模块被配置为确定该IP地址是否在与所述多个已知目的地址中至少一个相关联的IP地址的范围内。

64.根据权利要求44的系统,其中所述第一模块被配置为确定所述目的地址是否是所述至少一个已知目的地址的欺骗性变换。

65.根据权利要求64的系统,其中所述至少一个已知地址是多个已知地址的一部分,并且其中所述第二模块被配置为响应于确定了所述目的地址是所述至少一个已知地址的诚实变换而将该目的地址添加到所述多个已知地址中。

66.根据权利要求64的系统,其中所述至少一个已知地址是多个已知地址的一部分,并进一步包括被配置为远程存储所述多个已知地址的第三模块。

67.根据权利要求64的系统,其中所述至少一个已知地址是多个已知地址的一部分,并进一步包括被配置为本地存储所述多个已知地址的第三模块。

68.根据权利要求44的系统,其中该系统是web浏览器的一部分。

69.根据权利要求44的系统,其中该系统是电子邮件程序的一部分。

70.根据权利要求44的系统,其中该系统是DNS服务器的一部分。

71.根据权利要求44的系统,其中所述第二模块是所述第一模块的一部分。

72.一种用于注册域名的系统,包括:

用于比较该域名与多个已知名称,并确定该域名是否是所述多个已知名称中任何一个的欺骗性变换的第一模块;以及用于如果该域名不是所述多个已知名称中任何一个的欺骗性变换,则允许注册该域名的第二模块。

73.根据权利要求72的系统,其中所述多个已知名称是商标和服务商标的数据库。

74.根据权利要求72的系统,其中所述多个已知名称是已注册域名的数据库。

75.根据权利要求72的系统,其中所述欺骗性变换包括视觉混淆。

76.根据权利要求72的系统,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

77.根据权利要求76的系统,所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母o、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字

1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

78.根据权利要求72的系统,其中所述欺骗性变换包括顶级域的替换。

79.根据权利要求72的系统,其中所述第一模块被配置为确定所述域名和所述多个已知名称中任何一个之间的相似性值是否超过一预定值。

80.根据权利要求79的系统,其中所述相似性值是基于所述域名和所述多个已知域名之间的最长共同序列确定的。

81.一种用于识别欺骗性域名变换的系统,该系统包括:

被配置为比较一域名与至少一个已知名称并确定该域名是否包括与所述至少一个已知名称的视觉混淆的第一模块。

82.根据权利要求81的系统,其中所述视觉混淆包括字母数字到字母数字的视觉混淆。

83.根据权利要求82的系统,所述视觉混淆包括数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字

1替换字母I、字母I替换数字1、数字1替换字母i、字母i替换数字1、字母n替换字母m、和字母m替换字母n中的至少一个。

84.根据权利要求81的系统,其中所述至少一个名称是从商标和服务商标的数据库中选择的。

85.根据权利要求81的系统,其中所述至少一个名称是从已注册域名的数据库中选择的。

86.根据权利要求81的系统,所述至少一个名称包括与所述域名相关联的显示名称。

说明书 :

处理目的地址的方法和系统

技术领域

[0001] 本发明涉及web地址和超链接,更具体地,涉及用于检测伪造的web地址和超链接的方法。

背景技术

[0002] 超链接是电子文档中链接到该同一电子文档中的另一位置或链接到一完全不同的文档的元素。超链接可在任何电子文档例如网页、电子邮件、字处理文档、电子表格或类似物中。就因特网来说,超链接可以是可被嵌入到对象例如词、短语、图标或图像中的、网站的网络地址或域名。这些对象通常称为超链接对象。
[0003] 万维网上的网页和其他资源由唯一的URL(统一资源定位符)或地址来标识。网络地址或IP地址是用于TCP/IP网络上的计算机或设备的标识符。使用TCP/IP协议的网络根据目的地的IP地址来路由消息。IP地址的格式是被书写为由句点隔开的四个数字的32位数字地址。每个数字可以是0到255。例如,1.160.10.240可以是一IP地址。
[0004] 域名是标识一个或多个IP地址的名称。例如,域名可以具有一个或多个与之相关联的IP地址。每个域名具有一指示它与之关联的顶级域(TLD)的后缀(例如,.com、.org或.net)。因特网基于IP地址而不是域名来工作,因此需要域名系统(DNS)服务器来将域名转换成IP地址。
[0005] 一旦激活超链接对象,则可由Web浏览器或类似物建立一因特网联系。该超链接对象本身可以是表示网站、网站的名称、网站的域名或任何希望的表示物的符号。例如,IBM的网站的超链接对象可以是IBM符号、名称IBM或域名
[0006] 通过使用伪造的超链接,可将因特网用户引到伪造的网站。例如,一超链接对象可显示名称,而与该对象相关联的域名实际上却是,其中使用数字“1”代替了字母“i”。用于这种伪造的超链接的HTML语法可以是:
[0007] www.ibm.com
[0008] 该超链接看起来是www.ibm.com,而其域名实际上却是http://www.1bm.com。由于数字“1”在外观上与字母“i”相似,没有疑心的用户可能不会认识到他们正被路由到一伪造的网站而不是真实的网站。该伪造网站可以是真实网站的假造形式,其用来收集和利用用户的敏感信息。这种活动被称为网络钓鱼(phishing)。

发明内容

[0009] 根据本发明的第一个方面,一种处理目的地址的方法包括通过比较该目的地址与至少一个已知的目的地址来确定该目的地址是否为一合法地址,并响应于该确定执行第一功能。
[0010] 根据本发明的另一个方面,一种注册域名的方法包括比较该域名与多个已知名称,确定该域名是否是该多个已知名称中任何一个的欺骗性变换,并且如果该域名不是该多个已知名称中任何一个的欺骗性变换,则允许注册该域名。
[0011] 根据本发明的再一个方面,一种识别欺骗性域名变换的方法包括比较一域名与至少一个已知名称,并且确定该域名是否包括与所述至少一个已知名称的视觉混淆。
[0012] 根据本发明的进一步的方面,一种用于处理目的地址的计算机程序产品包括具有包含在其中的计算机可读程序代码的计算机可读介质。该计算机可读程序代码包括被配置为通过比较该目的地址与至少一个已知的目的地址来确定该目的地址是否为合法地址的计算机可读程序代码,以及被配置为响应于所述确定执行第一功能的计算机可读程序代码。
[0013] 根据本发明的又一个方面,一种用于注册域名的计算机程序产品包括具有包含在其中的计算机可读程序代码的计算机可读介质。该计算机可读程序代码包括被配置为比较该域名与多个已知名称的计算机可读程序代码,被配置为确定该域名是否是该多个已知名称中任何一个的欺骗性变换的计算机可读程序代码,以及被配置为如果该域名不是该多个已知名称中任何一个的欺骗性变换则允许注册该域名的计算机可读程序代码。
[0014] 根据本发明的另一个方面,一种用于识别欺骗性域名变换的计算机程序产品包括具有包含在其中的计算机可读程序代码的计算机可读介质。该计算机可读程序代码包括被配置为比较一域名与至少一个已知名称的计算机可读程序代码,以及被配置为确定该域名是否包括与该至少一个已知名称的视觉混淆的计算机可读程序代码。
[0015] 根据本发明的再一个方面,一种系统包括被配置为通过比较一目的地址与至少一个已知的目的地址来确定该目的地址是否为合法地址的第一模块,以及被配置为响应于所述确定执行第一功能的第二模块。
[0016] 根据本发明的进一步的方面,一种用于注册域名的系统包括比较一域名与多个已知名称并确定该域名是否是该多个已知名称中任何一个的欺骗性变换的第一模块,以及如果该域名不是该多个已知名称中任何一个的欺骗性变换,则允许注册该域名的第二模块。
[0017] 根据本发明的又一个方面,一种用于识别欺骗性域名变换的系统包括被配置为比较一域名与至少一个已知名称,并且确定该域名是否包括与所述至少一个已知名称的视觉混淆的第一模块。
[0018] 通过结合附图阅读以下对本发明的非限制性详细描述,本领域的普通技术人员将清楚地了解由权利要求所唯一定义的本发明的其他方面和特征。

附图说明

[0019] 图1示出了可用于本发明的计算机系统;
[0020] 图2示出了根据本发明的一个方面处理目的地址的方法;以及
[0021] 图3示出了根据本发明的另一个方面检测域名注册期间的非法域名的方法。

具体实施方式

[0022] 如本领域的技术人员可理解的,本发明可体现为方法、系统或计算机程序产品。因此,本发明可采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)、或组合了在这里都被一般地称为“电路”或“模块”的软件方面和硬件方面的实施例的形式。此外,本发明可采取在计算机可用存储介质上的计算机程序产品的形式,该计算机可用存储介质具有包含于该介质中的计算机可用程序代码。
[0023] 可利用任何合适的计算机可读介质。计算机可用或计算机可读介质可以是,例如但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备、或传播介质。该计算机可读介质的更具体的例子(非穷尽性的列表)包括以下各项:具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、传输介质例如那些支持因特网或内联网的传输介质、或磁存储设备。应注意所述计算机可用或计算机可读介质甚至可以是其上印有程序的纸或其他合适的介质,因为该程序可通过例如对该纸或其他介质进行光扫描而被电子地捕获,然后在需要时以适当的方式被编译、解释或以其他方式处理,并随后被存储在计算机存储器中。在本文献的情境中,计算机可用或计算机可读介质可以是可包含、存储、传递、传播、或传送程序以由指令执行系统、装置或设备使用或与之相联系地使用的任何介质。
[0024] 用于执行本发明的操作的计算机程序代码可以用面向对象的编程语言例如Java7、Smalltalk或C++编写。然而,用于执行本发明的操作的计算机程序代码也可以用传统的过程编程语言例如“C”编程语言编写。所述程序代码可完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上并部分地在远程计算机上、或完全在远程计算机上执行。在后一情况中,该远程计算机可以通过局域网(LAN)或广域网(WAN)连接到用户的计算机,或者该连接可以是连接到外部计算机(例如,使用因特网服务提供商通过因特网)。
[0025] 以下参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明。应理解这些流程图和/或框图中的每一个框,以及这些流程图和/或框图中的框的组合,可以由计算机程序指示实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器以生成一机器,从而通过该计算机或其他可编程数据处理装置执行的这些指令创建了用于实现在所述流程图和/或框图的一个或多个框中指定的功能/动作。
[0026] 这些计算机程序指令也可被存储在可指引计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储器中,从而存储在该计算机可读存储器中的指令生成了一包括实现在所述流程图和/或框图的一个或多个框中指定的功能/动作的指令手段的制造物品。
[0027] 所述计算机程序指令也可被装载到计算机或其他可编程数据处理装置中,以致使在该计算机或其他可编程装置上执行一系列操作步骤,来产生一计算机实现的过程,从而在该计算机或其他可编程装置上执行的指令提供了用于实现在所述流程图和/或框图的一个或多个框中指定的功能/动作的步骤。
[0028] 现参照图1,其示出了可用于处理目的地址的计算机系统10。计算机系统10包括通过网络35连接在一起的多个计算设备15、20、25和一域名服务器30。计算设备15可包括若干计算设备例如个人计算机、移动电话、个人数字助理(PDA)或类似物中的任何一个。计算设备20、25可包括若干计算设备例如存放有一网站的个人计算机中的任何一个。在所示的实施例中,计算设备20存放有合法网站,而计算设备25存放有非法网站。网络35可以包括包括局域网、广域网、内联网或因特网的任何网络系统。本领域的技术人员将理解,系统10可包括若干不同的计算机设备、其他web服务器、域名服务器或其他适当的设备。此外,网络35可包括一个或多个适当连接在一起的网络。
[0029] 根据本发明的一个方面,计算设备15包括访问存放在计算设备20、25中的网站的浏览器程序。要处理的超链接可在任何电子文档例如网页、电子邮件、字处理文档、电子表格或类似物中。就因特网来说,超链接可以包括一目的地址,例如可嵌入在一对象例如词、短语、图标或图象中的、网站的数字IP地址或域名。在本发明的一个方面,该目的地址可以是存放在计算设备20中的一网站(例如,)的域名。处理该目的地址以确定该域名是合法域名的诚实变换还是欺骗性变换。
[0030] 可将该目的地址与一合法域名列表、一非法域名列表、或这两者的组合相比较。例如,非法域名列表可包含条目,这可能是一已知的非法域名,因为字母“i”已经为数字“1”所取代。此外,合法域名列表可包含条目,这可能是一已知的合法站点,因为只是简单地从名称中抛弃了“www”。下面将说明什么构成了诚实的或欺骗性的变换,以及因此,域名是否会是合法的或非法的。
[0031] 根据本发明的一个方面,将域名与各合法域名相比较,以确定是否存在利用视觉混淆的欺骗性变换。一种类型的视觉混淆是字母数字到字母数据的替换。例如,数字“1”看起来很像字母“i”,从而用一个替换另一个可构成一欺骗性变换。假设将超链接与已知域名相比较,则“1”对“i”的替换可指示一欺骗性变换。下列替换也可用于造成视觉混淆,从而导致超链接和已知域名的很可能的欺骗性变换:数字1替换字母L、字母L替换数字1、数字0替换字母O、字母O替换数字0、数字0替换字母o、字母o替换数字0、数字8替换字母B、字母B替换数字8、数字8替换字母S、字母S替换数字8、数字8替换字母E、字母E替换数字8、数字3替换字母E、字母E替换数字3、数字7替换字母F、字母F替换数字7、数字1替换字母I、字母I替换数字1、字母n替换字母m、以及字母m替换字母n。本领域的技术人员将理解也可使用其他字母数字到字母数字的替换来造成视觉混淆。
[0032] 可检查的另一种形式的视觉混淆是顶级域的替换。例如,可以用.org替换.com,用.gov替换.com,以及使用任何国家代码来通过视觉混淆生成欺骗性变换。
[0033] 根据本发明的另一个方面,可确定所述域名与合法域名列表之间的相似性。“共同序列”是在两个字符串中以相同顺序出现的字符的序列。例如,字符串“academic”和“abcdefghijklm”具有很多共同序列,包括:
[0034] a,c,d,e,m,i
[0035] ac,ad,ae,am,ai
[0036] cd,ce,cm,ci
[0037] acdem,acdei。
[0038] 最后两个序列具有是最长共同序列(LCS)的特殊特征。应注意一共同序列可具有多个实例(例如,“ad”可以来自AcaD或acAD)。
[0039] 两个字符串之间的相似性M和指定这两个字符串之间的对的集合的变量P可计算如下。给定两个字符串s和t,其中s代表要处理的域名,而t代表已知的合法域名:
[0040] M=similarity(s,t),且
[0041] P=xform(s,t)={(si,ti):0<=i<=k}其中
[0042] S=S0+S1+...+Sk
[0043] 且
[0044] t=t0+t1+...+tk
[0045] 符合以下约束,即,如果
[0046] u=u0+u1+...+uM
[0047] 是s和t的最长共同序列,则u可通过进行以下选择而构建
[0048] uM=si=tj
[0049] 从而如果um=si=tj且um-1=sx=ty,则对于所有的m、i、j、x和y,x
[0050] P可被认为是单个集合,而全部解答可被认为如下:
[0051] simiform(s,t)=
[0052] 可计算一表示两个字符串之间的相似性并因而表示变换是诚实的还是欺骗性的相似性阈值。该相似性阈值可计算如下:
[0053] N=LCS(s,t)/min(length(s),length(t))其中:
[0054] LCS(s,t)是字符串s和t的最长共同序列;
[0055] min(length(s),length(t))是s和t的最小字符长度。
[0056] 为了说明的目的,假设:
[0057] s=www.ibm.com
[0058] t=www.1bm.com。
[0059] s和t之间的对的集合是:
[0060] P={(″www.″,″www.″),(″i″,″1″),(″bm.com″,″bm.com″)}。
[0061] 因此,s和t的最长共同序列是10,并且最小字符长度是11。因此相似性阈值N是10/11。以百分比表示,则相似性阈值N是90.9%。除了指示完全匹配的100%的相似性阈值外,相似性阈值越大,则变换是欺骗性变换的可能性就越大,因此在所示的例子中,变换可能是欺骗性的。可将该相似性阈值与一预先确定的阈值相比较,以确定变换是否将被认为是诚实的或欺骗性的。对于较高的安全性,可将该阈值设置得较低(例如,70%),而对于较低的安全性,可将该阈值设置得较高(例如,90%)。本领域的技术人员将理解,可将该阈值设置为任何所希望的值。本领域的技术人员还将理解,可使用任何合适的公式来计算该相似性阈值。
[0062] 根据本发明的另一个方面,可向用户呈现包括带有域名的显示文本的超链接。通常,显示文本与域名相匹配。然而,显示文本可以是域名的变换,并因此可以是可被解决的诚实的或欺骗性的变换。可将该显示名称与域名比较以确定是否存在变换,以及该变换是否是诚实的或欺骗性的。用于这种超链接的HTML语法可以是:
[0063]