一种识别疑似仿冒网站的方法与系统转让专利

申请号 : CN200910129377.6

文献号 : CN101504673B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张利明闻波孔勇伟

申请人 : 阿里巴巴集团控股有限公司

摘要 :

本申请公开了一种识别疑似仿冒网站的方法和装置,所述方法包括:获得待识别的网站地址;根据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站。应用本申请,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别,降低访问仿冒网站概率的目的,提前进行了风险提示,将可能的损失降为最小。

权利要求 :

1.一种识别疑似仿冒网站的方法,其特征在于,包括:获得待识别的网站地址;

根据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站;

其中,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配的步骤包括:

01)从所获得的待识别网站地址中提取主机统一资源定位符信息;

02)判断所述主机统一资源定位符信息中是否存在干扰字符,若存在,则执行步骤

03),若不存在,则将所述提取出的主机统一资源定位符信息作为待对比的关键字,然后执行步骤04);

03)将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;

04)将所述待对比的关键字和疑似仿冒网站规则进行第二正则表达式匹配。

2.根据权利要求1所述的方法,其特征在于,所述获得待识别的网站地址的步骤包括:将所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地址;

或者,

如果所得到的任何字符串和/或文本本身已经带有统一资源定位符信息,则直接从该字符串和/或文本获得待识别的网站地址。

3.根据权利要求1所述的方法,其特征在于,所述干扰字符包括:下划线、减号、空格、点号其中之一或任意组合。

4.根据权利要求1所述的方法,其特征在于,根据所述网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站的步骤包括:判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则所述获得的待识别网站地址不属于待保护的正规网站;

判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所述获得的待识别网站地址不是仿冒网站。

5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:将判断结果通知给用户。

6.一种识别疑似仿冒网站的装置,其特征在于,包括:网站地址获取单元,用于获得待识别的网站地址;

网站地址处理单元,用于根据所述待识别的网站地址,确定所述网站不属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站地址为疑似仿冒网站;

所述网站地址处理单元包括:

正规网站判定单元,用于确定所述待识别的网站地址不在预设的待保护网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;

仿冒网站判定单元,用于确定所述待识别的网站地址不在预设的仿冒网站列表中后,确定所述待识别网站地址不是仿冒网站;

疑似网站判定单元,用于在所述待识别网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站;

所述疑似网站判定单元包括:

提取单元,用于从所获得的待识别网站地址中提取主机统一资源定位符信息;

关键字获取单元,用于在不存在干扰字符时,将所述提取出的主机统一资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;

匹配单元,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。

7.根据权利要求6所述的装置,其特征在于,所述网站地址获取单元包括:第一网址获得单元,用于将设备所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地址;

第二网址获得单元,用于在设备所得到的任何字符串和/或文本本身已经带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的网站地址。

8.根据权利要求6所述的装置,其特征在于,所述干扰字符包括:下划线、减号、空格、点号其中之一或任意组合。

9.根据权利要求6所述的装置,其特征在于,所述装置位于用户端设备或网络侧设备。

10.根据权利要求6所述的装置,其特征在于,所述装置进一步包括:提示装置,用于将判断结果通知给用户。

说明书 :

一种识别疑似仿冒网站的方法与系统

技术领域

[0001] 本发明涉及计算机技术领域,特别涉及一种识别疑似仿冒网站的方法与系统。

背景技术

[0002] 随着网络技术的发展,即时通讯(IM)工具逐渐成为用户进行在线交易/电子商务的一种重要工具。而其中不乏一些不法网站,通过将网址的名称设为非常接近正规网站的方式,骗取用户信任,损害用户利益。
[0003] 目前,业界通常有如下共识:
[0004] 仿冒网站,指网站地址的名称非常类似于正规的商业网站,且意图在于损害用户利益的网站。
[0005] 仿冒网站列表:列举了已知的被判定为仿冒网站的地址列表,这类列表中的网站往往通过用户投诉,或者人工筛查获得,且这类列表中的网站通常已经损害了用户的利益。
[0006] 待保护网站列表:列举了需要进行保护的正规网站,一般来说这类需要保护的网站地址,是网络交易或者电子商务中高频度出现的网站,比如淘宝,阿里巴巴,支付宝等,其也是最容易被仿冒的网站。
[0007] 现有的识别技术以数据库形式提供了已知的正规网站或者仿冒网站的查询识别,即通过查询待保护网站列表和/或仿冒网站列表来识别正规网站和/或仿冒网站。现有的识别技术虽然可以识别出仿冒网站,但不法分子可以通过重新申请新的网站地址的方式继续行骗,而且,现有的识别技术需要在收到举报或者说事发后才能更新数据库,无法做到前期识别,风险警示,也就是说,现有的识别实际是一种精确的匹配,即数据库中存储了某个网站地址后,才能进行识别,否则无法进行识别。

发明内容

[0008] 本申请实施例提供一种识别疑似仿冒网站的方法与系统,以达到事前识别,降低访问仿冒网站概率的目的。
[0009] 本申请公开了一种识别疑似仿冒网站的方法,包括:
[0010] 设备获得待识别的网站地址;
[0011] 根据所述待识别的网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站后,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站。
[0012] 其中,所述设备获得待识别的网站地址的步骤包括:
[0013] 将设备所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地址;或者,如果设备所得到的任何字符串和/或文本本身已经带有统一资源定位符信息,则直接从该字符串和/或文本获得待识别的网站地址。
[0014] 其中,应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配的步骤包括:
[0015] 01)从所获得的待识别网站地址中提取主机统一资源定位符信息;
[0016] 02)判断所述主机统一资源定位符信息中是否存在干扰字符,若存在,则执行步骤03),若不存在,则将所述提取出的主机统一资源定位符信息作为待对比的关键字,然后执行步骤04);
[0017] 03)将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;
[0018] 04)将所述待对比的关键字和疑似仿冒网站规则进行第二正则表达式匹配。
[0019] 其中,所述干扰字符包括:下划线、减号、空格、点号其中之一或任意组合。
[0020] 其中,根据所述网站地址确定所述网站不属于待保护的正规网站且不是仿冒网站的步骤包括:
[0021] 判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则所述获得的待识别网站地址不属于待保护的正规网站;
[0022] 判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所述获得的待识别网站地址不是仿冒网站。
[0023] 其中,所述设备是用户端设备或网络侧的服务器。
[0024] 其中,所述用户端设备包括即时通信工具和移动终端。
[0025] 其中,所述方法进一步包括:所述设备将判断结果通知给用户。
[0026] 本申请还公开了一种识别疑似仿冒网站的装置,包括:
[0027] 网站地址获取单元,用于获得待识别的网站地址;
[0028] 网站地址处理单元,用于根据所述待识别的网站地址,确定所述网站不属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站地址为疑似仿冒网站。
[0029] 其中,所述网站地址获取单元包括:
[0030] 第一网址获得单元,用于将设备所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地址;
[0031] 第二网址获得单元,用于在设备所得到的任何字符串和/或文本本身已经带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的网站地址。
[0032] 其中,所述网站地址处理单元包括:
[0033] 正规网站判定单元,用于确定所述待识别的网站地址不在预设的待保护网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;
[0034] 仿冒网站判定单元,用于确定所述待识别的网站地址不在预设的仿冒网站列表中后,确定所述待识别网站地址不是仿冒网站;
[0035] 疑似网站判定单元,用于在所述待识别网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
[0036] 其中,所述疑似网站判定单元包括:
[0037] 提取单元,用于从所获得的待识别网站地址中提取主机统一资源定位符信息;
[0038] 关键字获取单元,用于在不存在干扰字符时,将所述提取出的主机统一资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提取出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;
[0039] 匹配单元,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
[0040] 其中,所述干扰字符包括:下划线、减号、空格、点号其中之一或任意组合。
[0041] 其中,所述装置位于用户端设备或网络侧设备。
[0042] 其中,所述装置进一步包括:提示装置,用于将判断结果通知给用户。
[0043] 应用本申请上述实施例提供的识别疑似仿冒网站的方法和装置,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别,降低访问仿冒网站概率的目的,提前进行了风险提示,将可能的损失降为最小。

附图说明

[0044] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045] 图1是根据本申请实施例的一种识别疑似仿冒网站的方法流程图;
[0046] 图2是根据本申请实施例的应用待识别的网站地址与疑似仿冒网站规则进行正则表达式匹配的流程图;
[0047] 图3是根据本申请实施例的一种识别疑似仿冒网站的装置结构图;
[0048] 图4是根据本申请实施例的网站地址处理单元的结构图;
[0049] 图5是根据本申请实施例的疑似网站判定单元的结构图;
[0050] 图6是根据本申请实施例的网站地址获取单元的结构图。

具体实施方式

[0051] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0052] 本申请首先对一些概念进行解释:
[0053] 疑似仿冒网站:网站地址的命名方式同“仿冒网站”,但是尚未确定该网站是否将会损害用户的利益,比如www.taopao.com,在尚未确定该网站是否损害淘宝网(www.taobao.com)用户的利益前,不能将其确定为仿冒网站,但是可以将其定义为疑似仿冒网站,疑似仿冒网站虽然不一定会对用户利益造成损害,但需要提前进行预警,以减少用户访问仿冒网站的概率,最大限度的保证用户利益。
[0054] 参见图1,其是根据本申请实施例的一种识别疑似仿冒网站的方法流程图,本申请实施例既可以在用户终端侧执行,也可以在网络侧执行,具体包括:
[0055] 步骤101,获得待识别的网站地址;
[0056] 这里,并不对获取网站地址的方式进行限制,例如,可以在应用即时通讯(IM)软件聊天的过程中获得网站地址,或者,在用户的个性签名中获得网站地址等等,无论应用哪种方式所获得的网站地址,在这里都可以被认为是待识别的网站地址。
[0057] 可以理解,可以通过一个或多个应用场景来获得待识别网站地址,具体的应用场景可以是:
[0058] 对于即时通信技术领域:可以通过即时通信工具获得待识别的网站地址,具体场景包括但不限于以下几种:
[0059] 场景1:用户应用即时通信工具(包含单对单聊天,多人的聊天室、群等)交流时,当用户接收到即时消息后,可以从即时消息内容中获得URL地址链接;
[0060] 场景2:当用户点击即时通信工具中的联系人列表,群成员列表,或者其他形式的联系人列表时,可以从联系人的状态区域或者签名区域获得URL地址链接;
[0061] 场景3:用户在登录通讯软件后,收到离线消息(在用户未登录时,接收到的消息)时,可以从该离线消息中获得URL地址链接;
[0062] 场景4:通常,即时通讯软件包含浮出信息,该浮出信息一般表现为系统任务栏区域右下角浮出的窗口,用户可以从该浮出的窗口内容中获得URL地址链接。
[0063] 对于浏览器技术领域,包括但不限于以下应用场景:
[0064] 用户通过点击网页中的带有超链接形式的图片,文字,视频等任何可点击的元素,从此可点击元素的指向获得URL地址链接。
[0065] 由于本申请实施例既可以在用户终端侧执行,也可以在网络侧执行,因而,无论是客户端侧还是服务器侧,获取待识别网站地址的具体实现方式可以为:
[0066] 对设备本身可以获得到的任何字符串和/或文本按照统一资源定位符(URL,Uniform Resource Locator)的特征,使用预先设定的第一正则表达式进行过滤判断,从匹配结果中获得URL,该通过过滤判断得到的URL即为待识别的网站地址,因此,不管场景如何变化,只要任何字符串和/或文本通过预设的正则表达式进行匹配,能够得到URL即可。
[0067] 需要说明的是,一种例外的情况:在浏览器领域中,可点击元素(比如图片,文字等)本身已经带有URL信息,因而不再需要进行正则表达式的匹配识别,可直接获取此元素所指向的网站URL地址。
[0068] 可以理解,为描述方便,此处将用于从得到的字符串和/或文本中获得URL地址的正则表达式称为第一正则表达式。
[0069] 步骤102,根据所述待识别的网站地址判断所述网站是否为待保护的正规网站和仿冒网站,若不是,则执行步骤103,若是,则结束。
[0070] 具体判断过程是:
[0071] 判断待识别的网站地址是否在预设的待保护网站列表中,若不存在,则所述获得的待识别网站地址不属于待保护的正规网站;
[0072] 判断待识别的网站地址是否在预设的仿冒网站列表中,若不存在,则所述获得的待识别网站地址不是仿冒网站。
[0073] 上述两个判断没有先后顺序,即既可以先判断是否在预设的待保护网站列表中,也可以先判断是否在预设的仿冒网站列表中。
[0074] 可以理解,如果待识别的网站地址在预设的待保护网站列表中,或者在预设的仿冒网站列表中,则可以判定该待识别的网站地址为正规网站或仿冒网站,这样,已经可以确定该待识别网站的性质了,因而,可以直接结束,不需要再进行后续操作了。
[0075] 步骤103,应用待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配,若匹配成功,则判定所述待识别网站地址为疑似仿冒网站,否则判定待识别网站地址为非疑似仿冒网站。
[0076] 在此,将用于匹配疑似仿冒网站的正则表达式称为第二正则表达式。
[0077] 再有,当设备得出判定结果后,可以向用户进行提示,具体的提示方式可以采用以下任何之一:
[0078] 方式一:采用图形的方式向用户进行提示,例如,如确定为待保护正规网站,则在该网站网址旁画“√”;如果确定为仿冒网站或疑似仿冒网站,则在该网站网址旁画“×”;如果确定为非疑似仿冒网站,则在该网站网址旁画“?”。
[0079] 方式二:采用文字的方式向用户进行提示,例如,如确定为待保护正规网站,则提示用户“可点击”,否则,提示用户“不安全”或“可能不安全”。
[0080] 上述是以终端侧为例,来说明如何将判断结果告知用户,对于网络侧而言,其与终端侧类似,不同之处在于将判断出的结果先传给终端侧,再由终端侧提示用户。
[0081] 下面具体说明如何应用待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配,参见图2,其是根据本申请实施例的应用待识别的网站地址与疑似仿冒网站规则进行正则表达式匹配的流程图,具体包括:
[0082] 步骤201,从所获得的待识别网站地址中提取主机统一资源定位符(hosturl)信息;
[0083] 例如,所获得的网站地址为Protocol://hosturl/pathurl,则删除该网站地址中的路径信息、协议前缀等,仅提取出hosturl信息。
[0084] 步骤202,判断上述hosturl信息中是否存在干扰字符,若存在,则执行步骤203,否则,执行步骤204。
[0085] 上述干扰字符是常见的模仿网站地址采用的干扰手段,具体可以包括:各种分隔符如下划线(_)、减号(-)、空格、点号(.)等等,在实现过程中,干扰字符可以是上述其中之一或任意组合。
[0086] 步骤203,将上述提取出的hosturl信息中的干扰字符删除,将删除干扰字符后的hosturl信息作为待对比的关键字;然后执行步骤205。
[0087] 步骤204,将提取出的hosturl信息作为待对比的关键字,然后执行步骤205。
[0088] 步骤205,将上述待对比的关键字和疑似仿冒网站规则进行第二正则表达式匹配。
[0089] 统一资源定位符(URL,Uniform Resource Locator)也被称为网页地址,是因特网上标准的资源的地址。现在它已经被万维网联盟编制为因特网标准RFC1738。URL是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。
[0090] 疑似仿冒网站规则,通过对主机名中重要的关键字以及其常见变体通过正则表达式进行描述。上述关键字是指hosturl中能够代表网站的单词或者其组合,比如taobao,alibaba,yahoo,ebay等都可被称为关键字。疑似仿冒网站规则的设计不追求非常通用,而是对待保护网站列表中所列举的正规网站,通过人工逐一编写正则表达式的方式来进行的,采用了一种针对关键字的简单有效的匹配方式,以此形成疑似仿冒网站规则的正则表达式。
[0091] 上述常见变体包括但不限于以下几种表现形式:
[0092] 1、以不易识别为依据,比如英文字母O和阿拉伯数字0,在计算机显示上常常容易被忽视,比如将taobao.com篡改为taoba0.com,注意,第二个是0而不是字母o;
[0093] 2、省略英文字符中的一些不影响阅读的辅音,比如将www.taobao.com,篡改未www.taoba.com。
[0094] 3、增加分割符号,比如将www.taobao.com篡改为www.tao-bao.com。
[0095] 下面给出一个疑似仿冒网站规则的实例,该实例中要寻找针对阿里巴巴及其子公司网站地址的疑似仿冒网站。
[0096] (?:
[0097] (?:a[1ll]i(?:(?:ba)|8){1,2}) # 匹配ali88,aliba8
[0098] |
[0099] (?:ta[o0]?[bp]a[o0]?) # 匹配tapao,tabao等
[0100] |
[0101] (?:a[1l]i[bp]a[yi]) # 匹配alipai等
[0102] )
[0103] 需要说明的是,由于作为输入的hosturl已经确保不含有干扰字符(在进行正则表达式匹配之前已有删除干扰字符的步骤),因而,表示疑似仿冒网站规则的正则表达式中不再考虑这些问题。
[0104] 本申请上述实施例的执行主体既可以是用户终端,也可以是网络侧的服务器。其中的用户终端可以是即时通信工具,也可以是移动终端。
[0105] 应用本申请上述实施例提供的识别疑似仿冒网站的方法,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别的目的,并且,将识别结果通知给用户,降低了访问仿冒网站概率,本申请实施例提前进行了风险提示,将可能的损失降为最小。
[0106] 本申请还提供了一种识别疑似仿冒网站的装置,参见图3,包括:网站地址获取单元301和网站地址处理单元302,其中,
[0107] 网站地址获取单元301,用于获得待识别的网站地址;这里,并不对获取网站地址的方式进行限制,无论应用哪种方式所获得的网站地址,在这里都可以被认为是待识别的网站地址。
[0108] 其中,这里并不对获取网站地址的方式进行限制,例如,可以在应用即时通讯(IM)软件聊天的过程中获得网站地址,或者,在用户的个性签名中获得网站地址等等,无论应用哪种方式所获得的网站地址,在这里都可以被认为是待识别的网站地址。具体应用场景和前述相同,此处不再赘述。
[0109] 网站地址处理单元302,用于根据所述待识别的网站地址,确定所述网站不属于待保护的正规网站且不是仿冒网站,且应用所述待识别的网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别网站地址为疑似仿冒网站。
[0110] 再有,上述装置还可以包括:提示装置,用于将判断结果通知给用户。如果上述装置位于终端侧,则该提示装置可以将判断结果直接提示给用户;如果上述装置位于网络侧,则该提示装置可以将判断结果先通知给终端,由终端显示给用户。
[0111] 图4所示为根据本申请实施例的网站地址处理单元的结构图,其可以包括:正规网站判定单元3021、仿冒网站判定单元3022和疑似网站判定单元3023,其中,[0112] 正规网站判定单元3021,用于确定所述待识别的网站地址不在预设的待保护网站列表中后,确定所述待识别网站地址不属于待保护的正规网站;
[0113] 仿冒网站判定单元3022,用于确定所述待识别的网站地址不在预设的仿冒网站列表中后,确定所述待识别网站地址不是仿冒网站;
[0114] 疑似网站判定单元3023,用于在所述待识别网站地址与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
[0115] 图5所示为根据本申请实施例的疑似网站判定单元的结构图,其可以包括:提取单元30231、关键字获取单元30232和匹配单元30233,其中,
[0116] 提取单元30231,用于从所获得的待识别网站地址提取主机统一资源定位符信息;具体的,可以通过删除网站地址中的路径信息、协议前缀等方式提取出hosturl信息。
[0117] 关键字获取单元30232,用于在不存在干扰字符时,将所述提取出的主机统一资源定位符信息作为待对比的关键字,在存在干扰字符时,将所述提出的主机统一资源定位符信息中的干扰字符删除,将删除干扰字符后的主机统一资源定位符信息作为待对比的关键字;
[0118] 上述干扰字符是常见的模仿网站地址采用的干扰手段,具体可以包括:各种分隔符如下划线(_)、减号(-)、空格、点号(.)等等,在实现过程中,干扰字符可以是上述其中之一或任意组合。
[0119] 匹配单元30233,用于在所述待对比的关键字与疑似仿冒网站规则进行第二正则表达式匹配成功后,判定所述待识别的网站地址为疑似仿冒网站。
[0120] 图6所示为根据本申请实施例的网站地址获取单元的结构图,其可以包括:第一网址获得单元3011和第二网址获得单元3012,其中,
[0121] 第一网址获得单元3011,用于将设备所得到的任何字符串和/或文本按照统一资源定位符URL的特征,使用预先设定的第一正则表达式进行匹配,从匹配结果中获得待识别的网站地址;
[0122] 第二网址获得单元3012,用于在设备所得到的任何字符串和/或文本本身已经带有统一资源定位符信息时,直接从该字符串和/或文本获得待识别的网站地址。
[0123] 本申请上述实施例提供的识别疑似仿冒网站的装置,既可以在用户终端侧,也可以在网络侧,也就是说,上述装置既可以位于用户终端,也可以位于网络侧的服务器。其中的用户终端,既可以是即时通讯工具,也可以是移动终端。
[0124] 应用本申请上述实施例提供的识别疑似仿冒网站的装置,可以在用户受损失之前识别出疑似仿冒网站,达到了事前识别的目的,本申请将识别结果通知给用户,降低了访问仿冒网站概率,提前进行了风险提示,将可能的损失降为最小。
[0125] 为了描述的方便,以上所述装置的各部分以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件或硬件中实现。
[0126] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0127] 本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
[0128] 以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。