仿冒域名检测方法及设备转让专利

申请号 : CN201310346713.9

文献号 : CN103428307B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李海灵洪博王利明

申请人 : 中国科学院计算机网络信息中心

摘要 :

本发明提供一种仿冒域名检测方法及设备。该仿冒域名检测方法包括:获取待检测域名;将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。本发明提供的仿冒域名检测方法及设备能够实现仿冒中文域名的有效检测。

权利要求 :

1.一种仿冒域名检测方法,其特征在于,包括:

获取待检测域名;

将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;

根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;

根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;

若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名;

所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以下操作:根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;

若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;

若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值;

其中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:获取所述两个中文字符的Unicode编码;

根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;

根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;

根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。

2.根据权利要求1所述的仿冒域名检测方法,其特征在于,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:获取所述两个中文字符的拼音序列字符串;

计算所述两个中文字符的拼音序列字符串的编辑距离;

根据所述编辑距离确定所述两个中文字符的语音相似度值。

3.根据权利要求1或2所述的仿冒域名检测方法,其特征在于,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:初始化编辑距离矩阵:

其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;

按照以下公式对所述编辑距离矩阵的各元素进行赋值:d0,0=0,di,0=i,d0,j=j,

其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;

将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。

4.一种仿冒域名检测设备,其特征在于,包括:

获取模块,用于获取待检测域名;

预处理模块,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;

第一相似度计算模块,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;

第二相似度计算模块,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;

判定模块,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名;

所述第一相似度计算模块具体包括:

语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;

确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;

字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;

所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值;

其中,所述字形相似度计算单元具体用于:

获取所述两个中文字符的Unicode编码;

根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;

根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;

根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。

5.根据权利要求4所述的仿冒域名检测设备,其特征在于,所述语音相似度计算单元具体用于:获取所述两个中文字符的拼音序列字符串;

计算所述两个中文字符的拼音序列字符串的编辑距离;

根据所述编辑距离确定所述两个中文字符的语音相似度值。

6.根据权利要求4或5所述的仿冒域名检测设备,其特征在于,所述第二相似度计算模块具体用于:初始化编辑距离矩阵:

其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;

按照以下公式对所述编辑距离矩阵的各元素进行赋值:d0,0=0,di,0=i,d0,j=j,

其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;

将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。

说明书 :

仿冒域名检测方法及设备

技术领域

[0001] 本发明涉及信息处理技术,尤其涉及一种仿冒域名检测方法及设备,属于网络安全技术领域。

背景技术

[0002] 随着科技的普及化,网络通讯技术以不可取代的地位深入各个领域,而网络安全问题也日益严峻,其中以网络钓鱼问题尤为突出。
[0003] 网络钓鱼,是指通过发送垃圾电子邮件等方式,将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,并获取收信人在此网站上输入的个人敏感
信息的网络犯罪行为。随着电子商务和互联网应用的普及和发展,网络钓鱼造成的损失日
益严重。由于域名是网站面向终端用户的入口,网络钓鱼者行为常常要采用和目标域名相
似的域名,来使得用户误以为钓鱼网站为正规的目标网站。因此,域名仿冒行为是钓鱼攻击
的一个重要特征,所以在进行钓鱼网站和邮件的检测时,需要进行URL的域名部分的相似性
分析,即仿冒域名检测。
[0004] 目前的仿冒域名检测,主要是通过计算两个英文域名的字符串的编辑距离来实现的。但随着国际化域名(International Domain Names,IDN)的兴起,域名注册字符集进一
步扩大,不可避免地将出现大量的相似性字符。中文域名是国际化域名的重要组成部分。汉
字较大的字库空间以及象形、形声的造字规则产生了大量的相似字符,而网络钓鱼常常会
利用这些相似字符来构造仿冒域名,对网络用户进行欺骗。目前针对英文域名的相似性检
测方法无法有效检测出中文域名的仿冒域名。

发明内容

[0005] 针对现有技术中的缺陷,本发明提供一种仿冒域名检测方法及设备,用以实现仿冒中文域名的有效检测。
[0006] 根据本发明实施例的一方面,提供一种仿冒域名检测方法,包括:
[0007] 获取待检测域名;
[0008] 将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
[0009] 根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
[0010] 根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
[0011] 若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
[0012] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对
分别执行以下操作:
[0013] 根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
[0014] 若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
[0015] 若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述
匹配对的相似度值。
[0016] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
[0017] 获取所述两个中文字符的拼音序列字符串;
[0018] 计算所述两个中文字符的拼音序列字符串的编辑距离;
[0019] 根据所述编辑距离确定所述两个中文字符的语音相似度值。
[0020] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
[0021] 获取所述两个中文字符的Unicode编码;
[0022] 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
[0023] 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符
的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特
征值S为所述中文字符的笔划数;
[0024] 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
[0025] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
[0026] 初始化编辑距离矩阵:
[0027]
[0028] 其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0
[0029] 按照以下公式对所述编辑距离矩阵的各元素进行赋值:
[0030] d0,0=0,di,0=i,d0,j=j,
[0031]
[0032] 其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
[0033] 将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检
测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所
述目标域名的关键词的编辑距离与相似度值呈反比关系。
[0034] 根据本发明实施例的另一方面,提供一种仿冒域名检测设备,包括:
[0035] 获取模块,用于获取待检测域名;
[0036] 预处理模块,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
[0037] 第一相似度计算模块,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
[0038] 第二相似度计算模块,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
[0039] 判定模块,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
[0040] 进一步地,在上述实施例的仿冒域名检测设备中,所述第一相似度计算模块具体包括:
[0041] 语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;
[0042] 确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
[0043] 字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;
[0044] 所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值。
[0045] 进一步地,在上述实施例的仿冒域名检测设备中,所述语音相似度计算单元具体用于:
[0046] 获取所述两个中文字符的拼音序列字符串;
[0047] 计算所述两个中文字符的拼音序列字符串的编辑距离;
[0048] 根据所述编辑距离确定所述两个中文字符的语音相似度值。
[0049] 进一步地,在上述实施例的仿冒域名检测设备中,所述字形相似度计算单元具体用于:
[0050] 获取所述两个中文字符的Unicode编码;
[0051] 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
[0052] 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符
的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特
征值S为所述中文字符的笔划数;
[0053] 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
[0054] 进一步地,在上述实施例的仿冒域名检测设备中,所述第二相似度计算模块具体用于:
[0055] 初始化编辑距离矩阵:
[0056]
[0057] 其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0
[0058] 按照以下公式对所述编辑距离矩阵的各元素进行赋值:
[0059] d0,0=0,di,0=i,d0,j=j,
[0060]
[0061] 其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
[0062] 将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检
测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所
述目标域名的关键词的编辑距离与相似度值呈反比关系。
[0063] 根据本发明实施例提供的仿冒域名检测方法及设备,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度
值,从而能够确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的
语音和/或字形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度
值,来计算待检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测
域名的关键词的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据本发
明实施例提供的仿冒域名检测方法及设备,能够有效判断不同中文域名的相似度,从而实
现仿冒中文域名的有效检测。

附图说明

[0064] 图1为本发明实施例的仿冒域名检测方法的流程示意图;
[0065] 图2为本发明实施例中计算语音相似度值的一个示例的流程示意图;
[0066] 图3为一个中文字符的12×12的点阵图像的示例;
[0067] 图4为本发明实施例的仿冒域名检测设备的结构示意图。

具体实施方式

[0068] 本发明实施例的仿冒域名检测方法例如由设置在网络中的仿冒域名检测设备来执行。
[0069] 图1为本发明实施例的仿冒域名检测方法的流程示意图。如图1所示,该方法包括以下步骤:
[0070] 步骤101,获取待检测域名;
[0071] 其中,该待检测域名例如为疑为钓鱼网站的域名,可根据用户举报或基于已有的可疑钓鱼网站检测方法获得,例如包括启发式特征检测技术和模式识别检测技术等。该待
检测域名还可以是经过查询获知未包含在已知钓鱼网站黑名单中的疑为钓鱼网站的域名。
[0072] 步骤102,将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
[0073] 其中,该目标域名例如为知名度较高的网络域名、用户点击量较大的网站域名或曾被仿冒的网站域名等。域名的关键词为域名中用于与其他域名相区分、作为该目标域名
特殊标识的字段,例如域名“http://www.新浪.com”的关键词为“新浪”,目标域名“http://
www.百度.com”的关键词为“百度”。此外,组建匹配对仅针对关键词中的中文字符。例如,待
检测域名为“http://www.新*浪.com”,提取其关键词“新*浪”,并进一步提取关键词中的中
文字符“新”和“浪”来与目标域名组建匹配对。
[0074] 各匹配对包括两个中文字符,其中一个为待检测域名的关键词的中文字符,另一个为目标域名的关键词的中文字符。若待检测域名的关键词的长度,即待检测域名的关键
词所包括的中文字符的个数为m,目标域名的关键词的长度为m,则组成m×n个匹配对。
[0075] 例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,则在步骤102中组成如下九个匹配对(:康,康)、(康,师)、(康,傅)、(帅,康)、(帅,师)、(帅,傅)、(父,康)、(父,师)、(父,傅)。
[0076] 步骤103,根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
[0077] 具体地,可以仅根据各匹配对内两个中文字符的语音,即汉语拼音,来计算同一匹配对内两个中文字符之间的相似度值,即匹配对的相似度值;也可以仅根据各匹配对内两
个中文字符的字形来计算匹配对的相似度值;还可以综合匹配对内两个中文字符的语音和
字形来计算匹配对的相似度值,本实施例中对此不做限制。并且,本实施例中对于如何根据
语音来计算两个中文字符的相似度,以及如果根据字形来计算两个中文字符的相似度,均
不做限制,其可以采用任意方式来实现。
[0078] 例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,计算出如上所述的九个匹配对各自的相似度值。
[0079] 步骤104,根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
[0080] 具体地,可以通过任意预设算法来基于步骤103获得的各匹配对的相似度值,来计算待检测域名的关键词与目标域名的关键词的整体相似度,本实施例中不进行限制。例如,
通过计算各匹配对的相似度值的均值来计算待检测域名的关键词与目标域名的关键词的
相似度值,或者采用任意其它方式。
[0081] 步骤105,若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
[0082] 其中,该预设阈值可根据需要进行设定,或通过统计已知使用仿冒域名的钓鱼网站与其所仿冒的目标网站的域名关键词之间的相似度值进行设定。
[0083] 根据上述实施例的仿冒域名检测方法,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度值,从而能够
确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的语音和/或字
形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度值,来计算待
检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测域名的关键词
的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据上述实施例的仿冒
域名检测方法,能够有效判断不同中文域名的相似度,从而实现仿冒中文域名的有效检测。
[0084] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对
分别执行以下操作:
[0085] 根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
[0086] 若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
[0087] 若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述
匹配对的相似度值。
[0088] 其中,语音相似度阈值和字形相似度阈值可以根据需要,或者根据统计进行设置。
[0089] 根据上述实施例的仿冒域名检测方法,既能够有效检测出通过语音间的相似性进行域名仿冒的中文域名,又能有效检测出通过视觉相似性进行域名仿冒的中文域名。其中,
通过视觉相似性进行域名仿冒的方式,例如在中文域名的关键词中添加插入一些如*、%、@
之类的特殊字符,或者替换形近字,或者拆分汉字重组等,均能够利用上述实施例的仿冒域
名检测方法实现有效检测。
[0090] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
[0091] 获取所述两个中文字符的拼音序列字符串;
[0092] 计算所述两个中文字符的拼音序列字符串的编辑距离;
[0093] 根据所述编辑距离确定所述两个中文字符的语音相似度值。
[0094] 具体地,图2为本发明实施例中计算语音相似度值的一个示例的流程示意图。如图2所示,计算中文字符的语音相似度值包括以下步骤:
[0095] 步骤201,获取待比较相似度值的两个中文字符对应的拼音序列字符串;
[0096] 具体地,例如使用已有的拼音开发工具包或者拼音汉字对照表等来获取拼音序列字符串。
[0097] 步骤202,利用预设的编辑距离算法计算两个拼音序列字符串之间的编辑距离;
[0098] 其中,编辑距离,又称为Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。更具体地,编辑操作包括将一个字符替换成另一个字符,插入
一个字符和删除一个字符。例如:当将拼音序列字符串“shuai”转化为拼音序列字符串
“shi”时,至少需进行以下两次编辑操作:将“shuai”中的“u”和“a”删除。因此拼音序列字符串“shuai”与拼音序列字符串“shi”之间的编辑距离为2。
[0099] 步骤203,将编辑距离与一个预设的判定标准值进行比较,若编辑距离大于等于预设的判定标准值,则将语音相似度值置为1,若编辑距离小于预设的判定标准值,则将语音
相似度值置为0。
[0100] 具体地,例如将判定标准值设置为两个拼音序列字符串中较长的拼音序列字符串的长度的一半,即:1/2*Max(字符串长度)。以上述计算“shuai”和“shi”的编辑距离为例,其中“shuai”为较长的拼音序列字符串,其长度的一半为2.5,由于步骤202计算得出的编辑距
离为2,小于判定标准值,所以将语音相似度值置为0。
[0101] 在此种设置下,预设语音相似度阈值例如设置为1或设置为大于0且小于等于1的任意数值。
[0102] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
[0103] 获取所述两个中文字符的Unicode编码;
[0104] 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
[0105] 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符
的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特
征值S为所述中文字符的笔划数;
[0106] 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
[0107] 具体地,对于中文字符,通过查表等方式获取该中文字符的Unicode编码,并通过所获得的Unicode编码,获得相应中文字符的点阵信息,并转化为相应的0-1矩阵。
[0108] 更为具体地,设F(x,y)表示一个汉字的图像。图3为一个中文字符的12×12的点阵图像的示例。如图3所示,根据点阵字库中存储的中文字符对应的图像,如果(x,y)位置处为
黑色像素,则F(x,y)取值为1;否则为0。由此即可得到一个汉字字形对应的0-1矩阵。
[0109] 在获得0-1矩阵后,从0-1矩阵中抽取汉字的特征向量,该特征向量例如包括特征值C、特征值E、特征值Cp、特征值G和特征值S。其中,特征值C为汉字的连通域,即构成汉字的
黑像素点构成的连通区域的个数;特征值E为汉字的端点个数,包括构成汉字的开始点或末
端点的个数;特征值Cp为汉字的交点个数,包括汉字两个笔划的连接点和交叉点的个数;特
征值G为汉字的亏格数,即汉字的笔划将点阵划分的区域个数;特征值S为所述汉字的笔划
数。以图3中所示的“我”字为例,其对应的特征向量V=(特征值C,特征值E,特征值Cp,特征值
G,特征值S)=(2,11,8,7,7)。需要说明的是,特征向量中也可包括除上述五个特征值之外的其它特征值,或者仅包括上述五个特征值中的部分特征值。
[0110] 获得两个需要进行比较的中文字符的特征向量V1(x1,x2,…,xd)和V2(y1,y2,…,yd)后,可以按照下述字形相似度计算公式计算字形相似度值:
[0111]
[0112] 其中,d表示特征向量的维数,当按照上述实施例设置特征向量时,维数为5;e为调整指数,用来突出差异程度,例如取值为1。通过上述公式,能够反映出中文字符的特征向量
e
差异值与坐标原点的偏离程度。其中|xi-yi| 反映差异程度。当差异度增大,相似值减小;
当两个中文字符的特征向量相同时,相似值为1。
[0113] 进一步地,在上述实施例的仿冒域名检测方法中,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
[0114] 初始化编辑距离矩阵:
[0115]
[0116] 其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0
[0117] 按照以下公式对所述编辑距离矩阵的各元素进行赋值:
[0118] d0,0=0,di,0=i,d0,j=j,
[0119]
[0120] 其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
[0121] 将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检
测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所
述目标域名的关键词的编辑距离与相似度值呈反比关系。
[0122] 下面以一个具体示例来对上述确定待检测域名的关键词与目标域名的关键词的相似度值的过程进行更为清楚的说明。
[0123] 例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,组成如下九个匹配对:(康,康)、(康,师)、(康,傅)、(帅,康)、(帅,师)、(帅,傅)、(父,康)、(父,师)、(父,傅)。
[0124] 针对上述九个匹配对计算语音相似度值,其中,(康,康)和(父,傅)的语音相似度值为1,则sim(康,康)=1,sim(父,傅)=1,其余七个匹配对的语音相似度值为0,进一步计算其余七个匹配对的字形相似度值,得到sim(康,师)=0.585、sim(康,傅)=0.652、sim(帅,康)=0.484、sim(帅,师)=0.823等。
[0125] 初始化如下4×4的编辑距离矩阵,还可在矩阵中清楚地表示各中文字符与矩阵的对应关系:
[0126]  Null 康 师 傅
Null 0 1 2 3
康 1      
帅 2      
父 3      
[0127] 根据以下公式对上述编辑距离矩阵中的其余元素进行赋值:
[0128]
[0129] 完成赋值后的矩阵如下所示:
[0130]  Null 康 师 傅
Null 0 1 2 3
康 1 0 1 2
[0131]帅 2 1 0.177 1.177
父 3 2 1.177 1.177
[0132] 因此,确定关键词“康帅父”与关键词“康师傅”的编辑距离为1.177。以两个关键词的相似度值=1/两个关键词的编辑距离为例,则两个关键词的相似度值=0.8496。例如预设
关键词相似度阈值为0.5,则确定关键词“康帅父”的中文域名为关键词为“康师傅”的中文
域名的仿冒域名。
[0133] 根据上述实施例的仿冒域名检测方法,对现有的应用于英文字符串的编辑距离地了改进,从而使其适用于中文字符串,并且能够更准确地衡量两个字符串之间的相似程度。
[0134] 图4为本发明实施例的仿冒域名检测设备的结构示意图。如图4所示,该仿冒域名检测设备包括:
[0135] 获取模块41,用于获取待检测域名;
[0136] 预处理模块42,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
[0137] 第一相似度计算模块43,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
[0138] 第二相似度计算模块44,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
[0139] 判定模块45,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
[0140] 本发明实施例的仿冒域名检测设备执行仿冒域名检测的流程与前述实施例的仿冒域名检测方法相同,故此处不再赘述。
[0141] 根据上述实施例的仿冒域名检测设备,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度值,从而能够
确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的语音和/或字
形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度值,来计算待
检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测域名的关键词
的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据本发明实施例提供
的仿冒域名检测设备,能够有效判断不同中文域名的相似度,从而实现仿冒中文域名的有
效检测。
[0142] 进一步地,在上述实施例的仿冒域名检测设备中,所述第一相似度计算模块具体包括:
[0143] 语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;
[0144] 确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
[0145] 字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;
[0146] 所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值。
[0147] 根据上述实施例的仿冒域名检测设备,既能够有效检测出通过语音间的相似性进行域名仿冒的中文域名,又能有效检测出通过视觉相似性进行域名仿冒的中文域名。其中,
通过视觉相似性进行域名仿冒的方式,例如在中文域名的关键词中添加插入一些如*、%、@
之类的特殊字符,或者替换形近字,或者拆分汉字重组等,均能够利用上述实施例的仿冒域
名检测设备实现有效检测。
[0148] 进一步地,在上述实施例的仿冒域名检测设备中,所述语音相似度计算单元具体用于:
[0149] 获取所述两个中文字符的拼音序列字符串;
[0150] 计算所述两个中文字符的拼音序列字符串的编辑距离;
[0151] 根据所述编辑距离确定所述两个中文字符的语音相似度值。
[0152] 进一步地,在上述实施例的仿冒域名检测设备中,所述字形相似度计算单元具体用于:
[0153] 获取所述两个中文字符的Unicode编码;
[0154] 根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
[0155] 根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符
的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特
征值S为所述中文字符的笔划数;
[0156] 根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
[0157] 进一步地,在上述实施例的仿冒域名检测设备中,所述第二相似度计算模块具体用于:
[0158] 初始化编辑距离矩阵:
[0159]
[0160] 其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0
[0161] 按照以下公式对所述编辑距离矩阵的各元素进行赋值:
[0162] d0,0=0,di,0=i,d0,j=j,
[0163]
[0164] 其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
[0165] 将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检
测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所
述目标域名的关键词的编辑距离与相似度值呈反比关系。
[0166] 根据上述实施例的仿冒域名检测设备,对现有的应用于英文字符串的编辑距离地了改进,从而使其适用于中文字符串,并且能够更准确地衡量两个字符串之间的相似程度。
[0167] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进
行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
方案的范围。