基于多层决策的Web地标可靠性评估方法及装置转让专利

申请号 : CN201811338745.3

文献号 : CN109543118B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 尹美娟杨文刘晓楠陈静罗向阳孙志豪

申请人 : 中国人民解放军战略支援部队信息工程大学

摘要 :

本发明属于网络安全应用技术领域,特别涉及一种基于多层决策的Web地标可靠性评估方法及装置,该方法包含:解析候选地标中IP地址;针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;对过滤后的候选地标进行评估,获取其可信度数值。本发明在不依赖路径探测的前提下,充分利用互联网公开服务,对不同特征的无效Web地标进行分类过滤、量化评估地标的可信度,实现大规模Web地标的自动化评估,解决当前方法准确率低、效率不高、大规模Web地标的自动量化运行等问题;实现无效地标的过滤和有效地标的可信度量化评估,且有效提高地标获取的准确性和定位结果的精确度,对网络服务器类实体地标精确获取技术具有重要指导意义。

权利要求 :

1.一种基于多层决策的Web地标可靠性评估方法,其特征在于,包含如下内容:

解析候选地标中IP地址;

针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;

对过滤后的候选地标进行评估,获取其可信度数值;

候选地标解析过程中,包含如下步骤:

将候选地标按照域名进行分组,删除不规范数据,该不规范数据包含不提供域名及域名不合格的候选地标;

使用多个全球分布的DNS服务器对域名分别进行DNS查询,合并各DNS服务器返回记录信息,生成域名映射的IP地址列表;

针对域名映射的该IP地址列表,如果该域名仅包含一个IP地址,则将该IP地址赋予该域名对应的候选地标;如果该域名包含n个IP地址,则将该域名对应的候选地标复制n份,每份中被赋予该IP地址列表中一个IP地址,其中,n为大于1的整数。

2.根据权利要求1所述的基于多层决策的Web地标可靠性评估方法,其特征在于,针对解析后的候选地标,利用过滤器对候选地标进行过滤的过程,包含如下内容:针对解析后的候选地标,依次按照域名、IP地址进行分组并过滤,针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。

3.根据权利要求2所述的基于多层决策的Web地标可靠性评估方法,其特征在于,针对解析后的候选地标,依次按照域名、IP地址进行分组并过滤,包含内容如下:首先,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;然后,将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上网段的候选地标。

4.根据权利要求2所述的基于多层决策的Web地标可靠性评估方法,其特征在于,对过滤后的候选地标进行评估过程,包含如下内容:遍历每个候选地标,确定候选地标的IP地址承载的域名个数;依据该域名个数,利用公式r1=(1-pd)r0+pdf(n)修正候选地标的可信度初始值,其中,pd为IP反查信息的可信度权值,f(n)=e1-n,n=1,2,...,r0为地标初始可信度,n为统计的域名总数;

通过Web地标与其IP的Whois注册信息和第三方库中提取候选地标的国家省市信息,利用公式r=(1-pl)r2+pllr对修正后的可信度进行调整,将调整后的可信度值写入候选地标,其中,r2=(1-pw)r1+pwwr,pw为Whois信息的可信度权值,wr=kcwc+kowo+(1-kc-ko)wd,wc=kcowco+kprwpr+(1-kco-kpr)wci,kc、ko分别为whois注册行政区、注册机构的权值,wc、wo、wd为whois注册行政区、注册机构和注册域名的匹配指数,kco、kpr分别为国家、省级行政区的权值,wco、wpr、wci则为whois注册信息和地标信息的行政区匹配粒度,lr=kcowLco+kprwLpr+(1-kco-kpr)wLci,wLco、wLpr、wLci则分别为IP位置库信息和地标信息的行政区匹配粒度。

5.根据权利要求4所述的基于多层决策的Web地标可靠性评估方法,其特征在于,对修正后的可信度进行调整过程,包含如下内容:比对Web地标与其IP的Whois注册信息,获取信息的相似度,依据该相似度对可信度进行加权调整;通过第三方库匹配提取到的候选地标的国家省市信息,根据匹配程度调整可信度值。

6.根据权利要求5所述的基于多层决策的Web地标可靠性评估方法,其特征在于,Whois注册信息至少包含机构名称、行政区划及联系方式。

7.根据权利要求4所述的基于多层决策的Web地标可靠性评估方法,其特征在于,遍历每个候选地标,确定候选地标的IP地址承载的域名个数,包含如下内容:遍历每个候选地标,获取其IP地址;

使用多个反查网站查询该IP地址承载的域名,合并查询结果的域名列表;对合并后的域名列表中的域名进行DNS全息查询其IP地址列表,并删除域名列表中不包含候选地标IP地址的域名,得到候选地标IP地址承载的域名列表;

对域名列表中的同网站子域名进行合并,统计域名总数。

8.一种基于多层决策的Web地标可靠性评估装置,其特征在于,基于权利要求1所述的基于多层决策的Web地标可靠性评估方法实现,包含解析模块、过滤模块和评估模块,其中,解析模块,用于解析候选地标中IP地址;

过滤模块,用于针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;

评估模块,用于对过滤后的候选地标进行评估,获取其可信度数值。

9.根据权利要求8所述的基于多层决策的Web地标可靠性评估装置,其特征在于,过滤模块包含过滤子模块一、过滤子模块二和初始值获取子模块,其中过滤子模块一,用于针对解析后的候选地标,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;

过滤子模块二,用于将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上网段的候选地标;

初始值获取子模块,用于针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。

说明书 :

基于多层决策的Web地标可靠性评估方法及装置

技术领域

[0001] 本发明属于网络安全应用技术领域,特别涉及一种基于多层决策的Web地标可靠性评估方法及装置。

背景技术

[0002] 网络实体定位技术,即IP定位技术,是通过IP地址来确定网络实体地理位置的一种技术,该技术在定向广告投放、基于地域的内容定制、网络性能优化等方面得到广泛的应用。基于地标的定位技术以其较高的精确度和可靠性得到了广泛的运用,大量高密度、高精度的网络地标成了IP定位的关键基础支撑,同时地标的稳定性也直接影响着IP定位的效果。遍布世界的Web服务器,分布广泛,数量规模大,其IP地址与地理位置关系相对固定,是网络地标的理想选择,简称此类地标为“Web地标”。现有Web地标挖掘方法将获取到的Web网站所属组织机构的地理位置作为地标的地理位置,然而由于主机托管、共享主机、CND网络的大量存在,特别是近年来云服务的飞速发展,导致Web地标提供的地理位置未必为Web服务器的真实位置,无法为IP定位提供有效支撑。因此需要采取有效的算法对Web地标的地理位置信息的可靠性进行评估。
[0003] 目前用于Web评估的方法主要有:基于主页重定向的方法,简称为LVM,该方法通过主页重定向和邮区信息对照的方式过滤CDN网络和共享主机,可过滤部分无效地标,但不重定向并非一定就是可信地标,且很多网站不支持IP地址访问,导致该方法获取的Web地标准确率不高,且因对每个地标需进行两次网页访问并进行是否重定向判断导致评估速度慢,不适合于大规模地标评估;基于最近共同路由器的街道级地标评估方法,简称为SLE,该方法将地标按照接入路由分组,根据组内地标是否符合网络时延和地理距离的约束关系进行可信度估计,大幅提升了地标的准确性,但是该方法要求对地标的探测可达、接入路由器不匿名且需要反复测量路径和时延,无法自动化运行,不适用于大规模地标评估。

发明内容

[0004] 为此,本发明提供一种基于多层决策的Web地标可靠性评估方法及装置,解决当前获取地标准确率低、效率不高、无法自动化运行等问题。
[0005] 按照本发明所提供的设计方案,一种基于多层决策的Web地标可靠性评估方法,包含如下内容:
[0006] 解析候选地标中IP地址;
[0007] 针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;
[0008] 对过滤后的候选地标进行评估,获取其可信度数值。
[0009] 上述的,候选地标解析过程中,包含如下步骤:
[0010] 将候选地标按照域名进行分组,删除不规范数据,该不规范数据包含不提供域名及域名不合格的候选地标;
[0011] 进行DNS全息解析,使用多个分布在全球的DNS服务器对域名分别进行DNS查询,合并各DNS服务器返回记录信息,生成域名映射的IP地址列表;
[0012] 针对域名映射的该IP地址列表,如果该域名仅包含一个IP地址,则将该IP地址赋予该域名对应的候选地标;如果该域名包含n个IP地址,则将该域名对应的候选地标复制n份,每份中被赋予该IP地址列表中一个IP地址,其中,n为大于1的整数。
[0013] 上述的,针对解析后的候选地标,利用过滤器对候选地标进行过滤的过程,包含如下内容:
[0014] 针对解析后的候选地标,依次按照域名、IP地址进行分组并过滤,针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。
[0015] 优选的,针对解析后的候选地标,依次按照域名、IP地址进行分组并过滤,包含内容如下:首先,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;然后,将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上/24网段的候选地标。
[0016] 优选的,对过滤后的候选地标进行评估过程,包含如下内容:
[0017] 遍历每个候选地标,确定候选地标的IP地址承载的域名个数;依据域名个数,修正候选地标的可信度初始值;
[0018] 通过比对Web地标及其IP的Whois注册信息和第三方库中提取候选地标的国家省市信息,对修正后的可信度进行调整,将调整后的可信度值写入候选地标。
[0019] 优选的,对修正后的可信度进行调整过程,包含如下内容:比对Web地标与其IP的Whois注册信息,获取信息的相似度,依据该相似度对可信度进行加权调整;通过第三方库匹配提取到的候选地标的国家省市信息,根据匹配程度调整可信度值。
[0020] 更进一步,Whois注册信息至少包含机构名称、行政区划及联系方式。
[0021] 优选的,遍历每个候选地标,确定候选地标的IP地址承载的域名个数,包含如下内容:
[0022] 遍历每个候选地标,获取其IP地址;
[0023] 使用多个反查网站查询该IP地址承载的域名,合并查询结果的域名列表;对合并后的域名列表中的域名进行DNS全息查询其IP地址列表,并删除域名列表中不包含候选地标IP地址的域名,得到候选地标IP地址承载的域名列表;
[0024] 对域名列表中的同网站子域名进行合并,统计域名总数。
[0025] 一种基于多层决策的Web地标可靠性评估装置,包含解析模块、过滤模块和评估模块,其中,
[0026] 解析模块,用于解析候选地标中IP地址;
[0027] 过滤模块,用于针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;
[0028] 评估模块,用于对过滤后的候选地标进行评估,获取其可信度数值。
[0029] 上述的装置中,过滤模块包含过滤子模块一、过滤子模块二和初始值获取子模块,其中
[0030] 过滤子模块一,用于针对解析后的候选地标,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;
[0031] 过滤子模块二,用于将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上网段的候选地标;
[0032] 初始值获取子模块,用于针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。
[0033] 本发明的有益效果:
[0034] 本发明在不依赖路径探测的前提下,充分利用互联网公开服务,对不同特征的无效Web地标进行分类过滤、量化评估地标的可信度,实现大规模Web地标的自动化评估,解决当前方法准确率低、效率不高、无法自动化运行等问题;并进一步,根据无效候选地标域名与IP地址的映射关系特征,过滤使用共享主机、CDN网络以及云服务器的候选地标;并综合利用主页重定向、Whois服务以及第三方IP库等对地标信息的可靠性进一步推断,以量化地标的可信度值,实现无效地标的过滤和有效地标的可信度量化评估,解决了大规模Web地标的自动量化评估问题,且有效提高地标获取的准确性和定位结果的精确度,对网络服务器类实体地标精确获取技术具有重要指导意义。附图说明:
[0035] 图1为实施例中评估方法流程示意图;
[0036] 图2为实施例中解析流程示意图;
[0037] 图3为实施例中候选地标评估子流程示意图;
[0038] 图4为实施例中统计域名总数的流程示意图;
[0039] 图5为实施例中评估装置示意图;
[0040] 图6为实施例中过滤模块示意图;
[0041] 图7为实施例中评估框架示意图
[0042] 图8为实施例中以郑州146个IP地址为准的定位准确性验证示意图;
[0043] 图9为实施例中以北京119个IP地址为准的定位准确性验证示意图。具体实施方式:
[0044] 为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
[0045] 目前,Web地标可靠性评估中存在准确率不高、评估速度慢、不适合大规模地标评估等情形,本发明实施例,参见图1所示,提供一种基于多层决策的Web地标可靠性评估方法,包含如下内容:
[0046] S101、解析候选地标中IP地址;
[0047] S102、针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;
[0048] S103、对过滤后的候选地标进行评估,获取其可信度数值。
[0049] 在不依赖路径探测的前提下,充分利用互联网公开服务,对不同特征的无效Web地标进行分类过滤、量化评估地标的可信度,实现大规模Web地标的自动化评估,解决当前方法准确率低、效率不高、无法自动化运行等问题。
[0050] 针对候选地标进行解析的预处理过程中,本发明再一个实施例,参见图2所示,候选地标解析过程中,包含如下步骤:
[0051] S1001、将候选地标按照域名进行分组,删除不规范数据,该不规范数据包含不提供域名及域名不合格的候选地标;
[0052] S1002、使用多个分布在全球的DNS服务器对域名分别进行DNS查询,合并各DNS服务器返回记录信息,生成域名映射的IP地址列表;
[0053] S1003、针对域名映射的该IP地址列表,如果该域名仅包含一个IP地址,则将该IP地址赋予该域名对应的候选地标;如果该域名包含n个IP地址,则将该域名对应的候选地标复制n份,每份中被赋予该IP地址列表中一个IP地址,其中,n为大于1的整数。
[0054] 以北京的web候选地标评估为例进行说明,DNS查询中,可使用分布在全球的23个DNS服务器,如表1所示,对域名分布进行DNS查询,合并各个服务器返回的A记录信息,生成该域名映射的IP地址列表。
[0055] 表1:DNS全息查询使用的DNS服务器地理分布
[0056]
[0057] 针对预处理后的候选地标,本发明再一个实施例中,利用过滤器对候选地标进行过滤的过程,包含如下内容:针对解析后的候选地标,依次按照域名、IP地址进行分组并过滤,针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。对无效地标特性进行分层过滤,提高评估效率和准确度。
[0058] 依次按照域名、IP地址进行分层过滤,本发明另一个实施例中,该分层过滤内容设计包含如下:首先,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;然后,将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上网段的候选地标。
[0059] 具体地,通过域名位置过滤、同IP过滤、同域名过滤及重定向等分层过滤无效地标,其中,域名位置过滤,将候选地标按照域名进行分组,提取每组候选地标的声明位置,并计算这些位置的分布半径,删除分布半径超过RD的候选地标组;同IP过滤,将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名后统计域名个数,删除域名个数不唯一的候选地标组;同域名过滤,遍历每个候选地标,根据其域名查询DNS全息解析得到的IP地址信息,删除IP地址分布在两个以上/24网段的候选地标;主页重定向,遍历每个候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回HTML结果不一致的地标,并根据返回结果生成可信度初值r0:
[0060]
[0061] 其中,resIP表示Web地标的IP地址构造的Http请求获取的HTML结果,resdomin表示其域名的HTML结果,null表示返回结果没有内容,delete表示过滤该候选地标。根据无效候选地标域名与IP地址的映射关系特征,过滤使用共享主机、CDN网络以及云服务器的候选地标;并综合利用主页重定向、Whois服务以及第三方IP库等对地标信息的可靠性进一步推断,以量化地标的可信度值,从而实现无效地标的过滤和有效地标的可信度量化评估。
[0062] 针对过滤后的候选地标,本发明再一个实施例中,参见图3所示,其评估过程包含如下内容:
[0063] S3001、遍历每个候选地标,确定候选地标的IP地址承载的域名个数;依据该域名个数,修正候选地标的可信度初始值;
[0064] S3002、通过比对Web地标及其IP的Whois注册信息和第三方库中提取候选地标的国家省市信息,对修正后的可信度进行调整,将调整后的可信度值写入候选地标。
[0065] 优选的,对修正后的可信度进行调整过程,包含如下内容:比对Web地标与其IP的Whois注册信息,获取信息的相似度,依据该相似度对可信度进行加权调整;通过第三方库匹配提取到的候选地标的国家省市信息,根据匹配程度调整可信度值。其中,Whois注册信息至少包含机构名称、行政区划及联系方式。
[0066] 遍历每个候选地标,确定候选地标的IP地址承载的域名个数,参见图4所示,本发明再一个实施例中设计其步骤如下:
[0067] S3101、遍历每个候选地标,获取其IP地址;
[0068] S3102、使用多个反查网站查询该IP地址承载的域名,合并查询结果的域名列表;对合并后的域名列表中的域名进行DNS全息查询其IP地址列表,并删除域名列表中不包含候选地标IP地址的域名,得到候选地标IP地址承载的域名列表;
[0069] S3103、对域名列表中的同网站子域名进行合并,统计域名总数。
[0070] IP反查推理,遍历每个候选地标,对地标的IP地址采取反向校验法确定其承载的域名个数,而后据此对地标的初始可信度进行修正,得到可信度r1。通过遍历每个候选地标,获取其IP地址;反向验证法查询该IP地址,首先使用多个反查网站,如表2,查询该IP地址承载的域名,合并结果列表,然后对域名列表中的域名进行DNS全息查询其IP地址列表并删除列表总不包含该地标IP地址的域名,最后得到地标IP地址承载的域名列表。
[0071] 表2:反查网站测试结果
[0072]
[0073] 对域名列表中的同网站子域名进行合并,然后与地标中的域名合并入列表,统计其中域名总数n;对Web地标可信度进行修正,得到可信度r1:
[0074] r1=(1-pd)r0+pdf(n)  (7)
[0075] f(n)=e1-n,(n=1,2,...)  (8)
[0076] 其中,pd为IP反查信息的可信度权值。反查并不能保证获取全部域名,因此IP反查结果作为评估参考而非过滤标准。
[0077] 比对Web及其IP的Whois注册信息,根据机构名、行政区划、联系方式等信息的相似度,对可信度进行加权调整,得到可信度r2;
[0078] r2=(1-pw)r1+pwwr  (2)
[0079] wr=kcwc+kowo+(1-kc-ko)wd  (3)
[0080] wc=kcowco+kprwpr+(1-kco-kpr)wci  (4)
[0081] 其中,pw为Whois信息的可信度权值,kc,ko分别为whois注册行政区、注册机构的权值,wc,wo,wd为whois注册行政区、注册机构和注册域名的匹配指数,通过LCS方法计算,取值范围为0-1,kco,kpr分别为国家、省级行政区的权值,wco,wpr,wci则为whois注册信息和地标信息的行政区匹配粒度,其取值情况如表3所示。
[0082] 表3:行政区匹配度赋值规则
[0083]
[0084] 第三方免费数据库等公开数据中,提取地标的国家、省市信息,同通过IP获取该IP所在的位置即通过ip2locationDB9获取的数据进行比对,根据其匹配程度计算修正系数lr,得到地标可信度r,并将该可信度值写入地标。
[0085] r=(1-pl)r2+pllr  (5)
[0086] lr=kcowLco+kprwLpr+(1-kco-kpr)wLci  (6)
[0087] 其中,pl为IP位置库的可信度权值,wLco,wLpr,wLci则分别为IP位置库信息和地标信息的行政区匹配粒度,其取值情况如表3。
[0088] 针对无效Web地标域名与IP的映射特征,进行有效解析出域名的全部IP地址的DNS全息查询,以及最大化获取IP承载域名的反向校验,采取决策树的思想逐层分类筛选地标,并综合利用公开数据及服务对地标的可信度进行评估,获得具有量化可信度的可信地标,能够克服现有评估方法的弊端,获取高可信地标,在地标准确度和定位精确度上有明显提升。
[0089] 基于上述的可靠性评估方法,本发明实施例中还提供一种基于多层决策的Web地标可靠性评估装置,参见图5所示,包含解析模块101、过滤模块102和评估模块103,其中,[0090] 解析模块101,用于解析候选地标中IP地址;
[0091] 过滤模块102,用于针对解析后的候选地标,利用过滤器对候选地标进行过滤,删除无效数据;
[0092] 评估模块103,用于对过滤后的候选地标进行评估,获取其可信度数值。
[0093] 上述的装置中,过滤模块102包含过滤子模块一201、过滤子模块二202和初始值获取子模块203,其中
[0094] 过滤子模块一201,用于针对解析后的候选地标,按照候选地标域名进行分组,提取每组候选地标中的声明位置,获取声明位置的分布半径,删除分布半径超过预设值的候选地标组;
[0095] 过滤子模块二202,用于将候选地标按照IP地址进行分组,提取每组IP地址对应的域名列表,合并同网站子域名并统计域名个数,删除域名个数不唯一的候选地标组;遍历每个候选地标,根据解析得到的IP地址,删除IP地址分布在两个以上网段的候选地标;
[0096] 初始值获取子模块203,用于针对过滤后保留的候选地标,分别向Web地标中提供的域名和其IP地址发送Http请求,过滤返回结果不一致的地标,并依据返回结果设定候选地标可信度初始值。
[0097] 本发明实施例中,参见图7所示,针对无效地标的特性进行分层过滤,并利用公共服务、第三方免费数据库等公开数据对Web地标的可靠性进行评估。该方法解决了大规模Web地标的自动量化评估问题,实现了无效Web地标的过滤与有效Web地标的可信度量化评估,且有效提高了地标的准确性和定位结果的精确度。
[0098] 为了验证方法的有效性,分布采用交叉验证和定位对比的方法对本发明的有效性进行评估。
[0099] 交叉验证是通过与地标挖掘和评估方法来源不同的第三方IP位置库比对,以二者重叠比例来评判地标评估效果的方法。分别使用Evaluator、LVM和SLE方法对5个城市的候选地标进行评估,将每个城市的地标分为5组:(1)候选地标集;(2)LVM方法评估得到的地标;(3)Evaluator框架评估得到的地标;(4)Evaluator框架评估得到可信度大于0.5的地标;(5)Evaluator框架评估得到的可信度大于0.8的地标。将每组地标与Maxmind数据库的查询结果进行对比,其重叠率的高低则在一定程度上反映了地标的准确程度。
[0100] 表4两种方法挖掘到的地标条目统计结果
[0101]
[0102] 由表4可以看出两种评估方法都大大提高了地标的准确率,本发明的评估方案更优,在地标准确度上有明显提高。定位验证是通过对已知位置的IP地址进行定位来验证地标有效性的方法,首先针对郑州市和北京市的候选地标,分别采用本发明的方案、基于主页重定向的LVM方法以及基于最近共同路由的SLE方法进行地标可信度评估,然后分别在两个城市人工标注位置可靠的IP地址(郑州146个,北京119个),最后使用评估得到的可信地标对已知位置的IP地址进行定位,并对定位误差进行统计。郑州和北京三种方法的定位误差统计累计概率密度曲线图分布见图8和图9所示。由图可见,对郑州市的定位中,本发明方案的平均误差为9.1公里,与SLE方法(平均误差8.6公里)精度相仿,远远超过LVM方法(平均误差19.7公里)的定位精度。在对北京的定位中,本发明方案的平均误差为7.3公里,SLE为6.6公里而LVM方法的平均误差为23.4公里。由此,可以看出本发明方案在LVM的基础上大大提高了定位精度,与当前精度最高的SLE方法相仿,并且避免了SLE方法的反复探测的时间开销,表明本发明评估出的可信地标的有效性。
[0103] 基于上述的方法,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
[0104] 基于上述的方法,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
[0105] 除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
[0106] 本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0107] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0108] 在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
[0109] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0110] 附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0111] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0112] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0113] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0114] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0115] 最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。