一种互联网用户最大似然地理位置发现方法及发现系统转让专利

申请号 : CN201410762954.6

文献号 : CN104484389B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄建鹏陈静

申请人 : 焦点科技股份有限公司

摘要 :

本发明公开了一种互联网用户最大似然地理位置发现方法及发现系统,首先从网站平台数据源系统中的原始访问日志中提取基础数据;然后对基础数据进行加工分类形成用户信息和Cookie集相关联的中间层数据;接着对中间层数据进行提取,抽取出登录用户的Cookie集,将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,进而得到登录用户的IP集,将登录用户的IP集关联IP地址库得到登录用户在访问互联网时的地理位置;最后对新用户的访问信息集使用最大似然算法计算出该用户最经常或最可能的进行生产经营活动的地理位置。本发明使用大量互联网用户的IP地址与现有IP地址库进行对比和自动补充、校验,且效率高。

权利要求 :

1.一种互联网用户最大似然地理位置发现方法,其特征在于:首先从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取基础数据;然后对基础数据进行加工分类形成用户信息和Cookie集相关联的中间层数据;接着对中间层数据进行提取,具体提取规则为:将中间层数据中未登录用户的Cookie集置空,抽取出登录用户的Cookie集,将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,进而得到将登录用户的IP集,将登录用户的IP集关联IP地址库得到登录用户在访问互联网时的地理位置,将得到的地理位置信息存储到后台服务器中并实时或周期性更新;最后对新用户的访问信息集使用最大似然算法计算出该用户最经常活动的地理位置;其中,基础数据包括一定时长内的非爬虫的访问互联网的时间、用户名、IP和Cookie信息,IP地址库用于存放IP段对应的地理位置信息;所述最大似然算法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。

2.根据权利要求1所述的互联网用户最大似然地理位置发现方法,其特征在于:具体包括如下步骤:(1)从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取非爬虫的访问日志,该部分访问日志包含用户访问互联网的时间、用户名、IP和Cookie信息;

(2)从步骤(1)获得的部分访问日志中抽取登录用户访问日志,该登录用户访问日志包含用户访问互联网的时间、用户名、IP和Cookie信息;

(3)从步骤(2)得到的登录用户访问日志中提取登录用户的Cookie集;

(4)将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,该访问信息集包括用户访问互联网的时间、用户名、IP和Cookie;

(5)建立IP地址库用于存放IP段对应的地理位置信息;

(6)生成用户访问地理位置集,具体方法为:将步骤(4)获取的登录用户的所有访问信息集与步骤(5)获得的IP地址库相关联,生成用户访问地理位置集,该用户访问地理位置集包括登录用户访问互联网的时间、用户名、IP和地理位置;将用户访问地理位置集存储到后台服务器中并实时或周期性更新;

(7)基于步骤(6)获得的用户访问地理位置集,建立用户最大似然地理位置算法;

(8)使用步骤(7)得到的用户最大似然地理位置算法对新的用户的访问信息集进行计算,获得该新的用户最经常或最可能的进行生产经营活动的地理位置。

3.一种互联网用户最大似然地理位置发现系统,其特征在于:包括数据信息采集存储模块、数据预处理模块、用户地理最大似然计算模块、IP地址库管理模块和用户最大似然地理结果存储模块,其中:数据信息采集存储模块,从网站平台数据源系统中提取并存储用户的原始访问日志,从原始访问日志中提取并存储基础数据;

数据预处理模块,从基础数据中提取登录用户的Cookie集,将登录用户的Cookie集关联原始访问日志,提取登录用户的IP集;

IP地址库管理模块,用于存储以及管理从网络采集到的纯真版IP地址库;

用户地理最大似然计算模块,通过登录用户的IP集以及纯真版IP地址库,以用户访问IP最多的地理位置作为其常用地理位置,利用最大似然地理位置算法计算新用户最经常或最可能的进行生产经营活动的地理位置,并对结果进行评估;所述最大似然算法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大;

用户最大似然地理结果存储模块,用于将新用户的最经常或最可能的进行生产经营活动的地理位置计算结果显示在终端显示器界面。

4.根据权利要求3所述的互联网用户最大似然地理位置发现系统,其特征在于:

数据信息采集存储模块,包括日志文件存储管理子模块和日志文件存储子模块;

数据预处理模块,包括登录用户Cookie集提取子模块和登录用户访问IP集提取子模块;

IP地址库管理模块,用于管理及维护IP段对应国家、省份和城市;

用户地理最大似然计算模块,包括最大似然算法管理子模块、最大似然计算子模块和结果评估子模块;

用户最大似然地理结果存储模块,用于存储用户地理最大似然计算模块的计算结果。

说明书 :

一种互联网用户最大似然地理位置发现方法及发现系统

技术领域

[0001] 本发明涉及一种互联网用户最大似然地理位置发现方法及发现系统,用于提供互联网用户地理位置的最大似然估计,属于互联网技术。

背景技术

[0002] 在互联网企业每天都有大量用户点击产生的访问日志数据,专利“一种基于IP地址信息获取计算机精确地理位置信息的方法”(专利申请号:200710070601.X)通过访问日志中的IP和IP地址库匹配,可以即时知道每一条访问行为所在国家、省份和城市地理信息。而专利“一种用于监控网站访客地理位置和访问状态的系统及方法”(专利申请号:200710101333.3)利用实时得到的用户IP地理信息可实时监控并展示网站访客的详细数据信息,也能够有效地定位网站中的异常流量、恶意访问源IP地址的地理位置与INTERNET注册信息。
[0003] 但是对于互联网企业来讲除了即时用户地理位置外,还希望知道用户中长期所在的主要地理位置,这对于相对稳定的分析用户、了解用户及对用户服务都非常需要。对于用户中长期最可能的地理位置估计(下面我们统一称为用户最大似然地理位置)还面临如下两重挑战:
[0004] 1、很多互联网允许未登录用户进行访问,造成大量访问日志的用户身份信息为空,为了扩大分析样本数据,我们有必要为这部分数据尽可能确定其用户身份;
[0005] 2、用户涉及多地理位置访问,我们还需要确定其最大似然地理位置。

发明内容

[0006] 发明目的:为了克服现有技术中存在的不足,本发明提供一种互联网用户最大似然地理位置发现方法及发现系统,解析目前互联网用户中长期访问网络地理位置信息问题。
[0007] 技术方案:为实现上述目的,本发明采用的技术方案为:
[0008] 一种互联网用户最大似然地理位置发现方法,首先从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取基础数据;然后对基础数据进行加工分类形成用户信息和Cookie集相关联的中间层数据;接着对中间层数据进行提取,具体提取规则为:将中间层数据中未登录用户(登录用户名为空)的Cookie集置空,抽取出登录用户(登录用户名不为空)的Cookie集,将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,进而得到将登录用户的IP集,将登录用户的IP集关联IP地址库得到登录用户在访问互联网时的地理位置,将得到的地理位置信息存储到后台服务器中并实时或周期性更新;最后对新用户(登录用户和未登录用户)的访问信息集使用最大似然算法计算出该用户最经常活动的地理位置;其中,基础数据包括一定时长内的非爬虫的访问互联网的时间、用户名、IP和Cookie信息,IP地址库用于存放IP段对应的地理位置信息。
[0009] 上述发现方法具体包括如下步骤:
[0010] (1)从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取非爬虫的访问日志,该部分访问日志包含用户访问互联网的时间、用户名、IP和Cookie信息;
[0011] (2)从步骤(1)获得的部分访问日志中抽取登录用户访问日志,该登录用户访问日志包含用户访问互联网的时间、用户名、IP和Cookie信息;
[0012] (3)从步骤(2)得到的登录用户访问日志中提取登录用户的Cookie集;
[0013] (4)将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,该访问信息集包括用户访问互联网的时间、用户名、IP和Cookie;
[0014] (5)建立IP地址库用于存放IP段对应的地理位置信息(国家、省份和城市),IP地址库中的数据按照IP段递增或递减顺序排列并建立代理关键字;
[0015] (6)生成用户访问地理位置集,具体方法为:将步骤(4)获取的登录用户的所有访问信息集与步骤(5)获得的IP地址库相关联,生成用户访问地理位置集,该用户访问地理位置集包括登录用户访问互联网的时间、用户名、IP和地理位置;将用户访问地理位置集存储到后台服务器中并实时或周期性更新;
[0016] (7)基于步骤(6)获得的用户访问地理位置集,建立用户最大似然地理位置算法;
[0017] (8)使用步骤(7)得到的用户最大似然地理位置算法对新的用户(登录用户和未登录用户)的访问信息集进行计算,获得该新的用户最经常或最可能的进行生产经营活动的地理位置。
[0018] 最大似然法也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。上述发现方法使用最大似然法计算得到的最大似然地理位置可做稳定用户分析的重要指标。比如,不同地理位置的用户可能具有不同的行为习惯或兴趣偏好,因此可根据用户的最大似然位置为其打造贴合地域特征的个性化服务或营销活动;最大似然地理位置还可预警用户的非正常登录,用户在异地(除最大似然地理位置之外的地理位置)登陆时,可进行预警,以防客户的账号出现被盗用等异常情况。
[0019] 一种互联网用户最大似然地理位置发现系统,包括数据信息采集存储模块、数据预处理模块、用户地理最大似然计算模块、IP地址库管理模块和用户最大似然地理结果存储模块,其中:
[0020] 数据信息采集存储模块,从网站平台数据源系统中提取并存储用户的原始访问日志,从原始访问日志中提取并存储基础数据;
[0021] 数据预处理模块,从基础数据中提取登录用户的Cookie集,将登录用户的Cookie集关联原始访问日志,提取登录用户的IP集;
[0022] IP地址库管理模块,用于存储以及管理从网络采集到的纯真版IP地址库;
[0023] 用户地理最大似然计算模块,通过登录用户的IP集以及纯真版IP地址库,利用最大似然地理位置算法计算新用户最经常或最可能的进行生产经营活动的地理位置,并对结果进行评估;
[0024] 用户最大似然地理结果存储模块,用于将新用户的最经常或最可能的进行生产经营活动的地理位置计算结果显示在终端显示器界面。
[0025] 上述发现系统中,各个模块的结构为:
[0026] 数据信息采集存储模块,包括日志文件存储管理子模块和日志文件存储子模块;
[0027] 数据预处理模块,包括登录用户Cookie集提取子模块和登录用户访问IP集提取子模块;
[0028] IP地址库管理模块,用于管理及维护IP段对应国家、省份和城市;
[0029] 用户地理最大似然计算模块,包括最大似然算法管理子模块、最大似然计算子模块和结果评估子模块;
[0030] 用户最大似然地理结果存储模块,用于存储用户地理最大似然计算模块的计算结果。
[0031] 有益效果:本发明提供的互联网用户最大似然地理位置发现方法及发现系统,相较于现有技术,具有如下优点:使用未登陆用户的IP和Cookie关联登陆用户的访问信息集(访问信息集包括用户访问互联网的时间、用户名、IP和Cookie)获取未登陆用户的访问信息,从而计算出未登陆用户的最大似然地理位置;使用大量互联网用户的IP地址与现有IP地址库进行对比和自动补充、校验;整个过程只需要对IP地址库扫描一次,效率高。

附图说明

[0032] 图1为本发明实施例互联网用户地理位置发现装置方法流程图;
[0033] 图2为本发明实施例互联网用户地理位置发现装置的结构示意图。

具体实施方式

[0034] 为使本发明的实施例的目的、技术方案和优点更加清楚,下面对本发明的地理位置发现系统(Location Finding Device,LFD)中涉及的一些术语做简单解释。
[0035] 数据源系统:为LFD系统提供监测基础数据的系统,包括日志管理系统、IP地址库系统、Cookie数据库维护系统等。
[0036] 基础数据:是从数据源系统中抽取的为LFD系统所用的业务信息组合,基础数据属于“初级数据”,需要经过LFD系统根据规则抽取为中间层数据。
[0037] 中间层数据:是从基础数据中根据预先设定的规则抽取的为LFD系统所用的业务信息组合,中间层数据属于“半成品数据”,并不直接提供给用户作为地理位置信息使用,还需要经过LFD系统根据预先设定的匹配算法模块求解出最终地理位置结果。
[0038] Cookie:由服务器端生成,一般是发送给浏览器,浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器。Cookie名称和值可以由服务器端开发自己定义,这样服务器可以知道该用户是否合法用户以及是否需要重新登录等,服务器可以设置或读取Cookies中包含信息,借此维护用户跟服务器会话中的状态。
[0039] IP地址库:存储IP段对应的大洲、国家、省份,城市等信息。
[0040] 下面结合附图对本发明作更进一步的说明。
[0041] 一种互联网用户最大似然地理位置发现方法,首先从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取基础数据;然后对基础数据进行加工分类形成用户信息和Cookie集相关联的中间层数据;接着对中间层数据进行提取,具体提取规则为:将中间层数据中未登录用户(登录用户名为空)的Cookie集置空,抽取出登录用户(登录用户名不为空)的Cookie集,将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,进而得到登录用户的IP集,将登录用户的IP集关联IP地址库得到登录用户在访问互联网时的地理位置,将得到的地理位置信息存储到后台服务器中每日更新;
最后对新用户(登录用户和未登录用户)的访问信息集使用最大似然算法计算出该用户最经常活动的地理位置;其中,基础数据包括最近180天内的非爬虫的访问互联网的时间、用户名、IP和Cookie信息,IP地址库用于存放IP段对应的地理位置信息。
[0042] 如图1所示为上述发现方法流程,具体包括如下步骤:
[0043] (1)从网站平台数据源系统中的原始访问日志中按提取规则和提取周期提取部分访问日志,该部分访问日志包含用户访问互联网的时间、用户名(可为空,用户名为唯一标识)、IP和Cookie信息;
[0044] (2)从步骤(1)获得的部分访问日志中抽取登录用户访问日志,该登录用户访问日志包含用户访问互联网的时间、用户名(非空,用户名为唯一标识)、IP和Cookie信息;
[0045] (3)从步骤(2)得到的登录用户访问日志中提取登录用户的Cookie集;在具体应用中,应当基于历史数据统计,确定每个Cookie所映射的用户名;
[0046] (4)将登录用户的Cookie集关联原始访问日志得到登录用户的所有访问信息集,该访问信息集包括用户访问互联网的时间、用户名、IP和Cookie;
[0047] (5)建立IP地址库用于存放IP段对应的地理位置信息(国家、省份和城市),IP地址库中的数据按照IP段递增或递减顺序排列并建立代理关键字;其中,IP地址库包括IP段和IP段对应的大洲、国家、省份,城市等信息,例如,192.168.16.165到192.168.16.187的IP段对应的地名信息是中国江苏省南京市;IP地址库数据一般会在网络上公开,可以直接下载到;目前较为常用的IP地址数据库为(QQIP地址)纯真版,纯真版IP地址库是一个压缩文件包含了所有IP地址相关记录,将命名为含有日期的文件压缩文件并将数据抽取至后台服务器中,方便以后更新数据;
[0048] (6)生成用户访问地理位置集,具体方法为:将步骤(4)获取的登录用户的所有访问信息集与步骤(5)获得的IP地址库相关联,生成用户访问地理位置集,该用户访问地理位置集包括登录用户访问互联网的时间、用户名(非空,用户名为唯一标识)、IP和地理位置;将用户访问地理位置集存储到后台服务器中并实时或周期性更新;
[0049] (7)基于步骤(6)获得的用户访问地理位置集,建立用户最大似然地理位置算法,比如用户访问IP最多的地理位置作为其常用地理位置,但不限于此;
[0050] (8)使用步骤(7)得到的用户最大似然地理位置算法对新的用户(登录用户和未登录用户)的访问信息集进行计算,获得该新的用户最经常或最可能的进行生产经营活动的地理位置。
[0051] 该方法使用大量互联网用户使用IP地址是否在同一城市访问检测其安全性,可为后期分析提供有力事实;使用大量互联网用户的IP地址与现有IP地址库进行对比和自动补充、校验;整个过程只需要对IP地址库扫描一次,效率高。
[0052] 一种互联网用户最大似然地理位置发现系统,包括数据信息采集存储模块、数据预处理模块、用户地理最大似然计算模块、IP地址库管理模块和用户最大似然地理结果存储模块,其中:
[0053] 数据信息采集存储模块,从网站平台数据源系统中提取并存储用户的原始访问日志,从原始访问日志中提取并存储基础数据;包括日志文件存储管理子模块和日志文件存储子模块;
[0054] 数据预处理模块,从基础数据中提取登录用户的Cookie集,将登录用户的Cookie集关联原始访问日志,提取登录用户的IP集;包括登录用户Cookie集提取子模块和登录用户访问IP集提取子模块;
[0055] IP地址库管理模块,用于存储以及管理从网络采集到的纯真版IP地址库,管理及维护IP段对应国家、省份和城市;
[0056] 用户地理最大似然计算模块,通过登录用户的IP集以及纯真版IP地址库,利用最大似然地理位置算法计算新用户的最经常或最可能的进行生产经营活动的地理位置,并对结果进行评估;包括最大似然算法管理子模块、最大似然计算子模块和结果评估子模块;
[0057] 用户最大似然地理结果存储模块,用于将新用户的最经常或最可能的进行生产经营活动的地理位置计算结果显示在终端显示器界面,存储用户地理最大似然计算模块的计算结果。
[0058] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。