一种用户身份识别方法及系统转让专利

申请号 : CN201410367353.5

文献号 : CN104394118B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王婷

申请人 : 焦点科技股份有限公司

摘要 :

本发明提出一种用户身份识别方法和系统,通过用户注册形成的基本信息,包括用户ID,用户名、Email、电话、计算机IP等,以及对网站用户行为数据进行提取,综合行为数据中涉及的用户ID、用户名、Email、电话号码、Cookie、计算机IP等信息,建立两者的用户信息关联关系并赋予唯一标识身份,能够对目前B2B网站中的用户做统一身份识别,建立身份特征关系,分辨新老用户,有效的跟踪用户行为,从而能够针对用户建立一系列应用,提高用户体验。

权利要求 :

1.一种用户身份识别方法,包括:

步骤一:从电子商务网站平台数据源系统中采集基础数据,对采集的基础数据进行分类,形成两类数据,并存储于后台服务器中;两类数据包括:(1)有关用户注册形成的用户基本信息,包括用户ID、用户名、Email、电话、计算机IP;

(2)用户注册、登录、询盘、访问、搜索网站行为的数据;

步骤二:基于用户的注册、登录、询盘、访问、搜索网站行为,提取最近时间段内网站行为的记录,每种网站行为记录中包含了有关用户的身份信息,包括用户ID、用户名、Email、电话号码、Cookie、计算机IP;结合用户注册的用户基本信息:用户ID,用户名、Email、电话号码、计算机IP信息,将这些信息汇总到一起,并去掉完全重复的记录;

步骤三:根据用户ID、用户名、Email、电话号码、Cookie、计算机IP之间的关系,通过预先设定的对应方法,对用户身份信息进行去重、身份归一化,最终得到用户身份关联关系以及对应的身份信息,并对用户赋予唯一身份ID;

步骤3-1、首先对“登录”、“登录发询盘”的这两种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP;通过关联处理后,形成身份ID关系库;

步骤3-2、提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新;具体为:首先对Email进行比对,“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中;其他信息的电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;

若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

对于剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中;

步骤3-3、提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新;具体为:根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息的Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID;

对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中;

步骤四:对身份ID关系库定时进行更新,对于网站用户新发生的行为,其涉及的用户身份信息和新注册用户的基本信息,与身份ID关系库的信息进行比较归并,并且补充更新身份ID关系库;

步骤五:身份ID及相关身份特征关系生成后,将身份特征关系应用于后续的用户行为中;根据用户的每一条历史行为记录中的身份信息关联身份识别结果得到身份ID,即每个用户都有网站的唯一身份ID,用于分析用户行为应用。

2.根据权利要求1所述的方法,其特征在于,步骤四的具体子步骤为:

步骤4-1、对新时间段产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中;

步骤4-2、提取新时间段产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中;

步骤4-3、提取新时间段产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。

3.根据权利要求2所述的方法,其特征在于:

步骤4-1具体为:

首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去重,补充到身份ID关系库中;

若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID 中;

最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中;

步骤4-2具体为:

首先对Email进行比对,“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;

若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中;

步骤4-3具体为:

根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息的Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中;其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中;

若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息的Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID;

对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。

4.一种用户身份识别系统,其特征在于,包括:数据信息采集与存储模块、数据整理/转换/集成模块、身份识别处理模块、身份更新维护模块、身份信息应用模块;

所述数据信息采集与存储模块,用于从网站平台的数据源系统中提取记录用户各种行为的日志数据,包括访问、搜索、询盘、登录、注册行为;以及提取用户基本信息,包括用户名、地区、电话基本信息的数据,并存储于后台服务器中;

所述数据整理/转换/集成模块,用于读取数据信息采集与存储模块中的日志数据,对日志记录进行解析,形成有关用户各种行为的中间层数据,并把有关用户注册填写的用户基本信息,存储于后台服务器中;

所述数据整理/转换/集成模块包括ETL子模块和数据仓库子模块;ETL子模块用于读取数据信息采集与存储模块中的各类数据,进行进一步的信息识别、清洗、加工和整理,并输出到数据仓库子模块中;数据仓库子模块用于分类汇总信息形成中间层数据,并存储于数据仓库中;

所述身份识别处理模块包括身份特征信息关联模块;所述身份识别处理模块,用于赋予每个用户身份ID,建立身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP的关联关系,最终得到用户身份关系;

所述身份更新维护模块,用于将新产生的用户行为中包含的身份信息,进行合并、修正、补充和维护,形成新的身份ID及对应身份信息,补充更新到身份ID关系库中;身份更新维护模块包括新身份信息知识单元、信息判断处理器、信息关联处理器、身份更新处理器、身份ID特征关系结果单元;

新身份信息知识单元用于存储定时更新的网站用户新发生的行为中的用户身份信息和新注册用户的基本信息,并进行去重;

信息判断处理器用于将新身份信息知识单元中的行为记录中的身份信息,与身份特征信息关联模块中的身份ID信息进行比较,若相同,进入身份更新处理器;

身份更新处理器用于将新的行为中的用户身份信息与身份特征信息关联模块中的身份ID信息进行合并去重,更新现有身份ID的身份特征关系;

信息关联处理器,用于处理剩下的、还没有归并到身份ID关系库的网站行为记录,在其中用户身份信息之间,进行信息关联,形成新的的身份ID信息记录;

身份ID特征关系结果单元用于存储更新生成的身份ID信息记录,并且持续定时进行更新;

所述身份信息应用模块,用于将身份ID关系库中的身份应用于网站平台的用户行为中,识别用户,对用户行为进行跟踪和分析。

5.根据权利要求4所述的系统,其特征在于:

所述身份识别处理模块,还包括身份信息知识单元、第一信息关联处理器、第一身份特征信息关联子模块、第一信息判断处理器、第二信息关联处理器、第二身份特征信息关联子模块、第二信息判断处理器、第三信息关联处理器;

身份信息知识单元用于从数据仓库子模块中的用户登录、询盘、访问、搜索行为记录中,以及用户注册的基本信息中提取身份特征信息,包括用户ID,用户名,Email、电话号码、Cookie、计算机IP信息记录;将这些信息保存汇总到一起,去掉完全重复的记录;

第一信息关联处理器用于对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份关联合并,对同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP进行信息合并;

第一身份特征信息关联子模块用于存储经第一信息关联处理器合并去重的用户ID、用户名、Email、电话号码、Cookie、计算机IP的对应关系,并对不同的用户ID赋予不同的身份ID,形成身份ID信息记录;

第一信息判断处理器用于将身份信息知识单元中的 “未登录发询盘”行为记录中身份信息与第一身份特征信息关联子模块中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个用户,则将新身份信息合并到第一身份特征信息关联子模块中;若信息比较不相同,则进入第二信息关联处理器;

第二信息关联处理器用于处理第一信息判断处理器中还没有归并到身份ID的Email、电话号码、Cookie、计算机IP信息,其中Email、电话号码、Cookie任一相同,则认为是同一个用户,赋予同一身份ID;

第二身份特征信息关联子模块用于存储经第二信息关联处理器关联合并的Email、电话号码、Cookie、计算机IP与身份ID的关联关系,同时合并第一身份特征信息关联子模块中存储的身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP的关联关系;

第二信息判断处理器用于将身份信息知识单元中的“访问”、“搜索”行为中的用户身份信息与第二身份特征信息关联子模块中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个用户,则将新身份信息合并到第二身份特征信息关联子模块中;若信息比较结果不相同,则进入第三信息关联处理器;

第三信息关联处理器用于处理第一信息判断处理器中还没有归并到身份ID的网站行为记录,比较他们之间的Cookie、计算机IP信息,如果Cookie相同,则认为是同一个用户,赋予同一身份ID;

身份特征信息关联模块用于存储经第三信息关联处理器关联合并的Cookie与身份ID关联关系后形成的身份ID信息记录,同时合并第二特征信息关联子模块中存储的身份ID信息记录。

说明书 :

一种用户身份识别方法及系统

技术领域

[0001] 本发明涉及电子商务B2B领域,特别是一种用户身份识别方法及系统。

背景技术

[0002] 作为电子商务网站,为了更好的把握用户需求,提高用户体验,用户分析是网站分析中一个重要组成部分。用户分析,需要了解网站的用户规模,跟踪网站的用户行为,发现用户的行为特征、兴趣爱好及习惯等。通过用户分析,可以让网站清楚的了解用户的来源、去向及用户的信息,分析用户对网站的满意度,找出网站、推广渠道等方面存在的问题,有助于提高网站用户转化率;通过用户访问网站行为分析,对网站的用户的访问路径进行优化,对各个页面的用户停留及退出情况进行分析,找出各页面存在的问题,提高页面及网站的合理布局;通过用户行为分析,了解用户的行为习惯及兴趣偏好,为用户提供个性化定制服务,有助于提高网站的用户忠诚度及用户粘性,留住网站用户;通过用户身份识别,为用户提供个性化服务,可以帮助用户更快更好的找到优质满意的产品,为用户节约效率,提高满意度。而在这之前必须首先能够识别每个用户,分辨他们是新用户还是老用户,分辨他们是谁(用户名,邮箱,联系电话等)。
[0003] 作为B2B网站,针对用户提供的最主要服务:查询产品、查询商家、以及询盘并不要求用户强制登录、注册等等。很多用户以游客身份接受网站提供的服务,使得用户识别显得较为困难。要想能够准确的跟踪用户的行为,这就要求对任何一个来到网站的用户进行身份识别及定位。
[0004] 在专利“基于特定信息的用户身份识别方法和系统”(申请号:CN 201210019678.5)中,其提出的方法:通过将用户访问互联网情况的特定信息映射为用户临时唯一标识,并从通讯网络侧获取该用户临时唯一标识和用户身份信息,基于用户临时唯一标识将特定信息和用户身份信息关联起来。但此专利提出的方法主要根据“计算机IP地址”或“计算机IP地址+端口号”作为用户临时唯一标识,这种方法数据来源较单一,受到计算机IP变动影响大,唯一标识不够明确。本专利采用用户ID、用户名、邮箱、电话号码、Cookie、计算机IP等确立用户身份ID,并建立关联关系,提高了身份识别的准确性。

发明内容

[0005] 针对现有技术中存在的不足,本发明实施例提供一种用户身份识别方法及系统,解决目前电子商务B2B网站中为用户做统一身份识别的问题。
[0006] 本发明的技术方案如下,一种用户身份识别方法,包括:
[0007] 步骤一:从电子商务网站平台数据源系统中采集基础数据,对采集的基础数据进行分类,形成两类数据,并存储于后台服务器中。这两类数据包括:
[0008] (1)有关用户注册形成的用户基本信息,包括用户ID、用户名、Email、电话、计算机IP等;
[0009] (2)用户注册、登录、询盘、访问、搜索等网站行为的数据。
[0010] 步骤二:基于用户的注册、登录、询盘、访问、搜索等网站行为,提取最近1年时间段内网站行为的记录,每种网站行为记录中包含了有关用户的身份信息,包括用户ID、用户名、Email、电话号码、Cookie、计算机IP。结合用户注册的用户基本信息:用户ID,用户名、Email、电话号码、计算机IP信息,将这些信息汇总到一起,并去掉完全重复的记录。
[0011] 其中,因每种行为记录的相关用户身份信息不完整,因此有的值可能为空;询盘分用户登录发询盘情况和用户未登录发询盘情况,两种情况记录的用户信息不同。如下表所示。
[0012]用户行为 用户ID 用户名 Email 电话号码 Cookie 计算机IP
登录 √ √ √ √ √ √
登录发询盘 √ √ √ √ √ √
未登录发询盘     √ √ √ √
访问         √ √
搜索         √ √
注册信息 √ √ √ √   √
[0013] 步骤三:根据用户ID、用户名、Email、电话号码、Cookie、计算机IP之间的关系,通过预先设定的对应方法,对以上用户身份信息进行去重、身份归一化、最终得到用户身份关联关系以及对应的身份信息,并对用户赋予唯一身份ID。
[0014] 对应方法的子步骤具体如下:
[0015] 1、首先对“登录”、“登录发询盘”的这两种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并。因为同一用户ID被认为是同一个人,即不同的用户ID为不同的人。在这三种网站行为的记录的身份信息中,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP。
[0016] 因为在B2B网站中,一个用户ID将分别对应多个用户名、多个Email、多个电话号码、多个Cookie、多个计算机IP。对该用户ID赋予唯一身份ID,形成的关联关系如图4所示。
[0017] 通过关联处理后,形成身份ID关系库。
[0018] 其中,一个身份ID对应一个用户ID,只要不同的用户ID,即赋予不同的身份ID;对于不同身份ID存在相同的用户名、电话号码、Cookie、计算机IP的情况,在合并身份信息的同时,需记录下该条信息在用户行为数据,以及用户基本信息中产生的最近时间,用以辅助判断新的用户的归属。
[0019] 2、提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新。
[0020] 首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。
[0021] 若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0022] 若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0023] 因计算机IP经常变动问题,在此不作身份判断。
[0024] 若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0025] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0026] 3、提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库做比对,进行身份合并及更新。
[0027] 根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0028] 若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0029] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0030] 步骤四:对身份ID关系库按天进行更新。对于网站用户新发生的行为,其涉及的用户身份信息和新注册用户的基本信息,与身份ID关系库的信息进行比较归并,并且补充更新身份Id关系库。
[0031] 具体子步骤如下:
[0032] 1、对新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0033] 首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去重,补充到身份ID关系库中。
[0034] 例如:身份ID关系库有一条身份ID记录为:
[0035]身份ID 用户ID 用户名 Email 电话 Cookie 计算机IP
10 001 cancy cancy@163.com 55556666 asdfghj 192.168.1.1
[0036] 通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为:
[0037]用户ID 用户名 Email 电话 Cookie 计算机IP
001 judy judy@qq.com 55556666 zxcvbnj 192.168.1.1
[0038] 经过匹配,信息合并去重后身份特征关系为
[0039]
[0040] 若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID中。
[0041] 例如:身份ID关系库中无“用户ID”的身份ID信息
[0042]身份ID Email 电话 Cookie 计算机IP
50 123@163.com 33333333 AAAA 1.1.1.1
[0043] 通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为:
[0044]用户ID 用户名 Email 电话 Cookie 计算机IP
105 coco 123@163.com 33333333 BBBB 2.2.1.1
[0045] 经过比较,两者的Email相同,对信息合并去重后,身份ID信息为
[0046]
[0047] 最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中。
[0048] 2、提取新一天产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0049] 首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。
[0050] 若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0051] 若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0052] 若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0053] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0054] 3、提取新一天产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0055] 根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0056] 若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0057] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0058] 步骤五:身份ID及相关身份特征关系生成后,将身份特征关系应用于后续的用户行为中。根据用户的每一条历史行为记录中的身份信息关联身份识别结果得到身份ID,即每个用户都有网站的唯一身份ID,可用于分析用户行为等应用。
[0059] 本发明同时公开了一种用户身份识别系统,包括:
[0060] 数据信息采集与存储模块、数据整理/转换/集成模块、身份识别处理模块、身份更新维护模块、身份信息应用模块。
[0061] 所述数据信息采集与存储模块,用于从网站平台的数据源系统中提取记录用户各种行为的日志数据,包括访问、搜索、询盘、登录、注册等行为;以及提取用户基本信息,包括用户名、地区、电话等基本信息的数据,并存储于后台服务器中;
[0062] 所述数据整理/转换/集成模块,用于读取数据存储模块中的日志数据,对日志记录进行解析,形成有关用户各种行为的中间层数据,并把包含用户注册填写基本信息,并存储于后台服务器中;
[0063] 所述身份识别处理模块,用于赋予每个用户身份ID,建立身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP等的关联关系。
[0064] 所述身份更新维护模块,用于将新产生的用户行为中包含的身份信息,进行合并、修正、补充和维护,形成新的身份ID及对应身份信息,补充更新到身份ID关系库中。
[0065] 所述身份信息应用模块,用于将身份ID关系库中的身份应用于网站平台的用户行为中,识别用户,对用户行为进行跟踪和分析。
[0066] 本发明具有以下优点:
[0067] 本发明提出一种用户身份识别方法和系统,通过用户注册形成的基本信息,包括用户ID,用户名、Email、电话、计算机IP等,以及对网站用户行为数据进行提取,综合行为数据中涉及的用户ID、用户名、Email、电话号码、Cookie、计算机IP等信息,建立两者的用户信息关联关系并赋予唯一标识身份,能够对目前B2B网站中的用户做统一身份识别,建立身份特征关系,分辨新老用户,有效的跟踪用户行为,从而能够针对用户建立一系列应用,提高用户体验。

附图说明

[0068] 图1为本发明实施例用户身份识别方法流程示意图。
[0069] 图2为本发明的身份关系ID关系库形成示意图。
[0070] 图3为本发明实施例用户身份识别系统的结构示意图。
[0071] 图4为本发明的用户ID关联关系示意图。

具体实施方式

[0072] 为使本发明的实施例的目的、技术方案和优点更加清楚,下面对本发明的用户身份识别系统中涉及的一些术语做简单解释。
[0073] 身份ID:网站上用户的唯一标识。只要访问网站,不管该用户是否注册成为会员,都会通过身份识别分配唯一的标识。
[0074] 用户身份特征关系:根据用户与网站交互行为留下的用户ID,用户名、Email、电话、Cookie,计算机IP等多个特征位构建的用户身份特征之间的关系,并以此实现特征追踪。
[0075] Cookie族、计算机IP族、Email族、电话号码族:同一个用户相关的同一特征位的具体多个值组成的关系。比如某用户使用某Cookie后重装了系统后生成新Cookie,那么系统会将这两个Cookie作为这个用户的Cookie族来看待。
[0076] 一个用户ID对应多个用户名:供应商在B2B网站上注册、发布产品以及与买家进行沟通交互时,其可以设置一个主用户名及多个子用户名,主用户名分配不同的产品管理权限及其他信息管理权限给子用户名,分别进行信息管理,在这种情况下,主用户及多个子用户共用一个用户ID。
[0077] 结合图1,本发明实施例的识别方法流程,具体包括以下步骤:
[0078] 步骤11,从网站平台数据源系统中采集相关数据,其中数据源系统中包括与网站业务相关的网站日志信息、后台服务器中储存的用户基本信息等;分别从系统中提取数据并存储。
[0079] 步骤12,对采集的数据进行分类形成有关用户行为记录信息、用户基本信息的中间层数据,并存储于后台服务器中。在本发明的实施例中,基于历史数据分析,确定了基于用户注册、登录、询盘、访问、搜索等行为,其中包含的用户身份信息有:用户ID,用户名、Email、电话、Cookie,计算机IP等作为身份识别的信息,但不限于此,其他反映身份特征的指标均可以作为身份识别及认定的指标信息。
[0080] 步骤13,基于用户的行为记录包含的用户身份信息,以及注册信息中的用户基本信息,形成用户身份关系,并赋予唯一身份ID。具体实施方式为:通过对用户登录、询盘、访问、搜索等行为中包含身份信息,将行为记录之间的用户ID,用户名、Email、电话、Cookie,计算机IP,以及以及注册信息中的用户基本信息:用户ID,用户名、Email、电话、计算机IP等,建立关联关系,将这些身份标识,最终全部统一到身份ID上来。
[0081] 在本发明的实施例中,B2B网站很多用户以匿名身份存在,且一个用户ID可能有多个用户名、Email、电话、Cookie,计算机IP等,因此,需要唯一定义用户身份标识。
[0082] 以中国制造网为例,详细关联结构如图2:
[0083] (1)首先对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份信息的关联合并,找出同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP,不同的用户ID赋予不同的身份ID。一个用户ID可以分别对应多个用户名、多个Email、多个电话号码、多个Cookie、多个计算机IP。形成身份ID关系库1。
[0084] (2)提取“未登录发询盘”网站行为记录的用户身份信息,与身份ID关系库1做比对,进行身份合并及更新。
[0085] 首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。
[0086] 若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0087] 若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0088] 若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0089] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID。
[0090] 对于所有新的身份ID,形成身份ID关系库2。
[0091] (3)提取“访问”、“搜索”网站行为记录的用户身份信息,与身份ID关系库1、身份ID关系库2做比对,进行身份合并及更新。
[0092] 根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库1、身份ID关系库2中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0093] 若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0094] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID。
[0095] 对于所有新的身份ID,形成身份ID关系库3。
[0096] 最终,实现用户ID、用户名、Email、电话号码、Cookie、计算机IP关联关系,把身份ID关系库1、身份ID关系库2、身份ID关系库3合并,形成身份ID关系库。
[0097] 步骤14,根据当前新发生的每一个用户行为身份信息,对历史已形成身份ID关系库中的身份ID及身份关系进行更新和维护。
[0098] 以中国制造网为例,详细步骤如下:
[0099] 1、对新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取其中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0100] 首先与身份ID关系库中存在“用户ID”的身份ID信息进行比较,若用户ID相同,则将网站行为记录中的用户身份信息的其他数据,与匹配的身份ID对应的信息进行合并去重,补充到身份ID关系库中。
[0101] 例如:身份ID关系库有一条身份ID记录为:
[0102]身份ID 用户ID 用户名 Email 电话 Cookie 计算机IP
10 001 cancy cancy@163.com 55556666 asdfghj 192.168.1.1
[0103] 通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为:
[0104]用户ID 用户名 Email 电话 Cookie 计算机IP
001 judy judy@qq.com 55556666 zxcvbnj 192.168.1.1
[0105] 经过匹配,信息合并去重后身份特征关系为
[0106]
[0107]
[0108] 若用户ID不同,则与身份ID关系库中无“用户ID”的身份ID信息进行比较,比较的范围是两者的Email、电话号码、Cookie,如果两者在其中有任何一项有相同,则确定属于同一个人,将身份ID关系库的对应身份ID赋予网站行为记录的用户,网站行为记录中的其他身份信息相应补充到身份ID关系库的身份ID中。
[0109] 例如:身份ID关系库中无“用户ID”的身份ID信息
[0110]身份ID Email 电话 Cookie 计算机IP
50 123@163.com 33333333 AAAA 1.1.1.1
[0111] 通过新一天产生的“登录”、“登录发询盘”及“注册信息”的这三种网站行为的记录,提取的某条记录中的身份信息为:
[0112]用户ID 用户名 Email 电话 Cookie 计算机IP
105 coco 123@163.com 33333333 BBBB 2.2.1.1
[0113] 经过比较,两者的Email相同,对信息合并去重后,身份ID信息为
[0114]
[0115] 最后,若比较无任何相同的身份信息,则生成新的身份ID增加到身份ID关系库中。
[0116] 2、提取新一天产生的“未登录发询盘”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0117] 首先对Email进行比对。“未登录发询盘”网站行为记录的用户身份信息中包含有Email信息,与身份ID关系库中的Email比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如电话号码、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。
[0118] 若Email不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的电话号码,与身份ID关系库中的电话号码比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、Cookie、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。如果出现网站行为记录中的电话号码与多个身份ID的电话号码相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0119] 若Email、电话号码都不同,根据“未登录发询盘”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0120] 若以上都不相同,对于剩下的、还没有归并到身份ID的网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0121] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0122] 3、提取新一天产生的“访问”、“搜索”网站行为记录中的用户身份信息,与身份ID关系库的信息进行比较,并把网站行为记录中的身份信息补充更新到身份ID关系库的身份ID中。
[0123] 根据“访问”、“搜索”网站行为记录的用户身份信息中包含的Cookie,与身份ID关系库中的Cookie比对,若相同,将该网站行为记录的用户身份信息合并到身份ID关系库的对应身份ID中,其他信息如Email、电话号码、计算机IP,在与该身份ID的信息合并过程中先进行对应信息的比较,若两者对应信息相同,则不更新身份ID关系库的相应身份ID信息,若有不同,则把该网站行为记录的对应用户身份信息增加到身份ID关系库的对应身份ID中。其中,如果出现网站行为记录中的Cookie与多个身份ID的Cookie相同,则将该网站行为记录中用户身份信息归并到身份ID关系库中最近发生行为的用户身份ID中。
[0124] 若Cookie不同,对于剩下的、还没有归并到身份ID关系库的“访问”、“搜索”网站行为记录,提取其所包含的用户身份信息,即Email、电话号码、Cookie、计算机IP,然后针对不同的网站行为记录,进行这些身份信息的比对,只要网站行为记录间有身份信息相同,则确定他们是同一个用户,赋予同一个新的身份ID,并在身份ID关系库中增加这个新的身份ID。
[0125] 对于最后剩余的网站行为记录的用户身份信息,赋予新的身份ID,加入到身份ID关系库中。
[0126] 步骤15,将当前更新的身份ID及身份信息更新于用户行为,对每一个用户行为记录赋值身份ID,并完成自适应过程。
[0127] 步骤16,将最终身份ID及对应信息关系,应用于用户行为跟踪及分析等网站分析。
[0128] 结合图3,本发明实施例识别系统结构,包括:
[0129] 数据信息采集存储模块,数据整理/转换/集成模块,身份识别处理模块和身份更新维护模块,身份信息应用模块。
[0130] 所述数据信息采集存储模块,用于从网站平台的数据源系统中提取记录用户行为的网站日志数据以及用户注册的基本信息数据,并存储于后台服务器中。
[0131] 数据信息采集存储模块包括日志系统、后台数据库系统和数据存储单元。日志系统用于从网站抽取存储与网站交互的用户行为信息,记录用户在网站上的各类行为,包括登录、询盘、注册、访问、搜索等信息;后台数据库系统用于存储后台运营的基础信息,包括用户注册的基本信息;数据存储单元用于依据数据仓库数据提取规则按天分别从日志系统和后台数据库系统中提取数据并存储,以备数据整理/转换/集成模块进行进一步的数据处理。
[0132] 所述数据整理/转换/集成模块,用于读取数据存储模块中的各类日志数据,对采集的数据进行分类形成有关用户行为、用户基本信息的中间层数据,并存储于数据仓库中。
[0133] 数据整理/转换/集成模块包括ETL子模块和数据仓库子模块。ETL子模块用于读取数据存储单元中的各类数据,进行进一步的信息识别、清洗、加工和整理,并输出到数据仓库子模块中;数据仓储子模块用于分类汇总信息形成中间层数据,并存储于数据仓库中,其中存储信息主要划分为用户行为信息、用户基本信息等。本发明实施例中最终识别生成的用户身份ID信息也存储在数据仓库子模块中。
[0134] 所述身份识别处理模块,用于对用户行为记录中身份信息、以及用户基本信息进行汇总比较,最终赋予每个用户身份ID,以及建立身份ID与用户ID,用户名,Email、电话号码、Cookie、计算机IP等的关联关系,最终得到用户身份关系。包括身份信息知识单元、信息关联处理器1、身份特征信息关联子模块1、信息判断处理器1、信息关联处理器2、身份特征信息关联子模块2、信息判断处理器2、信息关联处理器3、身份特征信息关联模块。
[0135] 身份信息知识单元用于从数据仓库子模块中的用户登录、询盘、访问、搜索等行为记录中,以及用户注册的基本信息中提取身份特征信息,包括用户ID,用户名,Email、电话号码、Cookie、计算机IP信息记录;将这些信息保存汇总到一起,去掉完全重复的记录。
[0136] 信息关联处理器1用于对“登录”、“登录发询盘”的这2种网站行为的记录,以及“注册信息”中的用户基本信息,进行身份关联合并,对同一用户ID对应的所有的用户名、Email、电话号码、Cookie、计算机IP进行信息合并;
[0137] 身份特征信息关联子模块1用于存储经信息关联处理器1合并去重的用户ID、用户名、Email、电话号码、Cookie、计算机IP的对应关系,并对不同的用户ID赋予不同的身份ID,形成身份ID信息记录;
[0138] 信息判断处理器1用于将身份信息知识单元中的“未登录发询盘”行为记录中身份信息与身份特征信息关联子模块1中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个人,则将新身份信息合并到身份特征信息关联子模块1中;若信息比较不相同,则进入信息关联处理器2;
[0139] 信息关联处理器2用于处理信息判断处理器1中还没有归并到身份ID的Email、电话号码、Cookie、计算机IP信息,其中Email、电话号码、Cookie任一相同,则认为是同一个人,赋予同一身份ID;
[0140] 身份特征信息关联子模块2用于存储经信息关联处理器2关联合并的Email、电话号码、Cookie、计算机IP与身份ID的关联关系,同时合并身份特征信息关联子模块1中存储的身份ID与用户ID、用户名、Email、电话号码、Cookie、计算机IP的关联关系;
[0141] 信息判断处理器2用于将身份信息知识单元中的“访问”、“搜索”行为中的用户身份信息与身份特征信息关联子模块2中产生的身份ID信息记录进行身份比较,若身份信息比较相同,认为是同一个人,则将新身份信息合并到身份特征信息关联子模块2中;若信息比较结果不相同,则进入信息关联处理器3;
[0142] 信息关联处理器3用于处理信息判断处理器1中还没有归并到身份ID的网站行为记录,如果他们之间的Cookie、计算机IP信息,如果Cookie相同,则认为是同一个人,赋予同一身份ID;
[0143] 身份特征信息关联模块用于存储经信息关联处理器3关联合并的Cookie与身份ID关联关系后形成的身份ID信息记录,同时合并特征信息关联子模块2中存储的身份ID信息记录。
[0144] 所述身份更新维护模块,用于对身份识别处理模块中的用户身份关系信息进行更新,基于特定的更新算法,按照增量更新方式,对于纳入模型中的每一个新产生的身份特征信息数据,与已有的身份特征关系及身份ID作对比,进行更新维护,形成新的身份ID关系库。
[0145] 身份更新维护模块包括新身份信息知识单元、信息判断处理器3、信息关联处理器4、身份更新处理器、身份ID特征关系结果单元。
[0146] 新身份信息知识单元用于存储按天更新的网站用户新发生的行为中的用户身份信息和新注册用户的基本信息,并进行去重;
[0147] 信息判断处理器3用于将新身份信息知识单元中的行为记录中身份信息,与身份特征信息关联模块中的身份ID信息进行比较,若相同,进入身份更新处理器;
[0148] 更新处理器用于将新的行为中的用户身份信息与身份特征信息关联模块身份ID信息进行合并去重,更新现有身份ID的身份特征关系;
[0149] 信息关联处理器4,用于处理剩下的、还没有归并到身份ID关系库的网站行为记录,在其中用户身份信息之间,进行信息关联,形成新的的身份ID信息记录;
[0150] 身份ID特征关系结果单元用于存储更新生成的身份ID信息记录,并且持续按天进行更新。
[0151] 所述身份信息应用模块用于将已形成并不断更新自适应的身份ID信息应用于用户行为中,对用户历史行为及当前行为建立身份关系,识别哪些行为是同一用户所为,以此对用户行为进行跟踪和分析。
[0152] 以上所公开的仅为本发明的一种具体实施例而已,当然不能以此来限定本发明的保护范围,依照本发明权利要求的技术实质所做的改变或等同变化,仍落入本发明权利要求书所涵盖的范围。