用户信息挖掘方法及装置转让专利

申请号 : CN201610717140.X

文献号 : CN107783976B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张宗一

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请实施例公开了一种用户信息挖掘方法及装置。所述方法包括:根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;确定所述群组中所有用户访问次数最多的一个或多个兴趣点POI的列表;针对所述列表中的每个POI,确定该POI与所述群组的匹配度;选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组中所有用户共同的用户信息。

权利要求 :

1.一种用户信息挖掘方法,其特征在于,包括:

根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;

确定所述群组中所有用户访问次数最多的一个或者多个兴趣点POI的列表;

针对所述列表中的每个POI,确定该POI与所述群组的匹配度;

选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组中所有用户共同的用户信息;

在选择所述POI列表中匹配度最高的POI之后,判断所述匹配度最高的POI的匹配度是否高于预定的阈值,如果高于,则执行根据所述POI的描述信息确定所述群组中所有用户共同的用户信息的操作。

2.根据权利要求1所述的方法,其特征在于,所述确定群组中所有用户访问次数最多的一个或多个POI的列表包括:针对所述群组中的每个用户,根据该用户的终端设备上报的地理位置信息,确定该用户访问次数最多的一个或多个POI的列表;

取所述所有用户的POI列表的交集,根据所述交集中的POI得到所述群组中所有用户访问次数最多的一个或多个POI的列表。

3.根据权利要求1所述的方法,其特征在于,所述针对列表中的每个POI,确定该POI与所述群组的匹配度包括:针对每个POI,计算所述POI的描述信息与所述无线网络接入点的名称的匹配度,和/或计算所述POI的描述信息与所述群组中所有用户的公共个人属性的匹配度;

根据所述POI的描述信息与所述无线网络接入点的名称的匹配度、和/或所述POI的描述信息与所述公共个人属性的匹配度,确定所述POI与所述群组的匹配度。

4.根据权利要求3所述的方法,其特征在于,所述POI的描述信息包括所述POI的名称;

所述计算所述POI的描述信息与所述无线网络接入点的名称的匹配度包括:计算所述POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文或者拼音;

根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度。

5.根据权利要求4所述的方法,其特征在于,所述POI的名称为中文字符串,所述无线网络接入点的名称为包含英文字母的字符串;

所述计算POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度包括:将所述POI的名称转换为拼音字符串,计算所述拼音字符串和所述包含英文字母的字符串之间的第一匹配度;

将所述POI的名称转换为英文字符串,计算所述英文字符串和所述包含英文字母的字符串之间的第二匹配度;

所述根据一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度包括:根据所述第一匹配度和所述第二匹配度,得到所述POI名称与所述无线网络接入点的名称的匹配度。

6.根据权利要求3所述的方法,其特征在于,所述POI的描述信息包括所述POI的名称;

所述公共个人属性包括所述群组中所有用户的个人属性中重合的部分;

所述计算POI的描述信息与所述公共个人属性的匹配度包括:计算所述POI的名称与所述公共个人属性在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文或者拼音;

根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述公共个人属性的匹配度。

7.根据权利要求1所述的方法,其特征在于,如果所述匹配度最高的POI的匹配度不高于所示阈值,所述方法进一步包括:将所述群组中所有用户访问次数最多的一个或多个POI的名称组成字符串,在所述字符串中寻找出现频率大于预定阈值的字符串,根据所述出现频率大于预定阈值的字符串确定所述群组中所有用户的用户信息。

8.根据权利要求1所述的方法,其特征在于,所述POI的描述信息包括所述POI的名称;

所述根据所述POI的描述信息确定所述群组的所有用户的用户信息包括:根据POI的名称确定所述群组中所有用户的公司名称。

9.根据权利要求8所述的方法,其特征在于,所述POI的描述信息进一步包括所述POI的类别;

所述根据所述POI的描述信息确定所述群组的所有用户的用户信息进一步包括:根据所述POI的类别确定所述群组中所有用户的行业类型。

10.根据权利要求8所述的方法,其特征在于,进一步包括:根据所述群组中每个用户的阅读兴趣,确定所述群组的群体阅读兴趣,根据所述群组的群体阅读兴趣确定所述群组中所有用户的行业类型。

11.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:根据所确定的用户信息,向所述群组中的用户推送信息或提供服务。

12.一种用户信息挖掘装置,其特征在于,包括:

第一确定模块,根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;

第二确定模块,用于确定所述群组的所有用户访问次数最多的一个或多个兴趣点POI的列表;

匹配度计算模块,用于针对所述列表中的每个POI,确定该POI与所述群组的匹配度;

第三确定模块,用于选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组的所有用户共同的用户信息;

判断模块,用于判断所述匹配度计算模块计算出的匹配度最高的POI的匹配度是否高于预定的阈值,如果高于,则指示所述第三确定模块根据所述POI的描述信息确定所述群组的所有用户共同的用户信息。

13.根据权利要求12所述的装置,其特征在于,所述第二确定模块进一步用于:针对所述群组中的每个用户,根据该用户的终端设备上报的地理位置信息,确定该用户访问次数最多的一个或多个POI的列表;

取所述所有用户的POI列表的交集,根据所述交集中的POI得到所述所有用户访问次数最多的一个或多个POI的列表。

14.根据权利要求12所述的装置,其特征在于,所述匹配度计算模块进一步用于:针对每个POI,计算所述POI的描述信息与所述无线网络接入点的名称的匹配度,和/或计算所述POI的描述信息与所述群组的所有用户的公共个人属性的匹配度;

根据所述POI的描述信息与所述无线网络接入点的名称的匹配度、和/或所述POI的描述信息与所述公共个人属性的匹配度,确定所述POI与所述群组的匹配度。

15.根据权利要求14所述的装置,其特征在于,所述POI的描述信息包括所述POI的名称;

所述匹配度计算模块进一步用于:

计算所述POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文和拼音;

根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度。

16.根据权利要求15所述的装置,其特征在于,所述POI的名称为中文字符串,所述无线网络接入点的名称为包含英文字母的字符串;

所述匹配度计算模块进一步用于:

将所述POI的名称转换为拼音字符串,计算所述拼音字符串和所述包含英文字母的字符串之间的第一匹配度;

将所述POI的名称转换为英文字符串,计算所述英文字符串和所述包含英文字母的字符串之间的第二匹配度;

根据所述第一匹配度和所述第二匹配度,得到所述POI名称与所述无线网络接入点的名称的匹配度。

17.根据权利要求14所述的装置,其特征在于,所述POI的描述信息包括所述POI的名称;所述公共个人属性包括所述群组的所有用户的个人属性中内容重合的部分;

所述匹配度计算模块进一步用于:

计算所述POI的名称与所述公共个人属性在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文和拼音;

根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述公共个人属性的匹配度。

18.根据权利要求12所述的装置,其特征在于,进一步包括:第四确定模块,用于当所述判断模块判断出所述匹配度最高的POI的匹配度不高于所示阈值时,将所述群组中所有用户访问次数最多的一个或多个POI的名称组成字符串,在所述字符串中寻找出现频率大于预定阈值的字符串,根据所述出现频率大于预定阈值的字符串确定所述群组的所有用户的用户信息。

19.根据权利要求12所述的装置,其特征在于,所述POI的描述信息包括所述POI的名称;

所述第三确定模块进一步用于:

根据POI的名称确定所述群组的所有用户的公司名称。

20.根据权利要求19所述的装置,其特征在于,所述POI的描述信息进一步包括所述POI的类别;

所述第三确定模块进一步用于:

根据所述POI的类别确定所述群组的所有用户的行业类型。

21.根据权利要求19所述的装置,其特征在于,进一步包括:第五确定模块,用于根据所述群组中每个用户的阅读兴趣,确定所述群组的群体阅读兴趣,根据所述群组的群体阅读兴趣确定所述群组的所有用户的行业类型。

22.根据权利要求12所述的装置,其特征在于,进一步包括:推送模块,用于根据所述第三确定模块确定的用户信息向所述群组中的用户推送信息或者提供服务。

说明书 :

用户信息挖掘方法及装置

技术领域

[0001] 本发明涉及信息处理技术领域,特别涉及一种用户信息挖掘方法及装置。

背景技术

[0002] 用户信息挖掘是从用户的资料、日常行为中提取出用户的各种特征,例如年龄、学历、收入等,借此掌握用户特征,从而可以精准地投放广告、发布信息和资讯、预测用户行为等。
[0003] 例如,根据用户的网页浏览历史可以提取出用户的兴趣点。之后可以根据提取出的兴趣点向该用户发布相应的信息资讯。

发明内容

[0004] 本申请一些实施例提供了一种用户信息挖掘方法及装置,以提高对用户信息挖掘的准确率。
[0005] 本申请实施例提供的用户信息挖掘方法包括:
[0006] 根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;
[0007] 确定所述群组中所有用户访问次数最多的一个或者多个兴趣点POI的列表;
[0008] 针对所述列表中的每个POI,确定该POI与所述群组的匹配度;
[0009] 选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组中所有用户共同的用户信息。
[0010] 本申请实施例提供的一种用户信息挖掘装置包括:
[0011] 第一确定模块,根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;
[0012] 第二确定模块,用于确定所述群组的所有用户访问次数最多的一个或多个兴趣点POI的列表;
[0013] 匹配度计算模块,用于针对所述列表中的每个POI,确定该POI与所述群组的匹配度;
[0014] 第三确定模块,用于选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组的所有用户共同的用户信息。
[0015] 在本申请实施例提供的方案中,通过对群体用户的挖掘,使得对个人信息挖掘的结果的召回率和准确率都得到了提高。通过对比群体成员经常访问的POI和群组的匹配度,可以准确定位该群体的办公地点POI,从而可以根据该POI的描述信息得到群体的用户信息。通过对群体信息的挖掘,可以提高对个人信息挖掘的准确率和召回率,避免由于个人层面上数据的稀疏性而导致的召回率和准确率不理想的问题。

附图说明

[0016] 图1为本申请一些实施例中的操作环境示意图。
[0017] 图2为本申请一些实施例提供的用户信息挖掘方法的流程图。
[0018] 图3为本申请一些实施例提供的用户信息挖掘方法的另一流程图。
[0019] 图4为本申请一些实施例提供的计算POI名称与WiFi热点名称的匹配度的流程图。
[0020] 图5为本申请一些实施例中计算POI名称与WiFi热点名称的匹配度的另一流程图。
[0021] 图6为本申请一些实施例中计算POI名称与群组用户公共个人属性的匹配度的流程图。
[0022] 图7为本申请一些实施例提供的一种用户信息挖掘装置的结构示意图。
[0023] 图8为本申请一些实施例提供的用户信息挖掘装置的另一结构示意图。

具体实施方式

[0024] 为使本申请的技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请进一步详细说明。
[0025] 挖掘用户信息对于刻画用户的需求、收入、消费和生活习惯等特征都十分重要。例如,精确的公司名称和行业类型对广告等需要精准刻画用户的业务具有极大的帮助。行业类型的分析结果也给某个行业内用户的深入研究带来了可能。由于个人层面上数据的稀疏性,对单个用户的用户信息,例如公司名称和行业类型的挖掘的准确率和召回率均不理想。因此,本申请一些实施例提供了一种挖掘用户信息的方法,从而可以提高用户信息挖掘的准确率和召回率。在本申请实施例提供的方法中,通过对比群体成员经常访问的POI和群体长连无线局域网和/或群体公共个人属性,可以准确的定位该群体的办公地点POI,从而可以根据该POI的描述信息得到群体的用户信息,例如公司名称和/或行业类型。从而可以根据得到的用户信息精准地投放广告、发布信息和资讯、预测用户行为等。
[0026] 图1为本申请一些实施例中的操作环境100的示意图。如图1所示,多个用户各个的终端设备(例如用户设备104a-c)分别通过无线网络接入点118以及网络106连接至服务器112。
[0027] 在一些实施例中,每个用户通过在用户设备104上执行的应用(例如微信App 108a-c)连接至服务器112。
[0028] 所述无线网络接入点118可以包括一个或者多个无线网络接入点。在一些实施例中,当所述无线网络接入点118包括多个无线网络接入点时,所述多个无线网络接入点设置了相同的名称。例如,当所述无线网络接入点118包含多个WiFi热点时,所述多个WiFi热点设置了相同的名称,即相同的服务集标识(SSID,service set identifier)。
[0029] 服务器112维护数据库114,所述数据库114中保存有所述服务器112收录的POI的信息、终端设备104的无线网络连接历史记录、以及个人属性数据等。
[0030] 在一些实施例中,所述POI的信息可以包括:该POI的图片(或者照片)和描述信息,其中描述信息包括该POI的名称、类别、经纬度、海拔、附加说明等。所述POI的名称通常包含对应的公司名称。所述POI类别可以是根据POI分类代码表设定的一级代码和二级代码。所述无线网络连接历史记录可以包括:无线网络接入点的名称(例如WiFi热点的SSID)、终端设备104连接该无线网络接入点的时间等。所述个人属性数据可以包含用户的昵称、或者用户加入的社交网络群组的群组名称等。
[0031] 所述服务器112可以根据接入无线网络接入点118的用户的信息确定包含多个用户的群组,所述无线网络接入点118为所述多个用户的用户设备104提供网络连接服务;确定所述群组中所有用户访问次数最多的一个或多个POI的列表;针对所述POI列表中的每个POI,确定该POI与所述群组的匹配度;选择所述POI列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组中所有用户共同的用户信息。
[0032] 用户设备104的示例包括但不限于掌上型计算机、可穿戴计算设备、个人数字助理(PDA)、平板计算机、笔记本电脑、台式计算机、智能手机、或任意两个或更多的这些数据处理设备或其他数据处理设备的组合。
[0033] 在一些实施例中,网络106可以包括局域网(LAN)和广域网(WAN)诸如互联网。可以使用任意公知的网络协议来实现网络106,包括各种有线或无线协议。
[0034] 在一些实施例中,所述服务器112可以在一个或多个独立的数据处理装置或分布式计算机网络上实现。
[0035] 图2为本申请一些实施例中一种用户信息挖掘方法的流程图。如图2所示,该方法包括以下步骤:
[0036] 步骤201,根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务。
[0037] 步骤202,确定所述群组的所有用户访问次数最多的一个或多个兴趣点POI的列表。
[0038] 步骤203,针对所述POI列表中的每个POI,确定该POI与所述群组的匹配度。
[0039] 步骤204,选择所述POI列表中匹配度最高的POI,根据所述POI的描述信息确定所述所有用户共同的用户信息。
[0040] 在一些实施例中,所述确定群组中所有用户访问次数最多的一个或者多个POI的列表包括:
[0041] 针对所述群组中的每个用户,根据该用户的终端设备上报的地理位置信息,确定该用户访问次数最多的一个或多个POI的列表;
[0042] 取所述所有用户的POI列表的交集,根据所述交集中的POI得到所述群组中所有用户访问次数最多的一个或多个POI的列表。
[0043] 在一些实施例中,所述针对列表中的每个POI,确定该POI与所述群组的匹配度包括:
[0044] 针对每个POI,计算所述POI的描述信息与所述无线网络接入点的名称的匹配度,和/或计算所述POI的描述信息与所述群组中所有用户的公共个人属性的匹配度;
[0045] 根据所述POI的描述信息与所述无线网络接入点的名称的匹配度、和/或所述POI的描述信息与所述公共个人属性的匹配度,确定所述POI与所述群组的匹配度。
[0046] 在一些实施例中,所述POI的描述信息包括所述POI的名称;
[0047] 所述计算所述POI的描述信息与所述无线网络接入点的名称的匹配度包括:
[0048] 计算所述POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文或者拼音;
[0049] 根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度。
[0050] 在一些实施例中,所述POI的名称为中文字符串,所述无线网络接入点的名称为包含英文字母的字符串;
[0051] 所述计算POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度包括:
[0052] 将所述POI的名称转换为拼音字符串,计算所述拼音字符串和所述包含英文字母的字符串之间的第一匹配度;
[0053] 将所述POI的名称转换为英文字符串,计算所述英文字符串和所述包含英文字母的字符串之间的第二匹配度;
[0054] 所述根据一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度包括:
[0055] 根据所述第一匹配度和所述第二匹配度,得到所述POI名称与所述无线网络接入点的名称的匹配度。
[0056] 在一些实施例中,所述POI的描述信息包括所述POI的名称;所述公共个人属性包括所述群组中所有用户的个人属性中重合的部分;
[0057] 所述计算POI的描述信息与所述公共个人属性的匹配度包括:
[0058] 计算所述POI的名称与所述公共个人属性在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文或者拼音;
[0059] 根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述公共个人属性的匹配度。
[0060] 在一些实施例中,所述方法进一步包括:
[0061] 在选择所述POI列表中匹配度最高的POI之后,判断所述匹配度最高的POI的匹配度是否高于预定的阈值,如果高于,则执行所述根据所述POI的描述信息确定所述中所有用户的用户信息的操作。
[0062] 在一些实施例中,如果所述匹配度最高的POI的匹配度不高于所示阈值,所述方法进一步包括:
[0063] 将所述群组中所有用户访问次数最多的一个或多个POI的名称组成字符串,在所述字符串中寻找出现频率大于预定阈值的字符串,根据所述出现频率大于预定阈值的字符串确定所述群组中所有用户的用户信息。
[0064] 在一些实施例中,所述POI的描述信息包括所述POI的名称;
[0065] 所述根据所述POI的描述信息确定所述群组的所有用户的用户信息包括:
[0066] 根据POI的名称确定所述群组中所有用户的公司名称。
[0067] 在一些实施例中,所述POI的描述信息进一步包括所述POI的类别;
[0068] 所述根据所述POI的描述信息确定所述群组的所有用户的用户信息进一步包括:
[0069] 根据所述POI的类别确定所述群组中所有用户的行业类型。
[0070] 在一些实施例中,所述方法进一步包括:
[0071] 根据所述群组中每个用户的阅读兴趣,确定所述群组的群体阅读兴趣,根据所述群组的群体阅读兴趣确定所述群组中所有用户的行业类型。
[0072] 在一些实施例中,所述方法进一步包括:
[0073] 根据所述确定的用户信息,为所述群组中的用户推送信息或者提供服务。
[0074] 在一些实施例中,所述无线网络接入点可以是WiFi热点,或者是其他类型的无线网络接入点。在以下的实施例中,以WiFi热点为例进行说明。
[0075] 图3为本申请一些实施例提供的用户信息挖掘方法的流程图。在图3所示的实施例中,通过计算POI的描述信息与WiFi热点名称的匹配度以及POI的描述信息与群组的所有用户的公共个人属性的匹配度,来确定所述POI与群组的匹配度,从而确定群组中所有用户公共的用户信息。
[0076] 在一些实施例中,也可以仅根据POI的描述信息与WiFi热点名称的匹配度,或者POI的描述信息与公共个人属性的匹配度,来确定所述POI与群组的匹配度。
[0077] 在本申请实施例中,由于所述群组中的用户可以是接入与某办公地点对应的WiFi的用户,因此所述群组也可以称为工作圈。
[0078] 如图3所示,所述方法包括:
[0079] 步骤301,服务器根据接入WiFi热点的用户的信息确定包含多个用户的工作圈,所述WiFi热点为所述多个用户的终端设备提供网络连接服务。
[0080] 在一些实施例中,所述WiFi热点可以为一个WiFi热点或者多个WiFi热点。在多个WiFi热点的情况下,所述多个WiFi热点设置了相同的名称,即相同的SSID。例如,对于企业铺设的WiFi热点,不同的WiFi热点设置了相同的SSID,以便用户终端在连接WiFi时进行无缝切换。
[0081] 由于WiFi热点可能是面向企业客户或内部员工铺设、用于保证企业正常运作的工作WiFi、或者是提供给家庭成员使用的家庭WiFi、或者由政府、商家、运营商铺设,免费开放给用户使用的公众免费WiFi,为了有效的获取工作类型的用户圈(即工作圈),可以预先根据WiFi热点的类型,选择工作类型的WiFi热点。之后,可以根据用户的网络连接历史记录,将通过该WiFi热点连接至服务器的多个用户作为工作圈的成员(例如,所有或者部分连接过或者正在连接该WiFi的用户),从而得到与该WiFi热点对应的工作圈。
[0082] 在一些实施例中,可以根据实际需要设定工作圈中用户的数量。例如,在所有通过该WiFi热点连接至服务器的用户中,可以将连接次数最多或者连接时间最长的预定数量的用户作为所述工作圈的用户。
[0083] 步骤302,确定所述工作圈中所有用户最常去的兴趣点(POI)的列表。
[0084] 这里,所述最常去的POI的列表,即用户访问次数最多的一个或者多个POI的列表。在一些实施例中,服务器中存储有其收录的每个POI的描述信息。所述描述信息包括该POI的名称、类别、经纬度、海拔等等。所述POI的名称通常包含该POI对应的公司名称。所述POI类别可以是根据POI分类代码表设定的一级代码和二级代码。因此,根据所述POI的代码可以推测出对应的行业类别。从而,可以根据工作圈中所有用户最常去的POI推测出该工作圈的所有用户的公司名称和行业类别。
[0085] 在一些实施例中,为了确定所有用户最常去的POI的列表,可以首先确定每个用户最常去的多个POI的列表,然后根据各个用户最常去的多个POI得到所有用户最常去的POI的列表。具体的,步骤302可以包括以下步骤:
[0086] 步骤302-a,针对该工作圈中的每一个用户,确定该用户最常去的POI的列表。
[0087] 在一些实施例中,每个用户使用的用户设备会收集用户的地理位置信息,上报给服务器。例如,每个用户的用户设备中的微信应用会在用户执行某些特定操作时收集用户的地理位置信息,上报给服务器。
[0088] 根据用户设备上报的地理位置信息,服务器可以获取与该地理位置信息对应的POI。由于服务器中存储有每个POI的描述信息,因此服务器可以根据收到的地理位置信息以及POI的描述信息获取与该地理位置信息对应的POI。
[0089] 对于工作圈中的每一个用户,服务器可以根据过去一段时间内该用户的用户设备上报的地理位置信息,得到用户最常去的多个(例如10个)POI。
[0090] 步骤302-b,根据各个用户最常去的POI的列表,得到所有用户最常去的POI的列表。
[0091] 在一些实施例中,可以通过取各个用户最常去的POI列表的交集,将交集中的POI作为所有用户最常去的POI。
[0092] 以上通过步骤302-a和302-b对确定工作圈中所有用户最常去的POI的列表进行了说明。在实际应用中,本领域技术人员也可以采用其他方法来确定工作圈中所有用户最常去的POI的列表,本申请对具体采用何种方法不做限定。
[0093] 步骤303,针对所有用户最常去的POI列表中的每个POI,计算该POI的描述信息与所述WiFi热点的名称的匹配度。
[0094] 在一些实施例中,所述POI的描述信息包括该POI的名称,由于POI的名称和WiFi的名称都有可能包含代表公司名称的信息,因此在本步骤中,可以计算所述POI的名称与所述WiFi热点的名称的匹配度。
[0095] 通常,所述POI名称由中文字符组成,而WiFi热点的名称可以包含中文、字母、数字和符号的任意组合。在所述WiFi热点的名称也为中文字符串的情况下,可以通过各种字符串匹配方法对所述POI名称和所述WiFi热点名称进行匹配。在所述POI名称与所述WiFi热点名称的语言类型不同的情况下,为了计算所述POI的名称和所述WiFi热点的名称的匹配度,可以对POI名称进行语言转换处理。例如,当所述WiFi热点的名称为包含英文字母的字符串时,可以将POI名称转换为英文字符串,或者将POI名称转换成拼音字符串(全拼或者拼音首字母缩写)等。
[0096] 在一些实施例中,为了提高准确率,可以分别计算多种语言类型情况下所述POI名称和所述WiFi热点名称的匹配度,然后结合多种情况下的匹配度得到所述POI名称和所述WiFi热点名称的最终匹配度,例如对各种语言类型下匹配度进行加权求和。所述语音类型包括:中文、英文或者拼音。
[0097] 例如,当WiFi热点名称为包含英文字母的字符串时,可以将POI名称转换为拼音字符串,然后计算二者的匹配度;然后将POI名称转换为英文字符串,然后计算这种情况下二者的匹配度;最后结合两种情况下的匹配度,得到所述POI名称和所述WiFi热点名称的匹配度。例如,可以将两次计算的匹配度相加,得到最终的匹配度。
[0098] 步骤304,针对所有用户最常去的POI列表中的每个POI,计算该POI的名称与所有用户的公共个人属性的匹配度。
[0099] 在一些实施例中,用户的个人属性数据可以是用户的昵称,或者是用户加入的群组的名称。所述所有用户的公共个人属性数据可以是所有用户的个人属性数据的重合部分,例如所有用户的昵称的重合部分,和/或社交网络群组名称的重合部分等。所述公共个人属性数据可以是一个包含一个或者多个字符串的列表。
[0100] 在本实施例中,假设POI与工作圈的匹配度=POI名称与WiFi热点名称的匹配度+POI名称与所有用户的公共个人属性的匹配度。因此,在本步骤中,可以沿用步骤303得到的匹配度变量数值。即,在本步骤中,匹配度变量的初始值为步骤303计算得到的数值。
[0101] 在一些实施例中,计算POI的名称与公共个人属性的匹配度的方法与步骤303中计算POI名称与WiFi热点名称的匹配度的方法类似。
[0102] 具体的,可以计算所述POI名称与所述公共个人属性在一种或者多种语言类型下的匹配度,根据所述一种或者多种语言类型下的匹配度得到所述POI名称与所述公共个人属性的匹配度;其中所述语言类型包括:中文、英文或者拼音。
[0103] 步骤305,选择所述POI列表中匹配度最高的POI,判断该POI的匹配度是否超过预先设定的阈值,如果是,根据该POI的描述信息确定所述工作圈的所有用户共同的用户信息。
[0104] 在一些实施例中,所述阈值可以预先根据经验确定。如果匹配度最高的POI的匹配度超过所述阈值,则认为该POI“可信”,从而可以根据该POI的描述信息确定工作圈中所有用户共同的用户信息。
[0105] 在一些实施例中,所确定的用户信息可以是工作信息。所述工作信息可以是公司名称,或进一步包括行业类别。所述描述信息中包含POI的名称和类别,对于与工作WiFi热点对应的POI,所述名称通常为公司名称。所述POI类别可以为所述POI的分类代码,因此可以根据POI分类代码表得到POI对应的行业类别。从而,可以根据所述POI的描述信息所带有的公司名称和行业类别确定工作圈中所有用户的公司名称和行业类别。
[0106] 在一些实施例中,由于根据POI的描述信息确定的行业类别有可能不是十分准确,步骤305可以根据POI的名称确定所有用户的公司名称。在步骤305中之后,可以进一步根据工作圈的所有用户的群体阅读兴趣来确定所有用户的行业类别。
[0107] 具体的,在步骤305之后,该方法可以进一步包括:
[0108] 步骤306,根据工作圈中各个用户的阅读兴趣,确定该工作圈的群体阅读兴趣,根据该工作圈的群体阅读兴趣确定该工作圈的行业类别。
[0109] 在一些实施例中,每个用户的阅读兴趣可以通过阅读兴趣向量来表示。可以通过以下步骤确定各个用户的阅读兴趣:对于每个用户,计算过去一段时间(例如30天)内每个文章类别的阅读比例,得到一个个人阅读兴趣向量。向量长度为文章类别数,向量之和为1。
[0110] 在得到每个用户的阅读兴趣向量之后,工作圈的群体阅读兴趣向量可以由该圈子所有用户个人阅读兴趣向量平均得到。
[0111] 之后,可以根据工作圈的群体阅读兴趣向量,使用机器学习分类模型预测工作圈的行业类别。例如,可以采用基于决策树的集成学习(ensemble learning)算法,比如随机森林(Random Forest),xgboost算法等。
[0112] 所述分类算法通过对已知类别的文本进行训练,得出训练模型,从而根据模型对待处理的数据进行分类。在一些实施例中,所述服务器可以提取出每个用户阅读的网页信息中的内容,过滤掉无用信息,从而获取网页对应的文本。根据所述分类算法,对所述文本进行分类。
[0113] 在本申请实施例中,对具体采用何种分类算法不做限定。本领域技术人员可以根据实际应用采用不同的分类算法。
[0114] 在一些实施例中,如果步骤305中得到匹配度最高的POI不可信,则在步骤305之后,可以进一步以下步骤:
[0115] 步骤307,根据各个用户最常去的POI或者各个用户的用户属性数据,确定工作圈中所有用户公共的用户信息。
[0116] 在一些实施例中,可以根据各个用户最常去的POI确定工作圈中所有用户的用户信息。此时,步骤307包括:
[0117] 步骤307-a,将所有用户最常去的POI名称拼成一个字符串,在所述字符串中寻找出现频率大于预定阈值且有意义的字符串,将该字符串作为该工作圈的所有用户的公司名称。
[0118] 例如,对于拥有多个POI的大型公司机构,该公司机构对应的工作圈用户最常访问的POI列表中会出现多个属于该公司机构的POI。这种情况下,可以通过寻找出现频率高的字符串的方法来挖掘公司名称。
[0119] 在一些实施例中,也可以根据各个用户的个人属性信息确定工作圈中所有用户的用户信息,此时,步骤307包括:
[0120] 步骤307-b,从所有用户的个人属性数据中提取出现频率最高的字符串,通过频率和相关性预测公司名称。
[0121] 在步骤307确定工作圈中所有用户的公司名称之后,还可以进一步包括步骤308,以确定工作圈中所有用户的行业类别。
[0122] 步骤308,根据工作圈中各个用户的阅读兴趣,确定该工作圈的群体阅读兴趣,根据该工作圈的群体阅读兴趣确定该工作圈的行业类别。
[0123] 步骤308中根据群体阅读兴趣确定工作圈的行业类别的方法与步骤306类似,在此不再赘述。
[0124] 在本申请实施例提供的用户信息挖掘方法中,通过对比群体常去POI和群体长连WiFi和/或群体公共个人属性,可以准确的定位该群体的办公地点POI,从而得到群体的公司名称和行业属性。从而可以精准地投放广告、发布信息和资讯、预测用户行为等。
[0125] 下面结合附图4和5对计算POI名称与WiFi热点名称之间的匹配度的过程进行说明。假设所述WiFi热点的名称为包含英文字母的字符串,可以将所述POI名称转换成拼音字符串(包括全拼和/或首字母缩写形式)以及英文字符串,分别与所述WiFi热点名称进行匹配。
[0126] 图4为本申请一些实施例中计算POI的名称与WiFi热点的名称的匹配度的流程图。在图4所示的实施例中,将POI的名称转换成拼音字符串,然后与WiFi热点的名字进行匹配。
如图4所示,所述方法包括:
[0127] 步骤401,为所述POI设置匹配度变量,初始化所述匹配度变量。
[0128] 这里,所述匹配度变量的初始值可以是0。
[0129] 步骤402,判断所述WiFi热点的名称是否是纯英文字符串,如果是,转到步骤403;否则转到步骤407。
[0130] 步骤403,对所述WiFi热点的名称进行分词,将分词得到的结果存为一个列表。
[0131] 在一些实施例中,可以根据WiFi热点名称中的空格或者标点符号等进行分词处理。例如,所述WiFi热点的名称为tx-WiFi,则可以根据符号“-”进行分词,分词的结果是:(tx,WiFi)。
[0132] 本领域技术人员也可以根据实际情况选择其他的分词方法,本申请实施例对采用何种分词方法不做限定。
[0133] 步骤404,将分词得到的列表中的全部字符转成小写字母。
[0134] 步骤405,把该POI的中文名称转成拼音字符串。
[0135] 在一些实施例中,所述拼音字符串包括全拼形式的拼音字符串和拼音首字母缩写形式的拼音字符串。例如,假设POI名称为“腾讯”,则转换成拼音形式之后为“tengxun”和“tx”。
[0136] 步骤406,遍历所述WiFi热点的名称分词结果列表中的每一个词,如果POI的名称的拼音字符串中包含该词,匹配度变量加上该词的字符串长度或者预定分值。
[0137] 例如,根据上面的例子,针对所述WiFi热点的名称的分词结果列表中的“tx”,可以看出所述POI的名称的拼音首字母缩写为“tx”,二者完全一致。
[0138] 在一些实施例中,对于分词结果列表中的词和POI名称的拼音完全一致的情况,说明所述POI名称的可信度较高,为了提高该POI的匹配度分值,可以为该POI增加大于该字符串长度的分值。例如,如果二者完全一致且字符串长度大于1,则匹配度变量加10。
[0139] 在一些实施例中,所述POI的名称的拼音(全拼或者首字母形式)可能不包含所述分词结果列表中的任何一个词,此时所述匹配度变量依然为初始值0。
[0140] 步骤407,如果WiFi热点的名称不是纯英文字符,计算POI名称和WiFi热点的名称的重合字符串个数,然后根据重合字符串个数更新所述POI的匹配度变量。
[0141] 在一些实施例中,可以令所述POI匹配度变量=重合字符串个数×N;其中N可以为预先设定的常数,例如N=2。
[0142] 以上通过图4所示实施例对计算POI名称和WiFi热点名称之间的匹配度的方法进行了说明。
[0143] 图5为本申请一些实施例中计算POI的名称与WiFi热点的名称的匹配度的另一流程图。在图5所示的实施例中,将POI的名称转换成英文字符串,然后与WiFi热点的名字进行比较。如图5所示,所述方法包括:
[0144] 步骤501,为所述POI设置匹配度变量,初始化所述匹配度变量。
[0145] 在本步骤中,所述匹配度变量可以沿用图4所示实施例中的匹配度变量,即,则所述匹配度变量的初始值为上述图4中步骤406或者407得到的匹配度变量值。这样,图5中步骤506或者507所计算出的匹配度=将POI名称转换为拼音情况下的匹配度+将POI名称转换为英文情况下的匹配度。
[0146] 或者,所述匹配度变量也可以不沿用图4所示实施例的匹配度变量,则所述初始值可以为0。此时,在通过步骤506或者507得到英文形式下的匹配度之后,可以将该匹配度作为最终的匹配度,也可以再结合步骤406或407得到的匹配度计算最终的匹配度。
[0147] 步骤502,判断所述WiFi热点的名称是否是纯英文字符串,如果是,转到步骤503;否则转到步骤507。
[0148] 步骤503,对所述WiFi热点的名称进行分词,存为一个列表。
[0149] 在一些实施例中,可以根据WiFi热点名称中的空格或者标点符号等进行分词处理。例如,所述WiFi热点的名称为tx-WiFi,则可以根据符号“-”进行分词,分词的结果是:(tx,WiFi)。
[0150] 本领域技术人员也可以根据实际情况选择其他的分词方法,本申请实施例对采用何种分词方法不做限定。
[0151] 步骤504,将分词得到的列表中的全部字符转成小写字母。
[0152] 步骤505,把该POI的中文名称转成英文字符串。
[0153] 在一些实施例中,假设POI名称为“腾讯”,则转换成英文形式之后为“tencent”。
[0154] 步骤506,遍历所述WiFi热点的名称分词结果列表中的每一个词,如果POI的名称的英文形式包含该词,匹配度变量加上该词的字符串长度或者预定分值。
[0155] 在一些实施例中,对于分词结果列表中的词和POI名称的英文形式完全一致的情况,说明所述POI名称的可信度较高,为了提高该POI的匹配度分值,可以为该POI增加大于该字符串长度的分值。例如,如果二者完全一致且字符串长度大于1,则匹配度变量加10。
[0156] 步骤507,如果WiFi热点的名称不是纯英文字符,计算POI名称和WiFi热点的名称的重合字符串个数,然后根据重合字符串个数更新所述POI的匹配度变量。
[0157] 在一些实施例中,可以令所述POI匹配度变量=重合字符串个数×M;其中M可以为预先设定的常数,例如M=2。
[0158] 以上对不同的语言类型下,POI的名称与所述WiFi热点的名称的匹配度的计算方法进行了说明。在得到各种语言类型下的匹配度之后,可以综合各匹配度得到最终的匹配度,例如直接求和、加权求和、加权平均等,本申请实施例对具体采用何种方法不做限定。
[0159] 以上对POI名称和WiFi热点名称之间的匹配度的计算进行了说明。以下结合图6对POI名称与工作圈成员的公共个人属性之间的匹配度的计算过程进行说明。
[0160] 这里,匹配度变量的初始值可以设置为0,或者可以根据实际需要设置为之前的匹配度计算得到的结果。
[0161] 在图6所示的实施例中,假设所述公共个人属性为[‘腾讯’,‘tx’,‘tencent’,‘企鹅’]。参见图6,所述计算过程包括:
[0162] 步骤601,把POI名称转成拼音字符串。
[0163] 这里,所述拼音字符串可以包含全拼形式和/或拼音首字母缩写形式,比如POI名称“腾讯”可以转换成“tengxun”和“tx”。
[0164] 步骤602,遍历整个公共个人属性数据列表,对于这个列表中的每个字符串,判断该字符串是否为纯英文字符串,如果是,则转到步骤603;否则,转到步骤604。
[0165] 步骤603,把该字符串转成小写字母,如果POI名称的拼音字符串包含该字符串,匹配度变量加上该字符串长度或者加上预定分值。
[0166] 在一些实施例中,如果二者完全一致且字符串长度大于1,可以为该POI增加大于该字符串长度的分值,例如匹配度变量加10。
[0167] 步骤604,计算POI名称和公共个人属性的重合字符串个数,根据重合字符串个数计算所述POI的匹配度变量。
[0168] 在一些实施例中,可以令所述POI匹配度变量=重合字符串个数×P;其中P可以为预先设定的常数,例如P=2。
[0169] 以上通过步骤601至604对计算POI的名称与所有用户的公共个人属性的匹配度的方法进行了说明。在实际应用中,本领域技术人员可以采用其他方法计算POI的名称与所有用户的公共个人属性的匹配度,不申请对具体采用何种方法不做限定。
[0170] 在计算出POI名称与WiFi热点名称以及工作圈用户公共个人属性的匹配度之后,可以根据与WiFi热点名称的匹配度以及与工作圈用户公共个人属性的匹配度,确定POI名称与工作圈的匹配度。例如,POI名称与工作圈的匹配度=POI名称与WiFi热点的匹配度+POI名称与工作圈用户公共个人属性的匹配度。在一些实施例中,也可以仅根据POI名称与WiFi热点名称的匹配度或者POI名称与公共个人属性的匹配度确定POI名称与工作圈的匹配度。本申请实施例对此不做限定。
[0171] 在本申请实施例提供的用户信息挖掘方法中,由于POI信息通常包含公司名称和公司的行业类型信息,可以根据POI信息推测用户的公司名称和行业类型。通过对比工作圈群体用户常去POI和工作圈的匹配度,可以准确定位该群体的办公地点POI,从而可以通过对群体信息的挖掘提高对个人信息挖掘的准确率和召回率,避免由于个人层面上数据的稀疏性而导致的召回率和准确率不理想的问题。
[0172] 图7是本申请一些实施例中用户信息挖掘装置的示意图。该用户信息挖掘装置可以是图1示出的用户设备104a-c。
[0173] 如图7所示,用户信息挖掘装置700包括一个或者多个处理器(CPU)702、网络接口模块704、存储器706、以及用于互联这些组件的通信总线708。
[0174] 在一些实施例中,所述网络接口模块704用于实现所述用户信息挖掘装置700与外部设备之间的网络连接。
[0175] 所述用户信息挖掘装置700还可以进一步包含一个或多个输出设备712(例如一个或多个可视化显示器),和/或包括一个或多个输入设备714(例如键盘,鼠标,或其他输入控件等)。
[0176] 存储器706可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
[0177] 存储器706包括:
[0178] 操作系统716,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
[0179] 用户信息挖掘应用718,用于根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;确定所述群组中所有用户访问次数最多的一个或多个兴趣点POI的列表;针对所述列表中的每个POI,确定该POI与所述群组的匹配度;选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组中所有用户共同的用户信息。
[0180] 所述用户信息挖掘应用718的具体功能和实现可以参见上述方法实施例,在此不再赘述。
[0181] 图8为本申请一些实施例中另一种用户信息挖掘装置的结构示意图。如图8所示,该装置包括:
[0182] 第一确定模块801,根据接入无线网络接入点的用户的信息,确定包含多个用户的群组,所述无线网络接入点为所述多个用户的终端设备提供网络连接服务;
[0183] 第二确定模块802,用于确定所述群组的所有用户访问次数最多的一个或多个兴趣点POI的列表;
[0184] 匹配度计算模块803,用于针对所述列表中的每个POI,确定该POI与所述群组的匹配度;
[0185] 第三确定模块804,用于选择所述列表中匹配度最高的POI,根据所述POI的描述信息确定所述群组的所有用户共同的用户信息。
[0186] 在一些实施例中,所述第二确定模块802进一步用于:
[0187] 针对所述群组中的每个用户,根据该用户的终端设备上报的地理位置信息,确定该用户访问次数最多的一个或多个POI的列表;
[0188] 取所述所有用户的POI列表的交集,根据所述交集中的POI得到所述所有用户访问次数最多的一个或多个POI的列表。
[0189] 在一些实施例中,所述匹配度计算模块803进一步用于:
[0190] 针对每个POI,计算所述POI的描述信息与所述无线网络接入点的名称的匹配度,和/或计算所述POI的描述信息与所述群组所有用户的公共个人属性的匹配度;
[0191] 根据所述POI的描述信息与所述无线网络接入点的名称的匹配度、和/或所述POI的描述信息与所述公共个人属性的匹配度,确定所述POI与所述群组的匹配度。
[0192] 在一些实施例中,所述POI的描述信息包括所述POI的名称;
[0193] 所述匹配度计算模块803进一步用于:
[0194] 计算所述POI的名称与所述无线网络接入点的名称在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文和拼音;
[0195] 根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述无线网络接入点的名称的匹配度。
[0196] 在一些实施例中,所述POI的名称为中文字符串,所述无线网络接入点的名称为包含英文字母的字符串;
[0197] 所述匹配度计算模块803进一步用于:
[0198] 将所述POI的名称转换为拼音字符串,计算所述拼音字符串和所述包含英文字母的字符串之间的第一匹配度;
[0199] 将所述POI的名称转换为英文字符串,计算所述英文字符串和所述包含英文字母的字符串之间的第二匹配度;
[0200] 根据所述第一匹配度和所述第二匹配度,得到所述POI名称与所述无线网络接入点的名称的匹配度。
[0201] 在一些实施例中,所述POI的描述信息包括所述POI的名称;所述公共个人属性包括所述群组所有用户的个人属性中重合的部分;
[0202] 所述匹配度计算模块803进一步用于:
[0203] 计算所述POI的名称与所述公共个人属性在一种或者多种语言类型下的匹配度;所述语言类型包括:中文、英文和拼音;
[0204] 根据所述一种或者多种语言类型下的匹配度,确定所述POI的名称与所述公共个人属性的匹配度。
[0205] 在一些实施例中,所述用户信息挖掘装置800进一步包括:
[0206] 判断模块805,用于判断所述匹配度计算模块803计算出的匹配度最高的POI的匹配度是否高于预定的阈值,如果高于,则指示所述第三确定模块804根据所述POI的描述信息确定所述所有用户共同的用户信息。
[0207] 在一些实施例中,所述用户信息挖掘装置800进一步包括:
[0208] 第四确定模块806,用于当所述判断模块805判断出所述匹配度最高的POI的匹配度不高于所示阈值时,将所述群组中所有用户访问次数最多的一个或者多个POI的名称组成字符串,在所述字符串中寻找出现频率大于预定阈值的字符串,根据所述出现频率大于预定阈值的字符串确定所述群组所有用户共同的用户信息。
[0209] 在一些实施例中,所述第三确定模块804进一步用于:
[0210] 根据POI的名称确定所述群组所有用户的公司名称。
[0211] 在一些实施例中,所述POI的描述信息进一步包括所述POI的类别;
[0212] 所述第三确定模块804进一步用于:
[0213] 根据所述POI的类别确定所述群组所有用户的行业类型。
[0214] 在一些实施例中,所述用户信息挖掘装置800进一步包括:
[0215] 第五确定模块807,用于根据所述群组中每个用户的阅读兴趣,确定所述群组的群体阅读兴趣,根据所述群组的群体阅读兴趣确定所述群组所有用户的行业类型。
[0216] 在一些实施例中,所述用户信息挖掘装置800进一步包括:
[0217] 推送模块808,用于根据所述第三确定模块804确定的用户信息,向所述群组中的用户推送信息或者提供服务。
[0218] 在本申请实施例提供的用户信息挖掘方案中,由于POI信息通常包含公司名称和公司的行业类型信息,可以根据POI信息推测用户的公司名称和行业类型。通过对比群体用户经常访问的POI和群组的匹配度,可以准确定位该群体的办公地点POI,从而可以通过对群体信息的挖掘提高对个人信息挖掘的准确率和召回率,避免由于个人层面上数据的稀疏性而导致的召回率和准确率不理想的问题。
[0219] 以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本申请的保护范围之内。