一种基于移动大数据的预出境用户识别方法转让专利

申请号 : CN202010017938.X

文献号 : CN111274338A

文献日 : 2020-06-12

本发明涉及一种基于移动大数据的预出境用户识别方法，属于数据挖掘技术领域。该方法包括：采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据，利用所采集数据建立维表数据库；基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征；将用户的行为特征和静态特征进行聚合关联，构建特征宽表；设计特征选择算法，从特征宽表中筛选出与类别强相关的特征子集；借助逻辑回归分类器构建预出境用户识别模型，完成模型的训练、评估与调参；将待测试数据输入识别模型，识别预出境用户。本发明能够有效识别预出境用户，主要用于数据挖掘场合。

1.一种基于移动大数据的预出境用户识别方法，其特征在于，该方法具体包括以下步骤：

S1：采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据，利用所采集数据建立维表数据库；

S2：基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征；

S3：将用户的行为特征和静态特征进行聚合关联，构建特征宽表；

S4：设计特征选择算法，从特征宽表中筛选与类别强相关的特征子集；

S5：借助逻辑回归分类器构建预出境用户识别模型，完成模型的训练、评估与调参；

S6：将待测试数据输入识别模型，识别预出境用户。

2.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S1中，所述维表数据库包括基站维表、APP维表和通话维表，具体构建方法为：

1)采集出境服务机构归属通信基站信息，依据出境服务机构与归属通信基站的一对多映射关系，构建基站维表；

2)采集出境服务APP的详细网络封包信息，撷取APP的域名和关键词，依据APP与域名、关键词的一对多映射关系，构建APP维表；

3)采集出境服务机构的服务通话端口信息，验证通话端口有效性，依据出境服务机构与通话端口的一对多映射关系，构建通话维表。

3.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S2中，

1)所述通话行为特征包括国际通话行为特征和国内通话行为特征，其中：

A、国际通话行为特征提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1；设定通话频次阈值Fy1；剔除通话频次超过Fy1的用户数据；最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1；

B、国内通话行为特征提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定单次通话时长阈值Ty1；剔除单次通话时长Teach小于Ty1的用户数据；统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2；最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2；

2)所述上网行为特征的提取步骤包括：从上网日志中提取可能使用目标APP的用户信息；设定上网流量阈值Fy2；剔除上网流量Feach小于Fy2的用户数据；统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3；最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2；

3)所述出行行为特征的提取步骤包括：从用户轨迹数据中提取在目标地理位置驻留过的用户信息；计算用户每次在目标地理位置的驻留时长T3；设定单次驻留时长阈值Ty2；剔除单次驻留时长T3小于Ty2的用户数据；剔除居住或工作在目标地理位置的用户数据；统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4；最后得出用户在各类型目标地理位置的日均驻留时长Tt1和日均出行频次Ft1；

4)所述静态特征提取的步骤包括：提取用户的年龄和性别信息，对缺失值进行填充处理；对性别进行属性转换，将男女转换为数值0-1；利用自定义分箱法对年龄数据进行离散化处理，首先将年龄转换为年龄区间，然后将年龄区间转换为数值1-6；将转换后的性别、年龄数据作为用户静态特征。

4.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S3中，所述构建特征宽表的具体步骤包括：将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4和静态特征用户集合U5中的用户ID进行聚合和剔重，得到全部用户集合U6；将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4和U5进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合U7。

5.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S4中，所述特征子集筛选的具体步骤包括：确定用于训练的特征数目M1，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M1特征集合Fa；利用GBDT进行特征重要性排序，筛选出Top M1特征集合Fb；利用LightGBM进行特征重要性排序，筛选出Top M1特征集合Fc；将集合Fa、Fb、Fc中的特征进行融合剔重，得到特征集合Fd；采用序列后向选择算法，每次从特征集合Fd中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M1为止。

6.根据权利要求5所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S4中，设定的特征评价函数J(x)为：其中，x为特征集合中的一个特征，Y为类别，N为训练样本数目。

7.根据权利要求1所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S5中，所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括：设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量；对特征数据x进行归一化处理；算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6和分类类型M；标签变量y为一个标识用户是否为预出境用户的字段；逻辑回归算法模型看作是自变量x与因变量y的关系，即y＝h(x)；对模型进行训练、评估和调参，使模型性能达到最优。

8.根据权利要求7所述的一种基于移动大数据的预出境用户识别方法，其特征在于，步骤S5中，加入正则化后的逻辑回归损失函数L(w)为：其中，p为范数，p＝1为L1正则化，p＝2为L2正则化；xi为训练集中第i条特征数据，p(xi；

w)为训练集第i条特征数据属于正例的概率，1-p(xi；w)为训练集第i条特征数据属于反例的概率，yi为训练集第i条特征数据所对应的真实标签值，m为训练样本数目，w为变量x的加权系数。

一种基于移动大数据的预出境用户识别方法

技术领域

[0001] 本发明属于数据挖掘应用领域，涉及基于移动大数据的预出境用户识别方法。

背景技术

[0002] 移动设备的高普及率带来了移动数据的爆发式增长，移动大数据具有数据采样全面、实时性好等优点，在趋势性分析和潜在用户挖掘领域相当具有权威性，为行业用户挖掘提供良好的便利条件。

[0003] 随着出境人数逐年递增，出境服务市场迎来良好的发展机遇。用户出境行为准确的预测，对于出境服务产品的定制、精准投放以及出入境管理起到关键性作用。

[0004] 传统关于出境领域的研究主要是对出国留学人数年变化趋势进行预测，对出国旅游人员进行画像和行为分析，研究数据来源主要是统计调查数据、旅游网站数据等。研究方法主要是基于灰色模型、时间序列分析法、统计分析方法等传统方法。但传统方法研究存在样本量小，预测结果偏差较大、数据真实性和时效性无法保证等诸多问题，并且缺乏对用户出境前的行为研究。

发明内容

[0005] 有鉴于此，本发明的目的在于提供一种基于移动大数据的预出境用户识别方法，能够有效解决传统方法数据获取成本高，数据真实性无法保证等问题，实现预出境用户的识别，助力出境服务产品的精准投放和高效的出入境管理。

[0006] 为达到上述目的，本发明提供如下技术方案：

[0007] 一种基于移动大数据的预出境用户识别方法，具体包括以下步骤：

[0008] S1：采集出境服务机构的通信基站位置数据、出境服务通话端口数据和出境服务APP的域名关键词数据，利用所采集数据建立维表数据库；

[0009] S2：基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征；

[0010] S3：将用户的行为特征和静态特征进行聚合关联，构建特征宽表；

[0011] S4：设计特征选择算法，从特征宽表中筛选与类别强相关的特征子集；

[0012] S5：借助逻辑回归分类器构建预出境用户识别模型，完成模型的训练、评估与调参；

[0013] S6：将待测试数据输入识别模型，识别预出境用户。

[0014] 进一步，步骤S1中，所述维表数据库包括基站维表、APP维表和通话维表，具体构建方法为：

[0015] 1)采集出境服务机构归属通信基站信息，依据出境服务机构与归属通信基站的一对多映射关系，构建基站维表；

[0016] 2)采集出境服务APP的详细网络封包信息，撷取APP的域名和关键词，依据APP与域名、关键词的一对多映射关系，构建APP维表；

[0017] 3)采集出境服务机构的服务通话端口信息，验证通话端口有效性，依据出境服务机构与通话端口的一对多映射关系，构建通话维表。

[0018] 进一步，步骤S2中，

[0019] 1)所述通话行为特征包括国际通话行为特征和国内通话行为特征，其中：

[0020] A、国际通话行为特征主要为用户拨打国际通话所产生的特征信息，提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在数据周期内的总通话时长T1、总通话频次F1和总的通话端口数N1；设定通话频次阈值Fy1；剔除通话频次超过Fy1的用户数据；最后得出用户与每个端口的月均通话时长Tv1和通话频次Fv1；

[0021] B、国内通话行为特征主要为用户拨打国内出境服务机构服务电话所产生的特征信息，提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定单次通话时长阈值Ty1；剔除单次通话时长Teach小于Ty1的用户数据；统计用户在数据周期内与各通话端口的总通话时长T2、总通话频次F2和各类型的通话端口数N2；最后得出用户和各类型端口的月均通话时长Tv2和通话频次Fv2；

[0022] 2)所述上网行为特征的提取步骤包括：从上网日志中提取可能使用目标APP的用户信息；设定上网流量阈值Fy2；剔除上网流量Feach小于Fy2的用户数据；统计用户在数据周期内使用的各APP的总上网流量F3、总上网频次F4和各类型的APP数量N3；最后得出用户使用各类型APP的月均流量Fa1和月均频次Fa2；

[0023] 3)所述出行行为特征的提取步骤包括：从用户轨迹数据中提取在目标地理位置驻留过的用户信息；计算用户每次在目标地理位置的驻留时长T3；设定单次驻留时长阈值Ty2；剔除单次驻留时长T3小于Ty2的用户数据(用户从目标地理位置路过)；剔除居住或工作在目标地理位置的用户数据(利用用户职住地数据)；统计用户每日在目标地理位置的总驻留时长T4、日出行频次F5和去往各类型目标地理位置的数量N4；最后得出用户在各类型目标地理位置的日均驻留时长Tt1和日均出行频次Ft1。

[0024] 4)所述静态特征提取的步骤包括：提取用户的年龄和性别信息，对缺失值进行填充处理；对性别进行属性转换，将男女转换为数值0-1；利用自定义分箱法对年龄数据进行离散化处理，首先将年龄转换为年龄区间，然后将年龄区间转换为数值1-6；将转换后的性别、年龄数据作为用户静态特征。

[0025] 进一步，步骤S3中，所述构建特征宽表的具体步骤包括：将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4和静态特征用户集合U5中的用户ID进行聚合和剔重，得到全部用户集合U6；将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4和U5进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合U7。

[0026] 进一步，步骤S4中，所述特征子集筛选的具体步骤包括：确定用于训练的特征数目M1，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M1特征集合Fa；利用GBDT进行特征重要性排序，筛选出Top M1特征集合Fb；利用LightGBM进行特征重要性排序，筛选出Top M1特征集合Fc；将集合Fa、Fb、Fc中的特征进行融合剔重，得到特征集合Fd；采用序列后向选择算法，每次从特征集合Fd中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M1为止。

[0027] 进一步，步骤S4中，设定的特征评价函数J(x)为：

[0028]

[0029] 其中，x为特征集合中的一个特征，Y为类别，N为训练样本数目。

[0030] 进一步，步骤S5中，所述的借助逻辑回归分类器构建预出境用户识别模型的具体步骤包括：设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量；对特征数据x进行归一化处理；算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6和分类类型M等众多信息；标签变量y为一个标识用户是否为预出境用户的字段(取值0或者1)；逻辑回归算法模型看作是自变量x与因变量y的关系，即y＝h(x)；对模型进行训练、评估和调参，使模型性能达到最优。

[0031] 进一步，步骤S5中，加入正则化后的逻辑回归损失函数L(w)为：

[0032]

[0033]

[0034] 其中，p为范数，p＝1为L1正则化，p＝2为L2正则化；xi为训练集中第i条特征数据，p(xi；w)为训练集第i条特征数据属于正例的概率，1-p(xi；w)为训练集第i条特征数据属于反例的概率，yi为训练集第i条特征数据所对应的真实标签值，m为训练样本数目，w为变量x的加权系数。

[0035] 本发明的有益效果在于：本发明所述的预出境用户识别方法，结合移动大数据、APP的DPI数据、爬虫数据，利用逻辑回归算法构建识别模型，实现了预出境用户识别的目的。相较于传统的出境领域研究，解决了数据来源的真实性无法保证和数据量较小的问题，开拓性的研究了用户出境前的相关行为，通过大数据与机器学习的结合，极大丰富了出境领域的研究，对于行业的用户挖掘以及出境服务的精准营销具有极大的意义。

[0036] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

[0037] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

[0038] 图1为本发明所述预出境用户识别方法的决策流程图；

[0039] 图2为本发明的基于移动大数据的构建特征宽表的流程图；

[0040] 图3为本发明的基于移动大数据的特征筛选流程图。

具体实施方式

[0041] 以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

[0042] 请参阅图1～图3，图1为一种基于移动大数据的预出境用户识别方法流程图，该方法具体包括：

[0043] 步骤1、采集出境服务机构的通信基站位置信息，构建基站维表；采集出境服务APP的域名关键词信息，构建APP维表；采集出境服务机构的出境服务通话端口信息，构建通话维表。构建维表数据库，其中包含基站维表、通话维表、APP维表；

[0044] 1)基站维表构建方法为：利用电信运营商的技术平台，调用百度地图API，搜索出境服务机构地理位置，以出境服务机构地理位置为圆心画圆，然后在圆的基础上画多边形，将出境服务机构地理位置包围起来，确保多边形内部至少有一个基站，从而形成出境服务机构和通信基站的一对多的映射关系，根据服务机构职能将机构类型定义为u1、u2和u3，依据映射规则构建基站维表库，本实施例中基站维表的样本数据格式如表1所示：

[0045] 表1基站维表样本数据

[0046] agency_name lac cell type_id荷兰驻重庆总领馆 13085 63032 u1
市局境外厅 13071 902255129 u2
海外旅行社 13084 201964 u3

[0047] 上述表格中各英文字段的含义如下：agency_name：出境服务机构名称；lac：基站所属的小区号；cell：基站对应的基站号；type_id：出境服务机构的类型。

[0048] 2)APP维表构建方法为：手机开启数据流量，清空后台应用程序，打开出境服务APP，利用wireshark数据包分析工具捕捉出境APP的数据包信息，经过反复试验确认，获取APP的主域名、关键词、URL，根据APP是否为出境定向APP将APP类型分为v1和v2两种，依据映射规则构建APP维表库，本实施例中APP维表的样本数据格式如表2所示：

[0049] 表2APP维表样本数据

[0050]appname hostname keyword type_id
穷游网 m.qyer.com null v1
六人游-定制 m.6renyou.com null v1
携程 vacations.ctrip.com inter v2
去哪儿 touch.dujia.qunar.com abroad v2

[0051] 上述表格中各英文字段的含义如下：appname：出境APP的名称；hostname：出境APP的主域名；keyword：URL的出境服务关键词；type_id：出境APP的类型。

[0052] 3)通话维表构建方法为：利用八爪鱼采集器采集出境服务机构的出境服务电话数据，利用人工实际拨打方式对采集的出境服务电话通过进行有效性验证，依据出境服务机构职能将机构类型定义s1-s6六种，依据映射规则构建通话端口维表库，本实施例中通话维表的样本数据格式如表3所示：

[0053] 表3通话维表样本数据

[0054]

[0055]

[0056] 上述表格中各英文字段的含义如下：agency_name：出境服务机构名称；quhao：电话所对应的区号；port_no：出境服务机构的服务电话；type_id：出境服务机构的类型。

[0057] 步骤2、基于维表数据库与移动大数据，分别提取用户的通话行为特征、上网行为特征、出行行为特征和静态特征：

[0058] 1)通话特征包括国际通话特征和国内通话特征，国际通话行为特征主要为用户拨打国际通话所产生的特征信息，国际通话特征提取步骤包括：从CDR话单中提取有国际通话记录的用户信息；统计用户在2个月内的总通话时长T1、总通话频次F1和通话端口数N1；设定通话频次阈值Fy1；当F1>＝Fy1时，将该用户数据从结果中剔除；根据T1、F1和N1计算用户与每个端口的月均通话时长Tv1和通话频次Fv1，Tv1和Fv1的计算公式如式(1)、(2)所示：

[0059]

[0060]

[0061] 2)通话特征包括国际通话特征和国内通话特征，国内通话特征提取步骤包括：从CDR话单中提取与目标通话端口产生通话记录的用户信息；设定每次通话时长阈值为Ty1；当用户单次通话时长Teach

[0062]

[0063]

[0064] 3)上网行为特征提取步骤包括：从上网日志中提取可能使用目标APP的用户信息；设定APP上网流量阈值为Fy2；当APP消耗流量Feach

[0065]

[0066]

[0067] 4)出行行为特征提取步骤包括：从用户轨迹数据中提取出现在目标地理位置的用户信息，计算用户每次在目标地理位置的驻留时长T3；设定每次驻留时长阈值Ty2；当Ty2

[0068]

[0069]

[0070] 5)静态特征提取步骤包括：提取用户的年龄、性别信息，对缺失值进行填充处理；对性别进行属性转换，将男女转换为数值0-1；利用自定义分箱法对年龄数据进行离散化处理，首先将年龄转换为6个年龄区间[1,18]、[19,23]、[24,34]、[35,44]、[45,54]、[55,
110)，然后将年龄区间转换为数值1-6；将转换后的性别、年龄数据作为用户静态特征。

[0071] 步骤3、特征宽表构建方法为如图2所示：将上网特征用户集合U1、出行轨迹特征用户集合U2、国内通话特征用户集U3、国际通话特征用户集合U4、静态特征用户集合U5中的用户ID进行聚合和剔重，得到全部用户集合U6。将全部用户集合U6通过布尔运算式分别和特征用户集合U1、U2、U3、U4、U5进行关联匹配，使得同一用户的所有特征汇聚到一起，得到特征聚合后的用户集合，即用户特征宽表U7。

[0072] 步骤4、设计合适的特征选择算法，从特征宽表中筛选出与类别强相关特征子集：

[0073] 1)特征子集筛选过程包括：确定用于训练的特征数目M1，依据特征和类别的相关性，设定特征评价函数J(x)；利用随机森林进行特征重要性排序，筛选出Top M1特征集合F1；利用GBDT进行特征重要性排序，筛选出Top M1特征集合F2；利用LightGBM进行特征重要性排序，筛选出Top M1特征集合F3；将集合F1、F2、F3中的特征进行融合剔重，得到特征集合F4；采用序列后向选择算法，每次从特征集合F4中剔除特征x，使得评价函数J(x)最优；直到特征集合的数量达到设定的特征数目M1为止；此时的特征集合即为与类别强相关的特征子集。
将强相关特征子集作为训练集前，采用最大最小标准化方法对数据进行归一化处理，公式如式(9)所示：

[0074]

[0075] 特征评价函数J(x)设计如式(10)所示，其中，x为特征集合中的一个特征，Y为类别，N为训练样本数目。

[0076]

[0077] 步骤5、借助逻辑回归算法构建预出境用户识别模型，设置构建逻辑回归算法模型的特征数据x、算法参数以及标签变量y；其中特征数据x采用权利要求9所得的结果数据，并对数据进行归一化处理；算法参数包含惩罚项P、最大迭代次数N5、迭代终止判断的误差范围E、正则化类型L、正则化强度C、并行数N6、分类类型M等众多信息；标签变量y为一个标识用户是否为潜在出境用户的字段(取值0或者1)；逻辑回归模型可看作是自变量x与因变量y的关系，即y＝h(x)；加入正则化后的逻辑回归损失函数L(w)设计如式(11)所示。

[0078]

[0079]

[0080] 其中，式(11)和(12)中，L(w)为损失函数；p为范数，p＝1为L1正则化，p＝2为L2正则化；xi为训练集中第i条特征数据，p(xi；w)为训练集第i条特征数据属于正例的概率，1-p(xi；w)为训练集第i条特征数据属于反例的概率，yi为训练集第i条特征数据所对应的真实标签值，m为训练样本数目，w为变量x的加权系数。

[0081] 步骤6、对待测试数据进行数据预处理、特征提取和特征筛选操作，并将筛选后的特征子集数据输入识别模型，判断用户是预出境用户，还是非预出境用户。

[0082] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读的存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

[0083] 最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

一种基于移动大数据的预出境用户识别方法转让专利

申请号 : CN202010017938.X

文献号 : CN111274338A

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 许国良 , 张轩 , 徐千淞 , 李万林 , 王超 , 雒江涛 , 易燕

申请人 : 重庆邮电大学

摘要 :

权利要求 :

说明书 :