一种基于手机信令数据的区域人流分析方法转让专利

申请号 : CN202010013365.3

文献号 : CN111275073A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈海波

申请人 : 浙江理工大学

摘要 :

本发明公开了一种基于手机信令数据的区域人流分析方法,其特征在于,包括以下步骤:A、采集手机原始信令数据,并对手机原始信令数据进行筛选和过滤,得到有效手机信令数据;B、对分析地域进行区域划分,将有效手机信令数据按照经纬度匹配到各个区域,并将匹配后的每个区域的有效手机信令数据按照时段划分为多维时序数据,同时,对 和作归一化处理;C、采用在线混合高斯模型对留存的多维时序数据进行聚类,形成多个人流迁移状态的特征类;D、对聚类后的每个特征类数据分别建立不同参数的马尔科夫链预测模型,对未来时段的区域客流分布进行预测。本发明具有能够有效提升区域人流预测的准确性和时效性的特点。

权利要求 :

1.一种基于手机信令数据的区域人流分析方法,其特征在于,包括以下步骤:A、采集手机原始信令数据,并对手机原始信令数据进行筛选和过滤,得到有效手机信令数据;

B、对分析地域进行区域划分,将有效手机信令数据按照经纬度匹配到各个区域,并将匹配后的每个区域的有效手机信令数据按照时段划分为多维时序数据,如式(1)所示,其中,DT表示所有区域的T时段的状态, 表示第i个区域在T时段的状态, 表示区域i在时段T的留存数, 表示第i个小区在时段T的扩散数, 表示区域j在T-1时刻向区域i的扩散数;

同时,对 和 作归一化处理,归一化处理公式(2)为:其中, 分别表示区域i在时段T归一化前、后的留存数,maxs为所有区域的所有时段留存数的最大值; 分别表示区域j在T-1时刻向区域i扩散数归一化前、后的值;

maxq为所有区域在所有时段向其他区域归一化前扩散值的最大值;

C、采用在线混合高斯模型对留存的多维时序数据进行聚类,形成多个人流迁移状态的特征类;

D、对聚类后的每个特征类数据分别建立不同参数的马尔科夫链预测模型,对未来时段的区域客流分布进行预测。

2.根据权利要求1所述的一种基于手机信令数据的区域人流分析方法,其特征在于:手机原始信令数据筛选和过滤的具体方法为:将手机原始信令数据划分为触发型事件数据和周期性事件数据,所述触发型事件数据是指手机开关机数据、摘机数据、挂机数据或跨区切换数据,周期性事件数据是指固定时间间隔的手机状态上报事件数据;选取周期性事件数据和跨区切换数据,并去除周期性事件数据和跨区切换数据中的小区编码缺失和漂移数据,得到有效手机信令数据;

所述的手机原始信令数据包含ID、时间戳、位置区编号、小区编号和事件类型信息数据。

3.根据权利要求1所述的一种基于手机信令数据的区域人流分析方法,其特征在于,步骤B中, 和 的具体计算方式为:c1、对所有的有效手机信令数据按照时间字段先后顺序排序,构成信令队列;

c2、若信令队列为空,则计算结束,否则取出信令队列中第一个信令数据G;

c3、根据G的小区编号所对应的的经纬度匹配到步骤B中的相应区域中,再根据G的时间匹配到步骤B中的时段中,令AG、TG分别为G所匹配的区域和时段。

c4、在队列中从G开始向后查找与G的ID相同的信令数据,记为GN;

c5、若GN不存在,则令 回到步骤c2;

c6、若GN匹配的时段TGN=TG,则从队列中删除GN,回到步骤c4;

c7、若GN匹配的时段TGN=TG+1,则判断AG是否与AGN相等,当相等时则当不相等时则

c8、从信令队列中删除GN,回到步骤c4。

4.根据权利要求1所述的一种基于手机信令数据的区域人流分析方法,其特征在于:区域划分以地区行政区边界为依据进行划分。

5.根据权利要求1所述的一种基于手机信令数据的区域人流分析方法,其特征在于,步骤C中利用在线混合高斯模型进行聚类的具体方法为:第一步、令K为高斯模型数,混合高斯模型H(x)定义为:初始的k值为N, ui和Σi分别表示高斯的均值和方差;

第二步、随着有效手机信令数据的更新,动态的对混合高斯模型进行更新,更新算法如下:输入:X={x1,x2,...,xM}为M个新到达的区域状态,H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为当前的混合高斯模型,L={y1,y2,...}为所有未归类的区域状态,初始状态时L为空集;

输出:H(x|kn,u′1,u'2...,u'kn,Σ'1,Σ'2,...,Σ'kn)为更新后的混合高斯模型;

第三步、进行聚类,聚类过程为:

1)t=1;

2)E={E1,E2.,..,Ek}={N(xt|ui,Σi)|i={1,2,...,k}};

3)E={(E1-min(E))/(max(E)-min(E)),..,(Ek-min(E))/(max(E)-min(E))};

4)I=argmax(E),V=max(E);

5)如果V

6)如果|L|>=p2,则对L中所有数据采用EM算法单独进行混合高斯聚类,得到新模型HL,令H=H∪HL,并令L={};其中,p2为未归类数据上限;

7)将xt归入H中第I个高斯分量,并按照如下公式(4)重新计算第I个分量的均值和方差:

8)t=t+1,若t>M,算法结束,反之则回到步骤1)。

6.根据权利要求5所述的一种基于手机信令数据的区域人流分析方法,其特征在于,建立马尔科夫链预测模型对未来时段的区域客流分布进行预测的方法如下:d1)输入:H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为最新的混合高斯模型,并令 表示最新时段的区域状态;

输出: 即T+1时段预测的人流分布

d2)预测的过程为:

d2.1)E={E1,E2.,..,Ek}={N(DT|ui,Σi)|i={1,2,...,k}},d2.2)I=argmax(E),则DT归属第I个高斯分量,取uI作为马尔科夫转移矩阵;

d2.3)对每一个区域,按照下面公式,预测其下一个时段的区域状态:其中i=1,...,N。

说明书 :

一种基于手机信令数据的区域人流分析方法

技术领域

[0001] 本发明涉及一种区域人流分析方法,特别是一种基于手机信令数据的区域人流分析方法。

背景技术

[0002] 近年来,受到经济发展的推动,城市之间、区县之间人们的旅游,出差、学习、娱乐等活动日益增长,对城市基础设施资源配置、城市治安防范、人流疏导等城市管理问题提出了更高的要求,也带来了一系列的问题,城市规划不合理、交通配套设施不完善导致出行滞留、周边拥堵、资源不平衡都阻碍了城市的健康发展。如何利用大数据资源,基于机器学习技术准确及时的把握人流的区域特征,通过人流动态变化规律预测短时、中期或长期区域客流变化,对于提升智慧城市管理能力具有重要意义,成为当前研究和应用的热点之一。
[0003] 由于人流的转移规律具有时段性、地域性的差异,不同的时间范围人流移动的方向、速度也会有特征差异,例如周六和周一、平时早高峰和正午,其人流移动具有明显差异,使用全部历史进行预测实际上忽略了这种差异性,降低了人流分析和预测的实用意义。同时受到天气、经济环境和地区事件的影响,目前的方法大多使用全部历史信令数据采用统计方法建立单一的预测模型进行预测,并没有考虑手机信令数据在跨区域流动中的时效性特征和地域拓扑特征,这影响了区域人流预测的准确性和实现效率。而且,伴随着近年来经济状况和交通水平的快速发展,人流的移动特征也出现变化,数据随着时间的迁移,其对分析的作用也逐步降低,使用全部历史数据建立单一的模型会降低模型的时效性。因此,需要一种更为行之有效的方法来弥补以上不足。

发明内容

[0004] 本发明的目的在于,提供一种基于手机信令数据的区域人流分析方法。本发明具有能够有效提升区域人流预测的准确性和时效性的特点。
[0005] 本发明的技术方案:一种基于手机信令数据的区域人流分析方法,包括以下步骤:
[0006] A、采集手机原始信令数据,并对手机原始信令数据进行筛选和过滤,得到有效手机信令数据;
[0007] B、对分析地域进行区域划分,将有效手机信令数据按照经纬度匹配到各个区域,并将匹配后的每个区域的有效手机信令数据按照时段划分为多维时序数据,如式(1)所示,[0008]
[0009]
[0010] 其中,DT表示所有区域的T时段的状态, 表示第i个区域在T时段的状态, 表示区域i在时段T的留存数, 表示第i个小区在时段T的扩散数, 表示区域j在T-1时刻向区域i的扩散数;
[0011] 同时,对 和 作归一化处理,归一化处理公式(2)为:
[0012]
[0013]
[0014] 其中, 分别表示区域i在时段T归一化前、后的留存数,maxs为所有区域的所有时段留存数的最大值; 分别表示区域j在T-1时刻向区域i扩散数归一化前、后的值;maxq为所有区域在所有时段向其他区域归一化前扩散值的最大值;
[0015] C、采用在线混合高斯模型对留存的多维时序数据进行聚类,形成多个人流迁移状态的特征类;
[0016] D、对聚类后的每个特征类数据分别建立不同参数的马尔科夫链预测模型,对未来时段的区域客流分布进行预测。
[0017] 前述的一种基于手机信令数据的区域人流分析方法中,手机原始信令数据筛选和过滤的具体方法为:将手机原始信令数据划分为触发型事件数据和周期性事件数据,所述触发型事件数据是指手机开关机数据、摘机数据、挂机数据或跨区切换数据,周期性事件数据是指固定时间间隔的手机状态上报事件数据;选取周期性事件数据和跨区切换数据,并去除周期性事件数据和跨区切换数据中的小区编码缺失和漂移数据,得到有效手机信令数据;
[0018] 所述的手机原始信令数据包含ID、时间戳、位置区编号、小区编号和事件类型信息数据。
[0019] 前述的一种基于手机信令数据的区域人流分析方法中,步骤B中, 和 的具体计算方式为:
[0020] c1、对所有的有效手机信令数据按照时间字段先后顺序排序,构成信令队列;
[0021] c2、若信令队列为空,则计算结束,否则取出信令队列中第一个信令数据G;
[0022] c3、根据G的小区编号所对应的的经纬度匹配到步骤B中的相应区域中,再根据G的时间匹配到步骤B中的时段中,令AG、TG分别为G所匹配的区域和时段。
[0023] c4、在队列中从G开始向后查找与G的ID相同的信令数据,记为GN;
[0024] c5、若GN不存在,则令 回到步骤c2;
[0025] c6、若GN匹配的时段TGN=TG,则从队列中删除GN,回到步骤c4;
[0026] c7、若GN匹配的时段TGN=TG+1,则判断AG是否与AGN相等,当相等时则当不相等时则
[0027] c8、从信令队列中删除GN,回到步骤c4。
[0028] 前述的一种基于手机信令数据的区域人流分析方法中,区域划分以地区行政区边界为依据进行划分。
[0029] 前的一种基于手机信令数据的区域人流分析方法中,步骤C中利用在线混合高斯模型进行聚类的具体方法为:
[0030] 第一步、令K为高斯模型数,混合高斯模型H(x)定义为:
[0031]
[0032] 初始的k值为N, ui和Σi分别表示高斯的均值和方差;
[0033] 第二步、随着有效手机信令数据的更新,动态的对混合高斯模型进行更新,更新算法如下:
[0034] 输入:X={x1,x2,...,xM}为M个新到达的区域状态,
[0035] H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为当前的混合高斯模型,
[0036] L={y1,y2,...}为所有未归类的区域状态,初始状态时L为空集;
[0037] 输出:H(x|kn,u’1,u’2...,u’kn,Σ’1,Σ’2,...,Σ’kn)为更新后的混合高斯模型;
[0038] 第三步、进行聚类,聚类过程为:
[0039] 1)t=1;
[0040] 2)E={E1,E2.,..,Ek}={N(xt|ui,Σi)|i={1,2,...,k}};
[0041] 3)E={(E1-min(E))/(max(E)-min(E)),..,(Ek-min(E))/(max(E)-min(E))};
[0042] 4)I=argmax(E),V=max(E);
[0043] 5)如果V
[0044] 6)如果|L|>=p2,则对L中所有数据采用EM算法单独进行混合高斯聚类,得到新模型HL,令H=H∪HL,并令L={};其中,p2为未归类数据上限;
[0045] 7)将xt归入H中第I个高斯分量,并按照如下公式(4)重新计算第I个分量的均值和方差:
[0046]
[0047] 8)t=t+1,若t>M,算法结束,反之则回到步骤1)。
[0048] 前述的一种基于手机信令数据的区域人流分析方法中,建立马尔科夫链预测模型对未来时段的区域客流分布进行预测的方法如下:
[0049] d1)输入:H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为最新的混合高斯模型,并令表示最新时段的区域状态;
[0050] 输出: 即T+1时段预测的人流分布
[0051] d2)预测的过程为:
[0052] d2.1)E={E1,E2.,..,Ek}={N(DT|ui,Σi)|i={1,2,...,k}},
[0053] d2.2)I=argmax(E),则DT归属第I个高斯分量,取uI作为马尔科夫转移矩阵;
[0054] d2.3)对每一个区域,按照下面公式,预测其下一个时段的区域状态:
[0055] 其中i=1,...,N。
[0056] 与现有技术相比,本发明通过对手机原始信令数据进行筛选和过滤,然后再按区域进行划分,根据区域和时间段对有效手机信令数据进行划分,对于数据进行合理分类,便于后续的聚类;本发明采用一种在线混合高斯模型对留存的数据进行聚类,形成多个人流迁移状态的特征类,基于手机信令大数据分析来实现区域人流的短时预测,采用实时方式随着信令数据的更新而修正模型,同时考虑到近期的信令数据比历史信令数据对预测更有价值,使用一种在线的方式完成聚类,使得聚类模型参数随着时间推移持续更新,同时也使得该方法能够支持不间断的实时执行,从而使其具有良好的时效性。并对聚类后的每个特征类数据分别建立相对应的马尔科夫链预测模型,对于特征样本较少不足以支持预测的情况,则采用基于区域拓扑关系的人流扩散方法来实现预测,从而实现了一种具有自适应能力的实时区域人流预测,进而能够有效提升区域人流预测的准确性和时效性。综上所述,本发明具有能够有效提升区域人流预测的准确性和时效性的特点。

具体实施方式

[0057] 下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
[0058] 实施例1。一种基于手机信令数据的区域人流分析方法,包括以下步骤:
[0059] A、采集手机原始信令数据,并对手机原始信令数据进行筛选和过滤,得到有效手机信令数据;
[0060] B、对分析地域进行区域划分,将有效手机信令数据按照经纬度匹配到各个区域,并将匹配后的每个区域的有效手机信令数据按照时段划分为多维时序数据,如式(1)所示,[0061]
[0062]
[0063] 其中,DT表示所有区域的T时段的状态, 表示第i个区域在T时段的状态, 表示区域i在时段T的留存数, 表示第i个小区在时段T的扩散数, 表示区域j在T-1时刻向区域i的扩散数;由于拓扑距离远的区域之间扩散关系小,因此 实际上隐含了区域之间的拓扑关系;
[0064] 同时,对 和 作归一化处理,归一化处理公式(2)为:
[0065]
[0066]
[0067] 其中, 分别表示区域i在时段T归一化前、后的留存数,maxs为所有区域的所有时段留存数的最大值; 分别表示区域j在T-1时刻向区域i扩散数归一化前、后的值;maxq为所有区域在所有时段向其他区域归一化前扩散值的最大值;
[0068] C、采用在线混合高斯模型对留存的多维时序数据进行聚类,形成多个人流迁移状态的特征类;
[0069] D、对聚类后的每个特征类数据分别建立不同参数的马尔科夫链预测模型,对未来时段的区域客流分布进行预测。
[0070] 手机原始信令数据筛选和过滤的具体方法为:将手机原始信令数据划分为触发型事件数据和周期性事件数据,所述触发型事件数据是指手机开关机数据、摘机数据、挂机数据或跨区切换数据,周期性事件数据是指固定时间间隔的手机状态上报事件数据;选取周期性事件数据和跨区切换数据,并去除周期性事件数据和跨区切换数据中的小区编码缺失和漂移数据,得到有效手机信令数据;
[0071] 所述的手机原始信令数据包含ID、时间戳、位置区编号、小区编号和事件类型信息数据。
[0072] 步骤B中, 和 的具体计算方式为:
[0073] c1、对所有的有效手机信令数据按照时间字段先后顺序排序,构成信令队列;
[0074] c2、若信令队列为空,则计算结束,否则取出信令队列中第一个信令数据G;
[0075] c3、根据G的小区编号所对应的的经纬度匹配到步骤B中的相应区域中,再根据G的时间匹配到步骤B中的时段中,令AG、TG分别为G所匹配的区域和时段。
[0076] c4、在队列中从G开始向后查找与G的ID相同的信令数据,记为GN;
[0077] c5、若GN不存在,则令 回到步骤c2;
[0078] c6、若GN匹配的时段TGN=TG,则从队列中删除GN,回到步骤c4;
[0079] c7、若GN匹配的时段TGN=TG+1,则判断AG是否与AGN相等,当相等时则当不相等时则
[0080] c8、从信令队列中删除GN,回到步骤c4。
[0081] 区域划分以地区行政区边界为依据进行划分。
[0082] 步骤C中利用在线混合高斯模型进行聚类的具体方法为:
[0083] 第一步、令K为高斯模型数,混合高斯模型H(x)定义为:
[0084]
[0085] 初始的k值为N, 模型值需要计算各高斯的均值和方差,ui和Σi分别表示高斯的均值和方差,两者均通过EM算法得到;
[0086] 第二步、随着有效手机信令数据的更新,动态的对混合高斯模型进行更新,更新算法如下:
[0087] 输入:X={x1,x2,...,xM}为M个新到达的区域状态,
[0088] H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为当前的混合高斯模型,
[0089] L={y1,y2,...}为所有未归类的区域状态,初始状态时L为空集;
[0090] 输出:H(x|kn,u’1,u’2...,u’kn,Σ’1,Σ’2,...,Σ’kn)为更新后的混合高斯模型;
[0091] 第三步、进行聚类,聚类过程为:
[0092] 1)t=1;
[0093] 2)E={E1,E2.,..,Ek}={N(xt|ui,Σi)|i={1,2,...,k}};
[0094] 3)E={(E1-min(E))/(max(E)-min(E)),..,(Ek-min(E))/(max(E)-min(E))};
[0095] 4)I=argmax(E),V=max(E);
[0096] 5)如果V
[0097] 6)如果|L|>=p2,说明L中已经有足够多的未归类数据,则对L中所有数据采用EM算法单独进行混合高斯聚类,得到新模型HL,令H=H∪HL,并令L={};其中,p2为未归类数据上限,具体取值为取值为前24个时段的信令数据量的均值;
[0098] 7)将xt归入H中第I个高斯分量,并按照如下公式(4)重新计算第I个分量的均值和方差:
[0099]
[0100] 8)t=t+1,若t>M,算法结束,反之则回到步骤1)。
[0101] 这样就实现了对每一个DT,都归属到唯一的特征类,实际测试中发现归属到同一个特征类的时段区域客流分布数据具有明显的时效性,例如节假日、周末和平时的明显归属于不同类,同时也受到其他复杂未知因素的干扰。
[0102] 建立马尔科夫链预测模型对未来时段的区域客流分布进行预测的方法如下:
[0103] d1)输入:H(x|k,u1,u2...,uk,Σ1,Σk,...,Σk)为最新的混合高斯模型,并令表示最新时段的区域状态;
[0104] 输出: 即T+1时段预测的人流分布
[0105] d2)预测的过程为:
[0106] d2.1)E={E1,E2.,..,Ek}={N(DT|ui,Σi)|i={1,2,...,k}},
[0107] d2.2)I=argmax(E),则DT归属第I个高斯分量,取uI作为马尔科夫转移矩阵;
[0108] d2.3)对每一个区域,按照下面公式,预测其下一个时段的区域状态:
[0109] 其中i=1,...,N。
[0110] 实施例2。一种基于手机信令数据的区域人流分析方法,结合一个具体实例对本发明作进一步详细说明发明的具体实施过程。
[0111] 1.选择杭州市一年(2018年6月-2019年6月)的移动信令数据,去除缺失小区编码、漂移等无效数据,保留周期性数据和区域切换事件型数据,并按照平均10分钟间隔采样信令数据,共得到有效信令数据约4.7亿条。
[0112] 将杭州市按照行政区划划分为十一个区域,设定半小时为1个时段,可得到17520个时段。根据信令数据计算各个区域在每个时段的状态,并进行归一化处理。以2018年12月1日早高峰8:00-8:30分为例,计算该时段的状态如下表1所示,
[0113] 表1
[0114]
[0115] 3.令K=11为初始高斯模型数,对17520个时段进行聚类,为了验证实时在线更新和马尔科夫预测的准确性,选择2019年7月1日到2019年8月31日的信令数据进行在线模型更新,M取值48即一天的时段更新一次。
[0116] 4.同时对2019年7月1日到2019年8月31日每一时段采用步骤D的方法进行预测分析,得到2976条各区域预测状态,为了比较预测结果与实际结果的准确性,同时对该时间段内的数据按照步骤B的方法计算每个时段的状态作为真实数据。分别对11个区域,计算预测状态向量和真实状态向量的曼哈顿距离。根据经验,取曼哈顿距离0.6为有效距离下限,则可计算相对准确率如表2所示。
[0117] 表2.
[0118] 区域 曼哈顿距离 相对准确率1 0.715 83.916%
2 0.7326 81.9%
3 0.6019 99.684%
4 0.8043 74.599%
5 0.7209 83.229%
6 0.6515 92%
7 0.6992 85.8%
8 0.7004 85.665
9 0.7276 82.462%
10 0.83 72.289%
11 0.8625 69.565%