常住人口确定方法、装置和电子设备转让专利

申请号 : CN201911177808.6

文献号 : CN110868689B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陆俊贤张岩李振军

申请人 : 智慧足迹数据科技有限公司

摘要 :

本发明提供了一种常住人口确定方法、装置和电子设备;该方法包括:获取信令数据;信令数据包括多个用户的用户标识、每个用户的信令交互时间和每个信令交互的基站的标识;基于信令数据和预先获取的基站位置表确定每个基站的驻留数据;基于驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据;将区域驻留数据输入至预先基于贝叶斯算法训练的常住人口模型,得到常住人口模型输出的每个区域的常住人口。该方式中,只需要少量的信令数据推算常住人口,无需花费大量的人力使用大量的时间进行调查统计,可以降低时间成本和人力成本,减少实施周期,可以获得动态变化特征,并能用于人口基数大、流动人口比例高的城市。

权利要求 :

1.一种常住人口确定方法,其特征在于,包括:

获取信令数据;所述信令数据包括多个用户的用户标识、每个所述用户的信令交互时间和每个信令交互的基站的标识;

基于所述信令数据和预先获取的基站位置表确定每个所述基站的驻留数据;所述驻留数据包括每个所述用户在每个基站位置的驻留时间;

基于所述驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据;所述区域驻留数据包括每个所述用户在每个所述区域的驻留时间;

将所述区域驻留数据输入至预先基于贝叶斯算法训练的常住人口模型,得到所述常住人口模型输出的每个所述区域的常住人口;

所述常住人口模型的训练集包括多个样本用户及每个所述样本用户对应的指定时长内的逗留时间,每个所述样本用户携带有常住人口的标识或非常住人口的标识;所述常住人口模型通过下述步骤建立:基于所述训练集,通过下述优化函数从预设的训练周期中的每个时间阈值中选择优化时间阈值:其中,K为所述优化时间阈值;B为所述训练集中携带有所述常住人口的标识的样本用户的人数;Ak为所述训练集中逗留时间不小于所述时间阈值的样本用户的人数;Bc为所述训练集中携带有所述非常住人口的标识的样本用户的人数; 为所述训练集中逗留时间小于所述时间阈值的样本用户的人数;P(B|Ak)为第一类概率,所述第一类概率为所述训练集中逗留时间不小于所述时间阈值的样本用户的人数与所述训练集中携带有所述常住人口的标识的样本用户的人数的比值; 为第二类概率,所述第二类概率为所述训练集中逗留时间小于所述时间阈值的样本用户的人数与所述训练集中携带有所述非常住人口的标识的样本用户的人数的比值; 为对于训练周期中的每个时间阈值,计算对应的第一类概率和第二类概率的和,将所述第一类概率和第二类概率的和的最大值对应的时间阈值作为所述优化时间阈值。

2.根据权利要求1所述的方法,其特征在于,基于所述信令数据和预先获取的基站位置表确定每个所述基站的驻留数据的步骤,包括:遍历所述信令数据包括的用户标识,将被遍历到的用户标识对应的用户作为目标用户,对于每一个所述目标用户均执行下述操作:确定所述目标用户的目标信令交互时间和每个目标信令交互的目标基站的标识;

从基站位置表中确定每个所述目标基站的标识对应的目标基站位置;

统计所述目标用户在每个所述目标基站位置的目标信令交互时间的和,作为所述目标用户在所述目标基站位置的驻留数据。

3.根据权利要求1所述的方法,其特征在于,基于所述驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据的步骤,包括:从预先设定的区域边界数据中确定每个基站位置所属的区域;

统计每个所述区域中的每个基站对应的驻留数据的和,作为该区域的区域驻留数据。

4.根据权利要求1所述的方法,其特征在于,所述信令数据还包括发生信令交互的时间;在基于所述信令数据和预先获取的基站位置表确定每个所述基站的驻留数据的步骤之后,所述方法还包括:将所述信令数据与基站位置表关联;

清洗关联后的所述信令数据中的异常数据;所述异常数据包括重复数据和位置漂移点数据;

在确定每个区域的区域驻留数据的步骤之后,所述方法还包括:

剔除所述区域驻留数据小于预设的第一阈值的数据。

5.根据权利要求4所述的方法,其特征在于,清洗关联后的所述信令数据的步骤,包括:剔除所述用户的标识相同、所述基站的标识相同,并且多个所述发生信令交互的时间之间的间隔小于预设的第二阈值的所述重复数据;

剔除所述基站位置表中的基站位置不在预设的区域范围内的基站对应的所述位置漂移点数据。

6.根据权利要求1所述的方法,其特征在于,在确定每个所述区域的常住人口之后,所述方法还包括:获取所述常住人口对应的区域驻留数据;

从所述常住人口对应的区域驻留数据中,统计每个所述常住人口夜间在所述区域中每个地点的驻留时间;

将所述驻留时间最长的地点作为对应的所述常住人口的居住地。

7.一种常住人口确定装置,其特征在于,包括:

信令数据获取模块,用于获取信令数据;所述信令数据包括多个用户的标识、每个所述用户的信令交互时间和每个信令交互的基站的标识;

驻留数据确定模块,用于基于所述信令数据和预先获取的基站位置表确定驻留数据;

所述驻留数据包括每个所述用户在每个基站位置的驻留时间;

区域驻留数据确定模块,用于基于所述驻留数据和预先获取的区域边界数据,确定区域驻留数据;所述区域驻留数据包括每个所述用户在每个区域的驻留时间;

常住人口确定模块,用于将所述区域驻留数据输入至预先设定的常住人口模型,确定每个所述区域的常住人口;所述常住人口模型基于贝叶斯算法训练;

所述常住人口模型的训练集包括多个样本用户及每个所述样本用户对应的指定时长内的逗留时间,每个所述样本用户携带有常住人口的标识或非常住人口的标识;所述常住人口模型通过下述步骤建立:基于所述训练集,通过下述优化函数从预设的训练周期中的每个时间阈值中选择优化时间阈值:其中,K为所述优化时间阈值;B为所述训练集中携带有所述常住人口的标识的样本用户的人数;Ak为所述训练集中逗留时间不小于所述时间阈值的样本用户的人数;Bc为所述训练集中携带有所述非常住人口的标识的样本用户的人数; 为所述训练集中逗留时间小于所述时间阈值的样本用户的人数;P(B|Ak)为第一类概率,所述第一类概率为所述训练集中逗留时间不小于所述时间阈值的样本用户的人数与所述训练集中携带有所述常住人口的标识的样本用户的人数的比值; 为第二类概率,所述第二类概率为所述训练集中逗留时间小于所述时间阈值的样本用户的人数与所述训练集中携带有所述非常住人口的标识的样本用户的人数的比值; 为对于训练周期中的每个时间阈值,计算对应的第一类概率和第二类概率的和,将所述第一类概率和第二类概率的和的最大值对应的时间阈值作为所述优化时间阈值。

8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的常住人口确定方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1至6任一项所述的常住人口确定方法的步骤。

说明书 :

常住人口确定方法、装置和电子设备

技术领域

[0001] 本发明涉及大数据技术领域,尤其是涉及一种常住人口确定方法、装置和电子设备。

背景技术

[0002] 目前城市常住人口的传统获取方法,包括:人工观测计数统计、多年一次的人口普查或抽样居民出行问卷调查等方法。然而,这些传统获取方法需要大量人力消耗大量时间才能获取,耗费成本高、涉及人员多、组织难度大、技术要求高、实施周期长,并且只能获取准静态信息,无法把握信息的动态变化特征。对于人口基数大、流动人口比例高的城市,这些传统获取方法更难以有效实施。

发明内容

[0003] 有鉴于此,本发明的目的在于提供一种常住人口确定方法、装置和电子设备,以降低时间成本和人力成本,减少实施周期,可以获得动态变化特征,并能用于人口基数大、流动人口比例高的城市。
[0004] 第一方面,本发明实施例提供了一种常住人口确定方法,包括:获取信令数据;信令数据包括多个用户的用户标识、每个用户的信令交互时间和每个信令交互的基站的标识;基于信令数据和预先获取的基站位置表确定每个基站的驻留数据;驻留数据包括每个用户在每个基站位置的驻留时间;基于驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据;区域驻留数据包括每个用户在每个区域的驻留时间;将区域驻留数据输入至预先基于贝叶斯算法训练的常住人口模型,得到常住人口模型输出的每个区域的常住人口。
[0005] 在本发明较佳的实施例中,上述基于信令数据和预先获取的基站位置表确定每个基站的驻留数据的步骤,包括:遍历信令数据包括的用户标识,将被遍历到的用户标识对应的用户作为目标用户,对于每一个目标用户均执行下述操作:确定目标用户的目标信令交互时间和每个目标信令交互的目标基站的标识;从基站位置表中确定每个目标基站的标识对应的目标基站位置;统计目标用户在每个目标基站位置的目标信令交互时间的和,作为目标用户在目标基站位置的驻留数据。
[0006] 在本发明较佳的实施例中,上述基于驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据的步骤,包括:从预先设定的区域边界数据中确定每个基站位置所属的区域;统计每个区域中的每个基站对应的驻留数据的和,作为该区域的区域驻留数据。
[0007] 在本发明较佳的实施例中,上述常住人口模型的训练集包括多个样本用户及每个样本用户对应的指定时长内的逗留时间,每个样本用户携带有常住人口的标识或非常住人口的标识;上述常住人口模型通过下述步骤建立:基于训练集,通过下述优化函数从预设的训练周期中的每个时间阈值中选择优化时间阈值: 其中,K为优化时间阈值;B为训练集中携带有常住人口的标识的样本用户的人数;Ak为训练集中逗留时间不小于时间阈值的样本用户的人数;Bc为训练集中携带有非常住人口的标识的样本用户的人数; 为训练集中逗留时间小于时间阈值的样本用户的人数;P(B|Ak)为第一类概率,第一类概率为训练集中逗留时间不小于时间阈值的样本用户的人数与训练集中携带有常住人口的标识的样本用户的人数的比值; 为第二类概率,第二类概率为训练集中逗留时间小于时间阈值的样本用户的人数与训练集中携带有非常住人口的标识的样本用户的人数的比值; 为对于训练周期中的每个时间阈值,计算对应的第一类概率和第二类概率的和,将第一类概率和第二类概率的和的最大值对应的时间阈值作为优化时间阈值。
[0008] 在本发明较佳的实施例中,上述信令数据还包括发生信令交互的时间;在基于信令数据和预先获取的基站位置表确定每个基站的驻留数据的步骤之后,上述方法还包括:将信令数据与基站位置表关联;清洗关联后的信令数据中的异常数据;异常数据包括重复数据和位置漂移点数据;在确定每个区域的区域驻留数据的步骤之后,方法还包括:剔除区域驻留数据小于预设的第一阈值的数据。
[0009] 在本发明较佳的实施例中,上述清洗关联后的信令数据的步骤,包括:剔除用户的标识相同、基站的标识相同,并且多个发生信令交互的时间之间的间隔小于预设的第二阈值的重复数据;剔除基站位置表中的基站位置不在预设的区域范围内的基站对应的位置漂移点数据。
[0010] 在本发明较佳的实施例中,在确定每个区域的常住人口之后,上述方法还包括:获取常住人口对应的区域驻留数据;从常住人口对应的区域驻留数据中,统计每个常住人口夜间在区域中每个地点的驻留时间;将驻留时间最长的地点作为对应的常住人口的居住地。
[0011] 第二方面,本发明实施例还提供一种常住人口确定装置,包括:信令数据获取模块,用于获取信令数据;信令数据包括多个用户的标识、每个用户的信令交互时间和每个信令交互的基站的标识;驻留数据确定模块,用于基于信令数据和预先获取的基站位置表确定驻留数据;驻留数据包括每个用户在每个基站位置的驻留时间;区域驻留数据确定模块,用于基于驻留数据和预先获取的区域边界数据,确定区域驻留数据;区域驻留数据包括每个用户在每个区域的驻留时间;常住人口确定模块,用于将区域驻留数据输入至预先设定的常住人口模型,确定每个区域的常住人口;常住人口模型基于贝叶斯算法训练。
[0012] 第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的常住人口确定方法的步骤。
[0013] 第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的常住人口确定方法的步骤。
[0014] 本发明实施例带来了以下有益效果:
[0015] 本发明实施例提供了一种常住人口确定方法、装置和电子设备,对获取的信令数据关联基站位置表,获取每个基站的驻留数据;基于预先设定的区域边界数据确定每个区域的区域驻留数据,之后输入到基于贝叶斯算法训练的常住人口模型,就能得到每个区域的常住人口。该方式中,只需要少量的信令数据推算常住人口,无需花费大量的人力使用大量的时间进行调查统计,可以降低时间成本和人力成本,减少实施周期,可以获得动态变化特征,并能用于人口基数大、流动人口比例高的城市。
[0016] 本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0017] 为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0018] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019] 图1为本发明实施例提供的一种常住人口确定方法的流程图;
[0020] 图2为本发明实施例提供的另一种常住人口确定方法的流程图;
[0021] 图3为本发明实施例提供的一种常住人口确定方法的原理框图;
[0022] 图4为本发明实施例提供的一种常住人口确定装置的结构示意图;
[0023] 图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0024] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 城市规划学科从产生到现在,经历了许多理论更新和进步,但是在定量分析手段上一直缺乏良好的工具,而使得这门学科一直打上人文科学的烙印,难以进行定量分析,例如:如何进行全市人口的密度分布分析,如何进行全市职住比对比分析,如何进行某个区域工作人口在全市居住地的分布分析,如何进行城市重点区域人口吸引与辐射的强度分析等。
[0026] 目前,传统的常住人口获取方法需要大量人力消耗大量时间才能获取,耗费成本高、涉及人员多、组织难度大、技术要求高、实施周期长,并且只能获取准静态信息,无法把握信息的动态变化特征。基于此,本发明实施例提供的一种常住人口确定方法、装置和电子设备,该技术应用于手机信令的技术领域,采用常住人口贝叶斯估算方法,尤其可以适用于采用少量的手机信令数据估算常住人口。
[0027] 为便于对本实施例进行理解,首先对本发明实施例所公开的一种常住人口确定方法进行详细介绍。
[0028] 实施例1
[0029] 参见图1所示的一种常住人口确定方法的流程图,该常住人口确定方法包括如下步骤:
[0030] 步骤S102,获取信令数据;上述信令数据包括多个用户的用户标识、每个用户的信令交互时间和每个信令交互的基站的标识。
[0031] 信令数据是在无线通信系统中,除了传输用户信息之外,为使全网有秩序地工作,用来保证移动终端正常通信所需要的控制信号,移动终端可以为手机、平板电脑等,一个移动终端对应一个用户。用户标识用于给移动终端(即用户)进行编号,信令交互时间记载了每次产生信令交互花费的总时间(例如,通话时间、移动终端连接网络的时间等),移动终端的每个信令交互,一般会寻找附近的基站进行通信,因此,该基站就是本次信令交互的基站,对所有基站赋予不同的标识,即可确定每个信令交互的基站。也就是说,信令数据包括了记载了每个用户(用户标识)何时(信令交互时间)何地(每个信令交互的基站的标识)进行信令交互。
[0032] 步骤S104,基于信令数据和预先获取的基站位置表确定每个基站的驻留数据;上述驻留数据包括每个用户在每个基站位置的驻留时间。
[0033] 基站位置表也可以叫做基站工参表,基站工参表集记载了信令数据中的每个基站的位置信息,同样通过基站的标识进行区分。也就是说,通过信令数据获得每个基站的标识,然后根据基站的标识就可以获得每个信令交互的具体位置。之前已经获得了用户对于每个基站的驻留时间(驻留时间相当于信令交互时间),这里这需要获取基站的位置,就可以确定用户在每个基站位置的驻留时间,进行统计后就能获得每个基站的驻留数据。
[0034] 步骤S106,基于驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据;上述区域驻留数据包括每个用户在每个区域的驻留时间。
[0035] 区域一般是不同的城市或乡镇,以城市为例,区域边界数据表明了该城市的区域边界,那么就可以确定驻留数据对应的所有基站中有哪些基站是在该城市的区域边界内,将在该城市的区域边界内的基站的驻留数据进行统计,即可确定区域驻留数据,区域驻留数据说明了每个用户在这个区域的驻留时间。
[0036] 步骤S108,将区域驻留数据输入至预先基于贝叶斯算法训练的常住人口模型,得到常住人口模型输出的每个区域的常住人口。
[0037] 贝叶斯算法是基于概率论的分类算法,在确定每个用户在这个区域的驻留时间后,将其输入到常住人口模型,常住人口模型即可推算该用户为常住人口的概率。将大量的用户在这个区域的驻留时间都进行推算,即可推算这些用户中的常住人口的数量。
[0038] 本发明实施例提供了一种常住人口确定方法,对获取的信令数据关联基站位置表,获取每个基站的驻留数据;基于预先设定的区域边界数据确定每个区域的区域驻留数据,之后输入到基于贝叶斯算法训练的常住人口模型,就能得到每个区域的常住人口。该方式中,只需要少量的信令数据推算常住人口,无需花费大量的人力使用大量的时间进行调查统计,可以降低时间成本和人力成本,减少实施周期,可以获得动态变化特征,并能用于人口基数大、流动人口比例高的城市。
[0039] 实施例2
[0040] 本发明实施例还提供另一种常住人口确定方法;该方法在上述实施例方法的基础上实现;该方法重点描述基于信令数据和预先获取的基站位置表确定每个基站的驻留数据的具体实现方式。
[0041] 如图2所示的另一种常住人口确定方法的流程图,该方法包括如下步骤:
[0042] 步骤S202,获取信令数据;上述信令数据包括多个用户的用户标识、每个用户的信令交互时间和每个信令交互的基站的标识。
[0043] 手机的信令数据与其他数据来源相比有着显著的优点:样本率极高(手机拥有率和使用率达到了相当高的比例),无群体性差异(各种人群均会使用手机),样本非常客观(没有认为因素干扰),采集更加方便(比人工调查时间短、提取方便),不受天气外界影响,调查时段远远超过人工等等。因而,利用运营商手机数据,可以更有效地掌握城市人口分布,出行特征规律,能为全市交通和城市规划提供真实可靠的基础数据。
[0044] 步骤S204,遍历信令数据包括的用户标识,将被遍历到的用户标识对应的用户作为目标用户,对于每一个目标用户均执行下述操作。
[0045] 手机信令数据包括:用户编码:即用户标识,时间戳:同一个信令交互的通过两个时间戳即可确定信令交互时间,lac(location area code,位置区码):即基站的标识,cellid:即手机信号覆盖的区域编码,事件信息:即信令交互,包括主动事件:接打电话、收发短信、上网、开关机;被动事件:位置更新、基站切换(handover)。首先,按照信令数据包括的用户标识区分不同的用户,将具有相同用户表示的用户作为同一个目标用户,对遍历得到的每一个目标用户分别确定驻留数据。
[0046] 步骤S206,确定目标用户的目标信令交互时间和每个目标信令交互的目标基站的标识。
[0047] 挑选具有目标用户的用户编码的手机信令数据,然后确定挑选出来的信令数据的时间戳和lac,cellid,即可确定目标信令交互时间和目标信令交互的目标基站的标识。举例来说,首先从信令数据中挑选,具有用户编码01的信令数据,之后对每一条被挑选出来的数据确定时间戳和lac,cellid,基于相邻的几个时间戳,即可以确定信令交互时间。
[0048] 步骤S208,从基站位置表中确定每个目标基站的标识对应的目标基站位置。
[0049] lac,cellid包含了基站的标识,从基站位置表中确定每个基站的标识对应的基站位置。基站位置表具体包括基站相关的经纬度、天线高度、方向角、下倾角等信息,基站一般用lac,cellid来表示,也分2g网络、3g网络和4g网络,4g网络中会用enodebid(Evolved Node B,演进型Node B)和cellid表示。举例来说,信令数据包含了lac,cellid,基于lac,cellid从基站位置表获取该基站的经纬度、天线高度、方向角、下倾角等信息作为目标基站位置。
[0050] 步骤S210,统计目标用户在每个目标基站位置的目标信令交互时间的和,作为目标用户在目标基站位置的驻留数据。
[0051] 在获得每个目标基站的位置,以及目标用户每次在目标基站位置的目标信令交互时间之后,即可统计目标用户在目标基站位置的驻留数据,得到每个用户什么时候在哪个基站驻留了多久的信息。
[0052] 具体来说,通过时空驻留模型根据用户时间序列和空间序列进行聚类分析,对于一个用户在一段相邻连续的时间段内,出现位置在相同位置(不一定需要相同基站,可能是相邻基站)驻留时间满30分钟以上的位置点,我们会判断成该用户的驻留点,同时保留驻留点第一个进入时间和最后一条离开时间,得到驻留数据。对于不同的基站位置,驻留点的位置跟用户的信令基站位置相关,采用三角定位的方法根据多个基站的位置做加权质心。
[0053] 对于信令数据中的异常数据需要进行数据清洗,例如,可以通过步骤A1-步骤A2执行:
[0054] 步骤A1,将信令数据与基站位置表关联。
[0055] 将手机信令数据关联上基站工参表,得到每个手机用户在每个基站的驻留数据。
[0056] 步骤A2,清洗关联后的信令数据中的异常数据;异常数据包括重复数据和位置漂移点数据;
[0057] 重复数据与信令的上报机制有关,举个例子,用户在某个时间打开了某个应用程序或者某个网站或者同时收到了一个短信,但这个时候你的位置没有移动,从信令数据中反馈出来是同一个用户在相同时间出现在相同的位置上,可能触发的事件不一样,但对于时间和位置是一致的相同数据需要进行过滤。
[0058] 通过下述步骤剔除重复数据:剔除用户的标识相同、基站的标识相同,并且多个发生信令交互的时间之间的间隔小于预设的第二阈值的重复数据。
[0059] 用户的标识相同代表同一用户发送的信令数据,基站的标识相同代表该用户在发送信令数据是没有位置移动,多个发生信令交互的时间之间的间隔小于预设的第二阈值(第二阈值可以为1分钟-10分钟),说明这几次的信令交互的时间间隔很短,很可能是重复数据,需要剔除。
[0060] 位置漂移点数据是指是因为基站位置表中的经纬度坐标不准或者更新不及时,或者数据采集的时候上报的信息不对,导致了有些异常的数据点漂在预设的区域范围外,形成漂移点数据。可以通过下述步骤剔除漂移点数据:剔除基站位置表中的基站位置不在预设的区域范围内的基站对应的位置漂移点数据。
[0061] 首先确定一个预设的区域范围,这个范围可以用经纬度的范围表示,之后将基站位置不在区域范围内的基站剔除即可,这些基站对应的数据就是位置漂移点数据。
[0062] 步骤S212,基于驻留数据和预先设定的区域边界数据,确定每个区域的区域驻留数据;上述区域驻留数据包括每个用户在每个区域的驻留时间。
[0063] 城市的区域边界数据可以为城市边界wkt(well-known text)数据,wkt是一种文本标记语言,用于表示矢量几何对象及空间参照系统,也可以理解为城市边界的矢量图层,表示一个城市的空间覆盖范围。基于城市边界wkt数据和驻留数据,通过驻留点和城市边界图层相关关系,判断每个用户第一次进入城市的时间和最后一次离开城市的时间,得到每个用户在城市的驻留时长,可以作为每个区域的区域驻留数据。例如,可以通过步骤B1-步骤B2执行:
[0064] 步骤B1,从预先设定的区域边界数据中确定每个基站位置所属的区域。
[0065] 区域边界数据包含了多个区域的经纬度范围,基站位置包含了该基站的经纬度,因此可以确定基站的区域,即可以统计每个区域中的基站。
[0066] 步骤B2,统计每个区域中的每个基站对应的驻留数据的和,作为该区域的区域驻留数据。
[0067] 将驻留区域按照所属的区域分类,可以确定每个基站对应的驻留数据。然后将这些驻留数据做和,即可确定该区域的区域驻留数据。例如,用户A有对应基站A的时间1分钟,基站B的时间2分钟和基站C的时间3分钟,其中,基站A和基站B属于区域A,那么用户A在区域A的区域驻留数据为1+2=3分钟。
[0068] 这里需要说明是,存在这样一些用户,他们在交通工具过境某一区域时产生了信令交互,这种信令交互的特点是区域驻留数据很短,然而,这些用户明显不是常住人口,可以理解为过境人群,可以直接剔除,例如,通过下述步骤剔除过境人群的区域驻留数据:剔除区域驻留数据小于预设的第一阈值的数据。第一阈值可以设定为1小时-5小时,区域驻留数据小于预设的第一阈值则说明对应的人群是过境人群,而非常住人口。
[0069] 步骤S214,将区域驻留数据输入至预先基于贝叶斯算法训练的常住人口模型,得到常住人口模型输出的每个区域的常住人口。
[0070] 常住人口模型是通过训练集预先训练的,其中,常住人口模型的训练集包括多个样本用户及每个样本用户对应的指定时长内的逗留时间,每个样本用户携带有常住人口的标识或非常住人口的标识。
[0071] 首先定义:事件Ak:一个月中逗留时间大于等于k天;事件 一个月中逗留时间小于k天;事件B:常住人口(一年中逗留时间超过180天);事件Bc:非常住人口(一年中逗留时间不足180天)。
[0072] 基于部分人口一整年的数据,可以计算以下四个量:
[0073] 已知一个月中逗留时间大于等于k天的情况下,是常住人口的概率(第一类正确)已知一个月中逗留时间大于等于k天的情况下,不是常住人口的概率(第一类错误) 已知一个月中逗留时
间小于k天的情况下,是常住人口的概率(第二类错误)
已知一个月中逗留时间小于等于k天的情况下,不是常住人口的概率(第二类正确)[0074] 最优的k值选取可以转化为如下优化问题:基于训练集,通过下述优化函数从预设的训练周期中的每个时间阈值中选择优化时间阈值:
[0075] 其中,K为优化时间阈值;B为训练集中携带有常住人口的标识的样本用户的人数;Ak为训练集中逗留时间不小于时间阈值的样本用户的人数;Bc为训练集中携带有非常住人口的标识的样本用户的人数; 为训练集中逗留时间小于时间阈值的样本用户的人数;P(B|Ak)为第一类概率(即第一类正确),第一类概率为训练集中逗留时间不小于时间阈值的样本用户的人数与训练集中携带有常住人口的标识的样本用户的人数与比值; 为第二类概率(即第二类正确),第二类概率为训练集中逗留时间小于时间阈值的样本用户的人数与训练集中携带有非常住人口的标识的样本用户的人数的比值; 为对于训练周期中的每个时间阈值,计算对应的第一类概率和第二类概率的和,将第一类概率和第二类概率的和的最大值对应的时间阈值作为优化时间阈值。
[0076] 通过常住人口模型,可以得到给定一个训练周期n(例如30天),k按照步长为1递增n进行迭代计算,代入优化目标函数,使得第一类正确和第二类正确的加和概率最大,通过确定的最大概率,得到驻留天数的k值最优解,作为优化时间阈值。
[0077] 训练后的常住人口模型可以对每一个输入的区域驻留数据进行筛选,输出该区域驻留数据对应的用户为该区域常住人口的概率。将每一条的概率求和,即为该区域的常住人口数量。
[0078] 在确定常住人口后,还可以确定常住人口的居住地,例如,通过步骤C1-步骤C3执行:
[0079] 步骤C1,获取常住人口对应的区域驻留数据。
[0080] 训练后的常住人口模型可以对区域驻留数据,输出该区域的常住人口数量。之后,获取输出的常住人口对应的区域驻留数据进行分析。
[0081] 步骤C2,从常住人口对应的区域驻留数据中,统计每个常住人口夜间在区域中每个地点的驻留时间。
[0082] 如果某一个用户为常住人口,则该用户对应的区域驻留数据包括了该用户在不同时间段驻留该区域的时长,例如:某一天的区域驻留数据可以表明用户A在8点-16点驻留在区域中的地点A,22点到6点驻留在区域中的地点B,那么可以说明用户A很可能是在地点A工作的人,而夜间(一般为21点到明天7点)不在地点A,回到地点B睡眠。因此可以说明在这一天,用户A的夜间在地点A中的驻留时间为0,夜间在地点B中的驻留时间为8小时。
[0083] 步骤C3,将驻留时间最长的地点作为对应的常住人口的居住地。
[0084] 一般来说,本实施例中的信令数据为一段时间内(这里以30天为例)的数据,因此,区域驻留数据也有30个夜间的数据,可以分析常住人口在这30个夜间中对于不同地区的驻留时长,也就的驻留时长最长的地点,就可以认为该常住人口在该地点休息的时间最长,该地点可以认为是该常住人口的居住地。
[0085] 本发明实施例提供的常住人口确定方法的原理可以参见图3所示的一种常住人口确定方法的原理框图。如图3所示,首先,从运营商获取手机信令数据,关联基站工参表(相当于基站位置表)后,进行数据清洗,剔除重复数据和位置漂移点数据。通过时空驻留模型确定每个基站的驻留数据;然后集合预先设定的城市边界图层(区域边界数据)进行驻留城市的判断,即确定每个区域的区域驻留数据;将区域驻留数据输入至常住人口模型就能确定该区域的常住人口。
[0086] 本发明实施例提供的上述方法,能够快速准确的推算出这个城市的常住人口,可以利用少量的数据推算出这个城市常住人口,而不需要累积一年的数据进行分析,可以有效的解决实施成本高、周期长、存储与计算资源高、更新周期慢等问题,同时可以根据A城市的常住人口概率曲线,推算B城市的常住人口概率。
[0087] 实施例3
[0088] 对应于上述方法实施例,本发明实施例提供了一种常住人口确定装置,如图4所示的一种常住人口确定装置的结构示意图,该常住人口确定装置包括:
[0089] 信令数据获取模块41,用于获取信令数据;信令数据包括多个用户的标识、每个用户的信令交互时间和每个信令交互的基站的标识;
[0090] 驻留数据确定模块42,用于基于信令数据和预先获取的基站位置表确定驻留数据;驻留数据包括每个用户在每个基站位置的驻留时间;
[0091] 区域驻留数据确定模块43,用于基于驻留数据和预先获取的区域边界数据,确定区域驻留数据;区域驻留数据包括每个用户在每个区域的驻留时间;
[0092] 常住人口确定模块44,用于将区域驻留数据输入至预先设定的常住人口模型,确定每个区域的常住人口;常住人口模型基于贝叶斯算法训练。
[0093] 本发明实施例提供了一种常住人口确定装置,对获取的信令数据关联基站位置表,获取每个基站的驻留数据;基于预先设定的区域边界数据确定每个区域的区域驻留数据,之后输入到基于贝叶斯算法训练的常住人口模型,就能得到每个区域的常住人口。该方式中,只需要少量的信令数据推算常住人口,无需花费大量的人力使用大量的时间进行调查统计,可以降低时间成本和人力成本,减少实施周期,可以获得动态变化特征,并能用于人口基数大、流动人口比例高的城市。
[0094] 在一些实施例中,驻留数据确定模块,用于:遍历信令数据包括的用户标识,将被遍历到的用户标识对应的用户作为目标用户,对于每一个目标用户均执行下述操作:确定目标用户的目标信令交互时间和每个目标信令交互的目标基站的标识;从基站位置表中确定每个目标基站的标识对应的目标基站位置;统计目标用户在每个目标基站位置的目标信令交互时间的和,作为目标用户在目标基站位置的驻留数据。
[0095] 在一些实施例中,区域驻留数据确定模块,用于:从预先设定的区域边界数据中确定每个基站位置所属的区域;统计每个区域中的每个基站对应的驻留数据的和,作为该区域的区域驻留数据。
[0096] 在一些实施例中,常住人口模型的训练集包括多个样本用户及每个样本用户对应的指定时长内的逗留时间,每个样本用户携带有常住人口的标识或非常住人口的标识;常住人口模型通过下述常住人口模型训练模块建立:常住人口模型训练模块,用于:基于训练集,通过下述优化函数从预设的训练周期中的每个时间阈值中选择优化时间阈值:其中,K为优化时间阈值;B为训练集中携带有常住人口的标
c
识的样本用户的人数;Ak为训练集中逗留时间不小于时间阈值的样本用户的人数;B为训练集中携带有非常住人口的标识的样本用户的人数; 为训练集中逗留时间小于时间阈值的样本用户的人数;P(B|Ak)为第一类概率,第一类概率为训练集中逗留时间不小于时间阈值的样本用户的人数与训练集中携带有常住人口的标识的样本用户的人数的比值;
为第二类概率,第二类概率为训练集中逗留时间小于时间阈值的样本用户的人数与训练集中携带有非常住人口的标识的样本用户的人数的比值; 为对于训练周期中的每个时间阈值,计算对应的第一类概率和第二类概率的和,将第一类概率和第二类概率的和的最大值对应的时间阈值作为优化时间阈值。
[0097] 在一些实施例中,信令数据还包括发生信令交互的时间;上述装置还包括第一数据清洗模块和第二数据清洗模块;第一数据清洗模块,用于:将信令数据与基站位置表关联;清洗关联后的信令数据中的异常数据;异常数据包括重复数据和位置漂移点数据;第二数据清洗模块,用于:剔除区域驻留数据小于预设的第一阈值的数据。
[0098] 在一些实施例中,第一数据清洗模块,用于:剔除用户的标识相同、基站的标识相同,并且多个发生信令交互的时间之间的间隔小于预设的第二阈值的重复数据;剔除基站位置表中的基站位置不在预设的区域范围内的基站对应的位置漂移点数据。
[0099] 在一些实施例中,上述装置还包括居住地确定模块,用于:获取常住人口对应的区域驻留数据;从常住人口对应的区域驻留数据中,统计每个常住人口夜间在区域中每个地点的驻留时间;将驻留时间最长的地点作为对应的常住人口的居住地。
[0100] 本发明实施例提供的常住人口确定装置,与上述实施例提供的常住人口确定方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
[0101] 实施例4
[0102] 本发明实施例还提供了一种电子设备,用于运行上述常住人口确定方法;参见图5所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述常住人口确定方法。
[0103] 进一步地,图5所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
[0104] 其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0105] 处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
[0106] 本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述常住人口确定方法,具体实现可参见方法实施例,在此不再赘述。
[0107] 本发明实施例所提供的常住人口确定方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
[0108] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0109] 最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。