一种人群分类方法以及人群分类装置转让专利

申请号 : CN201810974677.3

文献号 : CN110858955A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨鸿宾李长升段立新夏虎

申请人 : 国信优易数据有限公司

摘要 :

本申请提供了一种人群分类方法以及人群分类装置,其中,该方法包括:获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息;根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息;基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。基于这种覆盖面更广,也更加全面的移动轨迹信息来对群体特征进行挖掘,能够得到准确度更高的挖掘结果。

权利要求 :

1.一种人群分类方法,其特征在于,包括:

获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息;

根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息;

基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。

2.根据权利要求1所述的方法,其特征在于,所述获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息之前,还包括:确定目标区域范围;

将地理位置归属于所述目标区域范围的多个通信基站确定为预设通信基站;

以及,将使用所述预设通信基站的数量达到预设数量阈值的个体,确定为所述待分类个体。

3.根据权利要求1所述的方法,其特征在于,所述使用信息包括:连接建立时间;

所述获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息,具体包括:针对每个待分类个体,获取预设历史时间段内,该待分类个体与各个预设通信基站的连接建立时间;

所述根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息,具体包括:针对每个待分类个体,按照该待分类个体与各个预设通信基站之间连接建立时间的先后顺序,以及每个预设通信基站的位置信息,生成该待分类个体的行动轨迹信息。

4.根据权利要求1所述的方法,其特征在于,所述基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类,具体包括:基于所述各个待分类个体的行动轨迹信息,对所述待分类人群中的各个所述待分类个体进行聚类,获得多个所述分类。

5.根据权利要求1所述的方法,其特征在于,所述基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类之后,还包括:针对每个分类,基于该分类中所包括的各个待分类个体对各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,获得与该分类对应的至少一个子分类;

所述使用次数信息包括:连接建立频次或者连接建立次数。

6.根据权利要求5所述的方法,其特征在于,所述基于该分类中所包括的各个待分类个体对多个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,具体包括:针对每个待分类个体,获取该待分类个体与各个预设通信基站之间的连接建立时间;

针对每个预设通信基站,统计该待分类个体与该预设通信基站之间的连接建立时间落入预设历史时间段内的使用次数信息;

基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行聚类,获得多个子分类。

7.根据权利要求6所述的方法,其特征在于,所述基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息之间的相似度,对该分类中所包括的多个待分类个体进行聚类,具体包括:基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,建立该分类中所包括的各个待分类个体对应的次数特征向量;

使用预设的聚类算法,并基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类。

8.根据权利要求7所述的方法,其特征在于,基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量之前,还包括:对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理;

基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量,具体包括:基于去干扰处理的结果,建立该分类中所包括的各个待分类个体对应的次数特征向量。

9.根据权利要求8所述的方法,其特征在于,所述对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理,具体包括:将该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数对数化;

所述连接建立次数对数化后,小于预设阈值的预设通信基站的连接建立次数归零。

10.一种人群分类装置,其特征在于,该装置包括:

获取单元,用于获取待分类人群中每一个待分类个体对多个预设通信基站的使用时间信息;

行动轨迹计算单元,用于根据每一个待分类个体对多个预设通信基站的使用时间信息,获取每个所述待分类个体的行动轨迹信息;

分类单元,用于基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。

说明书 :

一种人群分类方法以及人群分类装置

技术领域

[0001] 本申请涉及数据分析技术领域,具体而言,涉及一种人群分类方法以及人群分类装置。

背景技术

[0002] 个人移动的特征是挖掘群体特征的前提,个人出行的模式,是挖掘和实现城市数据带来的巨大社会价值和行业价值,研究和解决城市信息资源的重要问题。在基于个人移动特征对群体特征进行挖掘的时候,首先要基于个人移动特征对人群进行分类,为了能够获得准确的挖掘结果,要获得在一定区域范围内活动的个人的行动轨迹信息。获个人的行动轨迹信息时,在尽可能多的覆盖到在该区域内活动的个人,同时还要针对每个个人,尽可能全面的获取其行动轨迹信息。
[0003] 在相关技术中,一般通过获取个人对交通工具的使用信息来确定其行动轨迹信息。但是个人在出行的时候,可能使用公共交通工具,如公交、地铁等,可能使用私人交通工具,如私家车,也可能不使用交通工具,如步行。对于使用私人交通工具出行和不使用交通工具出行的个人而言,是很难获取其行动轨迹信息的;且对于主要使用公共交通工具出行的人而言,其也并非是一直使用公共交通工具出行的。因而这种行动轨迹信息的获取方法获取存在准确性和全面性差的问题,导致挖掘结果的准确度低。

发明内容

[0004] 有鉴于此,本申请实施例的目的在于提供一种人群分类方法以及人群分类装置,能够基于个体对通信基站的使用情况来确定个人的行动轨迹信息,并基于行动轨迹信息对人群进行分类,基于这种分类结果对人群特征进行挖掘,能够提高挖掘结果的准确度。
[0005] 第一方面,本申请实施例提供了一种人群分类方法,包括:
[0006] 获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息;
[0007] 根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息;
[0008] 基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。
[0009] 可选地,所述获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息之前,还包括:
[0010] 确定目标区域范围;
[0011] 将地理位置归属于所述目标区域范围的多个通信基站确定为预设通信基站;
[0012] 以及,将使用所述预设通信基站的数量达到预设数量阈值的个体,确定为所述待分类个体。
[0013] 可选地,所述使用信息包括:连接建立时间;
[0014] 所述获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息,具体包括:
[0015] 针对每个待分类个体,获取预设历史时间段内,该待分类个体与各个预设通信基站的连接建立时间;
[0016] 所述根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息,具体包括:
[0017] 针对每个待分类个体,按照该待分类个体与各个预设通信基站之间连接建立时间的先后顺序,以及每个预设通信基站的位置信息,生成该待分类个体的行动轨迹信息。
[0018] 可选地,所述基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类,具体包括:
[0019] 基于所述各个待分类个体的行动轨迹信息,对所述待分类人群中的各个所述待分类个体进行聚类,获得多个所述分类。
[0020] 可选地,所述基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类之后,还包括:
[0021] 针对每个分类,基于该分类中所包括的各个待分类个体对各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,获得与该分类对应的至少一个子分类;
[0022] 所述使用次数信息包括:连接建立频次或者连接建立次数。
[0023] 可选地,所述基于该分类中所包括的各个待分类个体对多个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,具体包括:
[0024] 针对每个待分类个体,获取该待分类个体与各个预设通信基站之间的连接建立时间;
[0025] 针对每个预设通信基站,统计该待分类个体与该预设通信基站之间的连接建立时间落入预设历史时间段内的使用次数信息;
[0026] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行聚类,获得多个子分类。
[0027] 可选地,所述基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息之间的相似度,对该分类中所包括的多个待分类个体进行聚类,具体包括:
[0028] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,建立该分类中所包括的各个待分类个体对应的次数特征向量;
[0029] 使用预设的聚类算法,并基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类。
[0030] 可选地,基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量之前,还包括:
[0031] 对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理;
[0032] 基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量,具体包括:
[0033] 基于去干扰处理的结果,建立该分类中所包括的各个待分类个体对应的次数特征向量。
[0034] 可选地,所述对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理,具体包括:
[0035] 将该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数对数化;
[0036] 所述连接建立次数对数化后,小于预设阈值的预设通信基站的连接建立次数归零。
[0037] 第二方面,本申请实施例还提供一种人群分类装置,该装置包括:
[0038] 获取单元,用于获取待分类人群中每一个待分类个体对多个预设通信基站的使用时间信息;
[0039] 行动轨迹计算单元,用于根据每一个待分类个体对多个预设通信基站的使用时间信息,获取每个所述待分类个体的行动轨迹信息;
[0040] 分类单元,用于基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。
[0041] 可选地,还包括:确定单元,用于获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息之前,确定目标区域范围;
[0042] 将地理位置归属于所述目标区域范围的多个通信基站确定为预设通信基站;
[0043] 以及,将使用所述预设通信基站的数量达到预设数量阈值的个体,确定为所述待分类个体。
[0044] 可选地,所述使用信息包括:连接建立时间;
[0045] 获取单元具体用于通过采取下述方式获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息:
[0046] 针对每个待分类个体,获取预设历史时间段内,该待分类个体与各个预设通信基站的连接建立时间;
[0047] 行动轨迹计算单元具体用于通过采取下述方式根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息:
[0048] 针对每个待分类个体,按照该待分类个体与各个预设通信基站之间连接建立时间的先后顺序,以及每个预设通信基站的位置信息,生成该待分类个体的行动轨迹信息。
[0049] 可选地,分类单元具体用于通过采取下述方式基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类:
[0050] 基于所述各个待分类个体的行动轨迹信息,对所述待分类人群中的各个所述待分类个体进行聚类,获得多个所述分类。
[0051] 可选地,分类单元,还用于基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类之后,针对每个分类,基于该分类中所包括的各个待分类个体对各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,获得与该分类对应的至少一个子分类;
[0052] 所述使用次数信息包括:连接建立频次或者连接建立次数
[0053] 可选地,分类单元,具体用于通过采取下述方式基于该分类中所包括的各个待分类个体对多个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类:
[0054] 针对每个待分类个体,获取该待分类个体与各个预设通信基站之间的连接建立时间;
[0055] 针对每个预设通信基站,统计该待分类个体与该预设通信基站之间的连接建立时间落入预设历史时间段内的使用次数信息;
[0056] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行聚类,获得多个子分类。
[0057] 可选地,分类单元,具体用于通过采取下述方式基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息之间的相似度,对该分类中所包括的多个待分类个体进行聚类:
[0058] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,建立该分类中所包括的各个待分类个体对应的次数特征向量;
[0059] 使用预设的聚类算法,并基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类。
[0060] 可选地,分类单元,还用于在对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量之前,对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理;
[0061] 具体用于采用下述方式基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量。
[0062] 可选地,分类单元,具体用于通过采取下述方式对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理:
[0063] 将该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数对数化;
[0064] 所述连接建立次数对数化后,小于预设阈值的预设通信基站的连接建立次数归零。
[0065] 第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
[0066] 第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
[0067] 本申请实施例通过获取带分类人群中每一个待分类个体对多个预设通信基站的使用信息,来确定待分类个体的行动轨迹信息,由于移动终端的使用面更广,且通信基站能够持续获得用户的使用信息,从而能够根据待分类个体对通信基站的使用情况以及每个通信基站的地理位置,确定待分类个体的移动轨迹信息。基于这种覆盖面更广,也更加全面的移动轨迹信息来对群体特征进行挖掘,能够得到准确度更高的挖掘结果。
[0068] 为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0069] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0070] 图1示出了本申请实施例所提供的一种人群分类方法的流程图;
[0071] 图2示出了本申请实施例所提供的另一种人群分类方法的流程图;
[0072] 图3示出了本申请实施例所提供的人群分类方法中,对分类中所包括的多个待分类个体进行分类的具体方法的流程图;
[0073] 图4示出了本申请实施例所提供的人群分类方法中,另一种对分类中所包括的多个待分类个体进行分类的具体方法的流程图;
[0074] 图5示出了本申请实施例所提供的一种人群分类装置的结构示意图;
[0075] 图6示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

[0076] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0077] 为了达到上述目的,本申请提供的一种人群分类方法以及人群分类装置,可以基于个体对通信基站的使用情况来确定个人的行动轨迹信息,并基于行动轨迹信息对人群进行分类,基于这种分类结果对人群特征进行挖掘,能够提高挖掘结果的准确度。
[0078] 为便于对本实施例进行理解,首先对本申请实施例所公开的一种人群分类方法进行详细介绍,该方法能够基于待分类个体的行动轨迹信息对待分类人群进行分类,分类结果能够用于道路规划、交通分析、交通管理等多种领域。
[0079] 参见图1所示,本申请实施例提供的人群分类方法包括:
[0080] S101:获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息。
[0081] 在具体实现的时候,在挖掘群体特征之前,首先要确定特征挖掘所针对的群体,也即确定待分类人群。在本申请实施例中,由于是要根据待分类人群中每个待分类个体的行动轨迹信息,对待分类人群进行分类,而每个待分类个体主要会在一个特定的区域范围内活动,因此,本申请实施例会首先确定一个目标区域范围,然后将主要活动区域落入该区域范围内的人确定为待分类个体。
[0082] 目标区域范围可以根据实际的需要进行具体的设定,可选地,可以以地区的行政单位来确定区域范围。例如将某个城市、某发个城市的某个行政区、某个城镇。另外,还可以以某个地点为原点,将距离该原点的距离小于预设距离阈值的区域范围确定为目标区域范围。
[0083] 在确定了目标区域范围之后,也就能够将地理位置归属于该目标区域范围的多个通信基站确定为预设通信基站,从而获得待分类个体在该目标区域范围内的行动轨迹信息。
[0084] 在确定了目标区域范围和预设通信基站之后,要在目标区域范围中确定待分类人群。
[0085] 待分类人群在理论上应当包括在目标区域范围内活动的所有人。但在实际中,由于有部分人是没有使用移动终端的,例还需要家长看护孩子,或者已经没有行动能力的老人等。因此在本申请中,待分类人群可以包括在目标区域范围内使用移动终端的所有人。将每一个使用移动终端的人作为一个待分类个体。
[0086] 另外,人的移动轨迹在规律基础上,是具有一定程度的偶然性的。例如在A市生活工作的人,在某段时间中到B市旅游;或者,主要活动区域在C市甲区的人,由于工作需要偶然需要到C市的乙区办理某项业务。对于这种偶然会使用目标区域范围内通信基站的用户而言,由于其本身并不会长时间在目标区域范围内活动,这种偶然行为所形成行动轨迹信息,在挖掘群体特征时,可能会对挖掘结果造成不利的干扰,因此在本申请另一实施例中,为了排除这些干扰,将使用所述预设通信基站的数量达到预设数量阈值的个体,确定为所述待分类个体,或者将使用预设通信基站的总次数达到预设次数阈值的个体,确定为待分类个体。
[0087] 安装在目标区域范围内的通信基站,每个通信基站所发射的信号能够覆盖一定的区域;也即,只有移动终端处于某个通信基站的信号所覆盖的区域内时,移动终端才能够与该通信基站连接。且随着移动终端位置的变化,当移动终端从其中一个通信基站信号所覆盖的区域内移动到另外一个通信基站信号覆盖的区域内后,移动终端会自动对与其连接的通信基站进行切换。根据移动终端与各个预设通信基站使用信息,就能够确定待分类个体的行动轨迹信息。
[0088] 具体地,本申请实施例中,使用信息包括:连接建立时间。
[0089] 此处,连接建立时间是指待分类个体使用的移动终端与每个预设通信基站建立连接时的时间。
[0090] 通信基站是移动通信系统的一部分。在移动通信系统中还包括有归属位置寄存器。归属位置寄存器是移动通信系统的数据中心,它存储着所有在该归属位置寄存器签约移动终端的位置信息、业务数据、账户管理等信息,并可实时地提供对移动终端的位置信息的查询和修改,及实现各类业务操作,包括位置更新、呼叫处理、鉴权和补充业务等,完成移动通信网中用户的移动性管理。位置归属寄存器能够在某移动终端与某个通信基站建立连接的时候,记录连接建立时间、智能终端的标识、与移动终端建立连接的通信基站的标识等信息。
[0091] 在获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息时,是针对每个待分类个体,获取预设历史时间段内,该待分类个体与各个预设通信基站的连接建立时间。
[0092] 在获取的时候,可以以待分类个体使用的智能终端的标识以及预设通信基站的标识为匹配关键字,从归属位置寄存器中读取该智能终端与所有预设通信基站的连接建立时间,并根据所读取到的所有连接建立时间,以及预设历史时间段,对读取到的所有连接建立时间进行筛选,从而确定预设历史时间段内,待分类个体对各个预设通信基站的连接建立时间。
[0093] S102:根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息。
[0094] 在具体实现时候,在获取了待分类个体对多个预设通信基站的使用信息之后,能够根据待分类个体对多个预设通信基站使用的先后顺序,以及每个预设通信基站的地理位置,确定待分类个体的行动轨迹信息。
[0095] 具体地,本申请实施例采用下述方式获得每个待分类个体的行动轨迹信息:
[0096] 针对每个待分类个体,按照该待分类个体与各个预设通信基站之间连接建立时间的先后顺序,以及每个预设通信基站的位置信息,生成该待分类个体的行动轨迹信息。
[0097] 此处,可以先按照待分类个体与各个预设通信基站之间的连接建立时间的先后顺序,形成一个待分类个体使用预设通信基站的序列,该序列中的每一个节点对应一个预设通信基站,且不同的时间节点对应的预设通信基站可以相同,也可以不同。然后根据所有涉及到的通信基站的地理位置,沿着时间线确定待分类个体的行动轨迹信息。
[0098] 此处需要注意的是,待分类个体可能在预设时间段内,可能使用了所有的预设通信基站,也可能仅仅使用了部分预设通信基站。
[0099] 所生成的行动轨迹信息,包括有地理位置信息以及时间信息。其中,地理位置信息可以表示为地理坐标系下的坐标。这样,通过地理坐标系以及时间,将待分类用户的行动轨迹在一个包括了地理位置和时间的三维空间中表示出来。
[0100] S103:基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。
[0101] 在具体实现的时候,不同待分类个体的行动轨迹信息之间的相似度越高,则说明这两个待分类个体的特征越相似。
[0102] 本申请实施例提供一种基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类的具体方法,包括:
[0103] 基于所述各个待分类个体的行动轨迹信息,对所述待分类人群中的各个所述待分类个体进行聚类,获得多个所述分类。
[0104] 在具体实现的时候,采用预设聚类算法,并基于各个待分类个体的行动轨迹信息,对待分类人群中的各个所述待分类个体进行聚类的时候,为了尽可能获得精确的分类结果,可以将当前未完成分类的任意一个待分类个体的行动轨迹信息作为分类中心,并依次计算其他待分类个体的行动轨迹信息与分类中心之间的相似度;然后将于分类中心之间的相似度大于预设相似度阈值的待分类个体划分到与该分类中心同一分类中,并将该待分类个体作为完成分类的待分类个体。通过对上述过程的多轮迭代,从而获得多个分类。
[0105] 另外也可以采用其它的聚类方法对待分类个体进行聚类,如采用 k-means聚类算法、层次聚类算法、自组织映射神经网络(Self Organizing Maps,SOM)聚类算法以及模糊均值聚类算法中任意一种,对待分类个体进行聚类,从而形成多个分类。每个分类中都包括多个待分类个体。
[0106] 本申请实施例通过获取带分类人群中每一个待分类个体对多个预设通信基站的使用信息,来确定待分类个体的行动轨迹信息,由于移动终端的使用面更广,且通信基站能够持续获得用户的使用信息,从而能够根据待分类个体对通信基站的使用情况以及每个通信基站的地理位置,确定待分类个体的移动轨迹信息。基于这种覆盖面更广,也更加全面的移动轨迹信息来对群体特征进行挖掘,能够得到准确度更高的挖掘结果。
[0107] 参见图2所示,在本申请另一实施例所提供的人群分类方法中包括:
[0108] S201:获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息。
[0109] 该S201与上述S101类似,在此不再赘述。
[0110] S202:根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息。
[0111] 该S202与上述S102类似,在此不再赘述。
[0112] S203:基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。
[0113] 该S203与上述S103类似,在此不再赘述。
[0114] S204:针对每个分类,基于该分类中所包括的各个待分类个体对各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,获得与该分类对应的至少一个子分类;
[0115] 所述使用次数信息包括:连接建立频次或者连接建立次数。
[0116] 在具体实现的时候,在基于待分类个体的行动轨迹信息将待分类个体进行分类后,是形成的多个分类中的待分类个体实际上是具有相似行为特征的待分类个体。
[0117] 例如,在对待分类个体进行分类后,所形成的分类有四个,四个分类中的待分类个体依次对应静态居民、动态居民、通勤者以及访问者。对于通勤者而言,其行动轨迹在大部分时间都是在两个地点之间来回折返的,对于静态居民而言,其行动轨迹往往局限在一个较小的区域范围内,并且成一定的不规律行分布。这种分类结果是比较粗糙的,虽然能够基于分类的结果对人群特征进行挖掘,但是待分类个体的很多特异性特征会被忽略。而这些特异性特征很可能是某些更小的群体所具备的一些特征。
[0118] 因此为了能够挖掘出这部分特征,本申请实施例还会基于每个分类中包括的各个待分类个体对各个预设通信基站的使用次数信息,对每个分类中包括的多个待分类个体再次进行分类,从而减小分类粒度,使得每个子分类中包括的待分类个体的特异性特征能够被后续的群体特征挖掘过程更好、更准确的挖掘出来。
[0119] 参见图3所示,本申请实施例还提供一种基于该分类中所包括的各个待分类个体对多个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类的具体方法,包括:
[0120] S301:针对每个待分类个体,获取该待分类个体与各个预设通信基站之间的连接建立时间;
[0121] S302:针对每个预设通信基站,统计该待分类个体与该预设通信基站之间的连接建立时间落入预设历史时间段内的使用次数信息;
[0122] S303:基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行聚类,获得多个子分类。
[0123] 在具体实现的时候,获取该待分类个体与各个预设通信基站之间的连接建立时间与上述S101中的连接建立时间类似,因此在此不再赘述。
[0124] 在获取了待分类个体与各个通信基站之前的连接建立时间之后,就能够针对每个预设通信基站,统计每个待分类个体与该预设通信基站之间的连接建立时间落入预设历史事件段内的使用次数信息,如连接建立频次或者连接建立次数。
[0125] 具体地,参见图4所示,本申请实施例还提供一种基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息之间的相似度,对该分类中所包括的多个待分类个体进行聚类的具体过程,包括:
[0126] S401:基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,建立该分类中所包括的各个待分类个体对应的次数特征向量。
[0127] 此处,假设预设通信基站有20个,待分类个体贾某对这20个预设通信基站的连接建立次数分别为:130、78、79、230、0、2、66、59、61、0、 3、0、233、0、5、2、7、21、0、0,则该待分类个体贾某对应的次数特征向量为[130、78、79、230、0、2、66、59、61、0、3、0、233、0、5、2、 7、21、0、0]。
[0128] S402:使用预设的聚类算法,并基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类。
[0129] 此处,在基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类的时候,可以采用次数特征向量之间的相似度作为聚类依据。例如求两个次数特征向量之间的欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离、相关距离、信息熵中任意一项。
[0130] 另外,相似度也可以通过对不同预设通信基站的使用情况分布来衡量。例如在上述示例中,待分类个体乙某对这20个预设通信基站的连接建立次数分别为:70、37、35、320、0、0、45、40、43、1、0、2、349、0、1、 0、0、0、3、7。在计算甲某和乙某的次数特征向量之间的距离时,可以看到两者之间的距离实际上是比较大的,也即相似度比较小,但是甲某和乙某对
20个预设通信基站的使用情况是类似的,也即,使用次数分布是类似的,因此可以将甲某和乙某划分至同一个子分类。
[0131] 另外,这里需要注意的是,由于每个待分类个体的行动轨迹在符合一定规律的基础上,还会存在一定的偶然性。这种偶然性的行为所形成的行动轨迹,会对基于行动轨迹对待分类个体进行聚类造成影响,降低分类的准确程度。因此要将这种偶然性的行为所形成的行动轨迹排除,只保留能够更多的表征用户的具有相似特征的行动轨迹。
[0132] 具体地,待分类个体偶然性的行为,所带来的后果时,该待分类个体除了其经常使用到的预设通信基站,还会在发生偶然性的行为时,使用其他未经常使用到的预设通信基站,因此本申请实施例通过对每个分类下,基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量之前,对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理,也即去除待分类个体由于偶然性的行为造成的偶然轨迹。然后基于去干扰处理的结果,建立该分类中所包括的各个待分类个体对应的次数特征向量。
[0133] 具体地,可以采用下述两种方式中任意一种方式,对对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理:
[0134] 其一:将该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数对数化;
[0135] 所述连接建立次数对数化后,小于预设阈值的预设通信基站的连接建立次数归零。
[0136] 在将连接建立次数对数化的时候,连接建立次数越小,对数化的结果也就越小。而连接建立次数越少,则说明用户的该行动轨迹的偶然性越大。因此本申请实施例中,会将连接建立次数对数化后,小于预设阈值的预设通信基站的连接次数归零。
[0137] 例如在上述示例中,假设预设通信基站有20个,待分类个体贾某对这 20个预设通信基站的连接建立次数分别为:130、78、79、230、0、2、66、 59、61、0、3、0、233、0、5、2、7、21、0、0,在将各个连接建立次数对数化,并且将小于预设阈值的预设通信基站的连接建立次数归零后,所得到的待分类个体贾某对应的次数特征向量为[130、78、79、230、0、0、 66、59、
61、0、0、0、233、0、0、0、0、21、0、0]。
[0138] 其二,也可以直接将中所包括的各个待分类个体与各个预设通信基站的连接建立次数与预设的次数阈值进行比对。
[0139] 若连接建立次数小于该次数预设阈值,则将该连接建立次数对应的预设通信基站的连接建立次数归零。
[0140] 基于同一发明构思,本申请实施例中还提供了与人群分类方法对应的人群分类装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述人群分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0141] 参见图5所示,本申请实施例提供的人群分类装置包括:
[0142] 获取单元51,用于获取待分类人群中每一个待分类个体对多个预设通信基站的使用时间信息;
[0143] 行动轨迹计算单元52,用于根据每一个待分类个体对多个预设通信基站的使用时间信息,获取每个所述待分类个体的行动轨迹信息;
[0144] 分类单元53,用于基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类。
[0145] 本申请实施例通过获取带分类人群中每一个待分类个体对多个预设通信基站的使用信息,来确定待分类个体的行动轨迹信息,由于移动终端的使用面更广,且通信基站能够持续获得用户的使用信息,从而能够根据待分类个体对通信基站的使用情况以及每个通信基站的地理位置,确定待分类个体的移动轨迹信息。基于这种覆盖面更广,也更加全面的移动轨迹信息来对群体特征进行挖掘,能够得到准确度更高的挖掘结果。
[0146] 可选地,还包括:确定单元54,用于获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息之前,确定目标区域范围;
[0147] 将地理位置归属于所述目标区域范围的多个通信基站确定为预设通信基站;
[0148] 以及,将使用所述预设通信基站的数量达到预设数量阈值的个体,确定为所述待分类个体。
[0149] 可选地,所述使用信息包括:连接建立时间;
[0150] 获取单元51具体用于通过采取下述方式获取待分类人群中每一个待分类个体对多个预设通信基站的使用信息:
[0151] 针对每个待分类个体,获取预设历史时间段内,该待分类个体与各个预设通信基站的连接建立时间;
[0152] 行动轨迹计算单元52具体用于通过采取下述方式根据每一个待分类个体对多个预设通信基站的使用信息,获取每个所述待分类个体的行动轨迹信息:
[0153] 针对每个待分类个体,按照该待分类个体与各个预设通信基站之间连接建立时间的先后顺序,以及每个预设通信基站的位置信息,生成该待分类个体的行动轨迹信息。
[0154] 可选地,分类单元53具体用于通过采取下述方式基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类:
[0155] 基于所述各个待分类个体的行动轨迹信息,对所述待分类人群中的各个所述待分类个体进行聚类,获得多个所述分类。
[0156] 可选地,分类单元53,还用于基于各个所述待分类个体的行动轨迹信息,将所述待分类人群划分成多个分类之后,针对每个分类,基于该分类中所包括的各个待分类个体对各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类,获得与该分类对应的至少一个子分类;
[0157] 所述使用次数信息包括:连接建立频次或者连接建立次数
[0158] 可选地,分类单元53,具体用于通过采取下述方式基于该分类中所包括的各个待分类个体对多个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行分类:
[0159] 针对每个待分类个体,获取该待分类个体与各个预设通信基站之间的连接建立时间;
[0160] 针对每个预设通信基站,统计该待分类个体与该预设通信基站之间的连接建立时间落入预设历史时间段内的使用次数信息;
[0161] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,对该分类中所包括的多个待分类个体进行聚类,获得多个子分类。
[0162] 可选地,分类单元53,具体用于通过采取下述方式基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息之间的相似度,对该分类中所包括的多个待分类个体进行聚类:
[0163] 基于该分类中所包括的各个待分类个体与各个预设通信基站的使用次数信息,建立该分类中所包括的各个待分类个体对应的次数特征向量;
[0164] 使用预设的聚类算法,并基于该分类中包括的各个待分类个体对应的次数特征向量,对该分类中所包括的所有待分类个体进行聚类。
[0165] 可选地,分类单元53,还用于在对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量之前,对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理;
[0166] 具体用于采用下述方式基于该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数,建立该分类中所包括的各个待分类个体对应的次数特征向量。
[0167] 可选地,分类单元53,具体用于通过采取下述方式对该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数进行去干扰处理:
[0168] 将该分类中所包括的各个待分类个体与各个预设通信基站的连接建立次数对数化;
[0169] 所述连接建立次数对数化后,小于预设阈值的预设通信基站的连接建立次数归零。
[0170] 对应于图1中的人群分类方法,本申请实施例还提供了一种计算机设备,如图6所示,该设备包括存储器1000、处理器2000及存储在该存储器 1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000 执行上述计算机程序时实现上述人群分类方法的步骤。
[0171] 具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述人群分类方法,从而解决行动轨迹信息的获取方法获取存在准确性和全面性差的问题,导致挖掘结果的准确度低的问题,进而能够基于个体对通信基站的使用情况来确定个人的行动轨迹信息,并基于行动轨迹信息对人群进行分类,基于这种分类结果对人群特征进行挖掘,能够达到提高挖掘结果的准确度效果。
[0172] 对应于图1中的人群分类方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述人群分类方法的步骤。
[0173] 具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述客人群分类方法,从而解决行动轨迹信息的获取方法获取存在准确性和全面性差的问题,导致挖掘结果的准确度低的问题,进而能够基于个体对通信基站的使用情况来确定个人的行动轨迹信息,并基于行动轨迹信息对人群进行分类,基于这种分类结果对人群特征进行挖掘,能够达到提高挖掘结果的准确度效果。
[0174] 本申请实施例所提供的人群分类方法以及分类装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0175] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的装置、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0176] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0177] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0178] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0179] 最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。