用户设备的确定方法及装置转让专利

申请号 : CN201510283569.8

文献号 : CN106304015B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 韦薇陆平范贤友宋国杰贾培申刘丹萌

申请人 : 南京中兴新软件有限责任公司

摘要 :

本发明提供了一种用户设备的确定方法及装置,其中,该方法包括:确定指定时间段位于指定空间范围内的潜在用户设备;获取与该潜在用户设备对应的关联信息;依据关联信息在潜在用户设备中确定指定用户设备。通过本发明解决了相关技术中不能通过移动设备对相关用户进行识别的问题,进而实现了高效、快速对用户进行有效识别,优化人力部署,节省人力资源的效果。

权利要求 :

1.一种用户设备的确定方法,其特征在于,包括:

确定指定时间段位于指定空间范围内的潜在用户设备;

获取与所述潜在用户设备对应的关联信息;

依据所述关联信息在所述潜在用户设备中确定指定用户设备;

其中,确定指定时间段位于指定空间范围内的潜在用户设备包括:获取第一类用户设备的位置信息;在所述第一类用户设备在所述指定时间段内且在所述指定空间范围内时,将所述第一类用户设备作为所述潜在用户设备;获取第二类用户设备的轨迹信息,在所述轨迹信息满足在所述指定时间段内位于所述指定空间范围内时,将所述第二类用户设备作为所述潜在用户设备。

2.根据权利要求1所述的方法,其特征在于,获取第二类用户设备的轨迹信息包括:根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性;

根据所述移动规律性确定所述第二类用户设备的轨迹信息。

3.根据权利要求1所述的方法,其特征在于,确定指定时间段位于指定空间范围内的潜在用户设备包括:获取与所述第二类用户设备对应的用户的离散熵;

在所述离散熵小于预定阈值的情况下,根据所述用户的历史通话记录信息获取所述用户的移动规律性,根据所述移动规律性确定所述第二类用户设备;

在所述离散熵大于或者等于所述预定阈值的情况下,根据数据库中所有用户的历史通话信息确定所述第二类用户设备。

4.根据权利要求1所述的方法,其特征在于,所述关联信息包括以下至少之一:所述潜在用户设备对应用户的居住地与工作地信息、与所述潜在用户设备对应的用户的社会关系信息、与所述潜在用户设备对应的用户的人口特征信息。

5.根据权利要求4所述的方法,其特征在于,获取与所述潜在用户设备对应的用户的社会关系信息包括:根据以下至少之一的信息获取所述用户的社会关系信息:所述用户设备进行通话的时间特征信息、与所述用户设备在相同时间处于相同位置的其他用户设备的信息、与所述用户设备存在共同联系人的其他用户设备的信息。

6.根据权利要求4所述的方法,其特征在于,根据所述关联信息在所述潜在用户设备中确定指定的用户设备包括:获取所述关联信息包括的各个指定信息的权重;

根据所述权重对所述潜在用户设备中的多个用户设备进行排序;

将排序结果位于预定次序的用户设备确定为所述指定用户设备。

7.一种用户设备的确定装置,其特征在于,包括:

第一确定模块,用于确定指定时间段位于指定空间范围内的潜在用户设备;

获取模块,用于获取与所述潜在用户设备对应的关联信息;

第二确定模块,用于依据所述关联信息在所述潜在用户设备中确定指定用户设备;

其中,所述第一确定模块包括:第一获取单元,用于获取第一类用户设备的位置信息;

在所述第一类用户设备在所述指定时间段内且在所述指定空间范围内时,将所述第一类用户设备作为所述潜在用户设备;第二获取单元,用于获取第二类用户设备的轨迹信息,在所述轨迹信息满足在所述指定时间段内位于所述指定空间范围内时,将所述第二类用户设备作为所述潜在用户设备。

8.根据权利要求7所述的装置,其特征在于,所述第二获取单元包括:挖掘子单元,用于根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性;

确定子单元,用于根据所述移动规律性确定所述第二类用户设备的轨迹信息。

9.根据权利要求7所述的装置,其特征在于,所述第一确定模块还用于获取与所述第二类用户设备对应的用户的离散熵;在所述离散熵小于预定阈值的情况下,根据所述用户的历史通话记录信息获取所述用户的移动规律性,根据所述移动规律性确定所述第二类用户设备;在所述离散熵大于或者等于所述预定阈值的情况下,根据数据库中所有用户的历史通话信息确定所述第二类用户设备。

说明书 :

用户设备的确定方法及装置

技术领域

[0001] 本发明涉及通信领域,具体而言,涉及一种用户设备的确定方法及装置。

背景技术

[0002] 在公共安全领域,异常事件发生时需要安全人员通过对事件的调查,从大量人群中寻找事件相关人员,通过对相关人员的进一步调查去寻找线索。而随着科技的发展,移动电话的迅速普及,移动通话数据的价值逐渐凸显,从数据中识别与异常事件相关的人员,并从空间关系、社会关系以及领域模型知识等方面,对相关人员与异常事件的相关程度排序,以指导安全人员进一步的侦查工作,对公共安全问题具有重要意义。
[0003] 针对相关技术中,不能通过移动设备对相关用户进行识别的问题,还未提出有效的解决方案。

发明内容

[0004] 本发明提供了一种用户设备的确定方法及装置,以至少解决相关技术中不能通过移动设备对相关用户进行识别的问题。
[0005] 根据本发明的一个方面,提供了一种用户设备的确定方法,包括:确定指定时间段位于指定空间范围内的潜在用户设备;获取与所述潜在用户设备对应的关联信息;依据所述关联信息在所述潜在用户设备中确定指定用户设备。
[0006] 进一步地,确定指定时间段位于指定空间范围内的潜在用户设备包括:获取第一类用户设备的位置信息;在所述第一类用户设备在所述指定时间段内且在所述指定空间范围内时,将所述第一类用户设备作为所述潜在用户设备;获取第二类用户设备的轨迹信息,在所述轨迹信息满足在所述指定时间段内位于所述指定空间范围内时,将所述第二类用户设备作为所述潜在用户设备。
[0007] 进一步地,其特征在于,获取第二类用户设备的轨迹信息包括:根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性;根据所述移动规律性确定所述第二类用户设备的轨迹信息。
[0008] 进一步地,确定指定时间段位于指定空间范围内的潜在用户设备包括:获取与所述第二类用户设备对应的用户的离散熵;在所述离散熵小于预定阈值的情况下,根据所述用户的历史通话记录信息获取所述用户的移动规律性,根据所述移动规律性确定所述第二类用户设备;在所述离散熵大于或者等于所述预定阈值的情况下,根据数据库中所有用户的历史通话信息确定所述第二类用户设备。
[0009] 进一步地,所述关联信息包括以下至少之一:所述潜在用户设备对应用户的居住地与工作地信息、与所述潜在用户设备对应的用户的社会关系信息、与所述潜在用户设备对应的用户的人口特征信息。
[0010] 进一步地,获取与所述潜在用户设备对应的用户的社会关系信息包括:根据以下至少之一的信息获取所述用户的社会关系信息:所述用户设备进行通话的时间特征信息、与所述用户设备在相同时间处于相同位置的其他用户设备的信息、与所述用户设备存在共同联系人的其他用户设备的信息。
[0011] 进一步地,根据所述关联信息在所述潜在用户设备中确定指定的用户设备包括:获取所述关联信息包括的各个指定信息的权重;根据所述权重对所述潜在用户设备中的多个用户设备进行排序;将排序结果位于预定次序的用户设备确定为所述指定用户设备。
[0012] 根据本发明的另一个方面,提供了一种用户设备的确定装置,包括:第一确定模块,用于确定指定时间段位于指定空间范围内的潜在用户设备;获取模块,用于获取与所述潜在用户设备对应的关联信息;第二确定模块,用于依据所述关联信息在所述潜在用户设备中确定指定用户设备。
[0013] 进一步地,所述第一确定模块包括:第一获取单元,用于获取第一类用户设备的位置信息;在所述第一类用户设备在所述指定时间段内且在所述指定空间范围内时,将所述第一类用户设备作为所述潜在用户设备;第二获取单元,用于获取第二类用户设备的轨迹信息,在所述轨迹信息满足在所述指定时间段内位于所述指定空间范围内时,将所述第二类用户设备作为所述潜在用户设备。
[0014] 进一步地,所述第二获取单元包括:挖掘子单元,用于根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性;确定子单元,用于根据所述移动规律性确定所述第二类用户设备的轨迹信息。
[0015] 进一步地,所述第一确定模块还用于获取与所述第二类用户设备对应的用户的离散熵;在所述离散熵小于预定阈值的情况下,根据所述用户的历史通话记录信息获取所述用户的移动规律性,根据所述移动规律性确定所述第二类用户设备;在所述离散熵大于或者等于所述预定阈值的情况下,根据数据库中所有用户的历史通话信息确定所述第二类用户设备。
[0016] 通过本发明,采用确定指定时间段位于指定空间范围内的潜在用户设备;获取与该潜在用户设备对应的关联信息;依据关联信息在潜在用户设备中确定指定用户设备。解决了相关技术中不能通过移动设备对相关用户进行识别的问题,进而实现了快速对用户进行识别,节省人力资源的效果。

附图说明

[0017] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018] 图1是根据本发明实施例的用户设备确定方法的流程图;
[0019] 图2是根据本发明实施例的用户设备确定装置的结构框图;
[0020] 图3是根据本发明实施例的用户设备确定装置的结构框图(一);
[0021] 图4是根据本发明实施例的用户设备确定装置的结构框图(二);
[0022] 图5是根据本发明实施例的通话数据的用户异常排序方法流程图;
[0023] 图6是根据本发明实施例的轨迹预测流程图;
[0024] 图7是根据本发明实施例的通话数据的OD识别流程图;
[0025] 图8是根据本发明实施例的犯罪学地理画像示意图;
[0026] 图9是根据本发明实施例的排序模块流程图;
[0027] 图10是根据本发明实施例的用户识别系统结构图;
[0028] 图11是根据本发明实施例一的地理画像示意图;
[0029] 图12是根据本发明实施例的用户识别流程图。

具体实施方式

[0030] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0031] 在本实施例中提供了一种用户设备的确定方法,图1是根据本发明实施例的用户设备确定方法的流程图,如图1所示,该流程包括如下步骤:
[0032] 步骤S102,确定指定时间段位于指定空间范围内的潜在用户设备;
[0033] 步骤S104,获取与潜在用户设备对应的关联信息;
[0034] 步骤S106,依据关联信息在潜在用户设备中确定指定用户设备。
[0035] 通过上述步骤,在众多的潜在用户设备中确定指定用户设备的过程中,可以根据与潜在用户设备的关联信息进行确定,进一步可以确定指定用户设备对应的用户,相较于传统人工排查的方式,上述步骤解决了相关技术中不能通过移动设备对相关用户进行识别的问题,进而实现了快速对用户进行识别,节省人力资源的效果。
[0036] 上述步骤S102中涉及到确定指定时间段位于指定空间范围内的潜在用户设备,在一个实施例中,获取第一类用户设备的位置信息,在第一类用户设备在指定时间段内且在指定空间范围内时,将第一类用户设备作为潜在用户设备。在另一个可选实施例中,获取第二类用户设备的轨迹信息,在轨迹信息满足在指定时间段内位于指定空间范围内时,将第二类用户设备作为潜在用户设备。从而对指定时间段内且在指定空间范围内的潜在用户设备以及依据用户设备的轨迹信息推断在指定时间段位于指定控件范围的潜在用户设备均进行了统计。
[0037] 在上述获取第二类用户设备的轨迹信息的过程中,在一个可选实施例中,根据与第二类用户设备对应的用户的历史通话记录信息挖掘该用户的移动规律性,根据移动规律性确定第二类用户设备的轨迹信息。
[0038] 在确定指定时间段位于指定空间范围内的第二类用户设备时,在一个可选实施例中,获取与第二类用户设备对应的用户的离散熵,在离散熵小于预定阈值的情况下,根据该用户的历史通话记录信息获取该用户的移动规律性,根据移动规律性确定第二类用户设备。在另一个可选实施例中,在上述离散熵大于或者等于该预定阈值的情况下,根据数据库中所有用户的历史通话信息确定该第二类用户设备。从而对第二类用户设备进行了相对精确的确定。
[0039] 上述的关联信息可以包括多种信息,下面对此进行举例说明。在一个可选实施例中,关联信息可以是潜在用户设备对应用户的居住地与工作地信息,或者可以是与潜在用户设备对应的用户的社会关系信息,也可以是与潜在用户设备对应的用户的人口特征信息。其中,用户的人口特征信息可以是用户的年龄或者用户的性别等。
[0040] 在一个可选实施例中,根据以下至少之一的信息获取用户的社会关系信息:用户设备进行通话的时间特征信息、与用户设备在相同时间处于相同位置的其他用户设备的信息、与用户设备存在共同联系人的其他用户设备的信息。从而可以获取与潜在用户设备对应的用户的社会关系信息。
[0041] 潜在用户设备的数量可能有很多个,因此,需要从多个潜在用户设备中进一步确定一个或者多个特定的用户设备,在一个可选实施例中,获取上述关联信息包括的各个指定信息的权重,根据该权重对潜在用户设备中的多个用户设备进行排序;将排序结果位于预定次序的用户设备确定为指定用户设备。从而完成了根据关联信息在潜在用户设备中确定指定的用户设备。
[0042] 在本实施例中还提供了一种用户设备的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0043] 图2是根据本发明实施例的用户设备确定装置的结构框图,如图2所示,该装置包括:第一确定模块22,用于确定指定时间段位于指定空间范围内的潜在用户设备;获取模块24,用于获取与该潜在用户设备对应的关联信息;第二确定模块26,用于依据该关联信息在潜在用户设备中确定指定用户设备。
[0044] 图3是根据本发明实施例的用户设备确定装置的结构框图(一),如图3所示,第一确定模块22包括:第一获取单元222,用于获取第一类用户设备的位置信息;在第一类用户设备在指定时间段内且在指定空间范围内时,将第一类用户设备作为潜在用户设备;第二获取单元224,用于获取第二类用户设备的轨迹信息,在轨迹信息满足在指定时间段内位于指定空间范围内时,将第二类用户设备作为潜在用户设备。
[0045] 图4是根据本发明实施例的用户设备确定装置的结构框图(二),如图4所示,第二获取单元224包括:挖掘子单元2242,用于根据与第二类用户设备对应的用户的历史通话记录信息挖掘该用户的移动规律性;确定子单元2244,用于根据移动规律性确定第二类用户设备的轨迹信息。
[0046] 可选地,第一确定模块22还用于获取与第二类用户设备对应的用户的离散熵;在离散熵小于预定阈值的情况下,根据该用户的历史通话记录信息获取该用户的移动规律性,根据移动规律性确定第二类用户设备;在该离散熵大于或者等于该预定阈值的情况下,根据数据库中所有用户的历史通话信息确定第二类用户设备。
[0047] 需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述各个模块均位于同一处理器中;或者,上述各个模块分别位于第一处理器、第二处理器和第三处理器…中。
[0048] 针对相关技术中存在的上述问题,下面结合具体的实施例进行说明,在下述的可选实施例中结合了上述可选实施例及其可选实施方式。
[0049] 本可选实施例结合计算机技术与数据科学的发展,结合公共安全领域的知识背景,利用社会网络分析的方法,提供一种数字化的异常事件中相关人员的排查方法,识别与异常事件相关的用户并结合领域知识提供相关度排名。该方法相比于相关的人工排查方法,有更快的响应速度和更全面的覆盖范围,可以有效辅助安全人员的排查工作。由于手机的普及,手机通话数据是海量的,且覆盖了城市的绝大部分人口。借助数据科学的发展,利用数据挖掘和社会网络分析的手段,从这些通话数据中可以分析用户的出行的源和目的地(Origin and Destination,简称为OD)信息(此处的OD特指通勤OD,即上下班出行的源和目的地,即家和办公地),社会关系及轨迹模式等信息,这些信息为异常事件中相关人员相关度定义提供基础和依据。图5是根据本发明实施例的通话数据的用户异常排序方法流程图,如图5所示,通过对原始数据进行清洗与加密、轨迹预测、OD识别、社会关系识别、用户特征识别以及对经过上述处理后的数据进行相关性排序,进而实现了基于通话数据的用户异常排序。
[0050] 本可选实施例结合基于通话数据的OD识别、社会关系及用户特征识别,提供一种对异常事件中相关用户的识别与排序方法。主要步骤为:
[0051] 步骤1.数据预处理。
[0052] 该部分的目的是将原始的收集到的通话数据处理成需要的格式。首先是从原始数据中抽取需要的属性域,包括用户标识(加密后的手机号码)、通话基站位置、通话时间。用户隐私是通话数据中的重要问题,需要对用户手机号码进行加密,生成只用于标识用户的键值。原始的通话数据通常是海量且冗余的,通过预处理筛选出所需要的数据,可以有效减小数据量,提高后续处理的效率。
[0053] 步骤2.基于轨迹预测的异常用户范围圈定。
[0054] 图6是根据本发明实施例的轨迹预测流程图,下面对图6进行说明。异常事件发生时,潜在相关用户是指在与异常事件相关的一定时间范围[t1,t2]内一定空间范围[s1,s2]内的用户。但由于通话数据并不是实时连续的,异常事件发生的时间段内未暴露位置,但在时间段[t1,t2]内可能位于空间[s1,s2]内的用户,也应该划分在潜在用户群内。因此我们引入用户的轨迹预测模块,来处理这类用户。轨迹预测的处理过程为:
[0055] 对于离散熵较大的用户,采用群体轨迹预测模型(The Crowd  Trajectory Predictor,简称为CTP),可用动态贝叶斯网络实现。对于离散熵小的用户,采用个人轨迹预测模型(The Individual Trajectory Predictor,简称为ITP)。
[0056] 离散熵可用于衡量用户的可预测性,定义如下:
[0057]
[0058] 其中p(Ri)为用户在区域Ri的频繁度,其中Ri为基站号。离散熵越大,用户的运动规律性就越低。
[0059] 定义一种数据结构ultra-pattern=,其中hi表示时间片(预设将一天的24个小时均等划分为24个时间片,每个时间片1个小时),Ri表示位置区域,这样的数据结构可用于表示用户的移动轨迹。
[0060] 算法实现如下:
[0061] 输入:预测用户的ID,预测日期及时间点。
[0062] 输出:基站号,代表用户在预测时间点可能所在的位置,按支持度大小排序。
[0063] 根据输入,从数据库中取预测时间点前两个小时的通话记录即用户当前位置,作为预测依据。
[0064] 若预测依据为空,则使用个人预测模型:处理用户的个人历史移动通话数据,挖掘用户移动的规律性,压缩历史通话数据得到一个二维数组UltraPattern[24][7],用于表示以一周为周期,每天24个小时,每小时一个通话记录的通话记录数组。预测过程:以预测时间点对应的所有位置作为备选预测位置,并按照支持度排序。预测结束。
[0065] 若预测依据不为空,根据用户的历史信息,计算用户的离散熵。
[0066] 若用户的离散熵小于临界值,即用户运动的周期性比较强,则建立个人预测模型UltraPattern[24][7]。预测过程:以预测依据在UltraPattern[24][7]中匹配出下一时刻的位置作为预测结果,若没有完全匹配的路径,则使用群体预测模型。
[0067] 若用户的离散熵大于临界值,使用群体预测模型。在同一个城市,基站位置有限,人类活动很大程度上有一定的共性,所以可根据数据库中所有用户历史移动信息预测用户的下一时刻位置。首先训练群体预测模型:将一天分为24个时间片,利用数据库中所有用户的历史通话记录,训练出24个转移预测矩阵,每个转移矩阵的横纵坐标代表基站号,对应的概率值为相邻两个小时从基站X转移到基站Y的概率。预测过程:在给定预测依据,即用户当前位置的情况下,可取相应时间对应的矩阵中的概率较大的值作为预测结果返回。预测结束。
[0068] 步骤3.基于通话数据的OD识别、社会关系识别、用户特征识别。
[0069] 利用通话数据,对用户的通勤OD、社会关系及特征(如年龄、性别)等进行识别,可以描绘出用户的社会肖像。这些特征与异常事件当事人的相关程度,为排查人员提供了有效信息。
[0070] a)OD识别
[0071] 由于工业社会的发展,城市人群工作与生活方式具有一定的规律性,通勤OD(居住地与工作地)是最基础的出行模式。在相关技术中存在基于通话数据的简单而有效的通勤OD挖掘方法。
[0072] 在相关技术中OD识别的实现细节具体算法流程如下:
[0073] 基于手机通话数据的大规模人群通勤OD发现方法为:
[0074] 输入:每个用户的通话数据T,T={<手机号,通话基站,通话时间>}[0075] 输出:每个用户的居住地和工作地泊点,即OD泊点。
[0076] 时空改进方法:
[0077] 1.对每个用户将通话数据分为两个集合,Tday和Tnight,分别代表白天和夜晚的通话数据。
[0078] 2.分别对Tday和Tnight通话数据进行统计。
[0079] 3.将通话数据按照通话基站进行划分,每个基站对应一个通话次数。
[0080] 4.(空间改进)将基站按通话次数从大到小排列,然后进行空间合并,形成新的通话位置点。
[0081] 5.(时间改进)根据通话周期性,计算每个位置点的通话频繁度。
[0082] 6.(条件筛选)对每个位置点进行筛选,删除通话稀疏的位置点。
[0083] 7.将Tday和Tnight数据中通话频繁度最大的位置点作为D和O,即工作地和居住地。
[0084] 8.输出每个用户的通勤OD。
[0085] 图7是根据本发明实施例的通话数据的OD识别流程图,如图7所述,该流程包括如下步骤:
[0086] 步骤S702,对数据进行预处理;
[0087] 步骤S704,通话位置次数统计;
[0088] 步骤S706,空间合并优化;
[0089] 步骤S708,时间合并优化。
[0090] b)社会关系识别
[0091] 把用户的社会关系划分为三类:家人、同事和其他。不同关系的用户对之间,在通话行为和位置的时间、空间分布上具有差异性。从通话数据及OD信息中,提取通话时间、相处时间(结合OD信息)及一些群体信息(如共同联系人)等相关的特征,利用分类模型(如决策树、随机森林等)对用户对之间的关系进行识别。社会关系的识别用于定义用户与异常事件当事人之间的社会关系相关度。社会关系识别的过程:
[0092] 将社会关系分为三大类:家人、同事和其他。将有联系的两个用户组织成一个用户对,关系的识别转换为分类问题,分类该用户对是家人关系、同事关系还是其他。采用决策树模型,提取的特征有如下三类:
[0093] 通话时间特征
[0094]
[0095] 相处时间增益特征
[0096]特征名称 说明
周中平均相处时长 在正常工作日内,用户对平均每天的相处时长
周末平均相处时长 在周末用户对平均每天的相处时长
周末时间增益 TΔ,用户对周末和周中平均相处时长的变化量
[0097] 群体结构特征
[0098]
[0099] c)用户特征识别
[0100] 通话数据中并不能保证有用户的年龄、性别等信息,有些电信运营商的申请号码记录中会有部分比较完整的用户信息,但这些信息一方面隐私性要求较高,一方面数据完整性和真实性不能保证。通过统计发现不同性别或年龄段的用户,在通话习惯上具有一定的差异性,通过提取相关的特征值,利用分类模型(决策树、随机森林等)对用户的性别、年龄进行识别。用户的年龄与性别信息对辅助社会关系相似度有一定帮助。比如,从一些实证分析案例中的结论来看,故意杀人案件中加害人与被害人之间关系在性别上具有差异性,在年龄上具有“重合性”,其中,参考资料为:[1]《.中国人民公安大学学报:社科版》,2006年第2期,《故意杀人案件中加害人与被害人关系的实证分析》,作者:高维俭、查国防。
[0101] 关于用户特征识别的过程为:
[0102] 用户的性别、年龄等信息,在真实的数据中有严重的缺失,使用机器学习的方法对性别与年龄识别可以在一定程度上弥补这一缺陷。将年龄划分为三个年龄段(18-25,26-40,41-60),这样年龄的识别问题转化为多类别的分类问题。从数据中抽出部分标签数据,可以采取有监督学习的方法,训练模型。采用决策树模型,提取的特征有:
[0103]
[0104]
[0105] 步骤4.排序过程
[0106] 排序部分分三类:空间关系、社会关系和基于领域模型的排序,从三个角度全面地分析用户与异常事件的相关程度。
[0107] a)空间关系
[0108] 在基于空间关系的排序中,我们从两个方面考查相关人员与当事人空间行为的关系:一,在一定时间段内,与当事人轨迹相似度较高的用户可疑程度高;二,该用户事发当日与以往的空间行为模式有较大差异,则其可疑程度较高。我们参考文本信息检索领域中“文本向量”的概念和余弦相似度的度量方法,来处理用户轨迹及轨迹之间的相似程度。
[0109] 在文本信息检索领域,常将一篇文档组织为一个文档向量,向量的元素为词项在该文档中的出现次数(或者TF/IDF值),结合余弦相似度,返回相似文档。余弦相似度的理论模型如下:
[0110] 对于两个向量α和β,两向量之间夹角越小,其相似度越高。而通过余弦定理,可以求得其夹角的余弦值与两向量之间的关系:
[0111]
[0112] 通过将用户的轨迹组织为向量,向量中的元素为用户在该基站出现的平均次数,分别求出用户与当事人轨迹的余弦相似度s1,该用户以往空间向量与当日空间向量的余弦相似度s2,则该用户在空间行为上的可疑程度为:
[0113]
[0114] b)社会关系
[0115] 当异常事件发生时,首先根据异常事件的时间和空间位置进行过滤,筛选潜在可疑用户集合,即在一定时间范围内出现在该位置一定范围内的用户集合S。对于集合S中的用户,查看其与当事人之间社会关系的重合度,结合该用户的性别与年龄信息,给出排序结果。
[0116] 结合相关的实证分析结果,在故意杀人案件中,发生在熟人之间的几率为78.5%,远高于21.5%的陌生人之间,详见[2].Darcy Kim Rossmo,M.A.,Simon Fraser University,1987,Geographic profiling:target patterns of serial murderers。因此相关用户与当事人的社会关系重合度越高,其可疑度应越高,且更可能提供与异常事件相关的更多信息。实证分析又指出,在加害人中,80.9%的几率年龄在18-44区段;从性别上考虑,加害人85.9%为男性,只有14.1%为女性,详见[1]《. 中国人民公安大学学报:社科版》,2006年第2期,《故意杀人案件中加害人与被害人关系的实证分析》,作者:高维俭、查国防。
从实证研究的成果考虑,依次以社交圈重合度、性别和年龄为排序基准,给出基于社会关系的异常排序结果。
[0117] 关于社会关系的重合度,我们采用适合对符号度量或布尔值度量的Jaccard相似系数:
[0118]
[0119] c)领域模型
[0120] 根据犯罪学地理画像理论,详见[2].Darcy Kim Rossmo,M.A.,Simon Fraser University,1987,Geographic profiling:target patterns of serial murderers.对罪犯的心理基于如下两个假设:
[0121] 犯罪嫌疑人不会在离固定活动点(家、工作地等)很近的地方犯罪,因为这样不仅容易暴露自己,犯罪目标也较少;
[0122] 离罪犯的固定工作点越远的地方,他在那里犯罪的可能性越小。因为这样会增加很多交通/逃逸的不便。
[0123] 图8是根据本发明实施例的犯罪学地理画像示意图,如图8所示,r1为以犯罪嫌疑人固定活动地(家或者工作地)为圆心的较小圆周的半径、r2为以犯罪嫌疑人固定活动地(家或者工作地)为圆心的较大圆周的半径。
[0124] 连环案件是满足上述假设的犯罪,如多次实施谋杀、抢劫、强奸等犯罪;而这种方法也适合于一次犯罪涉及多个地点的案例,比如一起谋杀中罪犯被目击、谋杀、抛尸的地点都不同的情况。
[0125] 基于上述的两个假设,对于某一异常事件,可疑人员的固定活动点(OD点)通常在以该事件发生地为圆心,不同半径所形成的同心圆所形成的环内。此处的距离计算是基于交通路网,采用曼哈顿距离。
[0126] 首先根据事件发生地信息,找出环形区域内的基站,对以这些基站为O/D的人员进行重点排查。如果有多个事件发生地,对那些环形区域交叉的基站,以这些基站为O/D的人员的嫌疑度更大。因此,基于地理画像,以相关人员O/D点出现在环形区域中的概率倒序排列。
[0127] 步骤5.结合异常事件的具体情境,选择不同的变量和变量的次序对相关用户排序,得到综合排序序列。
[0128] 针对异常事件的不同情况,结合领域专家的意见选择上述多个变量中全部或部分,并确定变量的优先次序,对用户进行排序。如针对一系列连续作案的嫌犯,出现在事件现场的次数和OD点处于事件环形区域内的次数对排序结果的影响更大;而对于有组织的团伙犯罪,如团伙欺诈行为,轨迹的尾随效应比较明显,在已知一名嫌疑人时,其他犯罪嫌疑人与之的社会关系的重合度也较高;对于团伙聚众闹事或恐怖事件,社会关系重合度与空间轨迹重合度较高。
[0129] 图9是根据本发明实施例的排序模块流程图,为更加清楚地介绍本发明的目的和技术方案,下文将结合实施案例和图9,对技术方案做进一步的详细说明。尽管不同实施例下,排序时侧重点不同,但对于相关用户的识别和数据准备工作都是相同的。至少包含如下各部分:
[0130] 第一部分:数据的存储与清洗。
[0131] 手机通话数据的数据量很大,不仅有数量庞大的用户量,同时每天都会产生大量的记录,因此对于数据的入库存储的挑战较大,使用分布式数据管理系统和分层存储体系会是一个良好的技术方案。图10是根据本发明实施例的用户识别系统结构图,如图10所示,使用计算机集群与分布式文件系统HDFS作为第一层原始记录数据存储,而通话数据的获取通过并行的数据获取模块拉取到集群中;在HDFS的基础之上,构建数据清洗的流水线,将最近30天来的数据放入响应速度更快的数据库系统中,在数据库之上构建后续的处理模块。当处理模块需要使用30天之前的数据时,可以进一步访问HDFS。具体步骤:
[0132] 步骤1:利用并行数据获取模块,将通话数据的原始记录拉取到计算机集群的分布式文件系统中。
[0133] 步骤2:通过一个Map-reduce的数据预处理的流水线任务,将原始的通话数据处理成需要的模式,如去除冗余的信息,对手机号加密等操作。然后将处理的数据存入数据库系统,可以根据系统负载情况控制载入数据库的数据量,既考虑到数据库的负载能力又考虑到任务处理速度的需求,一般至少可以在30天以上。对于数据的存储有很多的优化方案,如根据日期进行切分,或对数据进行压缩等。
[0134] 数据清洗与加密模块,是对获取的原始通话数据做一定的去冗余和加密处理。该模块包含于服务器端。
[0135] 原始的通话数据包含较多的域,如漫游状态、用户手机移动设备国际身份码(International Mobile Equipment Identity,简称为IMEI)码等无关信息,共计二十多个属性段。而实际使用的字段很有限,包括基站信息和通话记录信息。基站信息的字段:基站的经纬度和编号;通话记录信息的字段:加密后的手机号码,对端的手机号码,通话时间,基站编号。
[0136] 用户隐私是手机通话数据的一个重要问题。为了保护用户的隐私,我们对原始数据的手机号码进行加密处理。手机号码的作用仅用来唯一标识手机用户,并无实际意义,因此可以使用其他一一对应的字符串或数字代替。加密后的用户手机号只用于唯一地区分用户,而无法判断具体用户,很好地符合了用户隐私的要求。
[0137] 第二部分:请求处理模块
[0138] 对于不同的应用场景,对数据的侧重点不同,通过对请求的特征分析与设定,针对不同的场景做不同的处理,对提高排序的相关度有重要作用。结合实施例对此做进一步的说明。
[0139] 第三部分:业务逻辑模块
[0140] 业务逻辑模块是核心模块,包括上一部分介绍的异常用户范围的圈定,基于通话数据的OD识别、社会关系识别、用户特征识别和后续的排序过程。结合实施例对此做进一步的说明。
[0141] 实施例一
[0142] 某地连续发生多起强奸案件,从被害人描述来看,很可能是同一人所为,体貌特征难以确定,但携带手机。由于作案现场没有摄像头,警方难以确定嫌疑人的体貌特征,但根据被害人的描述,嫌疑人携带了手机。此种情形下,对于多次出现在现场中的用户,应列入重点怀疑对象。从犯罪学地理画像看,其OD落入事件的环形区域的用户也有较大嫌疑。从年龄与性别角度讲,18-45岁之间的男性可能性较大。从轨迹上来说,具有尾随性特征或与往日移动模式差别较大的用户其可疑性较高。在这种情形下,可设定的相关性权重从大到小依次为:出现在案件中的次数、OD落在案件环形区域内的概率、性别与年龄、轨迹相关度、社会关系相关度,举例说明,上述5个相关性参数的权重可以分别设置为90、80、70、60、50。
[0143] 步骤1:根据多次案件的时间和地点,结合轨迹预测模块,圈定这些时间段与区域内可能出现过的手机用户的集合P。
[0144] 步骤2:统计P中各个用户出现在案件相关集合中的次数α。
[0145] 步骤3:针对P中的用户,进行OD识别,识别出各个用户的OD点。
[0146] 步骤4:统计P中各个用户的OD落在案件环形区域的概率β。
[0147] 具体地,如何确定环形大小圆半径有两种可选思路。思路之一,结合地理画像实证研究,在不区分地形、路网、犯罪类别等的情况下,简化认为,以事件发生地为圆心,罪犯的固定地点在“案发地点之间最大距离的2倍”为半径的多个圆的相交区域的概率较大,故计算环形区域时小圆半径分别设置为0和“案发地点之间最大距离的2倍”。图11是根据本发明实施例一的地理画像示意图,如图11所示设置多个大圆区域,圆心代表各案发现场。OD落在多个大圆相交区域的用户可疑度更高,即图11中布满小三角的区域。统计P中各个用户的OD落在多个大圆相交区域的概率β。第二种思路,环形区域内外半径的设定可通过以往破获的案件中嫌疑人OD与案件地点的距离的统计量确定。如将距离降序排列,取外半径为前一半距离的平均值,内半径为后一半距离的平均值;或者取全部距离平均值再各增减0.5倍;或者取中位数再各增减0.5倍等。
[0148] 步骤5:计算P中用户与被害人案件发生前若干小时的轨迹的相关度γ。
[0149] 步骤6:查找P中用户的性别、年龄信息δ。如数据库中无用户记录,则通过机器学习已训练好的模型,对这些用户进行识别,并将识别的结果存入数据库中。
[0150] 步骤7:对P中的用户进行社会关系的识别,找出各个用户的社会关系集合。在具体的实施中,通过构建用户的社会关系、OD、性别、年龄等的数据库,引入缓存机制。即当数据库中有该用户的这些记录,便直接从数据库中取出相应结果;而当数据库没有这些用户的信息时,调用机器学习模块中训练的模型,对这些用户的社会关系进行识别,并将结果存入数据库,供以后使用。
[0151] 步骤8:计算P中用户与被害人在社会关系上的相关程度ε。
[0152] 步骤9:依次以α,β,γ,δ,ε降序对P进行排序,并显示排序结果。根据权重计算并得出综合的相关度排序结果。
[0153] α×90+β×80+γ×70+δ×60+ε×50
[0154] 图12是根据本发明实施例的用户识别流程图,用户识别流程请参见图12。
[0155] 除了如实施例一所述根据场景的分析来确定不同因素的相关度权重大小外,还可以选择忽略一些因素,详见如下实施例二和实施例三。
[0156] 实施例二
[0157] 某受害人报案在一条古董街上被人诈骗,以高价购买了伪造古董。根据被害人的描述,其先后遭受多人的劝说,疑似多人合作各自扮演各自角色的团伙犯案。但仅凭受害人的描述,警方无法获得足以确认犯罪嫌疑人的特征。
[0158] 在这种场景下,嫌疑人的轨迹与受害人的轨迹相似度较高,因此轨迹相关度的影响较大;而从社会关系的角度讲,团伙之间电话交流较多,因此相互间互为社会关系网的可能性较大,即社会关系的相关度会较高;其他因素的影响较小。此种情况下,往往可以从轨迹与社会关系这两个因素中获得重要信息。
[0159] 与实施例一相比,实施例二的计算过程可以省去性别年龄及OD模块。
[0160] 实施例三
[0161] 对于群体事件,如聚众闹事、群体斗殴类事件,参与人之间往往相互之间有较多的联系,因此社会关系的重合度较高;从性别、年龄的角度讲,一般多为18-40之间的男性;而轨迹的相关度也有一定影响。OD信息等对这类事件的影响较小,在排序时可以选择忽略该因素。
[0162] 简述基本步骤如下:
[0163] 步骤1:根据受害人的描述,确定时间和地点。结合轨迹预测模块,圈定该时间段和区域的相关用户集合P。
[0164] 步骤2:计算P中用户与受害人之间的轨迹相似度γ。
[0165] 步骤3:从数据库中查找P中用户的社会关系,如数据库中无用户记录,则利用机器学习得到的社会关系识别模型,通过社会关系识别模块识别出其社会关系,并将结果存入数据库中。
[0166] 步骤4:计算P中用户与受害人之间的社会关系相关度ε。
[0167] 步骤5:查找P中用户的性别、年龄信息,与“18-40之间的男性”相符合的概率δ。如数据库中无用户记录,则通过机器学习已训练好的模型,对这些用户进行识别,并将识别的结果存入数据库中。
[0168] 步骤6:依次以社会关系相关度、轨迹相关度、年龄、性别对P中用户进行排序,并返回排序结果。相关度参数权重由高到低顺序为社会关系相关度、性别和年龄相符合的概率、轨迹相关度,举例说明,权重依次分别设置为90、80、40。根据权重计算并得出综合的相关度排序结果。
[0169] ε×90+δ×80+γ×40
[0170] 该实施例下的过程图与图12一致,仅在根据不同场景的分析下确定不同影响因素的排序优先次序上有所差异。
[0171] 综上所述,本发明针对异常事件中对潜在用户群的识别与排序过程进行了系统的自动化处理,从数据的清洗处理,到潜在相关用户群的识别与排序过程进行了整理,形成了整体可运作与实现的系统方案。尤其在对潜在用户群的界定、空间行为的相关性以及综合领域知识、社会关系和空间行为三个因素的排序思想,有着新颖可操作的解决方案。由于涉及大量的数据操作,系统复杂性较高,要求模型应有较快的响应速度。而OD识别、社会关系及用户特征的识别过程也可以通过线下的训练完成,将识别结果储存进数据库,供排序步骤查询使用。
[0172] 无线通信运营商为了保证通信系统和通信功能的正常运行,会保存大量与通信相关的数据,如通话、短信、开关机等手机状态的日志,一般以基站为空间位置信息的单位。而数据挖掘技术的发展使得数据的价值得以有效呈现,基于通话数据,可以识别用户的通勤OD、社会关系及轨迹模式等信息,这些信息对于发掘异常事件中相关人员的相关程度具有重要意义。用户的通勤OD,即家与工作地,是工业社会发展的产物,是用户移动规律的基本模式。OD信息与相关的领域知识结合,如犯罪地理画像,反映领域模型下用户与异常事件的相关程度;利用社群发现技术从数据中识别用户社会关系,通过社会关系来进一步考察用户与异常事件的相关程度;而基于用户的轨迹信息,从空间行为上对用户与异常事件的相关性分析。基于移动通话数据,综合领域知识、社会关系及空间行为三个方面,分析用户与异常事件的相关性,对异常事件的及时处理有重要意义。相较于传统人工排查的方式,凭借更全面的数据和大数据技术手段,以更快的响应速度确定重点的和优先的排查范围,进而优化人力部署;在公安刑侦领域,这就是在帮助警察抓住破案的黄金时期,众所周知,刑侦中分秒必争就意味着化解危机、挽救生命和维护社会正义安宁。
[0173] 在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
[0174] 在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
[0175] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0176] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。