基于手机取证数据的社交关系预测系统及其方法转让专利

申请号 : CN201611105412.7

文献号 : CN106778851B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 姜国庆杨涛林九川王永剑曲洋彭如香

申请人 : 公安部第三研究所

摘要 :

本发明涉及一种基于手机取证数据的社交关系预测系统及其方法,基于手机取证数据,该系统包括数据预处理模块、数据分析模块、虚拟身份信息串并处理模块、训练样本获取模块、层次聚类模块、模型训练模块和泛化模块,实现对手机取证数据的预处理,去除脏数据,以多分类模型对手机取证数据中的通讯行为等数据进行迭代训练,得到能够准确识别不同社交关系的分类器,并用于社交关系的预测,从而支持决策分析。采用本发明的基于手机取证数据的社交关系预测系统及其方法,弥补了现有情报分析手段中面对海量、复杂的网络空间数据缺乏有效分析手段的不足,给出一种基于手机取证数据的自然人社交关系预测系统,挖掘潜在的知识供情报分析人员研究、判断并参考。

权利要求 :

1.一种基于手机取证数据的社交关系预测系统,其特征在于,所述的系统包括依次连接的数据预处理模块、数据分析模块、虚拟身份信息串并处理模块、训练样本获取模块、层次聚类模块、模型训练模块和泛化模块,其中:所述的数据预处理模块用以实现对手机取证数据的预处理,获取处理后手机取证数据,并从所述的处理后手机取证数据中获取虚拟身份信息;

所述的数据分析模块包括多个不同的数据解析协议,用以对所述的处理后手机取证数据进行解析和还原,以获取该处理后手机取证数据中的数据行为信息,并对其获取的数据行为信息进行关联;

所述的虚拟身份信息串并处理模块用以对所述的手机取证数据中包含的所述的虚拟身份信息进行串并处理、获取该手机取证数据中包含的社交关系;

所述的训练样本获取模块用以根据所述的社交关系和所述的手机取证数据获取初始训练样本;

所述的层次聚类模块用以对所述的初始训练样本进行层次聚类运算,以合并所述的社交关系中包含的冗余关系类,确定最终关系类,以获取最终训练样本;

所述的模型训练模块用以实现对所述的最终训练样本的训练,以获取社交关系预测模型;

所述的泛化模块用以对所述的社交关系预测模型进行泛化,以获取一适用于未知社交关系预测的社交关系预测分析模型;

且所述的系统还包括一社交关系紧密度衡量评价模块,所述的社交关系紧密度衡量评价模块用以对该模块内输入的所述的社交关系进行紧密度评价指标的统一管理。

2.根据权利要求1中所述的基于手机取证数据的社交关系预测系统,其特征在于,所述的模型训练模块包括一支持向量机算法SVM模块。

3.一种利用权利要求1或2所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的方法包括以下步骤:(1)所述的系统对所述的手机取证数据进行数据预处理,以获取处理后手机取证数据、所述的虚拟身份信息和该手机取证数据中包括的对象;

(2)所述的系统解析并还原所述的处理后手机取证数据,以获取同一对象完整的数据行为;

(3)所述的系统对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,获取归并后虚拟身份信息,并根据所述的手机取证数据获取该处理后手机取证数据中包含的社交关系;

(4)所述的系统根据所述的社交关系获取初始训练样本;

(5)所述的系统根据所述的初始训练样本获取最终训练样本;

(6)所述的系统训练所述的最终训练样本训练以获取社交关系预测模型;

(7)所述的系统通过所述的泛化模块对所获取的社交关系预测模型进行泛化,以预测另一未知社交关系。

4.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(1)中的数据预处理,具体为:所述的系统通过所述的数据预处理模块对所述的手机取证数据进行预处理,剔除所述的手机取证数据中的脏数据,获取所述的处理后手机取证数据,该数据预处理模块还从所述的处理后手机取证数据中获取所述的虚拟身份信息和该手机取证数据中包括的对象,所述的脏数据包括人工录入错误数据和非法值。

5.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(2)中的解析并还原数据行为,具体为:所述的系统通过所述的数据分析模块解析并还原所述的处理后手机取证数据,以获取所述的数据行为,并关联同一对象的数据行为以获取该对象的完整数据行为。

6.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(3)中的对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,具体为:所述的系统通过所述的虚拟身份信息串并处理模块对所述的虚拟身份信息进行归并处理并获取所述的处理后手机取证数据中包括的社交关系。

7.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(4)之前还包括以下步骤:(4.0)所述的系统通过所述的社交关系紧密度衡量评价模块对所述的步骤(3)中获取的社交关系进行紧密度计算。

8.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(4)中的系统获取所述的初始训练样本,具体为:所述的系统根据所述的社交关系,并通过所述的训练样本获取模块获取所述的初始训练样本。

9.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(5)中的最终训练样本的获取,具体为:所述的系统通过所述的层次聚类模块获取所述的最终训练样本,所述的层次聚类模块通过所述的初始训练样本中的共同好友数量占好友总数的比率CFR、平均通话次数、平均通话时长和平均信息交互次数进行层次聚类运算,结合人工干预,确定所述的处理后手机取证数据的最终社交关系类,获取所述的最终训练样本。

10.根据权利要求3所述的系统实现基于手机取证数据的社交关系预测方法,其特征在于,所述的步骤(6)中的系统获取社交关系预测模型,具体为:所述的系统通过所述的模型训练模块实现对所述的最终训练样本的训练,以获取所述的社交关系预测模型。

说明书 :

基于手机取证数据的社交关系预测系统及其方法

技术领域

[0001] 本发明涉及人工智能领域,尤其涉及基于机器学习的社交关系识别技术,具体是指一种基于手机取证数据的社交关系预测系统及其方法。

背景技术

[0002] 随着互联网技术、手机等移动智能终端的快速发展,用户的行为数据大量的被记录存储,网络空间行为数据日趋复杂、多样,给情报分析人员的分析工作带来巨大的障碍。目前,对于取证数据的分析技术,基本采用传统的碰撞分析等方法,此类方法不再适用对海量、类型复杂多样的数据分析。而机器学习,大规模图计算等大数据分析技术能够对数据进行深层次分析,挖掘隐藏的、却又实实在在存在的知识、规律。

发明内容

[0003] 为了克服以上所述的现有技术中的问题,下面提出一种能够对海量、类型复杂多样的数据进行深层次分析的基于手机取证数据的社交关系预测系统及其方法。
[0004] 该基于手机取证数据的社交关系预测系统及其方法具体如下:
[0005] 该基于手机取证数据的社交关系预测系统,其主要特点是,所述的系统包括依次连接的数据预处理模块、数据分析模块、虚拟身份信息串并处理模块、训练样本获取模块、层次聚类模块、模型训练模块和泛化模块,其中:
[0006] 所述的数据预处理模块用以实现对手机取证数据的预处理,获取处理后手机取证数据,并从所述的处理后手机取证数据中获取虚拟身份信息;
[0007] 所述的数据分析模块包括多个不同的数据解析协议,用以对所述的处理后手机取证数据进行解析和还原,以获取该处理后手机取证数据中的数据行为信息,并对其获取的数据行为信息进行关联;
[0008] 所述的虚拟身份信息串并处理模块用以对所述的手机取证数据中包含的虚拟身份信息进行串并处理、获取该手机取证数据中包含的社交关系;
[0009] 所述的训练样本获取模块用以根据所述的社交关系和所述的手机取证数据获取初始训练样本;
[0010] 所述的层次聚类模块用以对所述的初始训练样本进行层次聚类运算,以合并所述的社交关系中包含的冗余关系类,确定最终关系类,以获取最终训练样本;
[0011] 所述的模型训练模块用以实现对所述的最终训练样本的训练,以获取社交关系预测模型;
[0012] 所述的泛化模块用以对所述的社交关系预测模型进行泛化,以获取一适用于未知社交关系预测的社交关系预测分析模型;
[0013] 且所述的系统还包括一社交关系紧密度衡量评价模块,所述的社交关系紧密度衡量评价模块用以对该模块内输入的所述的社交关系进行紧密度评价指标的统一管理。
[0014] 较佳地,所述的模型训练模块包括一支持向量机算法SVM模块。
[0015] 该利用以上系统实现基于手机取证数据的社交关系预测方法,其主要特点是,所述的方法包括以下步骤:
[0016] (1)所述的系统对所述的手机取证数据进行数据预处理以获取处理后手机取证数据、所述的虚拟身份信息和该手机取证数据中包括的对象;
[0017] (2)所述的系统解析并还原所述的处理后手机取证数据,以获取同一对象完整的数据行为;
[0018] (3)所述的系统对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,获取归并后虚拟身份信息,并根据所述的处理后手机取证数据获取该处理后手机取证数据中包含的社交关系;
[0019] (4)所述的系统根据所述的社交关系获取初始训练样本;
[0020] (5)所述的系统根据所述的初始训练样本获取最终训练样本;
[0021] (6)所述的系统训练所述的最终训练样本训练以获取社交关系预测模型;
[0022] (7)所述的系统通过所述的泛化模块对所获取的社交关系预测模型进行泛化,以预测另一未知社交关系。
[0023] 较佳地,所述的步骤(1)中的数据预处理,具体为:
[0024] 所述的系统通过所述的数据预处理模块对所述的手机取证数据进行预处理,剔除所述的手机取证数据中的脏数据,获取所述的处理后手机取证数据,该数据预处理模块还从所述的处理后手机取证数据中获取所述的虚拟身份信息和该手机取证数据中包括的对象,所述的脏数据包括人工录入错误数据和非法值。
[0025] 较佳地,所述的步骤(2)中的解析并还原数据行为,具体为:
[0026] 所述的系统通过所述的数据分析模块解析并还原所述的处理后手机取证数据,以获取所述的数据行为,并关联同一对象的数据行为以获取该对象的完整数据行为。
[0027] 较佳地,所述的步骤(3)中的对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,具体为:
[0028] 所述的系统通过所述的虚拟身份信息串并处理模块对所述的虚拟身份信息进行归并处理并获取所述的处理后手机取证数据中包括的社交关系。
[0029] 较佳地,所述的步骤(4)之前还包括以下步骤:
[0030] (4.0)所述的系统通过所述的社交关系紧密度衡量评价模块对所述的步骤(3)中获取的社交关系进行紧密度计算。
[0031] 较佳地,所述的步骤(4)中的系统获取所述的初始训练样本,具体为:
[0032] 所述的系统根据所述的社交关系,并通过所述的训练样本获取模块获取所述的初始训练样本。
[0033] 较佳地,所述的步骤(5)中的最终训练样本的获取,具体为:
[0034] 所述的系统通过所述的层次聚类模块获取所述的最终训练样本,所述的层次聚类模块通过所述的初始训练样本中的共同好友数量占好友总数的比率CFR、平均通话次数、平均通话时长和平均信息交互次数进行层次聚类运算,结合人工干预,确定所述的处理后手机取证数据的最终社交关系类,获取所述的最终训练样本。
[0035] 较佳地,所述的步骤(6)中的系统获取社交关系预测模型,具体为:
[0036] 所述的系统通过所述的模型训练模块实现对所述的最终训练样本的训练,以获取所述的社交关系预测模型。
[0037] 采用了该种基于手机取证数据的社交关系预测系统及其方法,由于其以手机取证数据为基础,利用多个模块共同作用,先确定训练样本,再对训练样本进行训练、运用机器学习等技术得到可泛化应用的社交关系预测模型,精准的度量自然人之间的社交关系给予相关分析人员强有力的决策支撑,从通讯行为等多个维度设计衡量社交关系的指标,能够确保社交关系描述的准确性、精确性,且所获得的社交关系预测模型具有较强的泛化及扩展能力,易部署,能够快速的支持决策人员的分析工作。

附图说明

[0038] 图1为本发明的基于手机取证数据的社交关系预测系统的方法的流程图。
[0039] 图2为本发明的基于手机取证数据的社交关系预测系统的方法的处理流程概要。
[0040] 图3为本发明的基于手机取证数据的社交关系预测系统的初步训练样本示意图。
[0041] 图4为本发明的基于手机取证数据的社交关系预测系统的最终训练样本。
[0042] 图5为本发明的基于手机取证数据的社交关系预测系统的不同社交关系间的层次聚类过程。

具体实施方式

[0043] 为了更好的说明本发明的技术内容,特举以下具体实施例来进一步说明。
[0044] 该基于手机取证数据的社交关系预测系统,其主要特点是,所述的系统包括依次连接的数据预处理模块、数据分析模块、虚拟身份信息串并处理模块、训练样本获取模块、层次聚类模块、模型训练模块和泛化模块。
[0045] 所述的数据预处理模块用以实现对手机取证数据的预处理,获取处理后手机取证数据,并从所述的处理后手机取证数据中获取虚拟身份信息。
[0046] 所述的数据分析模块包括多个不同的数据解析协议,用以对所述的处理后手机取证数据进行解析和还原,以获取该处理后手机取证数据中的数据行为信息,并对其获取的数据行为信息进行关联。
[0047] 所述的虚拟身份信息串并处理模块用以对所述的手机取证数据中包含的虚拟身份信息进行串并处理、获取该手机取证数据中包含的社交关系。
[0048] 所述的训练样本获取模块用以根据所述的社交关系和所述的手机取证数据获取初始训练样本。
[0049] 所述的层次聚类模块用以对所述的初始训练样本进行层次聚类运算,以合并所述的社交关系中包含的冗余关系类,确定最终关系类,以获取最终训练样本。
[0050] 所述的模型训练模块用以实现对所述的最终训练样本的训练,以获取社交关系预测模型,且所述的模型训练模块包括一支持向量机算法SVM模块。
[0051] 所述的泛化模块用以对所述的社交关系预测模型进行泛化,以获取一适用于未知社交关系预测的社交关系预测分析模型。
[0052] 且所述的系统还包括一社交关系紧密度衡量评价模块,所述的社交关系紧密度衡量评价模块用以对该模块内输入的所述的社交关系进行紧密度评价指标的统一管理。
[0053] 请参阅图1,该利用以上所述的系统实现基于手机取证数据的社交关系预测方法,其主要特点是,所述的方法包括以下步骤:
[0054] (1)所述的系统获取手机取证数据并对所述的手机取证数据进行数据预处理以获取处理后手机取证数据、所述的虚拟身份信息和该手机取证数据中包括的对象,其中,所述的数据处理具体为:
[0055] 所述的系统通过所述的数据预处理模块对所述的手机取证数据进行预处理,剔除所述的手机取证数据中的脏数据,获取所述的处理后手机取证数据,该数据预处理模块还从所述的处理后手机取证数据中获取所述的虚拟身份信息和对象,所述的脏数据包括人工录入错误数据和非法值;
[0056] (2)所述的系统解析并还原所述的处理后手机取证数据中,以获取同一对象完整的数据行为,其中,所述的解析并还原数据行为,具体为:
[0057] 所述的系统通过所述的数据分析模块解析并还原所述的处理后手机取证数据,以获取所述的数据行为,并关联同一对象的数据行为以获取该对象的完整数据行为;
[0058] (3)所述的系统对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,并根据所述的处理后手机取证数据,获取归并后虚拟身份信息,以获取该处理后手机取证数据中包含的社交关系,其中,所述的对所述的处理后手机取证数据中包含的虚拟身份信息进行归并处理,具体为:
[0059] 所述的系统通过所述的虚拟身份信息串并处理模块对所述的虚拟身份信息进行归并处理,并获取所述的处理后手机取证数据中包括的社交关系;
[0060] (4.0)所述的系统通过所述的社交关系紧密度衡量评价模块对所述的步骤(3)中获取的社交关系进行紧密度计算。
[0061] (4)所述的系统根据所述的社交关系获取初始训练样本,其中,所述的系统获取所述的初始训练样本,具体为:
[0062] 所述的系统根据所述的社交关系,并通过所述的训练样本获取模块获取所述的初始训练样本;
[0063] (5)所述的系统根据所述的初始训练样本获取最终训练样本,其中,所述的最终训练样本的获取,具体为:
[0064] 所述的系统通过所述的层次聚类模块获取所述的最终训练样本,所述的层次聚类模块通过所述的初始训练样本的共同好友数量占好友总数的比率CFR、平均通话次数、平均通话时长和平均信息交互次数进行层次聚类训练,结合人工干预,确定所述的处理后手机取证数据的最终社交关系类,获取所述的最终训练样本;
[0065] (6)所述的系统训练所述的最终训练样本训练以获取社交关系预测模型,其中,所述的系统获取社交关系预测模型,具体为:
[0066] 所述的系统通过所述的模型训练模块实现对所述的最终训练样本的训练,以获取所述的社交关系预测模型;
[0067] (7)所述的系统通过所述的泛化模块对所获取的社交关系预测模型进行泛化,以预测另一未知社交关系。
[0068] 在一种具体的实施例中,本发明的基于手机取证数据的社交关系预测系统及其方法包括以下步骤:
[0069] (1)通过对虚拟身份信息的识别、串并联处理,确定可疑的“同一用户”,并建立基于手机取证数据的人际关系网络;
[0070] (2)采用中文分词、自然语言处理等方法提取通联网络中的分组信息,建立初步训练样本;
[0071] (3)通过共同好友数量占好友总数的比率CFR、平均通话次数、平均通话时长及平均信息交互次数四个特征,利用系统聚类算法对训练样本进行聚类,结合人工干预合并训练样本,从而消除通联分组信息的冗余,避免大量类的出现,获取最终训练样本;
[0072] (4)具有复杂决策边界建模能力的支持向量机(Support Vector Machine,SVM)对所获取的最终训练样本进行训练,得到适用于人际关系预测的分类模型;
[0073] (5)对所得的适用于人际关系预测的分类模型进行泛化、使适用于未知人际关系的预测。
[0074] 请参阅图2,在一种具体的实施例中,所述的系统首先对其获取到的手机取证数据进行细致的数据清洗及相应的预处理,剔除原始采集数据中的人工录入错误数据、非法值等脏数据;在此基础上,按不同的数据协议,对数据行为进行解析还原,并关联该手机取证数据中包括的某一对象的不同的数据行为,形成一个关于该对象的完整的数据行为。
[0075] 其次,为能够更加精准的进行关系分析,本发明借助虚拟身份串并等手段,对数据包中手机号,邮箱等虚拟身份信息进行归并处理,从而避免同一对象的不同虚拟身份信息数据冗余对分析结果的干扰;然后,从多个维度设计衡量社交关系紧密度的评价指标,并构建社交关系网络并得到初始的训练样本。本发明的数据对象中存在大量自定义社交关系信息即冗余类,为消除冗余类,得到最终的训练样本。
[0076] 请参阅图3,在一种具体的实施例中,所述的系统在所述的虚拟身份信息串并处理模块获取所述的社交关系后,通过一社会关系刻画指标设计来获取初始训练样本。
[0077] 请参阅图5,在一种具体的实施例中,该系统采用层次聚类算法,以及有效的人工干预,以确定最终的关系类,从而形成最终训练样本。且该系统通过多分类支持向量机算法SVM对获取的最终训练样本进行反复的迭代训练,进而得到社交关系预测的分类模型。最后将该模型进行泛化应用,进行未知社交关系的预测。
[0078] 采用了该种基于手机取证数据的社交关系预测系统及其方法,由于其以手机取证数据为基础,利用多个模块共同作用,先确定训练样本,再对训练样本进行训练、运用机器学习等技术,得到可泛化应用的社交关系预测模型,精准的度量自然人之间的社交关系给予相关分析人员强有力的决策支撑,从通讯行为等多个维度设计衡量社交关系的指标,能够确保社交关系描述的准确性、精确性,且所获得的社交关系预测模型具有较强的泛化及扩展能力,易部署,能够快速的支持决策人员的分析工作。
[0079] 在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。