基于大数据挖掘的模糊共站分析方法及其分析系统转让专利

申请号 : CN201911314576.4

文献号 : CN110990722B

文献日 : 2020-11-06

本发明提供一种基于大数据挖掘的模糊共站分析方法，属于大数据挖掘技术领域。该方法包括对邻近站点的位置泛同一化；获取已知社团成员的轨迹并做预处理；根据已知社团成员的轨迹，获取可能存在共站的可能的其他人的轨迹数据，并进行相应的预处理；将社团成员和其他人的轨迹数据合并后按时间排序；定义单次两个轨迹点的共站强度；汇总共站强度，确定潜在的社团成员。本发明的有益效果是，本发明通过各个站点上传的，人进入站点监控区域的时间、站点坐标，站点名称等属性，和已知的社团成员的轨迹，寻找那些与社团成员在近似相同时间出现在近似相同地点的人。

1.一种基于大数据挖掘的模糊共站分析方法，其特征在于，包括以下步骤：

S1：邻近站点位置泛同一化，由于站点分布具有偏向性以及数据采集机制，将站点标签数据作如下定义：以某个站点a为例，在其半径r以内的所有站点，包括a本身，记为f(a)，称为a的泛同一站点；

S2：获取社团成员名单；

S3：获取社团成员的轨迹并做预处理；

S4：根据已知社团成员的轨迹，获取可能存在与之共站的其他人的轨迹数据，并进行相应的预处理；

S5：将社团成员和其他人的轨迹合并后按时间排序；

S6：定义单次共站强度；共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性；

S7：消除数据倾斜，汇总共站强度；

S8：确定疑似社团成员，进一步核实和更新社团成员名单。

2.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法，其特征在于，所述步骤S3中，对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录，若出现相同的记录，则保留时间较早的那一条记录。

3.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法，其特征在于，所述步骤S4中，在S3的基础上，获取每条记录的时间和对应的地点，从所有站点采集数据中找出和社团成员的站点数据，同一站点，时间上下浮动和同一时间，地点在泛同一站点的出现的所有人员名单，找出这些人的站点采集数据，并对这些数据按照步骤S3中按同样的方式处理。

4.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法，其特征在于，所述步骤S6中，定义单次共站的强度，这里所述共站，即如果某社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0。

5.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法，其特征在于，所述步骤S7具体包括：消除权重的差异带来的倾斜，所谓权重的差异带来的倾斜，即如果某个人的轨迹出现多次，则更有可能会使得他与其他人的共站强度会高，消除倾斜的方法是，共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两人站点数据量的和则是为了统一不同共站对象之间的数据量不等的问题。

6.一种基于大数据挖掘的模糊共站分析系统，其特征在于，包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、数据预处理模块、模糊共站匹配模块、共站强度计算模块、疑似社团成员存储模块；

所述社团成员名单存储模块，记录着已经证实的社团成员名单和相应的基本信息；

所述站点基本信息存储模块，记录着各采集站点的经纬度、站点名称等基本信息；

所述站点采集数据存储模块，保存着各个站点实时上传的采集身份的数据，一条数据包括如下属性，身份，时间，站点经纬度，一条记录意味着某人在该时间该站点附近出现；由于站点采集装置的不同，以及不同地点空旷程度不同，甚至天气影响，不同站点的采集装置覆盖半径不同，这会导致对人行踪采集片面的问题；于是需要对站点进行同一化、对站点采集数据去重和保留关键时间点的数据来强调人的行踪，以此来提升模型的泛化能力；

所述数据预处理模块，包括两部分：(1)邻近站点位置泛同一化；以某个站点a，在其半径r以内的所有站点，包括a本身，记为f(a)，称为a的泛站点；(2)站点采集数据预处理：对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录，若出现相同的记录，则保留时间较早的那一条记录；

所述模糊共站匹配模块，抽取所有人的站点采集数据，对每个站点的泛站点数据按数据实际发生的时间进行排序；

所述共站强度计算模块，(1)定义单次共站强度：如果某社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0；对于距离的考量同理，但是由于采集点是离散的，所以强度关于距离的函数是间断函数；(2)消除数据倾斜，汇总共站强度：由于各方面因素，不同的人的站点数据量可能相差很多，所以，应对的方案是共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两者数据量的和则是统一不同共站对象之间的数据量不等的问题。

基于大数据挖掘的模糊共站分析方法及其分析系统

技术领域

[0001] 本发明涉及大数据挖掘领域，更具体地说，是一种基于大数据挖掘的模糊共站分析方法及其分析系统。

背景技术

[0002] 社团发现已经有很长的研究历史，并且在不同的学科有不同的形式。它与图论和计算机学科中的图分割和社会网络中的层次聚类的思想联系密切。

[0003] 图分割是并行计算领域研究的重要问题。假设有n个能够通信的计算处理器(处理区并不是要与其他所有的处理器相互通信)。据此可以建立一个网络，其中节点代表处理器，节点之间的边把相互通信的两个节点链接在一起。并行计算要解决的问题是为每个节点分配数量相同的任务，并且使得节点之间的通信最少，也就是使边数数量尽可能少的问题。

[0004] 分层聚类是寻找社会网络中的社团结构的一类传统算法，这种算法是社会科学家在研究社会网络时提出的发现社会网络中社团结构的方法。它是基于各个节点之间连接的相似性或者强度，把网络自然的分为若干个子群。根据向网络中新增边还是删减边，该算法又分为两类：凝聚算法(agglomerative method)和分裂算法(divisive method)。

[0005] Giran和Newman提出了一种新的基于边移除的算法称为GN算法。GN算法寻找处于社团之间的边，然后移除这些边，从而找出网络中的社团。

[0006] 上述的GN算法，每移除一条边后都要重新计算边的介，这就使得此算法的复杂度较高。为此，出现了很多基于GN算法的优化。这些算法很多都是从改进边的度量以高算法的执行速度。例如Tyler算法和Radicchi算法。并且还引出了一类优化模块度Q的算法。

[0007] 除了上述的算法，还有一些基于其他思想的算法。例如，在已知社团数目的前提下，Wu和Huberman提出了一种基于电阻网络电压谱的快速分割算法，这种算法不但可以发现网络中的社团，而且还能在不考虑社团结构的前提下，寻找一个节点所在的整个社团，这是很多算法无法实现的。

[0008] 考虑到本场景的特殊性，在社团成员出现的分布未知，而且存在大量缺失数据，导致不同研究个体之间数据量严重失衡，并且在无法构建边的前提下，考虑模糊匹配，利用概率论中的贝叶斯和极大似然的思想，通过构建共站强度这一统计量，用以刻画与已知的社团成员之间联系紧密，暨属于同一社团的可能性。

发明内容

[0009] 本发明实施例的目的在于提供一种基于大数据挖掘的模糊共站分析方法，旨在通过对大数据进行分析计算，找到潜在的社团成员。

[0010] 为了实现上述目的，本发明的技术方案如下：

[0011] S1：邻近站点位置泛同一化；

[0012] S2：获取社团成员名单；

[0013] S3：获取社团成员的轨迹并做预处理；

[0014] S4：根据已知社团成员的轨迹，获取可能存在与之共站的其他人的轨迹数据，并进行相应的预处理；

[0015] S5：将社团成员和其他人的轨迹合并后按时间排序；

[0016] S6：定义单次共站强度；共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性；

[0017] S7：消除数据倾斜，汇总共站强度；

[0018] S8：确定疑似社团成员，进一步核实和更新社团成员名单；

[0019] 优选地，所述步骤S1中，由于站点分布具有偏向性以及数据采集机制，将站点标签数据作如下定义：以某个站点a为例，在其半径r以内的所有站点，包括a本身，记为f(a)，称为a的泛同一站点。

[0020] 优选地，所述步骤S3中，对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录，若出现相同的记录，则保留时间较早的那一条记录。

[0021] 优选地，所述步骤S4中，在S3的基础上，获取每条记录的时间和对应的地点，从所有站点采集数据中找出和社团成员的站点数据，同一站点，时间上下浮动和同一时间，地点在泛同一站点的出现的所有人员名单，找出这些人的站点采集数据，并对这些数据按照步骤S3中按同样的方式处理。

[0022] 优选地，所述步骤S6中，定义单次共站的强度，这里所述共站，即如果某社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0。这里所述共站，即同时出现在某处，考虑到不同时间，不同地点同时出现在某处的意义不一样，所以引入共站强度:两个人a,b分别在时刻和出现地点pi的泛同一站点pa,i和pb,i，则此时两人在地点pi的共站强度记为：

[0023]

[0024] 其中表示a出现在pi的泛同一站点的时间，表示b出现在pi的泛同一站点的时间，S(pa,i,pb,i)表示pa,i和pb,i这两点之间的距离。

[0025] 优选地，所述步骤S7具体包括：消除权重的差异带来的倾斜，所谓权重的差异带来的倾斜，即如果某个人的轨迹出现多次，则更有可能会使得该他与其他人的共站强度会高，消除倾斜的方法是，共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两人站点数据量的和则是为了统一不同共站对象之间的数据量不等的问题。

[0026] 本发明同时提供一种基于大数据挖掘的模糊共站分析系统，包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、数据预处理模块、模糊共站匹配模块、共站强度计算模块、疑似社团成员存储模块；

[0027] 所述社团成员名单存储模块，记录着已经证实的社团成员名单和相应的基本信息；

[0028] 所述站点基本信息存储模块，记录着各采集站点的经纬度、站点名称等基本信息；

[0029] 所述站点采集数据存储模块，保存着各个站点实时上传的采集身份的数据，一条数据包括如下属性，身份，时间，站点经纬度，一条记录意味着某人在该时间该站点附近出现；由于站点采集装置的不同，以及不同地点空旷程度不同，甚至天气影响，不同站点的采集装置覆盖半径不同，这会导致对人行踪采集片面的问题；于是需要对站点进行同一化、对站点采集数据去重和保留关键时间点的数据来强调人的行踪，以此来提升模型的泛化能力；

[0030] 所述数据预处理模块，包括两部分：(1)邻近站点位置泛同一化；以某个站点a，在其半径r以内的所有站点，包括a本身，记为f(a)，称为a的泛站点；(2)站点采集数据预处理：对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录，若出现相同的记录，则保留时间较早的那一条记录；

[0031] 所述模糊共站匹配模块，抽取所有人的站点采集数据，对每个站点的泛站点数据按数据实际发生的时间进行排序；

[0032] 所述共站强度计算模块，(1)定义单次共站强度：如果某社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0；对于距离的考量同理，但是由于采集点是离散的，所以强度关于距离的函数是间断函数；(2)消除数据倾斜，汇总共站强度：由于各方面因素，不同的人的站点数据量可能相差很多，所以，应对的方案是共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两者数据量的和则是统一不同共站对象之间的数据量不等的问题。

[0033] 共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性；对时间的处理，目前只考虑了相对时间，如果社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0。对于距离的考量同理，但是由于采集点是离散的，所以强度关于距离的函数是分段函数。

附图说明

[0034] 图1是本发明实施例1中方法的流程框图。

具体实施方式

[0035] 下面结合实例对本发明所述的一种基于大数据挖掘的轨迹智能匹配共站分析方法及其分析系统作进一步说明。

[0036] 以下是本发明所述的最佳实例，并不因此限定本发明的保护范围。

[0037] 实施例1

[0038] 图1示出了本发明所述的一种基于大数据挖掘的轨迹智能匹配共站分析方法，包括以下步骤：

[0039] S1：对邻近站点位置泛同一化；

[0040] S2：获取社团成员名单；

[0041] S3：获取已知社团成员的轨迹并做预处理；

[0042] 对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录(若相等，则保留时间早的那一条记录)。比如，如果一个人的站点采集数据为：

[0043]站点名称时间
p1 2019-4-12 19:22:52
p1 2019-4-12 19:25:05
p1 2019-4-12 19:28:31
p1 2019-4-12 19:28:41
p1 2019-4-12 19:28:55
p1 2019-4-12 19:29:01
p1 2019-4-12 19:30:52
p1 2019-4-12 19:31:19

[0044] ,在interval＝5(min)时，则处理后的记录为：

[0045]

[0046]

[0047] S4：根据已知社团成员的轨迹，获取可能存在共站的可能的其他人的轨迹数据，并进行相应的预处理；

[0048] 在步骤S3的处理完的数据上，获取每条记录的时间和对应的地点，从所有站点采集数据中找出和社团成员的站点数据，同一站点，时间上下浮动和同一时间，地点在泛同一站点的出现的所有人员名单，找出这些人的站点采集数据，并对这些数据步骤S3中同样的数据处理；

[0049] S5：将社团成员和其他人的轨迹数据合并后按时间排序；

[0050] S6：定义单次共站强度；

[0051] 这里所述共站，即同时出现在某处，考虑到不同时间，不同地点同时出现在某处的意义不一样，所以引入共站强度：两个人a,b分别在时刻和出现地点pi的泛同一站点pa,i和pb,i，则此时两人在地点pi的共站强度记为：

[0052]

[0053] 其中表示a出现在pi的泛同一站点的时间，表示b出现在pi的泛同一站点的时间，S(pa,i,pb,i)表示pa,i和pb,i这两点之间的距离，(如果这两点不是某个点的泛同一站点，则这两点的共站强度为0)；

[0054] 共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性；对时间的处理，目前只考虑了相对时间，如果社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0。对于距离的考量同理，但是由于采集点是离散的，所以强度关于距离的函数是分段函数；

[0055] S7：消除数据倾斜，汇总共站强度；

[0056] 消除权重的差异带来的倾斜，所谓权重的差异带来的倾斜，即如果某人的轨迹出现多次，则更有可能会使得他与其他人的共站强度会高，消除倾斜的方法是，共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两人站点数据量的和则是统一不同共站对象之间的数据量不等的问题；

[0057] S8：确定疑似社团成员，进一步核实和更新社团成员名单；

[0058] 与社团成员共站强度越高的人，越疑似社团成员。

[0059] 本发明同时提供一种基于大数据挖掘的模糊共站分析系统，包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、数据预处理模块、模糊共站匹配模块、共站强度计算模块、疑似社团成员存储模块；

[0060] 所述社团成员名单存储模块，记录着已经证实的社团成员名单和相应的基本信息；

[0061] 所述站点基本信息存储模块，记录着各采集站点的经纬度、站点名称等基本信息；

[0062] 所述站点采集数据存储模块，保存着各个站点实时上传的采集身份的数据，一条数据包括如下属性，身份，时间，站点经纬度，一条记录意味着某人在该时刻该站点附近出现。由于站点采集装置的不同，以及不同地点空旷程度不同，甚至天气影响，不同站点的采集装置覆盖半径不同，这会导致对人行踪采集片面的问题。于是需要对站点进行同一化、对站点采集数据去重和保留关键时间点的数据来强调人的行踪，以此来提升模型的泛化能力；

[0063] 所述数据预处理模块，包括两部分：(1)邻近站点位置泛同一化；以某个站点a，在其半径r以内的所有站点(包括a本身)，记为f(a)，称为a的泛站点；(2)站点采集数据预处理：对每个成员的轨迹数据，去重：在指定的时间间隔interval内，如果多次出现仅有时间不同，其他属性相同的记录，则只保留该重复记录中的第一条和最后一条记录；另外，如果重复数据持续的时间超过△t，则每隔△t，保留一条就近的记录(若相等，则保留时间早的那一条记录)；

[0064] 所述模糊共站匹配模块，抽取所有人的站点采集数据，对每个站点的泛站点数据按数据实际发生的时间进行排序；

[0065] 所述共站强度计算模块，(1)定义单次共站强度：如果某社团成员和其他人出现在同一地点的时间点相差越小，则共站强度越大，如果出现在同一地点的时间也完全一致，则两者之间单次共站强度为1；如果两者出现在同一地点的时间差超出指定阈值δ，则定义当前单次共站强度为0；对于距离的考量同理，但是由于采集点是离散的，所以强度关于距离的函数是间断函数；(2)消除数据倾斜，汇总共站强度：由于各方面因素，不同的人的站点数据量可能相差很多，所以，应对的方案是共站强度求和乘以两人的站点数据量的调和平均数，再除以两人的站点数据量的和；其中乘以调和平均数的意在处理两人之间数量不等的问题，除以两者数据量的和则是统一不同共站对象之间的数据量不等的问题。

[0066] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

基于大数据挖掘的模糊共站分析方法及其分析系统转让专利

申请号 : CN201911314576.4

文献号 : CN110990722B

文献日 : 2020-11-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 薛岭

申请人 : 南京柏跃软件有限公司

摘要 :

权利要求 :

说明书 :