一种多源异构公安大数据智能对接引擎系统转让专利

申请号 : CN202111019291.5

文献号 : CN113468163B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘宇王胤然彭艳兵沙阳阳

申请人 : 南京烽火星空通信发展有限公司

摘要 :

本发明公开了一种多源异构公安大数据智能对接引擎系统,属于互联网信息技术领域,本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要网络连通,即可实现数据的源源不断流动;另外内部采用Spring Cloud微服务框架进行服务治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实时监控各采集服务的运行状态,实现并发采集服务的可视监控;任务之间均采用松耦合架构,并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集成过程均是流程化自动控制执行的。

权利要求 :

1.一种多源异构公安大数据智能对接引擎系统,其特征在于:包含多源数据库接入模块、数据采集模块、分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模块;

其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池化高效管理;

数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并且自动执行采集SQL和过滤条件;

其中,Spring Cloud:微服务开发和治理框架;

XML:扩展标记语言;

SQL:结构化查询语言;

分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照BPEL流程标准化定义描述,解析流程定义脚本,支持定时循环、多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统kafka,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;

其中,flink:开源流处理框架;

spring Cloud:微服务开发和治理框架;

kafka:分布式发布订阅消息系统;

BPEL:业务流程执行语;

数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;

目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库;

对异常数据进行数据转换及数据清洗,具体包含如下步骤:步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记录;

步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打分,也基于统计数据;

步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;

步骤4,数据归一化:利用基于图划分的优化算法对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息;

基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤;

其中,实体关系图构建,具体如下,通过遍历集合中的任意两个实体,计算两个实体之间的相似度,通过仅保留相似度高的实体相似度,作为实体关系图中边保留;

实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了实体的名称、属性以及上下文信息三方面对特征信息,采用以下的公式计算两个实体之间的相似度;

sim(e1,e2)=w1×sim(e1.N,e2.N)+w2×sim(e1.P,e2.P)+w3×sim(e1.T,e2.T)式中sim(e1.N,e2.N)表示实体名称的相似度,sim(e1.P,e2.P)表示实体属性的相似度,sim(e1.T,e2.T)表示实体上下文的相似度,w1、w2、w3分别代表了三者对应的权重;

互斥关系的发现具体通过两种方式:一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;

二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一步对等价实体集合进行划分;

图划分算法,具体如下:

将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点之间有紧密的连接,而在两个社区间则连接稀疏;

其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:

式中,C表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot表示社区C内部连接边以及与社区C相连的外部边的权重和,m为网络中边的总数,Fast Unfolding:基于模块度对社区划分的算法。

2.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:所述多源数据库接入模块采用Druid多数据源连接池动态管理技术实现对异构数据源的无缝连接。

3.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:所述异常数据包含冗余型数据、差异型数据、冲突型数据和错误型数据。

4.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:以等价实体关系和互斥的实体为输入,根据模块度Q的增量大小ΔQ去挑选下一个进行处理的实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:输入:等价实体关系图、有互斥关系的实体对;

输出:若干等价实体关系图;

步骤(1),初始化,将每一个节点都划分为一个独立的社区;

步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值ΔQ,取值最大的ΔQ;

步骤(3),判断ΔQ是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;

其中,Similarity:相似性;

步骤(4),重复步骤(2)和步骤(3),直到ΔQ不能再增大;

步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;

步骤(6),重复步骤(2)和步骤(3),直到ΔQ不能再增大;

步骤(7),单个社区中所有实体认为是同一集合,返回所有社区,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关系图中的模块度不断增大,当模块度不能增加时停止迭代,得到若干个等价实体集合。

说明书 :

一种多源异构公安大数据智能对接引擎系统

技术领域

[0001] 本发明涉互联网信息技术领域,尤其涉及一种多源异构公安大数据智能对接引擎系统。

背景技术

[0002] 社会万象,公安业务场景纷多,由此导致公安数据种类多、数据量大,大规模公安大数据的关联和交叉,数据特征和现实需求都发生了变化。以大规模、多源异构、跨领域、跨
媒体、动态演化、普适化为主要特征的数据发挥着更重要的作用,相应的数据存储、分析和
理解也面临着重大挑战。特别是需要研究如何利用数据的关联、交叉和融合实现公安大数
据的价值最大化。
[0003] 公安大数据感知融合的实质是为获取高品质知识和线索,最大程度地发挥公安大数据的价值而提出,其重要性是毋庸置疑的。但是,作为一个多警种、跨领域的研究问题,传
统的仅依赖分布式架构的多元异构数据融合方法已经远远无法适应当前公安大数据的感
知与融合要求,迫切需要新的研究方法和技术向新的深度和广度拓展,做到大跨度、深层次
融合。为了响应公安对于大数据感知融合体系“一中心、多平台、泛感知、异融合”的要求,本
项目实现了分布式多源异构数据智能对接引擎技术。

发明内容

[0004] 本发明所要解决的技术问题是针对背景技术的不足提供一种多源异构公安大数据智能对接引擎系统,其解决了公安领域资源信息种类过多,导致标隹订不及、类合不拢、
治理搞不定的问题,实现了公安领域异构数据大融合,极大促进全警平台一体化建设。
[0005] 本发明为解决上述技术问题采用以下技术方案:
[0006] 一种多源异构公安大数据智能对接引擎系统,包含多源数据库接入模块、数据采集模块、
[0007] 分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模块;
[0008] 其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的
[0009] 数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池
化高效管理;
[0010] 数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、
采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并
且自动执行采集SQL和过滤条件;
[0011] 其中,Spring Cloud:微服务开发和治理框架;
[0012] XML:扩展标记语言;
[0013] SQL:结构化查询语言;
[0014] 分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照 BPEL 流程标准化定义描述,解析流程定义脚本,支持定时循环、
多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统 
KAFKA,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松
耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;
[0015] 其中,Flink:开源流处理框架;
[0016] spring Cloud:微服务开发和治理框架;
[0017] kafka:分布式发布订阅消息系统;
[0018] BPEL :业务流程执行语;
[0019] 数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;
[0020] 目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库;
[0021] 对异常数据进行数据转换及数据清洗,具体包含如下步骤:
[0022] 步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记
录;
[0023] 步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打分,
也基于统计数据;
[0024] 步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;
[0025] 步骤4,数据归一化:利用基于图划分的优化算法对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息;
[0026] 基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤;
[0027] 其中,实体关系图构建,具体如下,通过遍历集合中的任意两个实体,计算两个实体之
[0028] 间的相似度,通过仅保留相似度高的实体相似度,作为实体关系图中边保留;
[0029] 实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了
[0030] 实体的名称、 属性以及上下文信息三方面对特征信息,采用以下的公式计算两个实体之间的相似度;
[0031]
[0032] 式中   表示实体名称的相似度, 表示实体属性的相似度,
[0033] 表示实体上下文的相似度,w1、ω2、ω3 分别代表了三者对应的权重;
[0034] 互斥关系的发现具体通过两种方式:
[0035] 一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;
[0036] 二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一
步对等价实体集合进行划分;
[0037] 图划分算法,具体如下:
[0038] 将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点
之间有紧密的连接,而在两个社区间则连接稀疏;
[0039] 其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:
[0040]
[0041] 式中, m 为网络中边的总数,C 表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot 表示社区  C内部连接边以及与社区C相连的外部边的权重和,Fast 
Unfolding:基于模块度对社区划分的算法。
[0042] 作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,所述多源数据库接入模块采用采用 Druid多数据源连接池动态管理技术实现对异构数据源的
无缝连接。
[0043] 作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,所述异常数
[0044] 据包含冗余型数据、差异型数据、冲突型数据和错误型数据。
[0045] 作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,以等价实体关系和互斥的实体为输入,根据模块度 Q的增量大小∆Q 去挑选下一个进行处理的
实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:
[0046] 输入:等价实体关系图、有互斥关系的实体对;
[0047] 输出:若干等价实体关系图;
[0048] 步骤(1),初始化,将每一个节点都划分为一个独立的社区;
[0049] 步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值  ∆Q ,取值最大的∆Q ;
[0050] 步骤(3),判断  ∆Q 是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如
果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;
[0051] 步骤(4),重复步骤(2)和步骤(3),直到  ∆Q不能再增大;
[0052] 步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;
[0053] 步骤(6),重复步骤(2)和步骤(3),直到  ∆Q 不能再增大;
[0054] 步骤(7),单个社区中所有实体认为是同一集合,返回所有社区,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关系图中的模块度不断增
大,当模块度不能增加时停止迭代,得到若干个等价实体集合。
[0055] 本发明采用以上技术方案与现有技术相比,具有以下技术效果:
[0056] 1、本发明一种多源异构公安大数据智能对接引擎系统,解决了公安领域资源信息种类过多,导致标隹订不及、类合不拢、治理搞不定的问题,实现了公安领域异构数据大融
合,极大促进全警平台一体化建设;
[0057] 2、本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要
网络连通,即实现数据的源源不断流动;另外内部采用 Spring Cloud 微服务框架进行服
务治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实
时监控各采集服务的运行状态,实现并发采集服务的可视监控;任务之间均采用松耦合架
构,并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集
成过程均是流程化自动控制执行的。

附图说明

[0058] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一
些实施例,对于本领域普通技术人员来讲,根据这些附图获得其他的附图。
[0059] 图1是本发明一种多源异构公安大数据智能对接引擎系统整体结构框图;
[0060] 图2是本发明异常数据清理方法流程框图。

具体实施方式

[0061] 下面结合附图对本发明的技术方案做进一步的详细说明:
[0062] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描
[0063] 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其
他实施例,都属于本发明保护的范围。
[0064] 为了解决公安领域数据的复杂性、异构性,推进全警信息化、一体化建设,真正让数据
[0065] 发挥能量,基于多源异构公安大数据智能对接引擎系统已在多个省份实践应用。在某省厅建设公安大数据平台建设过程中使用本系统完成900多类,3万亿条,近34PB数据
量的汇聚。本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,
能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要网
络连通,即实现数据的源源不断流动;另外内部采用 Spring Cloud 微服务框架进行服务
治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实时
监控各采集服务的运行状态,实现并发采集服务的可视监控。任务之间均采用松耦合架构,
并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集成过
程均是流程化自动控制执行的。
[0066] 一种多源异构公安大数据智能对接引擎系统,如图1所示,包含多源数据库接入模块、数据采集模块、分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模
块;
[0067] 其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现
对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池化高
效管理;
[0068] 数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、
采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并
且自动执行采集SQL和过滤条件;
[0069] 其中,Spring Cloud:微服务开发和治理框架;
[0070] XML:扩展标记语言;
[0071] SQL:结构化查询语言;具体算法伪代码如下所示。
[0072] 〈 xml version = "1.0" encoding=”UTF‑8”〉
[0073]  〈config〉
[0074] 〈ruletype〉
[0075] extract / /表示该规则为数据采集规则
[0076] 〈/ruletype〉
[0077] 〈extracttype〉
[0078] increse / /表示增量采集,
[0079] all 表示全量采集
[0080] 〈/ extracttype〉
[0081] 〈mainsql〉
[0082] / /核心语句
[0083] select  A.case,A.bh,A.zhhm,B.name from  ajhz  A,jbxx
[0084] B where A.zjhm = B.gmsfhm
[0085] 〈/ mainsql〉
[0086] 〈conditions〉
[0087] / / conditions表示条件集合
[0088] 〈c〉/ / c 标记表示条件
[0089] rtime= 159004578
[0090] 〈/ c〉
[0091] 〈c〉
[0092] bh  < 1000
[0093] 〈/ c〉
[0094] …
[0095] 〈/ conditions〉
[0096] 〈executemethod〉
[0097] / /定义采集的主方法
[0098] extractmethod
[0099] 〈/ executemethod〉
[0100] 〈tasktime〉
[0101] / /定时任务cron的表达式
[0102] 00 08***/ /每天 08: 00 执行任务
[0103] 〈/ tasktime〉
[0104] … 。
[0105] 分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照 BPEL 流程标准化定义描述,解析流程定义脚本,支持定时循环、
多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统 
KAFKA,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松
耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;
[0106] 其中,Flink:开源流处理框架;
[0107] spring Cloud:微服务开发和治理框架;
[0108] kafka:分布式发布订阅消息系统;
[0109] BPEL :业务流程执行语;
[0110] 数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;
[0111] 目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库。
[0112] 所述多源数据库接入模块采用采用 Druid多数据源连接池动态管理技术实现对异构数据源的无缝连接。
[0113] 在公安领域的大数据域中异常数据主要有冗余型数据、差异型数据、冲突型数据和错误型数据。
[0114] ①冗余型数据。即对于同一个实体描述名称不同,比如不同,科信、治安获取了重点人常驻地址,分别命名为“上海路268号”或“上海路‑268”。
[0115] ②差异型数据。不同厂商上报过来的的数据格式不一样,A厂商上报登录时间格式“YYYY. MM. DD”,B厂商上报“XX年XX月XX 日”。
[0116] ③冲突型数据。由于获情手段不同,导致部分数据发生冲突,比如同一类型的某单兵设备测量得到位置、速度信息不一致。
[0117] ④错误型数据。由于人为或环境因素导致采集到的有些数据存在明显错误。比如,某重点人在本市内活动但其手机IMSI信息已在国外。
[0118] 对异常数据进行数据转换及数据清洗,如图2所示,具体包含如下步骤:
[0119] 步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记
录;
[0120] 步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度等,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打
分,也基于统计数据;
[0121] 步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;比如,通过出生年月推断出年龄;通过户籍迁入、迁出时间字段确定户籍变更时间等;
[0122] 步骤4,数据归一化:主要考虑实体识别问题,需对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息等,比如,将“平均速度”
“平均时速”“行驶速度”等统一为“平均速度”,将“千米/小时”“米/秒” “马赫”速度单位统
一为“千米/小时”。数据归一化的过程中利用本系统提出的基于图划分的优化算法。
[0123] 在步骤4中,基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤。
[0124] 实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了实体的名称、属性以及上下文信息等三方面对特征信息,采用以下的公式计算两个
实体之间的相似度;
[0125]
[0126] 式中   表示实体名称的相似度, 表示实体属性的相似度,
[0127] 表示实体上下文的相似度,w1、ω2、ω3 分别代表了三者对应的权重。
[0128] 互斥关系的发现具体通过两种方式:
[0129] 一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;
[0130] 二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一
步对等价实体集合进行划分。
[0131] 图划分算法,具体如下:
[0132] 将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点
之间有紧密的连接,而在两个社区间则连接稀疏;
[0133] 其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:
[0134]
[0135] 式中, m 为网络中边的总数,C 表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot 表示社区  C内部连接边以及与社区C相连的外部边的权重和,Fast 
Unfolding:基于模块度对社区划分的算法。
[0136] 作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,以等价实体关系和互斥的实体为输入,根据模块度 Q的增量大小∆Q 去挑选下一个进行处理的
实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:
[0137] 输入:等价实体关系图、有互斥关系的实体对;
[0138] 输出:若干等价实体关系图;
[0139] 步骤(1),初始化,将每一个节点都划分为一个独立的社区;
[0140] 步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值  ∆Q ,取值最大的∆Q ;
[0141] 步骤(3),判断  ∆Q 是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如
果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;
[0142] 步骤(4),重复步骤(2)和步骤(3),直到  ∆Q不能再增大;
[0143] 步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;
[0144] 步骤(6),重复步骤(2)和步骤(3),直到  ∆Q 不能再增大;
[0145] 步骤(7),单个社区中所有实体认为是同一集合,返回所有社区通过上述迭代算法的过程,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关
系图中的模块度不断增大,当模块度不能增加时停止迭代,得到若干个等价实体集合。