面向多源异构数据融合的智能服务应用平台和方法转让专利

申请号 : CN201710193071.1

文献号 : CN107193858B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭志伟张志祥余尔坚

申请人 : 福州金瑞迪软件技术有限公司

摘要 :

本发明公开了一种面向多源异构数据融合的智能服务应用平台和方法,涉及数据融合应用领域。通过利用可视化技术实现多源异构数据采集和数据交易可定义,利用自动化技术,实现自动实时地采集与清洗多源异构数据,同时实时完成数据交易。采用可动态扩展的语义模板库,实现多源异构数据源之间语义映射,生成语义词典,实现语义清洗规则可定义,保证文本数据可在异构数据源之间语义自动转换,实现文本数据智能清洗和交易。该技术方案可以填补目前国内外非结构化多源异构数据的语义自动转换和交易这方面的空白,并且能广泛应用于国内的政府和企事业单位中,解决其存在的多源异构数据转换与交易的问题。

权利要求 :

1.一种面向多源异构数据融合的智能服务应用平台,其特征在于,包括:多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口、基于语义清洗规则进行多源异构数据清洗以及多源异构数据采集与任务调度管理;

所述多源异构数据采集与清洗组件,用于基于语义清洗规则进行多源异构数据清洗,具体为:根据语义词典WordNet、元数据描述方法RDF Schema和分类模型算法SOM,得到基于语义的相似度计算方法;

采用多策略清洗方法,得到多种语义匹配结果值,形成语义匹配结果集;

利用双向修正的融合方法,处理所述语义匹配结果集,得到数据属性相似度高的判断结果,保证数据清洗结果的正确性;

所述多源异构数据采集与清洗组件,用于多源异构数据采集与任务调度管理,具体为:基于不同类型数据源采集接口定义标准与基于语义的清洗规则,根据多源异构数据源的采集频率,实现采集任务调度管理的可视化与自动化;

异构数据结构化描述组件,用于自动初始化语义模板、定义多源异构数据结构化描述以及创建基于语义的异构数据可视化模型;

多源异构数据在线交换组件,用于定义多源异构数据实时交换接口、异构数据在线交换以及对在线交换过程进行跟踪与展现;

所述多源异构数据在线交换组件用于定义多源异构数据实时交换接口,具体为,用于构建在逻辑视图层上描述数据资源的结构和语义信息的数据模型,用于通过可视化界面定义多源异构数据实时交换接口;

所述多源异构数据在线交换组件用于异构数据在线交换,具体为,基于OGSA-DAI的异构数据交换模型,结合XML、Web Services、Grid Service和本体技术,在数据交换中引入本体来描述异构数据,利用本体对经过初步语义转换的XML Schema进行语义标记,实现异构数据交换和交换过程中的语义匹配。

2.根据权利要求1所述的面向多源异构数据融合的智能服务应用平台,其特征在于,所述多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口,具体为:应用不同类型数据源的标准规范,提供可视化界面,定义数据源采集标准接口。

3.根据权利要求1所述的面向多源异构数据融合的智能服务应用平台,其特征在于,所述异构数据结构化描述组件,用于自动初始化语义模板,具体为:借助自然语言处理和本体匹配技术从不同类型的语料库中提取语义信息,生成语义模板实例,使语义模板实例得到动态扩展。

4.根据权利要求1所述的面向多源异构数据融合的智能服务应用平台,其特征在于,所述异构数据结构化描述组件用于定义多源异构数据结构化描述,具体为:对系统生成的所述自动初始化语义模板进行人工完善,实现多源异构数据的结构化描述。

5.根据权利要求1所述的面向多源异构数据融合的智能服务应用平台,其特征在于,所述异构数据结构化描述组件用于创建基于语义的异构数据可视化模型,具体包括如下步骤:基于描述多源异构数据的语义模板实例库,借助语义学习理论,智能发现各实例之间的关联关系,采用实例组合的方式构建业务服务模型,实现异构数据特征的自动提取;具体的,利用可视化技术,通过系统界面展示自动完成模型构建、模型评价、模型选择、最优模型确定的完整建模过程;

利用构建的所述业务服务模型对语义模板实例进行修正,保证语义模板实例之间语义信息的一致性和可扩展性。

6.一种面向多源异构数据融合的智能服务应用方法,其特征在于,利用权利要求1-5任一项所述的面向多源异构数据融合的智能服务应用平台,包括如下步骤:S1,利用异构数据采集与清洗组件的数据采集接口对不同类型的源数据进行数据采集,包括结构化数据和非结构化数据;

S2,设定语义清洗规则和语义词典;

S3,按照S2设定的语义清洗规则和语义词典,对S1中采集到的数据进行数据清洗,得到清洗的源数据;

S4,对所述清洗的源数据按照修正规则进行修正,得到修正数据;

S5,将所述修正数据放入指标主题数据库,形成系统元数据;

S6,通过异构数据结构化描述组件,初始化语义模板实例,对系统元数据进行结构化描述;

S7,基于OGSA-DAI的异构数据交换模型,实现异构数据的在线交换。

说明书 :

面向多源异构数据融合的智能服务应用平台和方法

技术领域

[0001] 本发明涉及数据融合应用领域,尤其涉及一种面向多源异构数据融合的智能服务应用平台和方法。

背景技术

[0002] 目前企事业单位对数据融合的应用仅限于对标准元数据的集成与整合,很多国内外的数据融合产品也仅针对标准的元数据进行处理,无法实现“源数据”至“元数据”的处理,而该功能至少占有数据融合应用60%的工作量,这也是很多数据融合产品遇到的“瓶颈”,导致当前的数据融合产品不能为企事业单位提供所需的智能服务应用。

发明内容

[0003] 本发明的目的在于提供一种面向多源异构数据融合的智能服务应用平台和方法,从而解决现有技术中存在的前述问题。
[0004] 为了实现上述目的,本发明采用的技术方案如下:
[0005] 一种面向多源异构数据融合的智能服务应用平台,包括:
[0006] 多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口、基于语义清洗规则进行多源异构数据清洗以及多源异构数据采集与任务调度管理;
[0007] 异构数据结构化描述组件,用于自动初始化语义模板、定义多源异构数据结构化描述以及创建基于语义的异构数据可视化模型;
[0008] 多源异构数据在线交换组件,用于定义多源异构数据实时交换接口、异构数据在线交换以及对在线交换过程进行跟踪与展现。
[0009] 优选地,所述多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口,具体为:应用不同类型数据源的标准规范,提供可视化界面,定义数据源采集标准接口。
[0010] 优选地,所述多源异构数据采集与清洗组件,用于基于语义清洗规则进行多源异构数据清洗,具体包括如下步骤:
[0011] 根据语义词典WordNet、元数据描述方法RDF Schema和分类模型算法SOM,得到基于语义的相似度计算方法;
[0012] 采用多策略清洗方法,得到多种语义匹配结果值,形成语义匹配结果集;
[0013] 利用双向修正的融合方法,处理所述语义匹配结果集,得到数据属性相似度高的判断结果,保证数据清洗结果的正确性。
[0014] 优选地,所述多源异构数据采集与清洗组件,用于多源异构数据采集与任务调度管理,具体为:基于不同类型数据源采集接口定义标准与基于语义的清洗规则,根据多源异构数据源的采集频率,实现采集任务调度管理的可视化与自动化。
[0015] 优选地,所述异构数据结构化描述组件,用于自动初始化语义模板,具体为:借助自然语言处理和本体匹配技术从不同类型的语料库中提取语义信息,生成语义模板实例,使语义模板实例得到动态扩展。
[0016] 优选地,所述异构数据结构化描述组件用于定义多源异构数据结构化描述,具体为:对系统生成的所述自动初始化语义模板进行人工完善,实现多源异构数据的结构化描述。
[0017] 优选地,所述异构数据结构化描述组件用于创建基于语义的异构数据可视化模型,具体包括如下步骤:
[0018] 基于描述多源异构数据的语义模板实例库,借助语义学习理论,智能发现各实例之间的关联关系,采用实例组合的方式构建业务服务模型,实现异构数据特征的自动提取;具体的,利用可视化技术,通过系统界面展示自动完成模型构建、模型评价、模型选择、最优模型确定的完整建模过程;
[0019] 利用构建的所述业务服务模型对语义模板实例进行修正,保证语义模板实例之间语义信息的一致性和可扩展性。
[0020] 优选地,所述多源异构数据在线交换组件用于定义多源异构数据实时交换接口,具体为,用于构建在逻辑视图层上描述数据资源的结构和语义信息的数据模型,用于通过可视化界面定义多源异构数据实时交换接口。
[0021] 优选地,所述多源异构数据在线交换组件用于异构数据在线交换,具体为,基于OGSA-DAI的异构数据交换模型,结合XML、Web Services、Grid Service和本体技术,在数据交换中引入本体来描述异构数据,利用本体对经过初步语义转换的XML Schema进行语义标记,实现异构数据交换和交换过程中的语义匹配。
[0022] 一种面向多源异构数据融合的智能服务应用方法,利用上述的面向多源异构数据融合的智能服务应用平台,包括如下步骤:
[0023] S1,利用异构数据采集与清洗组件的数据采集接口对不同类型的源数据进行数据采集,包括结构化数据和非结构化数据;
[0024] S2,设定语义清洗规则和语义词典;
[0025] S3,按照S2设定的语义清洗规则和语义词典,对S1中采集到的数据进行数据清洗,得到清洗的源数据;
[0026] S4,对所述清洗的源数据按照修正规则进行修正,得到修正数据;
[0027] S5,将所述修正数据放入指标主题数据库,形成系统元数据;
[0028] S6,通过异构数据结构化描述组件,初始化语义模板实例,对系统元数据进行结构化描述;
[0029] S7,基于OGSA-DAI的异构数据交换模型,实现异构数据的在线交换。
[0030] 本发明的有益效果是:本发明实施例提供的面向多源异构数据融合的智能服务应用平台和方法,通过利用可视化技术实现多源异构数据采集和数据交易可定义,利用自动化技术,实现自动实时地采集与清洗多源异构数据,同时实时完成数据交易。采用可动态扩展的语义模板库,实现多源异构数据源之间语义映射,生成语义词典,实现语义清洗规则可定义,保证文本数据可在异构数据源之间语义自动转换,实现文本数据智能清洗和交易。该技术方案可以填补目前国内外非结构化多源异构数据的语义自动转换和交易这方面的空白,并且能广泛应用于国内的政府和企事业单位中,解决其存在的多源异构数据转换与交易的问题。

附图说明

[0031] 图1是面向多源异构数据融合的智能服务应用平台的结构示意图;
[0032] 图2是面向多源异构数据融合的智能服务应用方法的实现逻辑示意图;
[0033] 图3是面向多源异构数据融合的智能服务应用方法的流程示意图。

具体实施方式

[0034] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
[0035] 实施例一
[0036] 如图1所示,一种面向多源异构数据融合的智能服务应用平台,包括:
[0037] 多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口、基于语义清洗规则进行多源异构数据清洗以及多源异构数据采集与任务调度管理;
[0038] 异构数据结构化描述组件,用于自动初始化语义模板、定义多源异构数据结构化描述以及创建基于语义的异构数据可视化模型;
[0039] 多源异构数据在线交换组件,用于定义多源异构数据实时交换接口、异构数据在线交换以及对在线交换过程进行跟踪与展现。
[0040] 本发明提供的平台通过采用多源异构数据采集与清洗组件,实现了不同类型数据源采用标准采集接口进行数据采集,基于标准语义层数据清洗规则进行数据清洗,实现了多源异构数据的统一采集和任务调度以及数据清洗的智能化与可视化,克服了现有技术中,多源异构数据的多源性、异构性、非完整性、跨时空以及语义冲突的特性导致在使用中无法进行有效融合的缺点;
[0041] 同时,本发明提供的平台通过采用异构数据结构化描述组件,实现了异构数据的结构化描述,以及基于语义的业务建模过程的自动化,克服了现有技术中多源异构数据源的结构差异和描述差异,从而更高效的提供智能服务;
[0042] 另外,本发明提供的平台通过采用多源异构数据在线交换组件,实现了多源异构数据之间自动的语义转换,形成统一数据交换接口标准,使不同结构、不同数据管理系统中的数据能够实现程序化交易,从而满足数据交易对数据有效性、实时性、合理性的要求。
[0043] 其中,所述多源异构数据采集与清洗组件,用于定义不同类型数据源采集接口,具体为:应用不同类型数据源的标准规范,提供可视化界面,定义数据源采集标准接口。
[0044] 本发明中,所述多源异构数据采集与清洗组件,用于基于语义清洗规则进行多源异构数据清洗,具体包括如下步骤:
[0045] 根据语义词典WordNet、元数据描述方法RDF Schema和分类模型算法SOM,得到基于语义的相似度计算方法;
[0046] 采用多策略清洗方法,得到多种语义匹配结果值,形成语义匹配结果集;
[0047] 利用双向修正的融合方法,处理所述语义匹配结果集,得到数据属性相似度高的判断结果,保证数据清洗结果的正确性。
[0048] 本发明实施例中,所述多源异构数据采集与清洗组件,用于多源异构数据采集与任务调度管理,具体为:
[0049] 基于不同类型数据源采集接口定义标准与基于语义的清洗规则,根据多源异构数据源的采集频率,实现采集任务调度管理的可视化与自动化。
[0050] 本发明中,所述异构数据结构化描述组件,用于自动初始化语义模板,具体为:借助自然语言处理和本体匹配技术从不同类型的语料库中提取语义信息,生成语义模板实例,使语义模板实例得到动态扩展。
[0051] 本发明中,所述异构数据结构化描述组件用于定义多源异构数据结构化描述,具体为:对系统生成的所述自动初始化语义模板进行人工完善,实现多源异构数据的结构化描述。
[0052] 本发明中,所述异构数据结构化描述组件用于创建基于语义的异构数据可视化模型,具体包括如下步骤:
[0053] 基于描述多源异构数据的语义模板实例库,借助语义学习理论,智能发现各实例之间的关联关系,采用实例组合的方式构建业务服务模型,实现异构数据特征的自动提取;具体的,可以利用可视化技术,通过系统界面展示自动完成模型构建、模型评价、模型选择、最优模型确定的完整建模过程;
[0054] 利用构建的所述业务服务模型对语义模板实例进行修正,保证语义模板实例之间语义信息的一致性和可扩展性。
[0055] 本发明中,所述多源异构数据在线交换组件用于定义多源异构数据实时交换接口,具体为,用于构建在逻辑视图层上描述数据资源的结构和语义信息的数据模型,用于通过可视化界面定义多源异构数据实时交换接口。
[0056] 本发明实施例中,所述多源异构数据在线交换组件用于异构数据在线交换,具体为,基于OGSA-DAI的异构数据交换模型,结合XML、Web Services、Grid Service和本体技术,在数据交换中引入本体来描述异构数据,利用本体对经过初步语义转换的XML Schema进行语义标记,实现异构数据交换和交换过程中的语义匹配。
[0057] 本发明中,所述多源异构数据在线交换组件用于对在线交换过程进行跟踪与展现,具体为,该组件用于提供一个可以动态扩展的面向服务的异构数据在线交换跟踪与展示功能,让使用者不需要了解数据交换实现的技术细节,却能够对数据交换过程有个清晰的了解。
[0058] 实施例二
[0059] 如图2所示,本发明实施例提供了一种面向多源异构数据融合的智能服务应用方法,利用实施例一所述的面向多源异构数据融合的智能服务应用平台,包括如下步骤:
[0060] S1,利用异构数据采集与清洗组件的数据采集接口对不同类型的源数据进行数据采集,包括结构化数据和非结构化数据;
[0061] S2,设定语义清洗规则和语义词典;
[0062] S3,按照S2设定的语义清洗规则和语义词典,对S1中采集到的数据进行数据清洗,得到清洗的源数据;
[0063] S4,对所述清洗的源数据按照修正规则进行修正,得到修正数据;
[0064] S5,将所述修正数据放入指标主题数据库,形成系统元数据
[0065] S6,通过异构数据结构化描述组件,初始化语义模板实例,对系统元数据进行结构化描述;
[0066] S7,基于OGSA-DAI的异构数据交换模型,实现异构数据的在线交换。
[0067] 具体实施例:
[0068] 本发明实施例提供的面向多源异构数据融合的智能服务应用方法,可以按照如下步骤进行实施:
[0069] 1、通过异构数据采集与清洗组件定义采集规则库,依据规则采集不同类型的数据源(包括结构化和非结构化数据),形成“源数据资源池”;
[0070] 2、通过异构数据采集与清洗组件定义清洗规则库和语义词典,对“源数据资源池”中的数据进行清理和修正,形成“元数据资源池”;
[0071] 3、通过异构数据结构化描述组件定义指标算法库,对“元数据资源池”中的系统元数据进行计算、汇总和统计,形成“指标数据资源池”;
[0072] 4、通过异构数据结构化描述组件定义语义模板实例,对“指标数据资源池”中的指标数据进行结构化描述,形成“语义实例资源库”;
[0073] 5、通过异构数据在线交换组件定义语义匹配规则,对“语义实例资源库”中的语义实例进行语义标记和匹配,实现异构数据的在线交换;
[0074] 6、通过异构数据在线交换组件的可视化跟踪功能,实现异构数据在线交换的全过程跟踪。
[0075] 通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的面向多源异构数据融合的智能服务应用平台,通过利用可视化技术实现多源异构数据采集和数据交易可定义,利用自动化技术,实现自动实时地采集与清洗多源异构数据,同时实时完成数据交易。采用可动态扩展的语义模板库,实现多源异构数据源之间语义映射,生成语义词典,实现语义清洗规则可定义,保证文本数据可在异构数据源之间语义自动转换,实现文本数据智能清洗和交易。该技术方案可以填补目前国内外非结构化多源异构数据的语义自动转换和交易这方面的空白,并且能广泛应用于国内的政府和企事业单位中,解决其存在的多源异构数据转换与交易的问题。
[0076] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0077] 本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
[0078] 上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
[0079] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0080] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。