基于关联规则提取的海量数据处理系统、设备及方法转让专利

申请号 : CN201210320078.2

文献号 : CN103678314B

文献日 : 2017-07-25

本发明提出了基于关联规则提取的海量数据处理系统、设备和方法。其中，所述系统包括关联规则信息提取装置、关联参数信息记录表存储装置、数据处理服务器、第一数据库、第二数据库和参数表存储装置，所述关联规则信息提取装置周期性地从所述第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表。本发明所公开的基于关联规则提取的海量数据处理系统、设备和方法既能够使参数表的记录数较少又能够使系统具有高的参数解析性能。

1.一种基于关联规则提取的海量数据处理系统，所述基于关联规则提取的海量数据处理系统包括：

第一数据库，所述第一数据库用于存储已处理的数据记录；

参数表存储装置，所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则；

关联规则信息提取装置，所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置，其中，每个发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；

关联参数信息记录表存储装置，所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表；

数据处理服务器，所述数据处理服务器用于执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中；

第二数据库，所述第二数据库用于存储所述未处理的数据记录。

2.根据权利要求1所述的基于关联规则提取的海量数据处理系统，其特征在于，所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录，并统计每个数据记录在所有所述多个参数表中的对应匹配记录，并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。

3.根据权利要求2所述的基于关联规则提取的海量数据处理系统，其特征在于，所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作，所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。

4.根据权利要求3所述的基于关联规则提取的海量数据处理系统，其特征在于，所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。

5.根据权利要求4所述的基于关联规则提取的海量数据处理系统，其特征在于，所述系统包括多个参数表，参数表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且其中，各个参数表之间通过关联键而相互关联。

6.根据权利要求5所述的基于关联规则提取的海量数据处理系统，其特征在于，所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且该记录由发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成。

7.根据权利要求6所述的基于关联规则提取的海量数据处理系统，其特征在于，通过周期性地从所述第一数据库读取当前周期的数据记录，所述关联规则信息提取装置能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持。

8.根据权利要求7所述的基于关联规则提取的海量数据处理系统，其特征在于，所述数据处理服务器进一步包括：

预处理模块，所述预处理模块用于执行内存装载预处理操作，其中，所述内存装载预处理操作包括：(1)从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则；(2)通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配，检查所述关联参数信息记录表的有效性，并且如果所述关联参数信息记录表有效，则将其加载入内存以供数据处理模块后续使用，而如果所述关联参数信息记录表失效，则不对其进行加载；

数据处理模块，所述数据处理模块用于周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中。

9.根据权利要求8所述的基于关联规则提取的海量数据处理系统，其特征在于，所述数据处理模块进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息。

10.一种关联规则信息提取装置，所述关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，其中，每个发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；

其中，所述第一数据库用于存储已处理的数据记录；

其中，所述已处理的数据记录由如下方式获得：与所述关联规则信息提取装置相关联的外部数据处理服务器周期性地从第二数据库读取出当前周期的未处理的数据，以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中。

11.一种数据处理服务器，所述数据处理服务器执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库中；

其中，以如下方式获得所述关联参数信息记录表：从所述第一数据库读取当前周期的数据记录，并统计每个数据记录在所有所述多个参数表中的对应匹配记录，并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表；

其中，所述数据处理服务器在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息。

12.一种基于关联规则提取的海量数据处理方法，所述基于关联规则提取的海量数据处理方法包括下列步骤：

(A1)关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储，其中，每个发生概率超过预定阈值的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；

(A2)数据处理服务器执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库中。

基于关联规则提取的海量数据处理系统、设备及方法

技术领域

[0001] 本发明涉及数据处理系统、设备及方法，更具体地，涉及基于关联规则提取的海量数据处理系统、设备及方法。

背景技术

[0002] 目前，随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富，海量数据的处理（例如金融交易数据的处理）变得越来越重要。

[0003] 在现有的海量数据的处理系统及方法中，通常使用和依赖多个参数表（其包含大量参数信息）来协助处理数据（例如执行金融交易数据的清算操作）。一般而言，现有的海量数据的处理系统及方法通过如下两种方式完成参数表的设计与解析：（1）参数表的个数尽可能少，以保证系统参数的解析性能；（2）参数表个数较多，并依赖各个参数表之间的关联关系进行数据的处理。

[0004] 然而，现有的海量数据的处理系统及方法存在如下问题：（1）针对第一种方式，由于参数表的决定要素太多，故各个决定要素取值关系组合后参数表的记录数极大，由此带来极大的空间需求，从而该方式对数据处理复杂程度较高的系统而言是不现实的，此外，在使用该方式的情况下，进行参数配置的工作量极大；（2）针对第二种方式，由于参数表的决定要素较少，故各个决定要素取值关系组合后参数表的记录数较少，但解析过程中需要依赖参数表之间的关联关系进行处理，从而导致解析性能较差。

[0005] 因此，存在如下需求：提供既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。

发明内容

[0006] 为了解决上述现有技术方案中所存在的问题，本发明提出了既能够使参数表的记录数较少又能够具有高的参数解析性能的海量数据处理系统、设备及方法。

[0007] 本发明的目的是通过以下技术方案实现的：

[0008] 一种基于关联规则提取的海量数据处理系统，所述基于关联规则提取的海量数据处理系统包括：

[0009] 第一数据库，所述第一数据库用于存储已处理的数据记录；

[0010] 参数表存储装置，所述参数表存储装置用于存储多个参数表以及所述多个参数表之间的关联规则；

[0011] 关联规则信息提取装置，所述关联规则信息提取装置用于周期性地从所述第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置，其中，每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；

[0012] 关联参数信息记录表存储装置，所述关联参数信息记录表存储装置用于存储接收到的关联参数信息记录表；

[0013] 数据处理服务器，所述数据处理服务器用于执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中；

[0014] 第二数据库，所述第二数据库用于存储所述未处理的数据记录。

[0015] 在上面所公开的方案中，优选地，所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录，并统计每个数据记录在所有所述多个参数表中的对应匹配记录，并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。

[0016] 在上面所公开的方案中，优选地，所述关联规则信息提取装置进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作，所述预处理操作包括中间数据清理、当前处理周期属性对应的关联参数信息记录表数据清理操作。

[0017] 在上面所公开的方案中，优选地，所述关联参数信息记录表中的各个记录是所述多个参数表集合中满足所述多个参数表之间的关联规则的关联参数信息的集合。

[0018] 在上面所公开的方案中，优选地，所述系统包括多个参数表，参数表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且其中，各个参数表之间通过关联键而相互关联。

[0019] 在上面所公开的方案中，优选地，所述关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且该记录由发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成。

[0020] 在上面所公开的方案中，优选地，通过周期性地从所述第一数据库读取当前周期的数据记录，所述关联规则信息提取装置能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持。

[0021] 在上面所公开的方案中，优选地，所述数据处理服务器进一步包括：

[0022] 预处理模块，所述预处理模块用于执行内存装载预处理操作，其中，所述内存装载预处理操作包括：（1）从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则；（2）通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配，检查所述关联参数信息记录表的有效性，并且如果所述关联参数信息记录表有效，则将其加载入内存以供数据处理模块8后续使用，而如果所述关联参数信息记录表失效，则不对其进行加载；

[0023] 数据处理模块，所述数据处理模块用于周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中。

[0024] 在上面所公开的方案中，优选地，所述数据处理模块进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息。

[0025] 本发明的目的还可以通过以下技术方案实现：

[0026] 一种关联规则信息提取装置，所述关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，其中，每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。

[0027] 本发明的目的还可以通过以下技术方案实现：

[0028] 一种数据处理服务器，所述数据处理服务器执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库中。

[0029] 本发明的目的还可以通过以下技术方案实现：

[0030] 一种基于关联规则提取的海量数据处理方法，所述基于关联规则提取的海量数据处理方法包括下列步骤：

[0031] （A1）关联规则信息提取装置周期性地从第一数据库读取当前周期的数据记录，并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储，其中，每个发生概率较高的数据所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；

[0032] （A2）数据处理服务器执行内存装载预处理操作，并随后周期性地从第二数据库读取出当前周期的未处理的数据，以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库中

[0033] 本发明所公开的基于关联规则提取的海量数据处理系统、设备及方法具有如下优点：既允许在使用基于关联规则的多表设计（所需的空间开销较小），也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果（即多个数据表记录的乘运算和加运算的结合），从而提高了系统的处理性能，此外，本发明所公开的基于关联规则提取的海量数据处理系统及方法能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持。

附图说明

[0034] 结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

[0035] 图1是根据本发明的实施例的基于关联规则提取的海量数据处理系统的示意性结构图；

[0036] 图2是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的多个参数表之间的结构关系的示意图；

[0037] 图3是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的关联参数信息记录的结构关系的示意图；

[0038] 图4是根据本发明的实施例的基于关联规则提取的海量数据处理方法的流程图。

具体实施方式

[0039] 图1是根据本发明的实施例的基于关联规则提取的海量数据处理系统的示意性结构图。如图1所示，本发明所公开的基于关联规则提取的海量数据处理系统包括关联规则信息提取装置1、关联参数信息记录表存储装置2、数据处理服务器3、第一数据库4、第二数据库5和参数表存储装置6。其中，所述第一数据库4用于存储已处理的数据记录（示例性地，所述数据记录是交易数据记录）。所述参数表存储装置6用于存储多个参数表以及所述多个参数表之间的关联规则。所述关联规则信息提取装置1用于周期性地（例如每日）从所述第一数据库4读取当前周期的数据记录（例如读取当日的交易数据），并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置2，其中，每个发生概率较高的数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。所述关联参数信息记录表存储装置2用于存储接收到的关联参数信息记录表。所述数据处理服务器3用于执行内存装载预处理操作，并随后周期性地（例如每日）从第二数据库5读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库4中。所述第二数据库5用于存储所述未处理的数据记录（例如未处理的金融交易数据记录）。

[0040] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述关联规则信息提取装置1从所述第一数据库4读取当前周期的数据记录（例如读取当日的交易数据），并统计每个数据记录在所有所述多个参数表中的对应匹配记录（例如特定组合的次数），并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。

[0041] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述关联规则信息提取装置1进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作，示例性地，所述预处理操作包括中间数据清理、当前处理周期（例如当前处理日）属性对应的关联参数信息记录表数据清理操作等。

[0042] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述关联参数信息记录表中的各个记录是所述多个参数表（即原始各参数表）集合中满足所述多个参数表之间的关联规则（最小支持度和最小置信度）的关联参数信息的集合。

[0043] 图2是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的多个参数表之间的结构关系的示意图。如图2所示，本发明所公开的基于关联规则提取的海量数据处理系统包括多个参数表，参数表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且其中，各个参数表之间通过关联键而相互关联（即各个参数表之间通过关联规则而相互关联）。

[0044] 图3是根据本发明的实施例的基于关联规则提取的海量数据处理系统中的关联参数信息记录的结构关系的示意图。如图3所示，关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且该记录由发生概率较高的数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）所对应的至少一个参数表的所有决定要素和决定结果构成（即其可以是多个参数表的所有决定要素合并后的一张大表）。

[0045] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，通过周期性地（例如每日）从所述第一数据库4读取当前周期的数据记录（即通过周期性地用当前周期的数据记录进行训练），所述关联规则信息提取装置1能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持（即提供针对当前数据的处理规则）。

[0046] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述数据处理服务器3进一步包括预处理模块7和数据处理模块8。所述预处理模块7用于执行内存装载预处理操作（为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效），其中，所述内存装载预处理操作包括：（1）从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则（即多参数表/大参数量集合）；（2）通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配，检查所述关联参数信息记录表的有效性，并且如果所述关联参数信息记录表有效，则将其加载入内存以供数据处理模块8后续使用，而如果所述关联参数信息记录表失效，则不对其进行加载。所述数据处理模块8用于周期性地（例如每日）从第二数据库5读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库4中。

[0047] 优选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述数据处理模块8进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息（即不再按常规的参数处理路径继续处理，从而实现高概率数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）的最短路径处理）。

[0048] 可选地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述关联规则信息提取装置1、关联参数信息记录表存储装置2、数据处理服务器3、第一数据库4、第二数据库5和参数表存储装置6中的一个或多个可以是独立的物理实体，也可以位于同一物理实体中。

[0049] 示例性地，在本发明所公开的基于关联规则提取的海量数据处理系统中，所述预处理模块7在T+1日进行内存装载时使用T日的关联参数信息记录表来决定内存中的参数信息结构，并且在T+1日系统进行数据处理时根据内存中参数信息结构区分参数解析策略，以及系统处理结束后再生成T+1日的已处理数据记录并反馈给关联规则信息提取装置1以生成T+1日的关联参数信息记录表，即其是自适应的循环过程。

[0050] 由上可见，本发明所公开的基于关联规则提取的海量数据处理系统既允许在使用基于关联规则的多表设计（所需的空间开销较小），也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果（即多个数据表记录的乘运算和加运算的结合），从而提高了系统的处理性能，此外，本发明所公开的基于关联规则提取的海量数据处理系统能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持。

[0051] 如图1所示，本发明公开了关联规则信息提取装置1，所述关联规则信息提取装置1周期性地（例如每日）从第一数据库4读取当前周期的数据记录（例如读取当日的交易数据），并基于所读取出的当前周期的数据记录和多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，其中，每个发生概率较高的数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录。

[0052] 优选地，本发明所公开的关联规则信息提取装置1从所述第一数据库4读取当前周期的数据记录（例如读取当日的交易数据），并统计每个数据记录在所有所述多个参数表中的对应匹配记录（例如特定组合的次数），并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。

[0053] 优选地，本发明所公开的关联规则信息提取装置1进一步用于在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作，示例性地，所述预处理操作包括中间数据清理、当前处理周期（例如当前处理日）属性对应的关联参数信息记录表数据清理操作等。

[0054] 优选地，在本发明所公开的关联规则信息提取装置中，所述关联参数信息记录表中的各个记录是所述多个参数表（即原始各参数表）集合中满足所述多个参数表之间的关联规则（最小支持度和最小置信度）的关联参数信息的集合

[0055] 优选地，通过周期性地（例如每日）从所述第一数据库4读取当前周期的数据记录（即通过周期性地用当前周期的数据记录进行训练），本发明所公开的关联规则信息提取装置1能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持（即提供针对当前数据的处理规则）。

[0056] 如图1所示，本发明公开了数据处理服务器3，所述数据处理服务器3执行内存装载预处理操作，并随后周期性地（例如每日）从第二数据库5读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于关联参数信息记录表和/或多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库4中。

[0057] 优选地，本发明所公开的数据处理服务器3进一步包括预处理模块7和数据处理模块8。所述预处理模块7用于执行内存装载预处理操作（为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效），其中，所述内存装载预处理操作包括：（1）从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则（即多参数表/大参数量集合）；（2）通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配，检查所述关联参数信息记录表的有效性，并且如果所述关联参数信息记录表有效，则将其加载入内存以供数据处理模块8后续使用，而如果所述关联参数信息记录表失效，则不对其进行加载。所述数据处理模块8用于周期性地（例如每日）从第二数据库5读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库4中。

[0058] 优选地，在本发明所公开的数据处理服务器3中，所述数据处理模块8进一步用于在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息（即不再按常规的参数处理路径继续处理，从而实现高概率数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）的最短路径处理）。

[0059] 图4是根据本发明的实施例的基于关联规则提取的海量数据处理方法的流程图。如图4所示，本发明所公开的基于关联规则提取的海量数据处理方法包括下列步骤：（A1）关联规则信息提取装置周期性地（例如每日）从第一数据库读取当前周期的数据记录（例如读取当日的交易数据），并基于所读取出的当前周期的数据记录和所述多个参数表及其之间的关联规则执行统计分析操作以获得关联参数信息记录表，并将所述关联参数信息记录表传送到关联参数信息记录表存储装置以进行存储，其中，每个发生概率较高的数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）所对应的至少一个参数表的所有决定要素和决定结果构成所述关联参数信息记录表中的对应的一个记录；（A2）数据处理服务器执行内存装载预处理操作，并随后周期性地（例如每日）从第二数据库读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在第一数据库中。

[0060] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述步骤（A1）进一步包括：所述关联规则信息提取装置从所述第一数据库读取当前周期的数据记录（例如读取当日的交易数据），并统计每个数据记录在所有所述多个参数表中的对应匹配记录（例如特定组合的次数），并基于统计结果采用预定的数据挖掘和关联规则算法获得所述关联参数信息记录表。

[0061] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述步骤（A1）进一步包括：所述关联规则信息提取装置在执行与所述关联参数信息记录表的生成相关的操作前执行预处理操作，示例性地，所述预处理操作包括中间数据清理、当前处理周期（例如当前处理日）属性对应的关联参数信息记录表数据清理操作等。

[0062] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述关联参数信息记录表中的各个记录是所述多个参数表（即原始各参数表）集合中满足所述多个参数表之间的关联规则（最小支持度和最小置信度）的关联参数信息的集合。

[0063] 如图2所示，本发明所公开的基于关联规则提取的海量数据处理方法使用多个参数表，参数表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且其中，各个参数表之间通过关联键而相互关联（即各个参数表之间通过关联规则而相互关联）。

[0064] 如图3所示，在本发明所公开的基于关联规则提取的海量数据处理方法，关联参数信息记录表中的每个记录由至少一个决定要素和至少一个决定结果构成，并且该记录由发生概率较高的数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）所对应的至少一个参数表的所有决定要素和决定结果构成（即其可以是多个参数表的所有决定要素合并后的一张大表）。

[0065] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，通过周期性地（例如每日）从所述第一数据库读取当前周期的数据记录（即通过周期性地用当前周期的数据记录进行训练），所述关联规则信息提取装置能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持（即提供针对当前数据的处理规则）。

[0066] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述步骤（A2）进一步包括：所述数据处理服务器执行内存装载预处理操作（为了避免所述多个参数表及其关联规则的改变造成的关联参数信息记录表的失效），包括：（1）从所述参数表存储装置加载所述多个参数表以及所述多个参数表之间的关联规则（即多参数表/大参数量集合）；（2）通过读取所述关联参数信息记录表中的每一条记录并在当前所使用的所述多个参数表中对其进行有效性匹配，检查所述关联参数信息记录表的有效性，并且如果所述关联参数信息记录表有效，则将其加载入内存以供后续使用，而如果所述关联参数信息记录表失效，则不对其进行加载。所述步骤（A2）进一步包括：所述数据处理服务器周期性地（例如每日）从第二数据库读取出当前周期的未处理的数据（例如读取出当日未处理的数据），以及基于所述关联参数信息记录表和/或所述多个参数表及其之间的关联规则处理所读取出的未处理的数据记录，并将已处理的数据记录存储在所述第一数据库中。

[0067] 优选地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述步骤（A2）进一步包括：所述数据处理服务器在处理数据记录时根据数据记录属性在内存中进行参数解析，并且如果发现当前匹配的参数记录中带有后续的关联信息记录，则直接获取参数决定结果中的所有信息（即不再按常规的参数处理路径继续处理，从而实现高概率数据（即统计学意义上发生次数较多的事件所对应的数据，换句话说，即发生概率超过预定阈值的数据）的最短路径处理）。

[0068] 示例性地，在本发明所公开的基于关联规则提取的海量数据处理方法中，所述数据处理服务器在T+1日进行内存装载时使用T日的关联参数信息记录表来决定内存中的参数信息结构，并且在T+1日系统进行数据处理时根据内存中参数信息结构区分参数解析策略，以及系统处理结束后再生成T+1日的已处理数据记录并反馈给关联规则信息提取装置以生成T+1日的关联参数信息记录表，即其是自适应的循环过程。

[0069] 由上可见，本发明所公开的基于关联规则提取的海量数据处理方法既允许在使用基于关联规则的多表设计（所需的空间开销较小），也能够对发生概率较高的数据记录在参数解析过程中依赖先前的关联规则结果（即多个数据表记录的乘运算和加运算的结合），从而提高了数据处理性能，此外，本发明所公开的基于关联规则提取的海量数据处理方法能够自适应地获得先前数据的处理经验，从而为后续数据处理提供决策支持。

[0070] 尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

基于关联规则提取的海量数据处理系统、设备及方法转让专利

申请号 : CN201210320078.2

文献号 : CN103678314B

文献日 : 2017-07-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 冯哲 , 张工厂

申请人 : 中国银联股份有限公司

摘要 :

权利要求 :

说明书 :