会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / 一种基于枸杞质量决策树的数据挖掘方法

一种基于枸杞质量决策树的数据挖掘方法

阅读:1050发布:2020-12-12

IPRDB可以提供一种基于枸杞质量决策树的数据挖掘方法专利检索,专利查询,专利分析的服务。并且一种基于枸杞质量决策树的数据挖掘方法,基于决策树的数据挖掘方法包括:步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;步骤二,基于真实数据构建决策树;步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。优点在于:自动从枸杞质量数据库以及其它数据采集系统中提取数据;消除人为对数据的干预,使得数据使用能够如实掌握与种植及质量相关的信息;从定量和定性两个方面掌握有关指标的分布以及影响因素;提供对枸杞质量进行分类预测,辅助枸杞质量分析报告的制定。,下面是一种基于枸杞质量决策树的数据挖掘方法专利的具体信息内容。

1.一种基于枸杞质量决策树的数据挖掘方法,其特征在于:基于决策树的数据挖掘方法包括:步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;

步骤二,基于真实数据构建决策树;

步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;

步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。

2.根据权利要求1所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:基于真实数据构建决策树的过程包括:根据真实数据的元素特征确定其归属的数据类型,根据数据类型为决策树上的节点分配对应的变量;建立该变量与地址之间的对应关系,在地址中存放数据类型对应的真实数据。

3.根据权利要求2所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:所述根据所述数据类型为决策树上的节点分配对应的变量的过程包括:数据类型分组之间的差异最大的原则将真实数据进行切分,每次切分的真实数据分配一个变量,并对应分配一个节点。

4.根据权利要求1所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:步骤一,包括对数据统计分析;采用多元回归统计分析方法,其处理过程为:分为三个阶段:搜集数据、分析数据和进行推理。

5.根据权利要求1所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:步骤二,通过递归分割的过程来构建决策树。

6.根据权利要求1所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:决策树构建:(1)寻找初始分裂,将训练集作为产生决策树的集合,将训练集好的记录分类;以属性域作为分类指标;

(2)决策树增长到一棵完整的树,重复(1),直至每个叶节点内的记录都属于同一类;

(3)数据的修剪,去掉噪音或者异常的数据;

(4)关联规则。

7.根据权利要求6所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量;停止分割的条件:一个节点上的数据都是属于同一个类别。

8.根据权利要求6所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性,其形式为:X1∧…∧XnY[C,S],表示由X1∧…∧Xn可以预测Y,其中可信度为C,支持度为S。

9.根据权利要求8所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则;基于规则中处理的变量的类别为数值型;数值型关联规则和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中包含种类变量;在多层的关联规则中,对数据的多层性已经进行了充分的考虑。

10.根据权利要求1所述的一种基于枸杞质量决策树的数据挖掘方法,其特征在于:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;归一化的目标函数的形式为y=ax2+bx+ex+c。

说明书全文

一种基于枸杞质量决策树的数据挖掘方法

技术领域

[0001] 本发明涉及一种挖掘效率高,解决异质数据集的数据挖掘问题的基于枸杞质量决策树的数据挖掘方法。

背景技术

[0002] 现有的枸杞的数据量正以成倍的速度增长,数据库的容量已经达到了上万亿字节的水平,这些数据在很大程度上都是闲置在数据库中的冗余数据,在这些大量数据的背后隐藏了很多具有决策意义的信息,要想对这些看似“无用的”数据进行查询、检索、提取然后转换成有用的辅助决策信息就显得尤为重要。
[0003] 数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。现有数据挖掘的方法计算量普遍较大,面对大数据量的数据源时经常出现反应慢,效率低的问题。
[0004] 随着知识爆炸,如何组合和挖掘异质数据库成为了一个研究难点,也成为了当前一个研究热点。通常,收集和获取各种数据集特别是异质数据集是容易的,但如何从异质数据集中进行知识发现却是困难的。首先,如何定义异质是一个很困难的问题,这导致在异质数据集中进行知识发现也很困难。其次,即使针对有定义的异质数据集,如何在此数据集中进行知识发现(例如,关联规则挖掘)也不是一个容易的问题。由于主(客)户数据库通常被不同的用户基于不同的数据模型独立设计的,而且不同的用户对自己所处理的数据库采用各自的视点和表达方式,使得它们之间存在一定的差异和冲突,导致异质数据集的数据挖掘非常困难。

发明内容

[0005] 本发明的目的在于提供一种挖掘效率高,解决异质数据集的数据挖掘问题的基于枸杞质量决策树的数据挖掘方法。
[0006] 为解决上述技术问题,本发明通过下述技术方案得以解决:一种基于枸杞质量决策树的数据挖掘方法,基于决策树的数据挖掘方法包括:
[0007] 步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;
[0008] 步骤二,基于真实数据构建决策树;
[0009] 步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
[0010] 步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。
[0011] 一种基于枸杞质量决策树的数据挖掘方法,基于真实数据构建决策树的过程包括:根据真实数据的元素特征确定其归属的数据类型,根据数据类型为决策树上的节点分配对应的变量;建立该变量与地址之间的对应关系,在地址中存放数据类型对应的真实数据。
[0012] 进一步的,所述根据所述数据类型为决策树上的节点分配对应的变量的过程包括:数据类型分组之间的差异最大的原则将真实数据进行切分,每次切分的真实数据分配一个变量,并对应分配一个节点。
[0013] 进一步的,步骤一,包括对数据统计分析;采用多元回归统计分析方法,其处理过程为:分为三个阶段:搜集数据、分析数据和进行推理。
[0014] 进一步的,步骤二,通过递归分割的过程来构建决策树。
[0015] 进一步的,决策树构建:(1)寻找初始分裂,将训练集作为产生决策树的集合,将训练集好的记录分类;以属性域作为分类指标;
[0016] (2)决策树增长到一棵完整的树,重复(1),直至每个叶节点内的记录都属于同一类;
[0017] (3)数据的修剪,去掉噪音或者异常的数据;
[0018] (4)关联规则。
[0019] 进一步的,记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量;停止分割的条件:一个节点上的数据都是属于同一个类别。
[0020] 进一步的,规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性,其形式为:X1∧…∧XnY[C,S],表示由X1∧…∧Xn可以预测Y,其中可信度为C,支持度为S。
[0021] 进一步的,给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则;基于规则中处理的变量的类别为数值型;数值型关联规则和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中包含种类变量;在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
[0022] 进一步的,将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;归一化的目标函数的形式为y=ax2+bx+ex+c。
[0023] 本发明的有益之处在于:一是:通过优化数据处理流程,显著提高了对于大数据量的数据挖掘的处理速度;二是:自动从枸杞质量数据库以及其它数据采集系统中提取数据,减少人工操作量和时间;消除人为对数据的干预,使得数据使用能够如实掌握与种植及质量相关的信息;能够按照不同口径汇总分析数据,从定量和定性两个方面掌握有关指标的分布以及影响因素;提供对枸杞质量进行分类预测,辅助枸杞质量分析报告的制定。

附图说明

[0024] 图1为本发明的步骤示意图。

具体实施方式

[0025] 下面将结合本发明实施例中的附图1,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0026] 实施例1,参照图1,一种基于枸杞质量决策树的数据挖掘方法,基于决策树的数据挖掘方法包括:
[0027] 步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;
[0028] 步骤二,基于真实数据构建决策树;
[0029] 步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
[0030] 步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。
[0031] 一种基于枸杞质量决策树的数据挖掘方法,基于真实数据构建决策树的过程包括:根据真实数据的元素特征确定其归属的数据类型,根据数据类型为决策树上的节点分配对应的变量;建立该变量与地址之间的对应关系,在地址中存放数据类型对应的真实数据。
[0032] 一种基于枸杞质量决策树的数据挖掘方法,所述根据所述数据类型为决策树上的节点分配对应的变量的过程包括:数据类型分组之间的差异最大的原则将真实数据进行切分,每次切分的真实数据分配一个变量,并对应分配一个节点。
[0033] 一种基于枸杞质量决策树的数据挖掘方法,步骤一,包括对数据统计分析;采用多元回归统计分析方法,其处理过程为:分为三个阶段:搜集数据、分析数据和进行推理。
[0034] 一种基于枸杞质量决策树的数据挖掘方法,步骤二,通过递归分割的过程来构建决策树。
[0035] 一种基于枸杞质量决策树的数据挖掘方法,决策树构建:(1)寻找初始分裂,将训练集作为产生决策树的集合,将训练集好的记录分类;以属性域作为分类指标;
[0036] (2)决策树增长到一棵完整的树,重复(1),直至每个叶节点内的记录都属于同一类;
[0037] (3)数据的修剪,去掉噪音或者异常的数据;
[0038] (4)关联规则。
[0039] 一种基于枸杞质量决策树的数据挖掘方法,所有的数据都在根节点;属性都是种类字段;所有记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量;停止分割的条件:一个节点上的数据都是属于同一个类别;没有属性可以再用于对数据进行分割。
[0040] 一种基于枸杞质量决策树的数据挖掘方法,规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性,其形式为:X1∧…∧XnY[C,S],表示由X1∧…∧Xn可以预测Y,其中可信度为C,支持度为S。
[0041] 一种基于枸杞质量决策树的数据挖掘方法,给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则;基于规则中处理的变量的类别为数值型;数值型关联规则和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中包含种类变量;在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
[0042] 一种基于枸杞质量决策树的数据挖掘方法,数据的修剪,去掉一些可能是噪音或者异常的数据。其基本算法为:开始时,所有的数据都在根节点;属性都是种类字段(如果是连续的,将其离散化);所有记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量。停止分割的条件:一个节点上的数据都是属于同一个类别;没有属性可以再用于对数据进行分割。
[0043] 伪代码(Building Tree)为:Procedure BuildTree(S){
[0044] 用数据集S初始化根节点R
[0045] 用根结点R初始化队列Q
[0046] While Q is not Empty do{
[0047] 取出队列Q中的第一个节点N
[0048] if N不纯(Pure){
[0049] for每一个属性A
[0050] 估计该节点在A上的信息增益
[0051] 选出最佳的属性,将N分裂为N1、N2}}}
[0052] 属性选择的统计度量为:信息增益——Information gain(ID3/C4.5),所有属性假设都是种类字段,经过修改之后可以适用于数值字段;基尼指数——Gini index(IBM Intelligent Miner),能够适用于种类和数值字段。
[0053] (4)关联规则(correlation rules)
[0054] 规则反映了数据项中某些属性或数据集中某些数据项之间的统计相关性,其一般形式为:X1∧…∧XnY[C,S],表示由X1∧…∧Xn可以预测Y,其中可信度为C,支持度为S。设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且TíI。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果XíT,那么称交易T包含X。一个关联规则是形如 的蕴涵式,这里 并且 规则 在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support 即[0055]
[0056] 规则 在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence 即
[0057]
[0058] 给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
[0059] 基于规则中处理的变量的类别为数值型。数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。在多层的关联规则中,对数据的多层性已经进行了充分的考虑。在多维的关联规则中,要处理的数据将会涉及多个维。利用Agrawa算法,
[0060] 1)找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频集(Frequent Itemset)。
[0061] 2)使用第1步找到的频集产生期望的规则。
[0062] 这里的第2步相对简单一点。如给定了一个频集Y=I1I2...Ik,k3 2,Ij∈I,产生只包含集合{I1,I2,...,Ik}中的项的所有规则(最多k条),其中每一条规则的右部只有一项,(即形如[Y-Ii] "1£i£k)。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。对于规则右部含两个以上项的规则,在其以后的工作中进行了研究。为了生成所有频集,使用了递推的方法。其核心思想如下:
[0063] L1={large 1-itemsets};
[0064] for(k=2;Lk-11 F;k++)
[0065] {Ck=apriori-gen(Lk-1);//新的候选集
[0066] for all transactions
[0067] {Ct=subset(Ck,t);//事务t中包含的候选集
[0068] for(all candidates  Ct)
[0069] c.count++;}
[0070]
[0071]
[0072] 首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk。
[0073] 实施例2,参照图1,一种基于枸杞质量决策树的数据挖掘方法,其特征在于,基于决策树的数据挖掘方法包括:
[0074] 步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;
[0075] 步骤二,基于真实数据构建决策树;
[0076] 步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
[0077] 步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。
[0078] 一种基于枸杞质量决策树的数据挖掘方法,基于真实数据构建决策树的过程包括:根据真实数据的元素特征确定其归属的数据类型,根据数据类型为决策树上的节点分配对应的变量;建立该变量与地址之间的对应关系,在地址中存放数据类型对应的真实数据。
[0079] 一种基于枸杞质量决策树的数据挖掘方法,所述根据所述数据类型为决策树上的节点分配对应的变量的过程包括:数据类型分组之间的差异最大的原则将真实数据进行切分,每次切分的真实数据分配一个变量,并对应分配一个节点。
[0080] 一种基于枸杞质量决策树的数据挖掘方法,将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;归一化的目标函2 x
数的形式为y=ax+bx+e+c。根据数据归一化的结果,从决策树中选取相应决策。
[0081] 一种基于枸杞质量决策树的数据挖掘方法,通过优化数据处理流程,显著提高了对于大数据量的数据挖掘的处理速度。
[0082] 实施例3,参照图1,一种基于枸杞质量决策树的数据挖掘方法,其特征在于,基于决策树的数据挖掘方法包括:
[0083] 步骤一,对汇总的枸杞质量数据统计分析,获得真实数据;
[0084] 步骤二,基于真实数据构建决策树;
[0085] 步骤三,数据归一化:将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
[0086] 步骤四,结果判断:根据数据归一化的结果,从决策树中选取相应决策。
[0087] 一种基于枸杞质量决策树的数据挖掘方法,基于真实数据构建决策树的过程包括:根据真实数据的元素特征确定其归属的数据类型,根据数据类型为决策树上的节点分配对应的变量;建立该变量与地址之间的对应关系,在地址中存放数据类型对应的真实数据。
[0088] 一种基于枸杞质量决策树的数据挖掘方法,所述根据所述数据类型为决策树上的节点分配对应的变量的过程包括:数据类型分组之间的差异最大的原则将真实数据进行切分,每次切分的真实数据分配一个变量,并对应分配一个节点。
[0089] 一种基于枸杞质量决策树的数据挖掘方法,数据归一化将目标数据集合内的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;原始位置标记采用三维数据组的形式,三个维度的数据分别为数据绝对位置、与上一个数据的相对位置、与下一个数据的相对位置;归一化的目标函数的形式为y=ax3+bx2+tan(x/lnx)。
[0090] 一种基于枸杞质量决策树的数据挖掘方法,通过优化数据处理流程,显著提高了对于大数据量的数据挖掘的处理速度。
[0091] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明,因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用