一种决策级文本自动分类融合方法转让专利

申请号 : CN200910087844.3

文献号 : CN101604322B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张晓丹牛振东张正施曹玉鹃徐小梅

申请人 : 北京理工大学

摘要 :

本发明涉及一种决策级文本自动分类融合方法,属于数据挖掘领域,适用于数字图书馆、网络内容监管、垃圾邮件过滤等。本发明以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果。

权利要求 :

1.一种决策级文本自动分类融合方法,其特征在于以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果;其具体实现步骤如下:第1步:对待分文档进行分词、特征提取、权重计算预处理;

第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;

第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心以及KNN分类器中;

第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;

第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;然后将分类结果发送到决策级融合中心以及贝叶斯分类器中;

第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;

第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;将分类结果发送到决策级分类融合中心;

第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。

说明书 :

一种决策级文本自动分类融合方法

技术领域

[0001] 本发明涉及一种决策级文本自动分类融合方法,属于数据挖掘领域,适用于数字图书馆、网络内容监管、垃圾邮件过滤等。

背景技术

[0002] 文本自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器,该函数或分类器能把待分文档映射到给定的相应类别中。其目标是研究分类速度更快、更准确的管理文本信息的方法。如何提高分类的准确率是目前研究的热点问题。
[0003] 决策级融合模型是信息融合领域较为经典的融合模型,其结构有串联和并联两种方式,采用特征级和决策级进行最终的决策。
[0004] 信息融合的级别是指在信息处理的哪个层次上对多传感器信息进行综合处理和分析。按照数据信息由低到高的抽象层次,可以分为像素层、特征层、决策层三个层次,信息融合的过程相应地也被分为三个级别,即像素级融合、特征级融合和决策级融合。在融合系统的研究与应用中,融合可发生在像素级、特征级和决策级三个层次上,不同的级别具有相应的方法和融合结构。像素级融合是直接在采集到的原始数据层上进行融合,也就是对各种传感器的原始数据不经过处理就直接进行综合和分析。特征级融合是指先对来自每个传感器的原始信息进行特征抽取以获得来自每个传感器的特征向量,然后对特征信息向量进行综合分析和处理。决策级融合是一种最高层次的融合,融合的结果为系统的控制决策提供依据。在融合过程中,多个传感器观测同一目标,并在本地完成预处理、特征提取、识别或判决,以获得各自初步的结论,然后通过关联分析、决策级融合判决,获得最终的联合推断结果,为决策提供直接的依据。决策级融合是三级融合的最终结果,直接关系到决策的效果,具有非常重要的作用。
[0005] 不同级别的融合通常采用不同的融合结构,但抽象出通用的结构可以分为并联融合结构和串联融合结构两种。并联融合结构是指所有的传感器信息都输入给同一个信息融合中心,在融合中心进行信息融合;串联融合结构是指先将两个传感器信息进行一次融合,再将融合结果与另一个传感器信息进行融合,依次进行下去,直到所有的传感器信息都融合完为止。
[0006] 投票算法,其核心思想是:k(k为大于1的整数)个专家判断的有效组合应该优于某个专家个人的判断。投票算法主要有两种:Bagging算法和Boosting算法。
[0007] 现有的文本自动分类技术的分类基本过程如图1所示。具体操作步骤如下:
[0008] 第1步:对待分类文件进行格式分析和内容提取,获得其纯文本内容;
[0009] 第2步:对纯文本内容进行分词及词形还原,获取最小的语义单位——词条,以及每个词条的频率信息;
[0010] 第3步:进行特征提取以及特征合并,降低向量空间的维数;
[0011] 第4步:对抽取处理的特征进行权重的计算;
[0012] 第5步:对抽取处理的特征进行向量化表示;经过向量化,将文本表示为计算机易于处理的向量形式;
[0013] 第6步:最后利用分类器进行分类,输出分类结果。
[0014] 分类算法是文本分类系统的核心,因此对分类算法的研究一直是文本分类研究的热点。目前主要研究的是提高分类器的准确率问题。
[0015] 目前常用的分类方法有很多种,有基于概率的方法,如贝叶斯方法,其原理是通过概率计算,由待分类的数据对象的属性值求出最可能的分类目标值,即计算各个类别在给定这组属性值时的条件概率,并把输出条件概率值最大的类标号作为目标值。其缺点是前提条件不容易满足;基于实例的方法,如KNN方法,其基本原理是基于实例之间的距离,对每个实例来说,如果靠近它的实例都是某个类别,那么该实例也可能是这个类别。该方法的缺点是分类效率较低;基于统计学习的方法,如SVM等。这种方法的原理从几何上说,就是要在多维空间中寻找到最佳决策面,该决策面能最好地区分正例和反例,使正例与反例之间的分类间隔最大。SVM分类器是目前最好的文本分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数。另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。
[0016] 虽然这些方法各自有各自的优势,但各自有不同的缺点,分类准确率最高在80%左右,还不能够满足实际使用的要求。
[0017] 对文本分类的结果可以从两个方面进行评价:准确性和计算复杂度。准确性衡量的是一个分类器正确分类的能力。计算复杂度则包括时间复杂度和空间复杂度。而在这两个方面之中,准确性最为重要,因为不管分类器的速度有多快,占用的空间有多小,如果它不能正确分类的话,这个分类器也是没有效果的。因此对分类的评价主要指的是准确性的评价。

发明内容

[0018] 本发明针对目前已有文本自动分类方法存在精度不高的缺点,提出一种决策级文本自动分类融合方法。本发明以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果。
[0019] 本发明是通过以下技术方案实现的。
[0020] 本发明的决策级文本自动分类融合模型如图2所示,此模型分为特征级和决策级两级:其中KNN分类器、贝叶斯分类器以及SVM分类器属于特征级;决策级融合中心属于决策级,采用投票算法来实现。各分类器之间采用串、并联相结合的方式对待分类文本进行分类,即各分类器之间既采用并联的形式对待分类文本进行分类,并将分类结果输入到决策级融合中心;又采用串联方式,即前一个分类器将分类结果输入决策级融合中心的同时,还要输入到下一个分类器,以便于参与下一个分类器做分类决策,得出分类结果,输入到决策级融合中心。
[0021] 本发明的一种决策级文本自动分类融合方法的具体操作步骤如下:
[0022] 第1步:对待分文档进行分词、特征提取、权重计算等预处理;
[0023] 第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;
[0024] 第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心以及KNN分类器中;
[0025] 第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;
[0026] 第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;然后将分类结果发送到决策级融合中心以及贝叶斯分类器中;
[0027] 第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;
[0028] 第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级分类融合中心。
[0029] 第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。
[0030] 有益效果
[0031] 1.在此融合结构模型中,不同的层次完成的功能不同。这种结构综合了串、并联融合结构的优势,且采用了分层的融合结构可以确保每个子系统独立、准确地完成本系统的局部融合分类,降低了对整个自动分类系统进行文本分类的复杂性。
[0032] 2.本发明方法不仅可以保证各个局部分类的正确性,还可以适应分类目标的改变,保证分类系统的效率及准确度。
[0033] 3.当分类系统对实时性要求较高时,通过系统的分层结构可以实现各个子系统的分别训练和学习来实现全局文本分类功能的改进,提高分类系统性能,灵活地、自适应地、高效地实现文本自动分类,提高分类准确率。

附图说明

[0034] 图1为已有技术的文本自动分类基本过程流程图;
[0035] 图2为本发明的决策级分类融合模型。

具体实施方式

[0036] 根据上述技术方案,下面结合实施例对本发明进行详细说明。
[0037] 本发明以本人实验室文本自动分类的实际项目为实验平台,以验证本发明提出的方法的有效性。基于本发明方法的系统采用JAVA开发平台,Oracle数据库。
[0038] 本实验采用本发明方法对一万篇语料进行分类,其中7000篇为训练语料、3000篇为测试语料,共分15个类别。
[0039] 采用本发明方法进行分类的步骤如下:
[0040] 第1步:对3000篇待分文档进行分词、特征提取、权重计算等预处理;
[0041] 第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;
[0042] 第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心(投票算法)以及KNN分类器中;
[0043] 第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;
[0044] 第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级融合中心(投票算法)以及贝叶斯分类器中;
[0045] 第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;
[0046] 第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级融合中心(投票算法)。
[0047] 第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。
[0048] 同时,为说明本发明的分类效果,本实验是在同等条件下,以相同的训练语料、测试语料以及相同的分类体系分别采用KNN分类器、SVM分类器和贝叶斯分类器进行分类,结果分类效果结果如表1所示:
[0049] 表1四种算法分类效果比较
[0050]
[0051] 结论:本发明提出的决策级文本自动分类融合方法发挥了各种分类器的优势,得到了高于其他单分类器的准确率和召回率,验证了其有效性。
[0052] 需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。