一种建立大规模跨领域文本情感倾向性分析框架的方法转让专利

申请号 : CN201610463862.7

文献号 : CN106096004B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 贾熹滨靳亚李宁

申请人 : 北京工业大学

摘要 :

本发明公开一种建立大规模跨领域文本情感倾向性分析框架方法,包括:对源领域和目标领域的样本文件进行精确分词,形成两个词向量表;对词向量进行聚类和领域间的对齐;用词向量对源领域的标定样本进行初步的句子建模并作为DCELM的输入,利用卷积运算提取文本向量的中间层抽象特征;记录验证集分类效果最好时的卷积层参数作为DCELM网络卷积层的参数;最后用DCNN提取的少量目标领域的标定样本的中间层抽象特征来训练分类器ELM的隐层参数,建立大规模跨领域文本情感倾向性分析框架。采用本发明的技术方案,在样本层消除领域间表达情感极性的词语的差距,而且有效解决全连接层容易陷入局部最优和泛化能力弱的缺点,增加模型的抗干扰性。

权利要求 :

1.一种建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,包括以下步骤:步骤1、获取源领域和目标领域的样本文件,并且对所述样本文件中的语句进行精确分词;

步骤2、对经精确分词的源领域文件和目标领域文件进行训练,得到源领域和目标领域的词向量表;

步骤3、将源领域和目标领域的词向量表对齐,并对样本语句进行初步建模;

步骤4、通过采用词向量表示的源领域样本训练DCNN(Dynamic Convolutional Neural Network),提取分类效果最好的中间层抽象特征;同时将目标领域的标定样本作为DCELM(Dynamic Convolutional Extreme Learning Machine)情感分类器的输入,采用所述中间层抽象特征来训练ELM(Extreme Learning Machine)隐层参数,形成跨领域文本情感倾向分析框架;

步骤4具体包括以下步骤:

步骤4.1、将用词向量表示的源领域标定样本作为DCNN的输入,对DCNN的参数进行训练;

步骤4.2、采用验证集对已经训练好的DCNN网络进行测试,记录验证集分类效果最好时的网络参数;

步骤4.3、采用ELM替换DCNN顶层的全连接层,形成DCELM的情感分类器;

步骤4.4、将记录的验证集分类效果最好时的网络参数作为DCELM的卷积神经网络部分的参数;

步骤4.5、将少量目标领域的标定样本作为DCELM的输入,采用卷积网络提取的中间层抽象特征来训练ELM隐层参数,形成一个基于DCELM的跨领域文本情感倾向分析框架。

2.如权利要求1所述的建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,步骤3具体包括以下步骤:步骤3.1、通过K-means算法分别将目标领域和源领域的词向量进行聚类;

步骤3.2、计算目标领域聚类后的各个类别中心分别与源领域有同等比例类别的类别中心的欧式距离;

步骤3.3、将目标领域和源领域样本语句中的词语用相应词向量表中的词向量表示,建立初步的句子模型。

3.如权利要求1所述的建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,所述DCELM情感分类器为DCNN作为特征提取器、ELM作为分类器。

4.如权利要求1所述的建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,所述步骤1中样本文件为自网络中用于情感分析的公共数据集,其为关于电影、商品、新闻带有用户情感倾向的评论。

5.如权利要求1所述的建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,步骤1中利用NLPIR分词系统对所述样本文件进行精确分词。

6.如权利要求1所述的建立大规模跨领域文本情感倾向性分析框架的方法,其特征在于,步骤2中利用word2vec工具训练出源领域和目标领域的词向量表。

说明书 :

一种建立大规模跨领域文本情感倾向性分析框架的方法

技术领域

[0001] 本发明属于数据挖掘技术领域,尤其涉及一种基于深度学习的建立大规模跨领域文本情感倾向性分析框架的方法。

背景技术

[0002] 自然语言作为人们交流的重要工具,不可否认地包含着交流者之间的情感投入。而且目前随着互联网的快速发展,网络中出现了大量由用户发布的对产品、电影、新闻等事物带有主观意见的评论。通过分析这些主观性的文本信息,既可以为消费者在购买产品时提供决策参考,也可以帮助商家售卖商品以及确定新的市场需求。但是首先这些带有用户观点、情感的评论每天以指数级的速度增加,所以仅靠人工进行分析是一项非常具有挑战性的工作;其次这些评论可能是对不同领域产品的评价,而在不同领域表达情感极性的关键词又有很大的差距。因此得到一个可以应用到各个领域鲁棒性很好的文本情感分类器是非常具有挑战性的工作。
[0003] 跨领域的文本情感分析在情感分析中是一个新兴的领域。最早是2006年由Daum′e III和Marcu等人提出,主要通过借助大量带标定样本的源领域数据同时结合少量来自新领域的标定数据来完成分类器的训练工作。截至目前,跨领域文本情感分类的主要研究思路是分为三个部分寻找各个领域之间的映射关系,分别是同构空间下基于样本的迁移学习、同构空间下基于特征的迁移学习和异构空间下的迁移学习。在同构空间下基于特征解决跨领域文本情感分类的方法较多,主要有结构对应学习(Structure Correspondence Learning,SCL)方法、光谱特征对齐算法(Spectral Feature Alignment,SFA)和特征表示映射方法(Feature Representation Mapping,FRM)算法。但是它们在解决跨领域文本情感分类的问题上都有不同的局限性:SCL算法是将跨领域问题看做一个多任务学习问题,尝试构建一系列的相关任务对中心特征和非中心特征之间的关系进行建模,但是合理的任务数量很难确定,这就限制了SCL算法在跨领域问题中的分类能力;SFA算法将领域无关词作为桥梁,利用共现矩阵将源领域和目标领域的领域相关词进行对齐,矩阵中的元素值为领域无关词和领域相关词的共现次数。然而,当领域无关词的频数以及领域无关词与领域相关词的共现次数都较小时,一部分相互关联或在某种程度上相似的词就不能完美地对齐;FRM算法是在两个领域的公共特征子空间下,通过特征映射函数构建新的向量空间模型,从而实现跨领域文本情感的倾向性分析,但是每次应用到一个新的领域均需重新构建新的映射函数构成新的空间模型,这样的操作相对比较繁琐。

发明内容

[0004] 本发明要解决的技术问题是,提供一种建立大规模跨领域文本情感倾向性分析框架的方法,首先利用聚类算法实现源领域和目标领域词向量在样本层的对齐,然后利用一个中间层特征分布作为桥梁来实现源领域和目标领域在特征层的对齐,进而实现跨领域情感分类。
[0005] 本发明的建立大规模跨领域文本情感倾向性框架方法,将源领域和目标领域的文本语句分别进行初步建模后形成源领域和目标领域的词向量表,对两个领域的词向量在样本层进行对齐;并结合动态卷积神经网络(Dynamic Convolutional Neural Network,DCNN),进一步对源领域的文本语句进行建模,根据标定的源领域样本提取出能显著表达源领域文本情感倾向的中间层抽象特征。然后采用超限学习机(Extreme Learning Machine,ELM)替代已训练好的DCNN顶层的全连接层,用DCNN提取的少量目标领域标定样本的中间层抽象特征来训练ELM的参数,形成一种以DCNN作为特征提取器和ELM相结合用于跨领域文本情感倾向性分析的深度网络学习模型DCELM。由于ELM不需要人工干预的调参和选参过程,在初始化阶段随机生成隐藏层的参数,所以在训练样本有错误或者噪音偏大的情况下,ELM的隐藏层极不容易受干扰,从而与其他的算法相比具有较强的抗干扰能力;同时也解决了BP算法的局部极小化问题。所以用单层ELM来取代DCNN的全连接层,可以充分利用DCNN提取不同长度文本显著特征以及单层ELM随机生成隐层节点参数的优势,有效解决现有算法中存在的局部最优、抗干扰能力弱等问题。
[0006] 为了实现上述目的,本发明采用以下技术方案:为了能更好的识别样本中语句的情感倾向,首先要采用NLPIR分词系统等分词系统对样本进行精确分词;然后利用Google的word2vec工具通过对已精确分词的样本进行词向量训练,将样本中的特征词训练成K维带有一定语境信息的空间向量,并实现对样本语句的初步建模;为了消除源领域和目标领域在表达情感的极性词上的差异,分别对源领域上的词向量列表和目标领域的词向量列表利用K-Means算法进行聚类操作,然后将目标领域中所得到的聚类中心分别于源领域对应的聚类中心进行对齐,用对齐后的词向量表表示目标领域的样本语句;再利用源领域的标定样本训练DCNN并记录下验证集分类效果最好时的网络参数,表示这时可以提取到最能表达源领域情感的中间层抽象层特征,并以此作为DCELM模型中卷积神经网络部分的参数;最后,以DCNN提取的少量目标领域标定样本的中间层抽象特征作为输入,对分类器ELM参数进行学习,即可得到一种基于深度学习的大规模跨领域文本情感倾向性分析框架。
[0007] 一种建立大规模跨领域文本情感倾向性分析框架的方法包括以下步骤:
[0008] 步骤1、获取源领域和目标领域的样本文件,并且对所述样本文件中的语句进行精确分词;
[0009] 步骤2、对经精确分词的源领域文件和目标领域文件进行训练,得到源领域和目标领域的词向量表;
[0010] 步骤3、将源领域和目标领域的词向量表对齐,并对样本语句进行初步建模;
[0011] 步骤4、通过采用词向量表示的源领域样本训练DCNN(Dynamic Convolutional Neural Network),提取分类效果最好的中间层抽象特征;同时将目标领域的标定样本作为DCELM(Dynamic Convolutional Extreme Learning Machine)情感分类器的输入,采用所述中间层抽象特征来训练ELM(Extreme Learning Machine)隐层参数,形成跨领域文本情感倾向分析框架。
[0012] 作为优选,步骤3具体包括以下步骤:
[0013] 步骤3.1、通过K-means算法分别将目标领域和源领域的词向量进行聚类;
[0014] 步骤3.2、计算目标领域聚类后的各个类别中心分别与源领域有同等比例类别的类别中心的欧式距离;
[0015] 步骤3.3、将目标领域和源领域样本语句中的词语用相应词向量表中的词向量表示,建立初步的句子模型。
[0016] 作为优选,步骤4具体包括以下步骤:
[0017] 步骤4.1、将用词向量表示的源领域标定样本作为DCNN的输入,对DCNN的参数进行训练;
[0018] 步骤4.2、采用验证集对已经训练好的DCNN网络进行测试,记录验证集分类效果最好时的网络参数;
[0019] 步骤4.3、采用ELM替换DCNN顶层的全连接层,形成DCELM的情感分类器;
[0020] 步骤4.4、将记录的验证集分类效果最好时的网络参数作为DCELM的卷积神经网络部分的参数;
[0021] 步骤4.5、将少量目标领域的标定样本作为DCELM的输入,采用卷积网络提取的中间层抽象特征来训练ELM隐层参数,形成一个基于DCELM的跨领域文本情感倾向分析框架。
[0022] 作为优选,所述DCELM情感分类器为DCNN作为特征提取器、ELM作为分类器。
[0023] 作为优选,所述步骤1中样本文件为自网络中用于情感分析的公共数据集,其为关于电影、商品、新闻带有用户情感倾向的评论。
[0024] 作为优选,步骤1中利用NLPIR分词系统对所述样本文件进行精确分词。
[0025] 作为优选,步骤2中利用word2vec工具训练出源领域和目标领域的词向量表[0026] 与现有技术相比,本发明具有以下明显优势:
[0027] 本发明利用word2vec工具将源领域和目标领域的文本分别进行预训练,然后将得到的两个领域的词向量表进行聚类后在样本层进行对齐,这样会在一定程度上消除两个领域在表达情感的极性词上的差别。并用源领域的词向量表示的该领域的标定样本作为模型输入,利用DCNN的卷积操作来提取中间层抽象特征得到语义模型,这样可以不依赖语法解析树,能够很方便的应用在各种语言中。而且用目标领域词向量表示少量该领域的标定样本作为输入来训练DCELM中分类器ELM隐层节点的参数,这样形成的跨领域文本情感倾向性分析器首先解决了DCNN顶层的全连接层有陷入局部最优的问题;其次以DCNN提取的显著特征,作为ELM的输入,同时也解决了单层ELM不能提取特征的缺陷;再者因为ELM的隐藏层对错误样本和噪声具有较强的抗干扰能力,所以增强了模型的鲁棒性;最后与其他深度学习在跨领情感分析上的应用相比有更高的效率,因为在目标领域更换时只需要将目标领域的词向量表在样本层与源领域的词向量表对齐即可,不需要重新建立模型来寻找两个领域的公共特征。所以基于聚类和DCELM结合的深度学习的跨领域情感倾向分析模型具有泛化能力强和抗干扰能力强的优势。

附图说明

[0028] 图1为本发明所涉及方法的流程图;
[0029] 图2为本发明将样本语句进行初步建模的结构示意图;
[0030] 图3为本发明在样本层对目标领域与源领域的词向量表对齐的结构示意图;
[0031] 图4为本发明所采用的动态CNN的原始结构图;
[0032] 图5为本发明所采用的ELM的原始结构图;
[0033] 图6为本发明所提出的DCELM的结构图。

具体实施方式

[0034] 以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0035] 本发明所用到的硬件设备有PC机1台;辅助工具有:NLPIR分词系统、Google的Word2vec工具。
[0036] 如图1所示,本发明提供一种建立大规模跨领域文本情感倾向性分析框架的方法,具体包括以下步骤:
[0037] 步骤1,对源领域和目标领域的样本进行精确分词。
[0038] 步骤1.1,获取输入源领域和目标领域的样本文件。
[0039] 所述样本文件均来自网络中用于情感分析的公共数据集,其为关于电影、商品、新闻等带有用户情感倾向的评论。
[0040] 步骤1.2,利用NLPIR分词系统对所述样本文件进行分词。
[0041] 分词是自然语言处理的第一个步骤,是其他高层操作的基础,如语义理解和情感分析等。对于中文的分词系统主要有三种方法,分别是基于词典匹配的分词方法、基于语义理解的分词和基于词频统计分词;对于英文分词系统而言,包括对文本中的词汇进行分割、过滤(去除停留词)、词干提取(形态还原)、大写转小写等操作。
[0042] 步骤2,分别生成源领域和目标领域的词向量表。
[0043] 步骤2.1,获取已经精确分词的源领域文件和目标领域文件。
[0044] 众所周知,英文语料是以词为单位的,词和词之间是靠空格隔开的,所以只需进行简单的过滤(去除停留词)、词干提取(形态还原)和大写转小写等操作就可以将语料作为word2vec工具的输入,进行词向量的训练。但是中文是以字为单位,句子中的所有字连起来才能描述一个意思,所以只有把中文语料中的汉字序列划分成有意义的词,才能更好的理解语料的含义,并且作为word2vec工具的输入。
[0045] 步骤2.2,利用word2vec工具训练出源领域和目标领域的词向量表。
[0046] word2vec是Google开源的一款将词表征为实数值向量的高效工具,可以通过训练将语料中的词映射到K维向量空间,用向量空间上的相似度来表示文本语义上的相似度,进而得到文本数据更深层次的特征表示。所以用word2vec分别对源领域和目标领域的样本语句进行训练,可以初步得到两个领域用带有语义信息的K维向量表示的N个特征词的词向量表。
[0047] 步骤3,将源领域和目标领域的词向量表对齐,并对样本语句进行初步建模。
[0048] 步骤3.1,通过K-means算法分别将目标领域和源领域的词向量进行聚类。
[0049] K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。在步骤2.2生成的词向量表中,由于特征词的K维向量带有一定的语义信息,所以采用聚类算法可以将具有相似语义信息的特征词聚成一类,来表示表达同一类情感。并且得到各个类别的聚类中心。
[0050] 步骤3.2,计算目标领域聚类后的各个类别中心分别与源领域有同等比例类别的类别中心的欧式距离。
[0051] 如图3所示,源领域和目标领域可能在特征词的分布上或者表达情感的极性词上存在很大的差距,所以将聚类后的目标领域特征词的词向量分别与源领域表达相同情感的特征词的词向量对齐,就可以初步实现在样本层的对齐。两个领域对应类别中心的距离和目标领域向源领域同一类别特征词的词向量对齐的公式如下:
[0052]
[0053]
[0054] 其中,公式中N表示聚类后类别个数,M表示用word2vec训练后词向量的维数。
[0055] 步骤3.3,将目标领域和源领域样本语句中的词语用相应词向量表中的词向量表示,建立初步的句子模型。
[0056] 根据步骤2.2训练好的词向量,将步骤2.1中已经精确分词的源领域和目标领域的样本用词向量表示。如图2所示,在对应的词向量表中找到待表示语句中的每一个词所对应的词向量,并用它们按照词语在句子中的顺序依次表示出来。如果词向量文件中没有找到句子中的某一个词语,则说明该词语在语料中出现的次数较少,对分析句子不会产生较大的影响,可以直接跳过。这样便实现了对样本语句的初步建模,同时也构成了文本分析所需要的语句向量矩阵。
[0057] 步骤4,用带标签的源领域样本训练DCNN,来提取分类效果最好的中间层抽象特征。
[0058] 步骤4.1,将用词向量表示的源领域标定样本作为DCNN的输入。
[0059] 将步骤3.3中表示的源领域标定样本的语句向量矩阵作为DCNN的输入,对DCNN的参数进行训练。如图4,以句子长度为7、词向量维度为4的语句向量矩阵为例,作为DCNN网络的输入,经过卷积层和K-max pooling层来提取中间层抽象特征进行分类。
[0060] 步骤4.2,记录验证集分类效果最好时的网络参数。
[0061] 用验证集对已经训练好的DCNN网络进行测试,当验证集的分类效果最好时,说明DCNN达到最佳状态,能够提取源领域最具有分类效果的中间层抽象特征,记录当时网络的参数作为DCELM网络特征提取器的参数。
[0062] 步骤4.3,用ELM替换DCNN顶层的全连接层,形成DCELM的情感分类器。
[0063] 步骤4.4,将记录的验证集分类效果最好时的网络参数作为DCELM的卷积神经网络部分的参数。
[0064] 用在源领域在验证集分类效果最好时的网络参数作为DCELM中卷积层部分的参数,是因为这样卷积操作可以在源领域中提取分类效果最好时的中间层抽象特征;同时因为在样本层目标领域与源领域已经进行了初步对齐,所以用源领域样本已经训练好的特征提取器对目标领域提取的中间层抽象特征也同样具有良好的分类效果。
[0065] 步骤4.5,将少量目标领域的标定样本作为DCELM的输入,用卷积网络提取的中间层抽象特征来训练ELM隐层参数,形成一个基于DCELM的跨领域文本情感倾向分析框架。
[0066] 如图6中,用ELM来代替DCNN顶层的全连接层,形成了以DCNN作为特征提取器、ELM作为分类器的DCELM情感分类器;再选取少量目标领域的标定样本作为DCELM的输入,用已经确定参数的DCNN提取目标领域的中间层抽象特征,并作为ELM的输入来学习隐层参数。这样便得到了基于DCELM的用于跨领域文本情感倾向性分析的深度学习模型。
[0067] 以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。