用于优化情感分类器的方法和设备转让专利

申请号 : CN201010612244.7

文献号 : CN102541838B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡长建邱立坤赵凯许洪志

申请人 : 日电(中国)有限公司

摘要 :

本发明公开了一种用于优化情感分类器的方法和设备。该方法可以包括:基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料;使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器,以优化情感分类器。本发明的方法和设备可以消除情感分类偏置,并显著提高情感分类精度。

权利要求 :

1.一种用于优化情感分类器的方法,包括:基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;

使用所述一组情感分类器对未标注语料进行标注;

根据标注结果从未标注语料中提取可信标注语料;

使用所述可信标注语料来更新已标注集合;以及利用更新的已标注集合训练所述一组情感分类器,以优化情感分类器;

其中根据标注结果从未标注语料中提取可信标注语料包括:根据所述标注结果确定未标注语料被所述一组情感分类器标注相同的概率;

如果所述概率大于预定可信度,则提取所述未标注语料作为可信标注语料。

2.根据权利要求1所述的方法,其中基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器包括:使用所述情感分类器集合中的情感分类器对所述已标注集合中的已标注语料标注;

根据对所述已标注语料的标注结果确定所述情感分类器之间的分类偏置差异;

基于所述分类偏置差异按照预定策略来选择一组情感分类器。

3.根据权利要求2所述的方法,其中根据对所述已标注语料的标注结果确定所述情感分类器之间的分类偏置差异包括:根据对所述已标注语料的标注结果计算所述情感分类器之间的分类相似度;

基于所述分类相似度,得到所述情感分类器之间的分类偏置差异。

4.根据权利要求3所述的方法,其中根据对所述已标注语料的标注结果计算所述情感分类器之间的分类相似度包括:在对所述已标注语料的标注结果中统计分类无冲突的语料的数目,其中不同情感分类器对所述分类无冲突的语料具有相同的标注结果;

基于所述分类无冲突的语料的数目和所述已标注集合中的语料总数,确定所述分类相似度。

5.根据权利要求3所述的方法,其中根据对所述已标注语料的标注结果计算所述情感分类器之间的分类相似度包括:通过以下相似度计算方法之一来计算所述分类相似度:夹角余弦、戴斯系数、Chi-square、对数似然率和类F1measure。

6.根据权利要求2所述的方法,其中基于所述分类偏置差异按照预定策略来选择一组情感分类器包括:对所述分类偏置差异进行排序;

选择与最大分类偏置差异相对应的一组情感分类器。

7.根据权利要求2所述的方法,其中基于所述分类偏置差异按照预定策略来选择一组情感分类器包括:确定大于预定阈值的分类偏置差异;

选择与所确定的分类偏置差异相对应的一组情感分类器。

8.根据权利要求1所述的方法,其中根据标注结果从未标注语料中提取可信标注语料包括:根据所述标注结果确定被所述一组情感分类器标注相同的未标注语料;

提取所确定的未标注语料作为可信标注语料。

9.根据权利要求1所述的方法,还包括:预先获取已标注集合,其中所述已标注集合中包括已标注语料及其类别。

10.一种用于优化情感分类器的设备,包括:选择装置,用于基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;

标注装置,用于使用所述一组情感分类器对未标注语料进行标注;

提取装置,用于根据标注结果从未标注语料中提取可信标注语料;

更新装置,用于使用所述可信标注语料来更新已标注集合;以及训练装置,用于利用更新的已标注集合训练所述一组情感分类器,以优化情感分类器;

其中所述提取装置包括:

用于根据所述标注结果确定未标注语料被所述一组情感分类器标注相同的概率的装置;

用于如果所述概率大于预定可信度,则提取所述未标注语料作为可信标注语料的装置。

11.根据权利要求10所述的设备,其中所述选择装置包括:分类单元,用于使用所述情感分类器集合中的情感分类器对所述已标注集合中的已标注语料标注;

分类偏置差异确定单元,用于根据对所述已标注语料的标注结果确定所述情感分类器之间的分类偏置差异;

情感分类器选择单元,用于基于所述分类偏置差异按照预定策略来选择一组情感分类器。

12.根据权利要求11所述的设备,其中所述分类偏置差异确定单元包括:用于根据对所述已标注语料的标注结果计算所述情感分类器之间的分类相似度的装置;

用于基于所述分类相似度,得到所述情感分类器之间的分类偏置差异的装置。

13.根据权利要求12所述的设备,其中用于根据对所述已标注语料的分类结果计算所述情感分类器之间的分类相似度的装置包括:用于在对所述已标注语料的标注结果中统计分类无冲突的语料的数目,其中不同情感分类器对所述分类无冲突的语料具有相同的标注结果的装置;

用于基于所述分类无冲突的语料的数目和所述已标注集合中的语料总数确定所述分类相似度的装置。

14.根据权利要求12所述的设备,其中用于根据对所述已标注语料的标注结果计算所述情感分类器之间的分类相似度的装置包括:用于通过以下相似度计算方法之一来计算所述分类相似度的装置:夹角余弦、戴斯系数、Chi-square、对数似然率和类F1 measure。

15.根据权利要求11所述的设备,其中所述情感分类器选择单元包括:用于对所述分类偏置差异进行排序的装置;

用于选择与最大分类偏置差异相对应的一组情感分类器的装置。

16.根据权利要求11所述的设备,其中所述情感分类器选择单元包括:用于确定大于预定阈值的分类偏置差异的装置;

用于选择与所确定的分类偏置差异相对应的一组情感分类器的装置。

17.根据权利要求10所述的设备,其中所述提取装置包括:用于根据所述标注结果确定被所述一组情感分类器标注相同的未标注语料的装置;

用于提取所确定的未标注语料作为可信标注语料的装置。

18.根据权利要求10所述的设备,还包括:获取装置,用于预先获取已标注集合,其中所述已标注集合中包括已标注语料及其类别。

说明书 :

用于优化情感分类器的方法和设备

技术领域

[0001] 本发明一般涉及信息处理领域,特别涉及用于优化情感分类器的方法与设备。

背景技术

[0002] 随着Web2.0的广泛普及,过去由Web1.0的信息传播模式即我说你听、我演你看、我写你读的方式正在向用户成为信息产生的中心转变。相应地,越来越多的用户对于产品或服务质量的好坏做出评论,这种评论表达了用户自己的情绪,可以将其称为用户产生内容(User generated Content,UGC)。这些用户产生内容无论对于消费者或者对于厂家/商家都有重要的参考意义。基于其他用户的客观评价,消费者可以更快地确定购买决策,而厂家/商家可以根据用户的回馈更好地改进自己的产品或服务。对上述评论信息的分析的一个目的是从中提取用户的情感倾向,这项技术称为情感分类,它的目的就是对给定文本给出写该段话的人所表述的情感倾向:正面或者负面。确切地反映用户的情感表达,才能对消费者和商家起到积极有效的作用,因此客观无分类偏置的情感分类技术将是非常重要的。
[0003] 情感分类是自然语言处理领域的一个多分类问题,从实际实现上通常有两类做法,一类是基于语料(corpus-based)的方法,另外一类是基于词典(lexicon-based)的方法。实验证明,这两类情感分类算法都有分类偏置(classification bias)问题。在实际系统中,消除分类偏置才可以更客观地反映用户的真实意图,因此情感分类的偏置问题是一个亟待解决的问题。
[0004] 对于上述问题,业界已经提出了一些相关解决方案,例如美国专利US20080249764提出了一种使用分类器聚合来提高情感分类准确性的方法,从某种程度上降低了部分情感分类偏置。但是,现有技术没有对分类偏置做深入分析,也没有针对性地去解决这个问题,例如美国专利US20080249764仅仅通过聚合不同的分类器,也即采用更多的分类特征来提高分类精度,这并不能有效地解决如何消除情感分类偏置的问题。

发明内容

[0005] 针对现有技术中存在的以上问题,本发明的目的在于提供了一种用于优化情感分类器的方法和设备,可以通过优化的情感分类器来消除情感分类偏置。
[0006] 根据本发明的第一方面,提供了一种用于优化情感分类器的方法,该方法可以包括:基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料;使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器,以优化情感分类器。
[0007] 根据本发明的第二方面,提供了一种用于优化情感分类器的设备,该设备可以包括:选择装置,用于基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;标注装置,用于使用该组情感分类器对未标注语料进行标注;提取装置,用于根据标注结果从未标注语料中提取可信标注语料;更新装置,用于使用可信标注语料来更新已标注集合;以及训练装置,用于利用更新的已标注集合训练该组情感分类器,以优化情感分类器。
[0008] 通过以下对根据本发明的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是显而易见的。

附图说明

[0009] 通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
[0010] 图1是按照本发明的一个实施例的用于优化情感分类器的方法的流程图;
[0011] 图2是按照本发明的另一个实施例的用于优化情感分类器的方法的流程图;以及[0012] 图3是按照本发明的一个实施例的用于优化情感分类器的设备的框图。
[0013] 在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

[0014] 以下结合附图对本发明进行更详细的解释和说明。应当理解,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
[0015] 为了清楚起见,首先对本发明中所使用的术语作以解释。
[0016] 1.语料
[0017] 本发明的语料也称为自由文本,其可以是字、词语、句子、片段、文章等及其任意组合。
[0018] 未标注语料是没有进行情感类别标注的语料。
[0019] 已标注语料是已经标注了情感类别的语料。得到一个已标注语料意味着既可以得到这个语料,又可以得到该语料所被标注的情感类别。
[0020] 2.情感分类和情感分类器
[0021] 情感分类是自然语言处理领域的一个多分类问题。一般而言,情感分类通常是指通过对语料进行分析而标注其情感倾向,例如正面情感倾向或者负面情感倾向,从而将语料分类为正面情感倾向语料和负面情感倾向语料。另外,除了上述标注两个类别的方式之外,也可以将情感标注为多个类别,由于本领域技术人员很容易将对于两个类别的处理扩展到多个类别的处理上,因此本发明主要对两个类别的标注进行描述。但是应该注意的是,本发明并不限于将情感分类为两个类别的情况。
[0022] 目前,本领域技术人员经常使用以下情感分类方法,其一是基于语料的情感分类方法,其二是基于词典的情感分类方法。
[0023] 基于语料的方法是基于预先标注了情感类别的一批语料(例如,这批语料可以包括标注为正面情感倾向的文本集和标注为负面情感倾向的文本集),利用该批语料来训练通过机器学习的方法学习了分类算法的情感分类器,然后使用所训练的情感分类器对未标注情感类别的语料进行情感类别的标注。基于词典的方法是预先准备一个情感词典,将经常表述正面情感的词和负面情感的词事先选好,然后对于给定的未标注情感类别的语料统计正面词和负面词的次数,通过归一化来判断该语料对应的情感倾向。
[0024] 基于语料的方法和基于词典的方法都可以包含多种具体算法,而不仅仅是一个特定算法。基于语料的方法例如可以是基于最大熵模型、基于决策树模型、基于CRF(conditional Random Field)模型、基于神经网络模型或基于Naive Bayes模型等具体的情感分类方法。基于词典的方法例如可以是仅仅基于词典的情感分类方法或者基于词典及规则的情感分类方法等。
[0025] 情感分类器是利用各种情感分类算法来对语料进行情感类别的标注的工具。在本发明中,一个情感分类器可以与一种情感分类算法相对应,并且情感分类器可以基于已标注语料来进行训练,以便减小该情感分类器对未标注语料进行分类时产生的情感分类偏置。为了便于描述,下文有时也将情感分类器简述为分类器。
[0026] 3.情感分类偏置
[0027] 实验证明,基于语料的情感分类方法经常将一个具有正面情感的语料标注为负面情感;而基于词典的情感分类方法更倾向于将具有负面情感的语料标注为正面情感。可见,上述基于语料或者基于词典的情感分类方法和分类器都避免不了情感标注错误。为了便于描述,在本发明中分类器将正面情感标注为负面情感这一错误称为负偏置,分类器将负面情感标注为正面情感这一错误称为正偏置,并将负偏置和正偏置统称为情感分类偏置。
[0028] 本发明涉及一种用于优化情感分类器的方法。该方法可以包括:基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料;使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器,以优化情感分类器,进而消除情感分类偏置,提高情感分类精度。
[0029] 本发明的方法总体上具有自动感知标注错误的语料和能够自动调整情感分类器两方面特点。例如,本发明的一种实施方式可以首先对分类偏置差别大的一组分类器进行选择,该组分类器例如包括分类器A和分类器B,然后使用所选择的该组分类器对给定的未分类文档进行情感类别的标注,则可以将两个分类器分类结果不同的语料集作为分类器A的分错语料集,从而可以实现自动感知标注错误的语料这一特点。另外,可以将两个分类器分类一致的语料作为可信标注语料,加入到已标注语料集合中用于对分类器A重新训练,通过如此反复迭代,从而可以保证对分类器A的不断自动调整这一特点。由于分类器A和B是对称的,所以上述过程可以同时对分类器A和B实施。由此,包含分类器A和B的这一组分类器在互相协同训练过程中可以不断获得可信标注语料,从而克服了分类偏置问题并显著提高了分类精度。
[0030] 下面将详细描述本发明的各个实施例。
[0031] 图1是按照本发明的一个实施例的用于优化情感分类器的方法的流程图。
[0032] 在步骤101,基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器。
[0033] 在本发明中,步骤101中的情感分类器集合可以包括多个情感分类器,这些情感分类器可以是通过利用已标注集合对于多个情感分类器模型训练来得到的。
[0034] 根据本发明的一个实施例,基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器可以通过以下方式实现:使用情感分类器集合中的情感分类器对已标注集合中的已标注语料标注;根据对所述已标注语料的标注结果确定情感分类器之间的分类偏置差异;基于分类偏置差异按照预定策略来选择一组情感分类器。
[0035] 在本发明的一种实施方式中,情感分类器之间的分类偏置差异可以通过根据对已标注语料的标注结果所计算出的情感分类器之间的分类相似度来得到。分类相似度可以通过以下多种方式得到:例如,可以在对已标注语料的标注结果中统计分类无冲突的语料的数目(不同情感分类器对所述分类无冲突的语料具有相同的标注结果),并基于分类无冲突的语料的数目和已标注集合中的语料总数确定所述分类相似度;又例如,可以通过夹角余弦、戴斯系数、Chi-square、对数似然率和类F1measure等相似度计算方法之一来计算。基于分类偏置差异按照预定策略来选择一组情感分类器。
[0036] 在本发明的一种实施方式中,基于分类偏置差异按照预定策略来选择一组情感分类器的过程可以通过多种方式实现。例如,可以对分类偏置差异进行排序,并选择与最大分类偏置差异相对应的一组情感分类器。又例如,可以确定大于预定阈值的分类偏置差异,并选择与所确定的分类偏置差异相对应的一组情感分类器。
[0037] 在步骤102,使用该组情感分类器对未标注语料进行标注。
[0038] 该组情感分类器可以包括两个或多个不同的分类器,该两个或多个分类器之间具有大的分类偏离差异。由于一个情感分类器可以与一种情感分类算法相对应,因此使用该组中的两个或多个情感分类器对未标注语料进行标注可以针对每个未标注语料得到两个或多个标注结果,对于同一个未标注语料可能标注为同一类别也可能标注为不同类别。
[0039] 在步骤103,根据标注结果从未标注语料中提取可信标注语料。
[0040] 在本发明中,可信标注语料是根据一组分类器对未标注语料的标注结果来确定的。例如,当一组分类器对同一个未标注语料标注相同时,可以将这个未标注语料认为是一个可信标注语料。其中,“标注相同”是指一组分类器中各个分类器都将该未标注语料标注为正面情感倾向或者都将该未标注语料标注为负面情感倾向。又例如,当一组情感分类器对同一个未标注语料标注相同的概率大于预定可信度时,可以将这个未标注语料认为是一个可信标注语料。其中,“标注相同的概率”可以是以下两个概率中的最大值:一组分类器中各个分类器将同一个未标注语料标注为正面情感倾向的概率、以及该组分类器中各个分类器将同一个未标注语料标注为负面情感倾向的概率。
[0041] 根据本发明的另一个实施例,根据标注结果从未标注语料中提取可信标注语料可以通过多种方式实现。例如,可以根据标注结果确定被该组情感分类器标注相同的未标注语料,并提取所确定的未标注语料作为可信标注语料。又例如,可以根据标注结果确定未标注语料被该组情感分类器标注相同的概率;如果所述概率大于预定可信度,则提取该未标注语料作为可信标注语料。
[0042] 在步骤104,使用可信标注语料来更新已标注集合。
[0043] 在该步骤中,可以将可信标注语料及其被标注的类别添加到已标注集合中,从而扩充已标注集合。并且,该可信标注语料不再作为未标注语料进行使用。
[0044] 在步骤105,利用更新的已标注集合训练该组情感分类器,以优化情感分类器。
[0045] 由于已标注集合在步骤104中得以更新,因此利用更新后的已标注集合可以更好地训练步骤101所选择的这一组情感分类器,从而使得这一组情感分类器具有更佳的分类精度。
[0046] 根据本发明的另一个实施例,本发明的用于优化情感分类器的方法还可以包括预先获取已标注集合的过程,在已标注集合中可以包括已标注语料及其类别。通过预先收集大量的标注语料,可以减轻人工标注语料的负担,同时也可以进一步提高本发明的分类精度。
[0047] 图2是按照本发明的另一个实施例的用于优化情感分类器的方法的流程图。在该实施例中,假设情感分类器集合C中包括3个情感分类器,如下所示:
[0048] C={分类器1,分类器2,分类器3},
[0049] 其中分类器1、分类器2和分类器3可以使用任何情感分类算法构建。
[0050] 假设已标注集合L包括4个语料,每个语料都已被标注情感类别,如下所示:
[0051] L={ “positive-The screen of the mobile is perfect”,[0052] “ positive-It′s speedy and space saving and inexpensive”,[0053] “negative-The sound quality is very nice for the price,but
[0054] since the player doesn′t work,it′s essentially useless”,[0055] “negative-They just suck and have a high failure rate”[0056] }
[0057] 在已标注集合L中,已标注语料1“The screen of the mobile is perfect”被标注为正面情感倾向,已标注语料2“It′s speedy and space savingand inexpensive”被标注为正面情感倾向,已标注语料3“The soundquality is very nice for the price,but since the player doesn′t work,it′sessentially useless”被标注为负面情感倾向,已标注语料4“They justsuck and have a high failure rate”被标注为负面情感倾向。
[0058] 假设未标注集合T如下所示:
[0059] T={“the product is too bad”,
[0060] “The phone screen is too small”,
[0061] “I like the appearance of the product”
[0062] }
[0063] 该未标注集合T包含3个语料,即未标注语料1“the product is toobad”、未标注语料2“The phone screen is too small”和未标注语料3“Ilike the appearance of the product”,每个未标注语料都未进行情感分类。
[0064] 在步骤201,使用情感分类器集合中的情感分类器对已标注集合中的已标注语料进行标注。
[0065] 在本实施例中,情感分类器集合C包括3个情感分类器:分类器1、分类器2和分类器3。这3个情感分类器可以是通过利用已标注集合L对于多个情感分类器模型训练来得到的。
[0066] 虽然已标注集合L中已经包含了已标注语料的情感类别,但是在此步骤中不考虑已标注的情感类别,而是利用情感分类器集合C中的所有分类器重新标注这些已标注语料的情感类别。
[0067] 步骤201的标注结果如下所示,其中“+”表示正面情感倾向,“-”表示负面情感倾向:
[0068] 分类器1的标注结果:<已标注语料1,+>,
[0069] <已标注语料2,->,
[0070] <已标注语料3,->,
[0071] <已标注语料4,->。
[0072] 分类器2的标注结果:<已标注语料1,+>,
[0073] <已标注语料2,+>,
[0074] <已标注语料3,+>,
[0075] <已标注语料4,+>。
[0076] 分类器3的标注结果:<已标注语料1,+>,
[0077] <已标注语料2,->,
[0078] <已标注语料3,->,
[0079] <已标注语料4,+>。
[0080] 在步骤202,根据对已标注语料的标注结果确定情感分类器之间的分类偏置差异。
[0081] 在以上标注结果中给出了三个分类器各自的标注结果,因此,步骤202计算分类器1与分类器2之间的分类偏置差异、分类器1与分类器3之间的分类偏置差异、以及分类器2与分类器3之间的分类偏置差异。
[0082] 可以通过计算情感分类器之间的分类相似度来得到分类偏置差异。可以通过以下多种方式计算分类相似度。
[0083] 例如,可以在以上标注结果中统计分类无冲突的语料的数目,并基于分类无冲突的语料的数目M和已标注集合中的语料总数N确定分类相似度。分类相似度例如可以定义为分类无冲突的语料的数目与已标注集合中的语料总数之比M/N,也可以定义为本领域技术人员常用的其他相似度计算方式。
[0084] 假设本实施例采用M/N来确定分类相似度。根据分类器1与分类器2的标注结果可知,二者仅对于已标注语料1具有相同的标注类别,而对其他三个已标注语料所标注的类别不同。因此,可以统计出分类器1与分类器2之间分类无冲突的语料的数目是1,由于已标注集合内已标注语料的总数为4,所以可以得到分类器1与分类器2之间的分类相似度为1/4=0.25。同理,可以得到分类器1与分类器3之间的分类相似度为3/4=0.75,分类器2与分类器3之间的分类相似度为2/4=0.50。
[0085] 应该注意的是,可以通过计算三个分类器中的分类无冲突的语料的数目与已标注集合中的语料总数之比来确定分类器1、分类器2和分类器3这三者之间的相似度。例如,由于这三个分类器仅对于已标注语料1具有相同的标注结果(均标注为表示正面情感倾向的“+”),所以可以得到这三个分类器之间的分类相似度为1/4=0.25。在情感分类器集合中具有多个分类器(例如,100个分类器)时,可以通过上述方法来计算包含三个或更多个分类器的一组分类器的分类相似度。
[0086] 另外,也可以通过夹角余弦、戴斯系数、Chi-square、对数似然率和类F1measure等相似度计算方法之一来计算上述分类相似度。
[0087] 根据分类器之间的分类相似度,可以通过多种方式来计算分类偏置差异。例如,可以将分类偏置差异定义为分类相似度的倒数,也可以将分类偏置差异定义为1/(1+分类相似度),或者按照本领域常用的其他计算方式来定义分类偏置差异。假设本实施例采用“1/(1+分类相似度)”来确定分类偏置差异,则可以得到分类器1与分类器2之间的分类偏置差异为1/(1+0.25)=0.8。同理,可以得到分类器1与分类器3之间的分类偏置差异为1/(1+0.75)=0.57,分类器2与分类器3之间的分类偏置差异为1/(1+0.50)=0.67。
[0088] 在另一个实施例中,假设步骤201的部分标注结果如下所示。
[0089] 分类器1的标注结果:<已标注语料1,+,98%>,
[0090] <已标注语料1,-,78%>,
[0091] ……。
[0092] 分类器2的标注结果:<已标注语料1,+,78%>,
[0093] <已标注语料1,-,90%>,
[0094] ……。
[0095] 以上仅示意性地示出了分类器1和分类器2分别对于已标注语料1的分类结果,“+”表示正面情感倾向,“-”表示负面情感倾向,百分比表示将语料标注为“+”或者“-”的分类精度(可靠性)。例如,“<已标注语料1,+,98%>”表示将已标注语料1标注为“+”的分类精度是98%。
[0096] 当相似度是通过类F1measure的方法计算时,可以利用以下等式计算分类器1与分类器2之间的分类偏置差异(记为a):
[0097] a=2×diff(p+1-p+2)×diff(p-1-p-2)/(diff(p+1-p+2)+diff(p-1-p-2))×100(1)[0098] 其中,p+1和p-1分别代表分类器1将一个语料标注为正面情感倾向和负面情感倾向的分类精度,并且
[0099] diff(p+1-p+2)=Abs(p+1-p+2)/Max(p+1,p+2) (2)[0100] 其中“Abs(p+1-p+2)”表示取p+1-p+2的绝对值,“Max(p+1,p+2)”表示取p+1和p+2中的最大值。
[0101] 可以利用等式(1)计算分类器1和分类器2对于已标注语料1的分类偏置差异a:
[0102]
[0103] 类似地,可以得到分类器1和分类器2对于其他已标注语料的分类偏置差异。相应地,也可以得到分类器1和分类器3对于每个已标注语料的分类偏置差异,以及分类器2和分类器3对于每个已标注语料的分类偏置差异。
[0104] 在步骤203,基于分类偏置差异按照预定策略来选择一组情感分类器。
[0105] 在该步骤中,例如可以对分类偏置差异进行排序,并选择与最大分类偏置差异相对应的一组情感分类器;也可以确定大于预定阈值的分类偏置差异,并选择与所确定的分类偏置差异相对应的一组情感分类器。
[0106] 在一个例子中,假设本实施例选择与最大分类偏置差异相对应的一组情感分类器。通过对步骤202得到的3个分类偏置差异排序,可以确定分类器1与分类器2之间的分类偏置差异0.8为三者中的最大值,从而可以选择与该最大分类偏置差异相对应的一组分类器,即分类器1和分类器2。
[0107] 在另一个例子中,假设本实施例选择与所确定的分类偏置差异相对应的一组情感分类器,并且假设该预定阈值为0.6。根据步骤202得到的3个分类偏置差异可知,分类器1与分类器2之间的分类偏置差异0.8以及分类器2与分类器3之间的分类偏置差异0.67都大于这一阈值,因此在步骤203既可以选择分类器1和分类器2这组分类器,也可以选择分类器2和分类器3这组分类器。在一种备选方案中,也可以根据其他任何适当的算法在上述两组分类器中进行再次选择,从而最终确定选择哪一组分类器。
[0108] 在步骤204,使用该组情感分类器对未标注语料进行标注。
[0109] 假设步骤203最终选择的是分类器1和分类器2这一组情感分类器,则步骤204可以使用分类器1和分类器2分别对未标注集合T进行标注。
[0110] 例如,步骤204对于未标注语料的标注结果如下所示,其中“+”表示正面情感倾向,“-”表示负面情感倾向:
[0111] 分类器1的标注结果:<未标注语料1,->,
[0112] <未标注语料2,->,
[0113] <未标注语料3,+>。
[0114] 分类器2的标注结果:<未标注语料1,->,
[0115] <未标注语料2,+>,
[0116] <未标注语料3,->。
[0117] 在步骤205,根据标注结果确定该组情感分类器标注相同的未标注语料。
[0118] 根据步骤204中对于未标注语料的标注结果可知,分类器1和分类器2都将未标注语料1标注为负面情感倾向“-”,但对未标注语料2和未标注语料3的标注不同。因此,可以确定该组情感分类器标注相同的语料仅仅是未标注语料1。
[0119] 在步骤206,提取所确定的未标注语料作为可信标注语料。
[0120] 此时,可以将未标注语料1认为是可信标注语料,因为这个语料被一组具有大分类偏置差异的分类器都标注为负面情感倾向。在其他例子中,如果未标注语料1被该组分类器都标注为具有正面情感倾向也应将其认为是可信标注语料。因此,在本发明中,可信标注语料仅仅是指一组分类器中每个分类器对该语料的标注相同,而不限于该组分类器中的每个分类器必需都将该语料标注为哪个具体类别。
[0121] 另外,提取该未标注语料1作为可信标注语料意味着将该未标注语料1从未标注集合T中去除,此时未标注集合T如下所示:
[0122]
[0123] “The phone screen is too small”,
[0124] “I like the appearance of the product”
[0125] }
[0126] 另外,应该注意的是,步骤205和206可以使用其他提取可信标注语料的方式来替代。在本发明的另一个实施例中,可以通过根据所述标注结果确定未标注语料被一组情感分类器标注相同的概率,并且如果所述概率大于预定可信度,则提取所述未标注语料作为可信标注语料。例如当该组情感分类器包含四个分类器时,如果三个分类器将同一个未标注语料标注为某个类别,而第四个分类器将该未标注语料标注为不同类别,则可以得到未标注语料被该组情感分类器标注相同的概率是3/4,即0.75。假设预定可信度是0.7,则由于0.75>0.7,所以可以提取该未标注语料作为可信标注语料。
[0127] 在步骤207,判断可信标注语料数目是否等于0。
[0128] 在该步骤首先确定步骤206所得到的可信标注语料的数目。如果该数目等于0,表示不存在可信标注语料,从而流程结束。如果该数目不为0,则表示在步骤206从未标注语料集合中至少提取出1个可信标注语料,从而继续进行步骤208。
[0129] 在本实施例中,由于步骤206提取了可信标注语料,即未标注语料1,因此从步骤207继续向步骤208执行。
[0130] 在步骤208,使用可信标注语料来更新已标注集合。
[0131] 在该步骤中,可以将可信标注语料及其被标注的类别添加到已标注集合中,从而将已标注集合L更新为如下所示:
[0132] L={“positive-The screen of the mobile is perfect”,[0133] “positive-It′s speedy and space saving and inexpensive”,[0134] “negative-The sound quality is very nice for the price,but[0135] since the player doesn′t work,it′s essentially useless”,[0136] “negative-They just suck and have a high failure rate”,[0137] “negative-the product is too bad”
[0138] }
[0139] 其中,下划线所示的即为可信标注语料及其类别。
[0140] 在步骤209,利用更新的已标注集合训练该组情感分类器。
[0141] 此时,使用更新的已标注集合来对步骤203所选择的一组情感分类器进行训练,也即使用步骤208得到的已标注集合L中的语料来对分类器1和分类器2进行训练,而不是对步骤201中最初使用的情感分类器集合中的所有分类器进行训练。
[0142] 利用语料来对分类器进行训练可以采用多种方法,例如,基于朴素贝叶斯的训练方法,基于最大熵模型的训练方法,基于SVM的分类的训练方法,基于CRF(条件随机场)模型的训练方法,等等。
[0143] 此外,无论是基于语料的情感分类器,还是基于词典的情感分类器,其精度在很大程度上都取决于训练它们或者内部词典的数量和质量,所以获取高效大量的训练语料对于情感分类的整体精度提高有着重要的作用。因此,在另一个实施例中,除了图2所示的用于优化情感分类器的方法的各个步骤之外,还可以包括预先获取已标注集合的步骤,该步骤例如可以通过以下方式来实现:判断网络资源是否是情感分类相关的资源;从与情感分类相关的资源抽取正面评价信息和负面评价信息;以及基于统计信息或者预定规则对正面评价信息和负面评价信息进行过滤,从而得到语料及其类别。通过这一预先获取已标注集合的步骤,能够半自动地从现有互联网特别是B2C网站中提取大量标注好的语料,以优化情感分析的精度。另外,通过预先收集大量的标注语料,可以减轻人工标注语料的负担,同时也可以进一步提高本发明的分类精度。
[0144] 图3是按照本发明的一个实施例的用于优化情感分类器的设备300的框图。
[0145] 设备300可以包括:选择装置310、标注装置320、提取装置330、更新装置340以及训练装置350。
[0146] 选择装置310用于基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器。在一个实施例中,选择装置310可以包括:分类单元,用于使用情感分类器集合中的情感分类器对已标注集合中的已标注语料标注;分类偏置差异确定单元,用于根据对已标注语料的标注结果确定情感分类器之间的分类偏置差异;情感分类器选择单元,用于基于分类偏置差异按照预定策略来选择一组情感分类器。
[0147] 在一种实现方式中,分类偏置差异确定单元可以包括:用于根据对已标注语料的标注结果计算情感分类器之间的分类相似度的装置;以及用于基于分类相似度,得到情感分类器之间的分类偏置差异的装置。例如,用于根据对已标注语料的分类结果计算情感分类器之间的分类相似度的装置可以包括:用于在对已标注语料的标注结果中统计分类无冲突的语料的数目,其中不同情感分类器对分类无冲突的语料具有相同的标注结果的装置;以及用于基于分类无冲突的语料的数目和已标注集合中的语料总数确定分类相似度的装置。再例如,用于根据对已标注语料的标注结果计算情感分类器之间的分类相似度的装置可以包括:用于通过以下相似度计算方法之一来计算分类相似度的装置:夹角余弦、戴斯系数、Chi-square、对数似然率和类F1measure。
[0148] 在一种实现方式中,情感分类器选择单元可以包括:用于对分类偏置差异进行排序的装置;以及用于选择与最大分类偏置差异相对应的一组情感分类器的装置。
[0149] 在另一种实现方式中,情感分类器选择单元可以包括:用于确定大于预定阈值的分类偏置差异的装置;以及用于选择与所确定的分类偏置差异相对应的一组情感分类器的装置。
[0150] 标注装置320用于使用该组情感分类器对未标注语料进行标注。
[0151] 提取装置330用于根据标注结果从未标注语料中提取可信标注语料。
[0152] 在一个实施例中,提取装置330可以包括:用于根据标注结果确定被该组情感分类器标注相同的未标注语料的装置;以及用于提取所确定的未标注语料作为可信标注语料的装置。
[0153] 在另一个实施例中,提取装置330可以包括:用于根据标注结果确定未标注语料被该组情感分类器标注相同的概率的装置;用于如果概率大于预定可信度,则提取未标注语料作为可信标注语料的装置。
[0154] 更新装置340用于使用可信标注语料来更新已标注集合。
[0155] 训练装置350用于利用更新的已标注集合训练该组情感分类器,以优化情感分类器。
[0156] 此外,在一个实施例中,本发明的用于优化情感分类器的设备还可以包括获取装置,该获取装置用于预先获取已标注集合,其中已标注集合中包括已标注语料及其类别。
[0157] 综上所述,本发明的用于优化情感分类器的方法和设备可以消除情感分类的分类偏置问题,同时可以显著提高情感分类精度。具体而言,由于本发明能够根据训练语料、相关情感词典以及测试语料,自动地提取分类偏置对称的一组分类器,从而使得消除分类偏置成为可能;本发明使用协同训练的框架来循环使用分类偏置对称的一组分类器,分别修正该组分类器中的各个分类器,从而可以通过协同训练和可信文档集来修复分类偏置和提升分类精度;本发明的方法和设备不仅能够大大地减少训练标注语料的人工成本,也使得使用大规模训练语料成为可能,进一步提升了分类精度。
[0158] 本发明的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器、个人计算机(PC)或大型机来执行。
[0159] 应当注意,为了使本发明更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。
[0160] 提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。
[0161] 因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。