会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 情感识别 / 一种基于认知评价理论的汉语文本情感识别方法

一种基于认知评价理论的汉语文本情感识别方法

阅读:1036发布:2020-11-18

IPRDB可以提供一种基于认知评价理论的汉语文本情感识别方法专利检索,专利查询,专利分析的服务。并且本发明提供一种汉语文本情感识别方法,包括下列步骤:1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;3)根据情感识别变量的赋值方法确定情感识别变量的取值;4)根据情感规则确定句子表达的情感类型。根据本发明的汉语文本情感识别方法对汉语文本情感的识别准确率较高,识别情感类型达到22种。,下面是一种基于认知评价理论的汉语文本情感识别方法专利的具体信息内容。

1.一种基于认知评价理论的汉语文本情感识别方法,包括下列步骤:

1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;

2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;

3)根据情感识别变量的赋值方法确定情感识别变量的取值;

4)根据情感规则确定句子表达的情感类型。

2.根据权利要求1所述的方法,其特征在于,所述步骤3)还包括对HowNet常识库的义原添加情感极性标注,根据词语情感极性的赋值方法得到词语的情感极性。

3.根据权利要求1所述的方法,其特征在于,所述步骤2)中情感识别变量包括:

Emotion_subject(情感主体)、Subject_polarity(主体极性)、Object_polarity(事物极性)、Event_polarity(事件极性)、Event_status(事件状态)、Action_polarity(行为极性)和Self_reaction(自身反应)。

4.根据权利要求1所述的方法,其特征在于,所述步骤2)中情感识别变量的确定方法包括:情感主体考察句子的主语部分,根据主语的特征进行赋值,第一人称赋值为self,其它人称赋值为other,非人称的事物赋值为object;主体极性考察取值为other的情感主体及其相关的定语修饰词;事物极性考察取值为object的情感主体及其相关的定语修饰词;

事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构;事件状态考察句子中的状语部分;自身反应考察句子中具有明显情感倾向的词语。

5.根据权利要求2所述的方法,其特征在于,词语情感极性的赋值方法包括:对HowNet中所有义原的极性进行标注,分为正面、负面、中性和无极性4种;并采用下述公式得到词语的情感极性: 其中Orientation(W)表示词语W的情感极性,其值为正表示正面情感,为负表示负面情感,为零表示中性情感,n表示词语W包含的义原总个数,Si表示词语W的第i个义原,Polarity(Si)表示义原Si的极性,其中正面赋值1,负面赋值-1,中性和无极性赋值为0,αi表示义原Si在词语W情感极性中的权重,主要针对HowNet中采用动态角色与特征标注的复杂词语,取值为0或1。

6.根据权利要求1所述的方法,其特征在于,所述步骤3)中情感识别变量的赋值方法包括:主体极性考察取值为other的情感主体及其相关的定语修饰词,利用词语情感极性的判别方法判断情感主体和相关修饰词的极性即Orientation(W1)和Orientation(W2);若无相关修饰词,则Orientation(W2)=0,若Orientation(W1)和Orientation(W2)的极性相矛盾,以修饰词的极性为准;其它情况则将Orientation(W1)和Orientation(W2)相加,为正则将主体极性赋值positive,为负则赋值negative,为零则赋值neutral;

事物极性考察取值为object的情感主体及其相关的定语修饰词,采用与主体极性一样的判定,结果为正值将事物极性赋值为attractive,负值赋值为unattractive,零值赋值为neutral;

事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构;谓语部分的极性考察谓语和相关的状语修饰词的极性,宾语部分的极性考察宾语和相关的定语修饰词的极性;两者均采用与主体极性一样的判定,结果为正值将极性赋值为positive,负值赋值为negative,零值赋值为neutral;

对于事件或者行为极性的判定,采用以下规则:

如果谓语部分或宾语部分的极性均为neutral,则事件或行为的极性赋值为neutral;

如果谓语部分或宾语部分的极性有且仅有一个为neutral,则事件或行为的极性与另一个的极性赋值相同;

如果谓语部分的极性和宾语部分的极性相同,则事件或行为的极性赋值为positive;

如果谓语部分的极性和宾语部分的极性不同,则事件或行为的极性赋值为negative;

在HowNet中,Event类中包含Static和Act两种子类,对于谓语中的义原属于Static类的结构,定义该结构为一个事件,对于谓语中义原属于Act类的结构,定义该结构为一个行为,另外,对于谓语中义原属于Act类的结构,如果该结构是被动语态,则视为一个事件;

通过以上规则,若谓宾结构是事件,根据极性判定值positive、negative和neutral分别将事件极性赋值为desirable、undesirable和neutral,若谓宾结构是行为,根据极性判定值positive、negative和neutral分别将行为极性赋值为praiseworthy、blameworthy和neutral;

事件状态考察句子中的状语部分,采用关键词识别的方法确定取值;根据《哈工大信息检索研究室同义词词林扩展版》,对于状语中表达“未确定”含义的词语,将事件状态赋值为unconfirmed,对于状语中表达“已确定”含义的词语,将事件状态赋值为confirmed,对于状语中表达“已否定”含义的词语,将事件状态赋值为disconfirmed;

自身反应考察句子中具有明显情感倾向的词语,依据HowNet发布的中文正面情感词语数据库和负面情感词语数据库,采用关键词识别的方法确定取值;对于正面情感赋值为pleased,对于负面情感赋值为displeased;

7.根据权利要求1所述的方法,其特征在于,所述步骤4)中情感规则如表1所示。

表1情感规则

*符号定义:&表示条件与,|表示条件或,NA表示该变量不存在。

说明书全文

一种基于认知评价理论的汉语文本情感识别方法

(一)技术领域

[0001] 本发明涉及模式识别领域,具体涉及一种汉语文本情感识别方法。(二)背景技术
[0002] 随着互联网的飞速发展,文本信息已经成为人类最常用的交互方法之一。研究文本中蕴含的情感信息已成为人机交互领域的研究热点。文本情感信息的提取在诸如语音合成、信息安全、智能机器人、个性化文本等领域也有着广泛的应用前景。
[0003] 传统的文本情感识别模型主要通过分析文本的字面特征提取句子的情感倾向,这些方法的准确率很大程度上受到情感语料库和常识库的影响,目前较为常用的汉语文本常识库有HowNet,而汉语文本情感语料库则较为匮乏。另外由于人类语言的复杂性,仅仅考虑字面特征而不区分概念之间的逻辑关系很难精确识别文本情感信息。
[0004] 根据认知评价理论,情感是人们对某个其主观上认为重要的事件进行评价而产生的。在评价理论中最有影响力的是Ortony、Clore和Collins提出的OCC理论。OCC模型是第一个以计算机实现为目的发展起来的模型。OCC模型认为情感来源于人们对由事件(Event)、智能体(Agent)和对象(Object)组成的情境的认知评价。OCC理论的基本原理是:根据一组评价标准将人对特定情境的反应区分为正面或负面,然后根据评价标准的不同取值组合确定相应的情感类型。OCC模型共定义了22种情感类型。
[0005] 在汉语文本情感识别方面,目前绝大多数方法仅能识别褒义和贬义两种情感极性,这对于汉语文本所表达的丰富的情感信息是远远不够的。将OCC模型应用于汉语文本情感识别,可以有效解决汉语文本情感识别领域存在的情感识别类别少,识别准确度不高等问题。因此,针对汉语文本研究一种能够准确识别多种情感的方法具有重要的现实意义。(三)发明内容
[0006] 本发明要解决的技术问题是提供一种能够准确识别多种情感的汉语文本情感识别方法。
[0007] 根据本发明的一个方面,提供了一种基于认知评价理论的汉语文本情感识别方法,包括下列步骤:
[0008] 1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;
[0009] 2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;
[0010] 3)根据情感识别变量的赋值方法确定情感识别变量的取值;
[0011] 4)根据情感规则确定句子表达的情感类型。
[0012] 在上述方法中,所述步骤3)还包括:
[0013] 31)对HowNet常识库的义原添加情感极性标注,根据词语情感极性的赋值方法得到词语的情感极性。
[0014] 在上述方法中,所述步骤2)中情感识别变量如表1所示。
[0015] 表1情感识别变量
[0016]
[0017] 在上述方法中,所述步骤2)中情感识别变量的确定方法包括:
[0018] 情感主体考察句子的主语部分,利用句法分析工具可以得到句子的主谓宾关系。根据主语的特征进行赋值,第一人称赋值为self,其它人称赋值为other,非人称的事物赋值为object;
[0019] 主体极性考察取值为other的情感主体及其相关的定语修饰词;
[0020] 事物极性考察取值为object的情感主体及其相关的定语修饰词;
[0021] 事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构,其中谓语部分由谓语和状语构成,宾语部分由宾语和定语构成;
[0022] 事件状态考察句子中的状语部分,采用关键词识别的方法确定取值;
[0023] 自身反应考察句子中具有明显情感倾向的词语,采用关键词识别的方法确定取值。
[0024] 在上述方法中,所述步骤31)中词语情感极性的赋值方法包括:
[0025] 对HowNet中所有义原的极性进行标注,分为正面、负面、中性和无极性4种;
[0026] 完成义原的情感极性标注后,采用下述公式得到词语的情感极性:
[0027] 表示词语W的情感极性,其值为正表示正面情感,为负表示负面情感,为零表示中性情感,n表示词语W包含的义原总个数,Si表示词语W的第i个义原,Polarity(Si)表示义原Si的极性,其中正面赋值1,负面赋值-1,中性和无极性赋值为0,αi表示义原Si在词语W情感极性中的权重,主要针对HowNet中采用动态角色与特征标注的复杂词语,取值为0或1。
[0028] 在上述方法中,所述步骤3)中情感识别变量的赋值方法包括:
[0029] 主体极性考察取值为other的情感主体及其相关的定语修饰词,利用词语情感极性的判别方法判断情感主体和相关修饰词的极性即Orientation(W1)和Orientation(W2)。若无相关修饰词,则Orientation(W2)=0,若Orientation(W1)和Orientation(W2)的极性相矛盾,以修饰词的极性为准。其它情况则将Orientation(W1)和Orientation(W2)相加,为正则将主体极性赋值positive,为负则赋值negative,为零则赋值neutral。
[0030] 事物极性考察取值为object的情感主体及其相关的定语修饰词,采用与主体极性一样的判定,结果为正值将事物极性赋值为attractive,负值赋值为unattractive,零值赋值为neutral。
[0031] 事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构。谓语部分的极性考察谓语和相关的状语修饰词的极性,宾语部分的极性考察宾语和相关的定语修饰词的极性。两者均采用与主体极性一样的判定,结果为正值将极性赋值为positive,负值赋值为negative,零值赋值为neutral。
[0032] 对于事件或者行为极性的判定,采用以下规则:
[0033] 如果谓语部分或宾语部分的极性均为neutral,则事件或行为的极性赋值为neutral;
[0034] 如果谓语部分或宾语部分的极性有且仅有一个为neutral,则事件或行为的极性与另一个的极性赋值相同;
[0035] 如果谓语部分的极性和宾语部分的极性相同,则事件或行为的极性赋值为positive;
[0036] 如果谓语部分的极性和宾语部分的极性不同,则事件或行为的极性赋值为negative。
[0037] 在HowNet中,Event类中包含Static和Act两种子类,对于谓语中的义原属于Static类的结构,定义该结构为一个事件,对于谓语中义原属于Act类的结构,定义该结构为一个行为,另外,对于谓语中义原属于Act类的结构,如果该结构是被动语态,则视为一个事件。
[0038] 通过以上规则,若谓宾结构是事件,根据极性判定值positive、negative和neutral分别将事件极性赋值为desirable、undesirable和neutral,若谓宾结构是行为,根据极性判定值positive、negative和neutral分别将行为极性赋值为praiseworthy、blameworthy和neutral。
[0039] 事件状态考察句子中的状语部分,采用关键词识别的方法确定取值。根据《哈工大信息检索研究室同义词词林扩展版》,对于状语中表达“未确定”含义的词语,将事件状态赋值为unconfirmed,对于状语中表达“已确定”含义的词语,将事件状态赋值为confirmed,对于状语中表达“已否定”含义的词语,将事件状态赋值为disconfirmed。
[0040] 自身反应考察句子中具有明显情感倾向的词语,依据HowNet发布的中文正面情感词语数据库和负面情感词语数据库,采用关键词识别的方法确定取值。对于正面情感赋值为pleased,对于负面情感赋值为displeased。
[0041] 在上述方法中,所述步骤4)中情感规则如表2所示。
[0042] 表2情感规则
[0043]
[0044] *符号定义:&表示条件与,|表示条件或,NA表示该变量不存在。
[0045] 本发明提供的汉语文本情感识别方法有效解决了汉语文本情感识别领域存在的情感识别类别少,识别准确度不高等问题。该方法有如下优点:所使用的常识知识库中的概念只需要包含正负情感权值;考虑了句子结构对情感判断的影响,准确率提高;基于规则的判定准则在理论上受到大众认可,情感分类更加详细。(四)附图说明
[0046] 图1汉语文本情感识别框图。
[0047] 图2句子成分及其依存关系。(五)具体实施方式
[0048] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明三个实施例的汉语文本情感识别方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0049] 本发明的基本思想是通过分析句子结构,找到符合定义的情感识别变量,根据具有情感信息的HowNet常识库对情感识别变量赋值,再通过定义的情感规则识别句子所表达的情感类型。
[0050] 根据以上思想,本发明的流程框图如图1所示。
[0051] 下面通过三个具体的实施例说明汉语文本情感的识别方法。
[0052] (1)李小姐得到了1000元钱的奖金。
[0053] (2)我明天可能被他们邀请参加舞会。
[0054] (3)我为我救起一名落水儿童的行为感到高兴。
[0055] 通过哈尔滨工业大学信息检索研究中心的语言技术平台可以得到句子的成分及其之间的依存关系,如图2所示。
[0056] (1)主语:小姐;谓语:得到;宾语:奖金;定语:李(修饰小姐)。
[0057] (2)主语:我;谓语:邀请;宾语:舞会;状语:可能(修饰邀请)、被(修饰邀请,被动态)。
[0058] (3)该句为两个句子嵌套结构。主句,主语:我;谓语:感到;补语:高兴(修饰感到);子句,主语:我;谓语:救起;宾语:儿童;定语:落水(修饰儿童)。
[0059] 根据情感变量的考察方法得到:
[0060] (1)情感主体:李小姐;事件或行为:得到奖金。
[0061] (2)情感主体:我;事件或行为:可能被邀请舞会。
[0062] (3)主句,情感主体:我;事件或行为:感到高兴;子句,情感主体:我;事件或行为:救起落水儿童;
[0063] 根据情感变量的赋值方法:
[0064] (1)情感主体的判定:“小姐”为其它人称,则Emotion_subject=other;“李小姐”的极性判定:Orientation(小姐)=0,Orientation(李)=0,则Subject_polarity=neutral;“得到奖金”的极性判定:谓语部分“得到”的极性为neutral,宾语部分“奖金”的极性为positive,由于“得到”在HowNet中从属于Event类下的Static子类,判定“得到奖金”为一个事件,则Event_polarity=desirable。
[0065] (2)情感主体的判定:“我”为第一人称,则Emotion_subject=self,此时不需要再作情感主体的极性判定;“可能被邀请舞会”的极性判定:谓语部分“邀请”的极性为neutral,宾语部分“舞会”的极性为positive,虽然“邀请”在HowNet中从属于Event类下的Act子类,但由于被动态,判定“被邀请舞会”为一个事件,则Event_polarity=desirable;由于状语“可能”表达了未确定的状态,则Event_status=unconfirmed。
[0066] (3)对于主句,情感主体的判定:“我”为第一人称,则Emotion_subject=self;“感到高兴”的极性判定:谓语部分“感到”的极性为neutral,无宾语部分,由于“感到”的义原“心怀”和“认为”在HowNet中均从属于Event类下的Static子类,判定“感到高兴”为一个事件,则Event_polarity=neutral;由于补语“高兴”表达了明显的正面情感,则Self_reaction=pleased。对于子句,情感主体的判定:“我”为第一人称,则Emotion_subject=self;“救起落水儿童”的极性判定:谓语部分“救起”的极性为positive,宾语部分“落水儿童”的极性为neutral,由于“救起”的义原“帮助”和“救助”在HowNet中均从属于Event类下的Act子类,判定“救起落水儿童”为一个行为,则Action_polarity=praiseworthy。
[0067] 综合以上情感变量的取值得到:
[0068] (1)Emotion_subject= other;Subject_polarity =neutral;Event_polarity=desirable。由规则得到此句子表达了“欣喜”的情感。
[0069] (2)Emotion_subject= self;Event_polarity =desirable;Event_status =unconfirmed。由规则得到此句子表达了“希望”的情感。
[0070] (3)Emotion_subject = self;Event_polarity = neutral;Self_reaction =pleased;Action_polarity=praiseworthy。由于Event_polarity=neutral不属于22条规则中的任何一条规则的判定变量,则舍去,由规则得到此句子表达了“满意”的情感。
[0071] 应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导和限制。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用