一种基于决策树的术语判定方法转让专利

申请号 : CN201510002515.X

文献号 : CN104572621B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 江潮张芃

申请人 : 语联网(武汉)信息技术有限公司

摘要 :

一种基于决策树的术语判定方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。本发明减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。

权利要求 :

1.一种基于决策树的术语判定方法,其特征在于,包括:

对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;

确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;

所述多个特征包括:所述候选术语在原始语料中的词频、所述候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值、所述候选术语的左熵和右熵两者中较大值、候选术语独立成词的概率、所述候选术语的每个语素在历史语料库中处于词头位置、词中位置和词尾位置的出现概率以及候选术语的领域概率;

按照如下公式计算出候选术语中的每个语素x独立成词的概率IPW(x):其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;

按照如下公式计算出候选术语C独立成词的概率IPW(C):IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)其中,c1、c2、…、cl分别为候选术语C中相应位置的语素;

根据所述每个语素在所述历史语料库中处于所述词头位置、所述词中位置和所述词尾位置的出现概率得到一个包含所有语素的内部词概率表,计算如下:其中“*”表示和语素x组成术语的前后语素组合,times(X)表示所述术语X在术语语料库中的出现次数;IPC(x,pos)表示所述语素x出现在位置pos的概率;pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾;

对于待计算的l元字符串C=c1c2…cl,根据所述内部词概率表,其内部词概率IPC的计算方法为:其中,按照如下公式计算候选术语的领域概率:

其中,P(F_ci)为候选术语的每个语素或语素组合在历史语料库中的出现概率,n为候选术语的语素个数或语素组合的个数;

以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;

将通过所述决策树判定成功的所述候选术语作为新术语。

2.根据权利要求1所述的术语判定方法,其特征在于,在所述以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定之前,还包括:从术语库中随机选取一定数量、且连续的若干个已认定的术语;

根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策树。

3.根据权利要求2所述的术语判定方法,其特征在于,所述根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策树的过程中,包括:将每个所述特征作为所述决策树上的判定结点,并且根据所述多个特征的信息增益或信息增益比的大小关系,确定所述决策树的生成顺序;

其中,每个判定结点上具有与其对应的特征的、用于形成所述决策树的枝干的判定阈值。

4.根据权利要求3所述的术语判定方法,其特征在于,所述以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定,具体包括:将所述候选术语的每个特征值,依照所述决策树的生成顺序,与决策树的判定结点上的判定阈值进行比较;

若在所述决策树上作为叶子结点的判定结点上判定成功,则将该候选术语标记为新术语。

说明书 :

一种基于决策树的术语判定方法

技术领域

[0001] 本发明属于数据挖掘技术领域,尤其是一种基于决策树的术语判定方法。

背景技术

[0002] 领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
[0003] 目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。

发明内容

[0004] 本发明的目的之一是提供一种基于决策树的术语判定方法,以解决现有技术中对于领域术语提取效果比较差的问题。
[0005] 在一些说明性实施例中,所述基于决策树的术语判定方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。
[0006] 与现有技术相比,本发明的说明性实施例包括以下优点:
[0007] 减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。

附图说明

[0008] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009] 图1是按照本发明的说明性实施例的流程图。

具体实施方式

[0010] 在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0011] 如图1所示,公开了一种基于决策树的术语判定方法,包括:
[0012] S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
[0013] S12、确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;
[0014] S13、以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;
[0015] S14、将通过所述决策树判定成功的所述候选术语作为新术语。
[0016] 减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。
[0017] 以下对上述方法进行详细说明:
[0018] 例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。
[0019] 以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。
[0020] 在一些说明性实施例中,所述确定影响术语判定的多个特征,包括:
[0021] 候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值、候选术语的左熵和右熵两者中较大值、候选术语独立成词的概率、候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率、以及候选术语的领域概率。
[0022] 其中,对上述特征的获取过程,进行详细说明:
[0023] 1)、对候选术语的词频进行分析,即获取候选术语在所述原始语料中的出现次数;
[0024] 2)、对候选术语进行互信息的分析,得到候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值。
[0025] 例如:分析的候选术语C的长度为l个语素单位,以第k个语素位置,进行拆分,得到的前部为c1~ck,后部为ck+1~cl。
[0026] 按照如下公式进行互信息的计算:
[0027]
[0028] 其中,c1c2…cl分别对应为候选术语C中相应位置的语素,P(c1c2…cl)为该候选术语C在原始语料中的出现概率,P(c1c2…ck)为候选术语C的前部在原始语料中的出现概率,P(ck+1ck+2…cl)为候选术语C的后部在原始语料中的出现概率。
[0029] 互信息的最小值的获取,例如:候选术语ABC,第一次拆分为A,和BC,第二次拆分为AB和C,两次互信息的计算依次为0.5和0.6,取0.5作为候选术语ABC的互信息。
[0030] 3)、对候选术语进行左右熵的分析,确定候选术语的左右熵
[0031] 按照如下公式进行计算:
[0032]
[0033] 其中,LH(C)为候选术语C的左熵,L表示出现在候选术语C左侧的词汇集合,P(lC|C)为词汇l出现在候选术语C左侧的条件概率;
[0034]
[0035] 其中,RH(C)为候选术语C的右熵,R表示出现在候选术语C右侧的词汇集合,P(Cr|C)为词汇r出现在候选术语C右侧的条件概率;
[0036] LRH=max(LH(C),RH(C))
[0037] 其中,LRH为候选术语C的左右熵,通过对其左熵和右熵取最大值获得。
[0038] 4)、对候选术语的独立性进行分析,即候选术语具有的每个语素均在历史语料库中独立成词的概率
[0039] 按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x):
[0040]
[0041] 其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;
[0042] 按照如下公式计算出候选术语C独立成词的概率IPW(C):
[0043] IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)
[0044] 5)、对候选术语中的每个语素出现的位置进行分析,根据内部词概率表获得候选术语不同位置的语素的出现概率;其中内部词概率表的获取方法为,在已有的术语语料库中,计算其中每个语素x出现在术语的头、中、尾的概率,从而得到一个包含所有语素的内部词概率表。公式如下:
[0045]
[0046]
[0047]
[0048] 其中“*”表示和语素x组成术语的前后语素组合,times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾。
[0049] 对于待计算的l元字符串C=c1c2…cl,根据上述所得的内部词概率表,其内部词概率IPC的计算方法为:
[0050]
[0051] 6)、对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析,确定候选术语的领域概率
[0052] 统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率P(F_ci);
[0053] 再按照如下公式计算出候选术语的领域概率PC:
[0054]
[0055] 通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行分析,作为候选术语的特征,充分进一步使得到的术语可靠性和准确性较高。
[0056] 在一些说明性实施例中,在所述以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定之前,还包括:
[0057] 从术语库中随机选取一定数量、且连续的若干个已认定的术语;
[0058] 根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策树。
[0059] 在一些说明性实施例中,所述根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策树的过程中,包括:
[0060] 将每个所述特征作为所述决策树上的判定结点,并且根据所述多个特征的信息增益或信息增益比的大小关系,确定所述决策树的生成顺序;
[0061] 其中,每个判定结点上具有与其对应的特征的、用于形成所述决策树的枝干的判定阈值。
[0062] 在一些说明性实施例中,所述以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定,具体包括:
[0063] 将所述候选术语的每个特征值,依照所述决策树的生成顺序,与决策树的判定结点上的判定阈值进行比较;
[0064] 若在所述决策树上作为叶子结点的判定结点上判定成功,则将该候选术语标记为新术语。
[0065] 优选地,以下对上述说明性实施例进行详细说明:
[0066] 一、特征项选择及其取值
[0067] 1)、词频WT
[0068] 对新语料集进行切分,获得新语料集中任意长度的的字符串。将所获取的任意长度的字符串作为字符串集1。统计字符串集1中每个字符串的词频,即统计字符串集1中的每个字符串在新语料集中的出现次数。
[0069] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的词频是否大于给定阈值。
[0070] 2)、互信息MI
[0071] 互信息是信息论中的概念,用来度量信息中两个单元的关联程度,字符串的互信息越大表明该字符串的组成术语的可能性越大。
[0072] 对于n元字符串即长度为n的字符串,其互信息的计算方法为——计算该n元字符串被任意分割成的两个子串的互信息,将其最小值作为该n元字符串的互信息。公式表达如下:
[0073] 令:n元字符串C=c1c2…cn,其互信息计算公式如下:
[0074]
[0075] 其中,k∈{1,2,…,n}。
[0076] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的互信息是否大于给定阈值。
[0077] 3)、左右熵LRH
[0078] 在自然语言处理中,字符串的左右熵是一个重要的统计特征,体现了字符串的上下文活跃程度,术语抽取、新词检测等领域中有着非常广泛的应用。如果某个字符串具有较大的左右熵,说明其上下文搭配词汇丰富,使用上具有较大的灵活性和独立性,同时也表明该字符串是一种不稳定的构成,即该字符串为术语的概率较低。
[0079] 字符串左右熵计算公式如下:
[0080]
[0081]
[0082] LRH(C)=max(LH(C),RH(C))
[0083] 其中,L表示出现在字符串C左侧的词汇集合;R表示出现在字符串C右侧的词汇的集合;P(lC|C)为字符l出现在字符串C左侧的条件概率;P(Cr|C)表示字符r出现在字符串C右侧的条件概率。
[0084] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的左右熵是否大于给定阈值。
[0085] 4)、独立词概率IWP
[0086] 对于字符串C而言,如果其独立词概率IPW(C)越大,表示C是术语的可能性就越小。
[0087] 独立词概率计算方法如下:
[0088] 任给一个字符x,其在句子中的独立成词的可能性IPW(x)的计算方法为
[0089]
[0090] 其中,word(x)表示字符x独立成词的次数,times(x)表示x在新语料集中出现的次数;
[0091] 则候选术语C独立词概率的计算方法为:
[0092] IPW(C)=IPW(c1c2…cn)=IPW(c1)·IPW(c2)·…·IPW(cn)
[0093] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的独立词概率是否大于给定阈值。
[0094] 5)、内部词概率IPC
[0095] 内部词概率代表一个字符在术语中出现在某位置的概率,IPC(x,pos)表示字符x出现在位置pos的概率。pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾。内部词概率表达了一个字符串的头、中、尾三个位置的字符的符合度,其值越大,该字符串是术语的可能性越大。
[0096] 计算方法为,在已有的术语语料库中,计算其中每个字符x出现在术语的头、中、尾的概率,从而得到一个包含所有字符的内部词概率表。计算公式如下:
[0097]
[0098]
[0099]
[0100] 其中“*”表示和字符x组成术语的前后字符串,times(X)表示术语X在术语语料库中的出现次数。
[0101] 对于待计算的n元字符串C=c1c2…cn,根据上述所得的内部词概率表,其内部词概率的计算方法为:
[0102]
[0103] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的内部词概率是否大于给定阈值。
[0104] 6、领域概率PC
[0105] 领域概率表明该字符串属于该领域术语的概率。
[0106] 计算字符串集6中每个字符串的的领域概率,去除领域概率小于给定阈值的字符串,得到最终的候选术语集。
[0107] 对于字符串集6中的每个字符串C,计算其每个字符在已有的术语语料库中的出现概率P(F_ci):
[0108]
[0109] 根据给定的阈值,将该特征项取值为{0,1},分别代表该候选术语的领域概率是否大于给定阈值。
[0110] 二、建立候选术语判断决策树
[0111] 通过术语已整理好的语料库建立决策树
[0112] 输入:
[0113] 训练集D:术语已整理确定好的语料库
[0114] 决策分类:C={C1,C2},其中C1=是术语,C2=不是术语
[0115] 特征项集:A={A1,A2,A3,A4,A5,A6},其中A1=WT,A2=MI,A3=LRH,A4=IPW,A5=IPC,A6=PC
[0116] 阀值:th
[0117] 输出:术语判断决策树T
[0118] 算法流程:
[0119] 若D中所有的字符串都属于同一类Ci,将决策树T置为单结点树,以Ci作为该结点的类别,返回决策树T;
[0120] 如果 将决策树T置为单结点树,并将D中字符串数最大的类Ci作为该结点的类别,返回决策树T;
[0121] 否则计算A1~A6各个特征对D的信息增益比,选择信息增益比最大的特征Aj;
[0122] 如果Aj的信息增益比小于阀值th,将T置为单结点数,并将D中字符串数最大的类Ci最为该结点的分类,返回决策树T;
[0123] 否则,对特征Aj的每个可能的取值,将D划分为多个非空子集Dk,将Dk中字符串数最大的类作为标记,构建子结点,由结点及其子结点构成决策树T,返回决策树T;
[0124] 对结点k,以Dk为训练集,以A-{Aj}为特征集,递归调用步骤1)~5),得到子树Ti,返回Ti。
[0125] 三、候选术语的判断
[0126] 对新语料集进行切分,获得新语料集中任意长度的的字符串。将这些字符串作为候选术语。
[0127] 计算这些候选术语的词频WT、互信息MI、左右熵LRH、独立词概率IPW、内部词概率IPC和领域概率PC,更加这些值值和其相应阈值,得到候选术语每个特征项的取值。
[0128] 根据候选术语的每个特征项的取值,在术语判断决策树T上按决策树的生成顺序进行判定。
[0129] 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。