基于表现语义分析的概念相关度计算方法转让专利

申请号 : CN201210125007.7

文献号 : CN102737112B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张辉马永星胡红萍左源

申请人 : 北京航空航天大学

摘要 :

本发明公开了一种基于表现语义分析的概念相关度计算方法,包括如下步骤:(1)基于解释关系构造概念语义特征向量;(2)实现语义特征赋权和特征降维;(3)通过向量距离量化表征不同概念之间的相关度。通过实验比较,本发明所提供的基于表现语义分析的概念相关度计算方法明显优于现有的正向构造法和逆向构造法,而且该方法相比较基于明确语义分析的概念相关度计算更适用于概念关系的发现。

权利要求 :

1.一种基于表现语义分析的概念相关度计算方法,其特征在于包括如下步骤:⑴基于解释关系构造概念语义特征向量:

基于解释关系的语义特征方向无关性,将概念的解释集和被解释集同等视作表现语义,进而构造语义特征向量;

⑵实现语义特征赋权和特征降维:

首先,使用优化后的逆文档频率代替逆文档频率进行语义特征赋权,采用基于词频统计的语义特征赋权计算公式如下:其中weight(explain(b,a))表示概念b解释概念a的情况下,概念b承载的语义特征权重,tfb,a表示概念b在概念a百科文章中的正规化频率;

优化后的逆文档频率使用odfb,a表示,计算公式如下:其中,nb,a表示概念b在概念a百科文章中的出现频率,TFb为概念b的解释集词频和,D为百科语料库中的概念总数;

接着,使用带监督器的滑动窗口进行特征降维,所述特征降维采用如下步骤:首先设定滑动窗口大小,记为winLen,设定权重降幅阈值δ,然后按照权重对向量特征进行降序排列,将滑动窗口从向量头部向尾部滑动,若发现当前滑动窗口首末权重相差幅度超过δ,则减去滑动窗口之后的特征,否则窗口整体向尾部滑动一个特征;

⑶通过向量距离量化表征不同概念之间的相关度。

2.如权利要求1所述的基于表现语义分析的概念相关度计算方法,其特征在于:所述步骤⑵中,tfb,a通过如下公式进行计算:其中,nb,a表示概念b在概念a百科文章中的出现频率,Σknk,a为概念a百科文章中所有概念频率之和。

3.如权利要求1所述的基于表现语义分析的概念相关度计算方法,其特征在于:所述步骤⑵中,TFb通过如下公式计算:

其中,k为b解释集中的概念元素,Φexplaining(b)为概念b的解释集,nb,k表示概念b在概念k百科文章中的出现频率。

4.如权利要求1所述的基于表现语义分析的概念相关度计算方法,其特征在于:所述步骤⑵中,将解释关系在百科正文中不同位置的出现归纳为两种:亮点解释和普通解释;分别为亮点解释和普通解释赋予不同的权重。

5.如权利要求4所述的基于表现语义分析的概念相关度计算方法,其特征在于:所述亮点解释与所述普通解释的权重之比为2.5:1。

6.如权利要求1所述的基于表现语义分析的概念相关度计算方法,其特征在于:如果概念原始特征数小于winLen或者滑动窗口已到达向量尾部,则无需降维。

7.如权利要求1所述的基于表现语义分析的概念相关度计算方法,其特征在于:所述步骤⑶中,采用余弦相似度或者马氏距离度量向量距离。

说明书 :

基于表现语义分析的概念相关度计算方法

技术领域

[0001] 本发明涉及一种概念相关度计算方法,尤其涉及一种基于表现语义分析的概念相关度计算方法,属于语义网络技术领域。

背景技术

[0002] 在自然语言世界中,概念是对客观实体的抽象描述。不同概念间相互关联衍生出缤纷复杂的语义关系,构成自然语言世界的基础。为适应语义推理和智能化服务的需求,语义Web为代表的下一代信息互联网络,试图在任何微小数据间构建连接,而概念关系正是构建语义网络的基础。此外,概念关系抽取在信息检索、自动问答、机器翻译等领域也都有着广泛应用。
[0003] 在实践中,不同概念之间的关系可以简单归纳为四种:类属关系,属值关系,上下文共现和解释关系。其中解释关系是指如果词条b在词条a正文中具有说明意义的出现,则称词条b解释词条a,词条a被词条b解释,a为解释关系的主体,b为解释关系的客体。在本发明中,使用标记explain(b,a)代表b解释a的解释关系。
[0004] 上述“解释关系”是包含语义的。不同的概念被不同的概念集合解释,但是这些概念集合又是有交集的,这就为通过解释关系窥探概念的相关度构造了可行的渠道,即比较解释关系的集合在代数意义上的相似。解释关系和被解释关系都是一种语义元素重合的表现。语义元素的重合是没有方向性的,因此一般认为解释关系的语义特征不具有方向性。“解释关系”将语义相关转化为代数意义的相似是当前很多计算概念相关度算法的基础。例如,雅虎研究院的Evgeniy Gabrilovich博士于2007年提出ESA算法用于计算概念相关度,取得了突破性的效果。ESA算法在概念的解释集合上进行TF-IDF(词频-逆向文件频率)权重计算,使用计算得到的权重组成的向量表征概念,通过计算向量距离来求得概念相关度。
[0005] 在现有技术中,通常采用正向构造法和逆向构造法构造语义特征向量,进而通过数学中量化向量距离的方法计算概念相关度。所谓正向构造法是通过与词条概念具有被解释关系的概念集合,即词条概念的被解释集,构造语义特征向量的方法。例如将每一个概念视作语义空间中的一个维度,每篇由概念组成的百科全书正文就映射为语义空间中的一个向量,此向量就是百科全书正文对应词条概念的语义特征向量。正向构造法直观容易理解,构造方便。但是,不同的词条概念正文论述详细程度差别很大,论述过于详细的词条概念容易引入噪音维度,论述过于简略的词条概念会出现维度缺失。
[0006] 同正向构造法相似,逆向构造法是将概念集合中的一个概念视为语义空间中的一个维度。不同的是,正向构造法使用概念的被解释集构造特征向量,而逆向构造法则使用概念的解释集构造语义特征向量。上述的ESA算法就使用了逆向构建词语特征向量的方法,取得了不错的效果。但是,逆向构造法仍然存在若干缺点。例如,百科全书中存在大量词条并不解释其他概念。对于这类词条,无法使用逆向构造法进行语义特征向量进行表征。
[0007] 在专利号为ZL200810223792.3的中国发明专利中,中国科学院计算技术研究所提出了一种分类目录自动构建方法,包括:步骤1)查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;步骤2)计算所述概念术语集合中各个概念术语间的相关度;步骤3)根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;步骤4)将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。该技术方案所涉及的概念相关度计算方法包括:计算两个术语在同一文本内容中的共同出现次数的方法、计算两个术语间的互信息的方法、计算两个术语在词典或人工目录中的距离的方法、传统信息检索中计算文本间距离的计算方法等。

发明内容

[0008] 本发明所要解决的技术问题在于提供一种基于表现语义分析的概念相关度计算方法。该方法可以较为准确地度量不同概念之间的关系,有利于概念关系的发现。
[0009] 为实现上述的发明目的,本发明采用下述的技术方案:
[0010] 一种基于表现语义分析的概念相关度计算方法,包括如下步骤:
[0011] ⑴基于解释关系构造概念语义特征向量:
[0012] 基于解释关系的语义特征方向无关性,将概念的解释集和被解释集同等视作表现语义,进而构造语义特征向量;
[0013] ⑵实现语义特征赋权和特征降维:
[0014] 首先,使用优化后的逆文档频率代替逆文档频率进行语义特征赋权,采用基于词频统计的语义特征赋权计算公式如下:
[0015]
[0016] 其中weight(explain(b,a))表示概念b解释概念a的情况下,概念b承载的语义特征权重,tfb,a表示概念b在概念a百科文章中的正规化频率;
[0017] 优化后的逆文档频率使用odfb,a表示,计算公式如下:
[0018]
[0019] 其中,nb,a表示概念b在概念a百科文章中的出现频率,TFb为概念b的解释集词频和,D为百科语料库中的概念总数;
[0020] 接着,使用带监督器的滑动窗口进行特征降维,所述特征降维采用如下步骤:首先设定滑动窗口大小,记为winLen,设定权重降幅阈值δ,然后按照权重对向量特征进行降序排列,将滑动窗口从向量头部向尾部滑动,若发现当前滑动窗口首末权重相差幅度超过δ,则减去滑动窗口之后的特征,否则窗口整体向尾部滑动一个特征;
[0021] ⑶通过向量距离量化表征不同概念之间的相关度。
[0022] 其中较优地,tfb,a通过如下公式进行计算:
[0023]
[0024] 其中,nb,a表示概念b在概念a百科文章中的出现频率,Σknk,a为概念a百科文章中所有概念频率之和。
[0025] 其中较优地,所述步骤⑵中,TFb通过如下公式计算:
[0026]
[0027] 其中,k为b解释集中的概念元素,Φexplaining(b)为概念b的解释集,nb,k表示概念b在概念k百科文章中的出现频率。
[0028] 其中较优地,所述步骤⑵中,将解释关系在百科正文中不同位置的出现归纳为两种:亮点解释和普通解释;并为亮点解释和普通解释赋予不同的权重。
[0029] 其中较优地,所述亮点解释与所述普通解释的权重之比为2.5:1。
[0030] 其中较优地,如果概念原始特征数小于winLen或者滑动窗口已到达向量尾部,则无需降维。
[0031] 其中较优地,所述步骤⑶中采用余弦相似度或者马氏距离度量向量距离。
[0032] 通过实验比较可以发现,本发明所提供的基于表现语义分析的概念相关度计算方法明显优于现有的正向构造法和逆向构造法,而且该方法相比较基于明确语义分析的概念相关度计算更适用于概念关系的发现。

附图说明

[0033] 下面结合附图和具体实施方式对本发明做进一步的详细说明。
[0034] 图1为采用带监督器的滑动窗口进行特征降维的流程图;
[0035] 图2为语用调权参数与其相关系数的对应关系示意图;
[0036] 图3为β=2.5时,斯皮尔曼相关系数平均值随滑动窗口和降幅阈值参数动态变化的曲线图;
[0037] 图4为NDCG@10情况下,RFA算法和ESA算法的比较结果示意图;
[0038] 图5为NDCG@20情况下,RFA算法和ESA算法的比较结果示意图。

具体实施方式

[0039] 所谓“概念关系发现”是指寻找语义关联程度较强的概念对。“概念关系发现”可通过如下步骤完成:首先制定概念相关度计算规则,而后两两计算概念对间的相关度,然后对相关度值进行排序,最后取得相关度较大的概念对。其中,概念相关度计算是最为关键的一个环节。
[0040] 在本发明所提供的概念相关度计算方法中,首先设定概念语义空间,然后将概念表征为语义空间中的向量,最后通过数学中量化向量距离的方法量化表征概念相关度。在具体计算过程中,使用表现语义构造特征向量,结合TF-ODF特征赋权和基于中文语用的特征调权来计算特征权重。因此,本发明人将该方法称为基于表现语义分析的概念相关度计算方法,简称为RFA(Representative Features Analysis)算法。下面对此展开详细具体的说明。
[0041] 首先介绍如何基于解释关系构造概念语义特征向量。在本发明中,基于解释关系的语义特征的方向无关性,综合正向构造和逆向构造两种方法,将概念词条的解释集和被解释集同等视作表现语义,进而构造语义特征向量。
[0042] 通常,我们会采用边界定位的方法描述物体的地理位置。边界定位的描述方法基于一个朴素的道理:如果能确定事物性质的边界,就可以获知事物的性质。基于此,我们将概念词条的解释集与被解释集视作概念语义特征的边界。两个概念的语义特征边界愈近似,那么概念语义就愈相关。
[0043] 在正向构造法中,部分概念正文过短会导致语义特征偏少;在逆向构造法中,部分概念无解释集会导致该概念无法被表征。通过表现语义构造语义特征向量可在一定程度上解决上述问题。
[0044] 接下来,介绍如何实现语义特征赋权和特征降维。语义特征赋权是对解释关系在百科语料库概念集合中的概念重要性的评估。前已述及,正向构造法使用概念的被解释集作为特征,逆向构造法使用概念的解释集作为特征,上述的表现语义构造法则兼收概念的解释集与被解释集作为概念的语义特征。无论采用哪种语义特征向量的构造方法表征概念,都需要对解释关系的语义特征进行赋权。
[0045] 语义特征赋权标准是语义赋权规则的导向,是语义特征重要性与需求对应的体现。通过构造语义特征向量计算概念相关度进而搜寻强相关的概念关系组合是我们的需求,再者,因为概念在语义空间中处于离散状态更有利于辨析概念及概念间的相关程度,因此,在赋权时,愈是概念个性独到的特征愈是应该得到加强。
[0046] 词频统计常用于文本特征赋权,比如信息检索和文本挖掘常用加权技术TF-IDF等。TF-IDF技术的应用甚广,其核心思想为特征的重要性随着其在文本中出现的次数成正比增加,但是随着其在整个语料库中出现的文档频率成反比下降。在本发明所提供的RFA算法中,基于词频统计的特征赋权亦借鉴TF-IDF的思想,并对逆文档频率进行改造,提出TF-ODF解释关系语义特征的赋权算法。具体说明如下:
[0047] 假设概念a和概念b具有解释关系explain(b,a),即概念b解释概念a。我们使用tfb,a表示概念b在概念a百科文章中的正规化频率,计算公式如下:
[0048]
[0049] 其中,nb,a表示概念b在概念a百科文章中的出现频率,Σknk,a为概念a百科文章中所有概念频率之和。正规化的词频可以防止偏向长的百科文章,因为同一个词与在长文件里可能会比短文件中有更高的频率,而不管该特征重要与否。概念b的解释集为Φexplaining(b),显然a∈Φexplaining(b)。我们统计概念b的解释集词频和,记为TFb,称为概念b的解释词频总量,计算公式如下:
[0050]
[0051] 其中,k为b解释集中的概念元素,Φexplaining(b)为概念b的解释集,nb,k表示概念b在概念k百科文章中的出现频率。
[0052] 假定概念b在所有概念解释集的百科文章中同概率均匀分布,则TFb和tfb,a的比例关系在平均情况下为文档频率,即该概念b出现的百科文章数,也是b的解释集合的元素个数。文档频率通常在TF-IDF算法中被用作计算逆文档频率,以调低具有较高文档频率的特征权重,因为此等特征不利于区分被解释的概念语义。但是,概念b的解释频率在不同的百科文章中出现频率不可能是均匀的。当赋权算法使用逆文档频率限制特征权重时,应该对不同的百科文章中不同的频率出现进行区分,将频率较高的特征权重适当调高。据此,我们使用优化后的逆文档频率代替逆文档频率进行语义特征赋权,优化后的逆文档频率使用odfb,a表示,计算公式如下:
[0053]
[0054] 优化后的逆文档频率在不同百科文章中具有不同的数值,与其特征频率相关。其中D为百科语料库中的概念总数。
[0055] 至此,我们给出基于词频统计的解释语义特征赋权计算公式,如果概念b解释概念a,那么概念b承载的语义特征权重为weight(explain(b,a)),计算公式如下:
[0056]
[0057] 如果概念a解释概念c,那么概念c承载的语义特征权重为:
[0058]
[0059] 在实践中,一个概念解释另外一个概念,可能出现在百科正文的百科名片中,可能出现在属性值中,也可能出现在子标题中。当然,还有绝大部分出现在正文段落中。由于中文语用的习惯,词语出现在正文不同部分代表的语义重要程度也不相同,百科名片类似于正文概要,出现在其中肯定要比出现在正文段落中更加重要。
[0060] 因此,我们将解释关系在百科正文中不同位置的出现归纳为两种,在百科名片、属性值、子标题中,称其为亮点解释。在百科正文中,则称其为普通解释。为更好地体现中文语用习惯,挖掘文章本身蕴含的语义,我们为亮点解释和普通解释赋予不同的权重,对上文中论述的基于词频统计的特征赋权进行语用调权。亮点解释和普通解释的调权系数记为β,一次亮点解释的效果是普通解释的β倍。
[0061] 例如概念b解释概念a,经过中文语用的特征调权,解释词频nb,a计算公式如下:
[0062]
[0063] 其中, 为亮点解释,n'b,a为普通解释。将tf和odf计算公式中词频进行替换即可得到调权后的权重计算公式。β的取值可以通过实验评测反馈确定,具体实验方法和结论将在后续内容中给出。
[0064] 正向构造特征向量是从概念的被解释集中选取特征,其特征维度依赖于文章的长度,维度范围集中在100~400之间;相比之下,从概念的解释集中选取特征,其特征维度范围远远超过正向构造特征向量的维度,少则为零,多则可达到数十万。表现语义构造法结合正向和逆向构造法,保证概念语义特征的维度不会太低,但是也在一定程度上带来了维度爆炸,给计算效率带来极大压力。维度爆炸带来两方面的负面影响,一是计算效率降低;二是引入大量噪音特征降低概念相关度计算的准确性。特征降维的目的正是在保存主要特征的前提下,尽可能地降低维度,提高计算效率,去除噪音特征。
[0065] 如图1所示,本发明中采用带监督器的滑动窗口进行特征降维,其中的监督器对滑动窗口首尾特征权重进行降幅检测。首先设定滑动窗口大小,记为winLen,设定权重降幅阈值δ,然后按照权重对向量特征进行降序排列,将长度为winLen的滑动窗口从向量头部向尾部滑动,若发现当前滑动窗口首末权重相差幅度超过δ,则减去滑动窗口之后的特征,否则窗口整体向尾部滑动一个特征。如果概念原始特征数小于winLen,则无需降维;若在滑动窗口已到达向量尾部,亦说明该向量无需降维。在图1中,滑动窗口winLen和权重降幅阈值δ均可通过抽样数据的结果评价反馈学习,以达到结果最优。
[0066] 最后介绍如何通过数学中量化向量距离的方法量化表征概念相关度。在本发明中,向量距离量化可以采用余弦相似度、马氏距离等方法,优选采用余弦相似度度量特征向量距离。假设概念a的语义特征向量为α,概念b的语义特征向量为β,则概念a和概念b的相关度可以使用向量α和向量β的余弦夹角表示如下:
[0067]
[0068] 由此完成了基于表现语义分析的概念相关度计算过程。
[0069] 下面,通过实验结果的评价反馈,进一步确定特征降维的滑动窗口大小、幅度阈值和语用调权的β参数,并使用公认的评价标准对本发明所提供的RFA算法的准确性进行评估。
[0070] 目前,主要的评价方法有基于人类判断的比较和基于应用效果的评价方法。本实验在这两类方法中各选择了一个评价标准进行实验,斯皮尔曼等级相关系数用于和人类判断的比较,NDCG用于Top-M最相关概念的发现应用效果评价。
[0071] 实验所使用的测试集具体如下:
[0072] (1)ChineseSimilarity-342
[0073] WordSimilarity-353(Finkelstein,2002)是目前概念相关度计算领域应用最广的标准测试集,它包含353个词对,每个词对由13或者16个人进行1~10的相关度评分,最终计算平均值作为词对的相关度得分。
[0074] 由于该测试集为英文词对表,本发明参考外研社《现代汉语词典》,去除未登录词11个,得到中文语义相关测试集对ChineseSimilarity-342。
[0075] (2)人工标注概念相关集
[0076] 本实验以百科语料库中的全体概念为基础数据集,从12个数据类别中随机选取6个,每个数据类别随机选取10个概念,组成元素数为60的目标概念集合(参见表1所示),进行Top-M相关概念发现实验。
[0077]
[0078] 表1人工标注概念相关集
[0079] 前已述及,特征降维需要验定的参数有滑动窗口大小WinLen及降幅阈值δ,语用调权参数为亮点解释相对普通解释的重要性倍数β。在本发明的一个实例中,滑动窗口大小被设定为200,降幅阈值为20%,由于中文和英文的差异,本实验将以(200,20%)为基础参数,通过实验确定特征降维参数的最优设定。根据经验,滑动窗口的实验区分粒度为50,降幅阈值的区分粒度为5%。语用调权参数衡量的是亮点解释与普通解释之间的差异,本实验将在1.5~5之间进行实验分析,区分粒度为0.5。
[0080] 设计10*8*8组实验,滑动窗口的实验范围为50~500,降幅阈值的实验范围为5%~40%,语用调权参数的取值范围为1.5~5即可得到10*8*8组参数二元组,每一组二元组对应一组实验。每组实验的过程包括向量特征调权、基于带监督器的滑动窗口特征降维,而后计算ChineseSimilarly-342评测集中概念对之间的语义相关度,并同人工判断得到的标准计算斯皮尔曼相关系数,最后求取每组实验的斯皮尔曼相关系数。
[0081] 由于语用调权参数与另外两参数之间的关系比较独立,因此我们将语用调权参数相同的实验进行合并,计算相关系数平均值,以此来确定最优语用调权参数β。将不同β值对应的相关系数平均值制成矩形图表如图2所示。其中,条形图中的横轴为斯皮尔曼相关系数平均值,而纵轴为语用调权参数。从图2中可以看出当β=2.5是平均相关系数取得最大值,据此,我们将语用调权参数定为2.5。
[0082] 进一步地,我们将β=2.5时,斯皮尔曼相关系数平均值随滑动窗口和降幅阈值参数动态变化制成曲线图如图3所示。图3中的纵坐标为斯皮尔曼相关系数,横轴为滑动窗口大小,每条曲线对应一个降幅阈值。从图3中可以看出,当滑动窗口较小时,随着降幅阈值的增加,相关系数也随之增长,但是当降幅阈值超过20%时,增长不甚明显,而且由于其他原因导致的相关系数波动,不同降幅阈值之间没有明显的优劣之分。当滑动窗口较小时,随着滑动窗口的增加,各降幅阈值下的相关系数都有所增长,但是超过一定窗口时,增长趋势被波动趋势代替,不同的降幅阈值下临近边界有所不同。曲线组的最高取值出现在滑动窗口为300,降幅阈值为30%,相关系数达到0.785。
[0083] 此外,我们在中文百科语料库上实现ESA算法,计算ChineseSimilarity-342相关系数后得到的值为0.75,稍逊于ESA论文作者给出的0.78,误差可能由于中英文的差异和语料集的大小导致。
[0084] 概念相关度计算同人工判断值的相关系数并非是相关度计算的唯一有效评价标准。相关系数关注普遍的相关度计算,而如果按照相关度值的大小对相关关系进行分类,那么可以分为强关系和弱关系,概念关系抽取关注更多的是强关系。因此我们引入NDCG评价实验。具体而言,我们使用随机选取的30个目标概念进行NDCG实验,实验步骤如下。计算每一个目标概念同所有其他概念的相关度,并按照相关度大小排序,选取相关度最高的10个相关概念和最高的20个相关概念计算NDCG@10和NDCG@20。
[0085] 我们将本发明所提出的RFA算法和现有的ESA算法分别进行NDCG值的对比,得出的结果如图4和图5所示。其中图4显示了NDCG@10的结果;图5显示了NDCG@20的结果。从图4和图5可以看出,基于表现语义相关度计算得到的最相关概念集优于基于ESA算法所得到的结果,NDCG@10的优势更甚于NDCG@20。这可以说明本发明所提供的基于表现语义分析的概念相关度计算方法相比较ESA算法更适合概念关系发现。
[0086] 上面对本发明所提供的基于表现语义分析的概念相关度计算方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。