基于组合的短语规则抽取方法转让专利

申请号 : CN201210464597.6

文献号 : CN102999486B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱靖波李强肖桐张浩

申请人 : 沈阳雅译网络技术有限公司

摘要 :

本发明涉及一种基于组合的短语规则抽取方法,包括以下步骤:在双语语料中构造一个“最小短语规则”;通过组合构造组合的短语规则集;从给定的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。本发明有效的生成高质量的含有较多上下文信息的短语规则集,在翻译性能不降低的情况下,本发明方法比基准方法抽取的短语规则集减小56.5%。

权利要求 :

1.一种基于组合的短语规则抽取方法,其特征在于包括以下步骤:在双语语料中构造一个“最小短语规则”;

通过组合最小短语规则来构造一个含有更多上下文信息的短语规则集,形成“组合的短语规则集”;基于组合的短语规则集,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;

设置组合次数n的值,构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;

如果短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;

输出最小短语规则集与所有组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束;

所述组合的短语规则为:一条短语规则与词对齐信息保持一致,同时该短语规则由同一训练句对中的n个或小于n个的最小短语规则合并而成,该类短语规则为组合的短语规则。

2.按权利要求1所述的基于组合的短语规则抽取方法,其特征在于:所述最小短语规则为:在与词对齐信息保持一致的情况下,不能再被分解为两个或者更多的规则。

3.按权利要求1所述的基于组合的短语规则抽取方法,其特征在于:所述组合的短语规则集的大小通过组合的短语规则中组合次数n的取值进行调整,即组合次数n的取值越大,得到的组合的短语规则集越大。

说明书 :

基于组合的短语规则抽取方法

技术领域

[0001] 本发明涉及一种基于短语的统计机器翻译系统中的短语处理技术,具体的说是一种基于组合的短语规则抽取方法。

背景技术

[0002] 基于短语的统计机器翻译系统在机器翻译领域的性能表现出非常强的竞争力。基于短语的方法之所以有效很大一部分原因在于该方法依赖一个质量较高的短语规则集。在短语规则集中,每一个源语言短语被映射到一个或多个不同的目标语短语。在短语系统中,短语由一系列连续的单词构成,短语并没有语言学意义。目前,一些机器翻译领域研究人员已经提出一些行之有效的短语规则抽取方法。在这些短语规则抽取方法中,启发式方法得到了广泛的应用。该抽取方法通过使用双语语料中每个句子对应的词对齐信息,抽取出所有与词对齐信息保持一致的短语规则。由于该规则抽取方法简单、易于实现,同时表现出非常优越的性能,所以在目前基于短语的统计机器翻译系统中得到了广泛的应用。在使用抽取短语规则的过程中,最终抽取出来的短语规则的数量与训练数据中单词的数量成二次方关系。为了得到一个规模可控的短语规则集,通常的做法是对抽取的源语言及目标语言短语的长度加以限制。在多数的性能优异的机器翻译系统中,默认设置将抽取的源语和目标语短语所含单词个数的上限设置为7到10个词。例如,Moses将抽取出来的短语的源语言端与目标语言端的长度限制为7个词。现已经证明将短语规则集中的大部分规则删除并不会影响翻译系统的性能。
[0003] 为了减小短语规则集的大小,目前最普遍使用的方法是对现有的启发式规则抽取方法,即基准短语规则抽取方法抽取出的短语规则进行过滤,从而减小短语规则集的大小。基准短语规则抽取方法在性能优异的基于短语的统计机器翻译系统中得到了广泛使用,如Moses系统,NiuTrans系统。在Koehn等提出的短语规则模型中,短语规则必须满足一致性定义。所述一致性定义为:
[0004] 短语对 与词对齐信息保持一致,当且仅当 中的所有单词在词对齐A中所对应的单词在范围之内,中的所有单词在词对齐A中所对应的单词在 范围之内;与此同时,在与 中,至少有一个单词对在词对齐A中。
[0005] 其中,表示源语短语,表示目标语短语。该定义的直观解释:给定一源语短语及目标语短语,在任意一端的短语中,至少有一个单词对应到另一端的短语中;同时,任意一端短语中的所有单词都不可对应到另一端短语之外。通过如上定义,在Koehn等提出的模型下的所有的短语规则都必须满足一致性的定义。可以根据如上定义直接从平行语料中抽取与词对齐信息保持一致的短语规则:首先在每一个句对中,从源语与目标语端循环查找所有短语,然后输出与词对齐信息保持一致的短语规则。通过该方法进行短语规则集构造时,在规则抽取的过程中,需要设置抽取短语的所含单词的最大个数,这样才可避免得到规模不可控的短语规则集。图2中右侧Baseline列表示用基准短语规则抽取方法从示例的含有词对齐信息的句对中抽取的短语规则。从抽取出的短语规则可以看出,这些规则均与词对齐保持一致。
[0006] 但是,基准短语规则抽取方法有不可避免的问题,即在规则抽取过程中,短语长度需要进行机械的调试以获取最优的短语规则集。抽取出的短语规则表非常大、占用硬盘空间多、同时含有较多的噪音数据。

发明内容

[0007] 针对现有技术中启发式规则抽取方法抽取出的短语规则表非常大、占用硬盘空间多、含有较多的噪音数据等不足之处,本发明要解决的技术问题是提供一种可生成紧凑的、含有较多上下文信息的短语规则集的基于组合的短语规则抽取方法。
[0008] 为解决上述技术问题,本发明采用的技术方案是:
[0009] 本发明一种基于组合的短语规则抽取方法包括以下步骤:在双语语料中构造一个“最小短语规则”;
[0010] 通过组合最小短语规则来构造一个含有更多上下文信息的短语规则集,形成“组合的短语规则集”;基于组合的短语规则集,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;
[0011] 设置组合次数n的值,构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;
[0012] 如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;
[0013] 输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。
[0014] 所述最小短语规则为:在与词对齐信息保持一致的情况下,不能再被分解为两个或者更多的规则。
[0015] 所述组合的短语规则为:一条短语规则与词对齐信息保持一致,同时该短语规则由同一训练句对中的n个或小于n个的最小短语规则合并而成,该类规则为组合的短语规则。
[0016] 如果该组合的短语规则由大于n条最小短语规则集中的最小短语规则组成,则不做处理,本次基于组合的短语规则抽取过程结束。
[0017] 所述组合的短语规则集的大小通过组合的短语规则中组合次数n的取值进行调整,即组合次数n的取值越大,得到的组合的短语规则集越大。
[0018] 本发明具有以下有益效果及优点:
[0019] 1.本发明可以有效的生成高质量的、紧凑的、同时含有较多上下文信息的短语规则集,在保证翻译性能不降低的情况下,本发明方法抽取的短语规则集比基准方法抽取的短语规则集减小56.5%。
[0020] 2.通过对实验结果的分析发现,在某些数据集上,通过使用基于组合的短语抽取方法,可以获得BLEU值的提高,同时通过大量的实验,对基于组合的短语规则抽取方法的有效性进行了合理的验证。

附图说明

[0021] 图1为本发明方法流程图;
[0022] 图2为词对齐数据中(左)抽取的短语规则(右);
[0023] 图3为本发明方法中短语表不同大小对BLEU值的影响图示;
[0024] 图4为本发明应用的在30-best翻译结果中的组合规则使用比例情况。

具体实施方式

[0025] 下面结合说明书附图对本发明作进一步阐述。
[0026] 本发明一种基于组合的短语规则抽取方法包括以下步骤:
[0027] 在双语语料中构造一个“最小短语规则集”;
[0028] 通过组合最小短语规则集来构造一个含有更多上下文信息、质量优良的短语规则集,形成“组合的短语规则集”n-composed;
[0029] 基于组合的短语规则,从给定的含有词对齐信息的双语平行语料中生成最小短语规则集minimal,并存放在名为minimal的哈希数据结构中;
[0030] 设置组合次数n的值,构造组合的短语规则集n-composed,通过最小短语规则集minimal检测所有可能的短语规则,即判断该组合的短语规则由几个最小短语规则组成;
[0031] 如果该组合的短语规则由小于或等于n条最小短语规则集minimal中的最小短语规则组成,将其放入一个新的哈希数据结构composed中;
[0032] 输出minimal和composed中的短语规则,一次基于组合的短语规则抽取过程结束。
[0033] 如果该组合的短语规则由大于n条最小短语规则集minimal中的最小短语规则组成,则不做处理。
[0034] 为了获得一个可操作的、规则数量合理的短语规则集,本发明提出了基于组合的短语规则抽取方法。
[0035] 如图1所示,在实施本发明方法之前,首先准备双语平行数据及词对齐,并预先设置好组合次数n;
[0036] 读取一行数据,包括源语、目标语及词对齐;
[0037] 构造最小短语规则集,放入哈希结构1中;
[0038] 构造组合规则,判断该组合规则是否符合组合次数n的要求,符合要求的,即该组合的短语规则由小于或等于n条最小短语规则集minimal中的最小短语规则组成,则放入哈希结构2中;
[0039] 判断是否还有其他可能的组合规则,如果没有其他可能的组合规则,则将哈希结构1、2中的内容输出并保存,则一次基于组合的短语规则抽取过程结束
[0040] 判断是否还有未处理的数据,如果没有未处理数据,则结束整个控制过程。
[0041] 如果还有未处理的数据,返回到读取一行数据,包括源语、目标语及词对齐步骤。
[0042] 如果还有其他可能的组合规则,则返回构造组合规则步骤,接续判断是否符合组合次数n的要求步骤。
[0043] 如果不符合组合次数n的要求,即组合的短语规则由大于n条最小短语规则集minimal中的最小短语规则组成,转至判断是否还有其他可能的组合规则步骤。
[0044] 如图2所示,该规则抽取方法的基本观点是,首先在双语语料(大规模的平行句对)中构造一个“最小短语规则”minimal(指的是最基本、单元粒度最小的规则,是某条短语规则的定义),然后通过组合最小短语规则来构造一个含有更多上下文信息、质量优良的短语规则集,即组合的短语规则集n-composed。本发明中,n-composed短语规则集的含义是该规则可以由1~n个最小短语规则组成,即(n-1)-composed短语规则集包含在n-composed规则集之中即(n-1)-composed规则集市n-composed规则集的一个子集。在本发明方法中,规则集的大小是通过组合规则中n的取值进行调整的,即n取值越大,得到的规则集越大。这与以往规则抽取方法中通过限制源语与目标语短语所含单词的最大个数有所不同。
[0045] 本发明提出的基于组合的短语规则抽取方法中,首先关心的问题是什么样的规则才是最小短语规则。
[0046] 最小短语规则就是在与词对齐信息保持一致的情况下,不能再被分解为两个或者更多的规则,最小规则集是翻译的最小单元,包含翻译所需的基本信息。
[0047] 最小规则集构成了一个最简洁的翻译模型。图2中右侧Minimal列表示用本发明提出的短语规则抽取方法从示例的含有词对齐信息的句对中抽取的最小短语规则。在图2中所示的短语规则中,前五个规则符合本发明对最小规则的定义。例如,(辽宁,liaoning)不可被分解为两个或两个以上的短语规则,所以该规则是最小短语规则。
[0048] 最小规则并不完全指代源语及目标语端短语只含有一个单词的短语规则。当词对齐为1对多或多对1的情况下,抽取出来的与词对齐保持一致的短语规则同样符合最小规则的定义。例如(,进出口,import and export)规则中,“进出口”在词对齐信息中相对的目标语单词为“import”和“export”,该规则与词对齐信息保持一致,是一个合理的短语规则,同时符合对最小短语规则的定义,在构造最小短语规则集时,将其加入最小短语规则集中。此外,如果与最小短语规则源语及目标语端相连的单词词对齐为空时,该最小规则可以向对空单词扩展,所构造的短语规则仍符合最小短语规则定义。例如,在(辽宁,liaoning's)规则中,目标语单词's出现在目标语短语的边缘,同时在词对齐信息中对空,该规则同样仅由一个最小短语规则(辽宁,liaoning)构成,所以该规则是最小短语规则。
[0049] 最小短语规则的定义符合人们的直觉,即在进行翻译时,总是希望使用的翻译规则尽量短小,同时翻译质量较高。然而,也正是由于最小短语规则仅含有翻译过程中使用的最基本的单词,最终构造最小短语规则集中丢失了大量的上下文信息,这些上下文信息是基于短语的统计机器翻译系统性能优异的关键因素之一。在极端的情况下,当抽取出的最小短语规则的源语及目标语端仅有一个单词时,翻译系统则退化到基于单词的翻译系统。为了提高短语规则的质量,使短语规则可包含更多的上下文信息,本发明提出了通过组合最小短语规则来获取含有更多单词、更多上下文信息的抽取短语规则的方法。
[0050] 一条短语规则与词对齐信息保持一致,同时该短语规则由同一训练句对中的n个或小于n个的最小短语规则组合而成,称该类规则为n-composed短语规则,即组合的短语规则。
[0051] 可以看出,(n-1)-composed短语规则集包含在n-composed短语规则集中。图2中右侧2-Composed列表示用本发明组合的短语规则抽取方法从图2中含有词对齐信息的句对中抽取的由两个或小于两个最小短语规则组合而成的组合的短语规则。例如,(辽宁进出口,liaoning's import and export)由最小规则(辽宁,liaoning's)与(进出口,import and export)组合而来,所以其为2-composed短语规则。为了通用化,将最小短语规则定义为1-composed短语规则。
[0052] 很明显,如果对组合短语规则中包含的最小短语规则的个数不加以限制时,本发明提出的方法可抽取任意长度的短语规则。然而,在大多数情况下,将组合短语规则中包含最小短语规则的个数定义过大,并不会对构造出的短语规则集的质量有明显好的影响。
[0053] 通过对基准短语规则抽取算法进行简单修改,本发明提出的基于组合的短语规则抽取方法非常易于实现。给定含有词对齐信息的双语平行语料,通过对n-composed中参数n进行合理设置。
[0054] 本实施例将本发明基于组合的短语规则抽取方法应用到NiuTrans开源系统中的基于短语的翻译系统中,在NIST(National Institute of Standards andTechnology)汉英翻译任务上,通过与基准短语抽取方法进行比较,评价该组合短语规则抽取方法对翻译系统性能影响。
[0055] 基于短语的翻译框架作为基准翻译系统使用了开源系统Moses使用的所有标准的特征。此外,在翻译系统中,集成了两个调序模型:基于最大熵的词汇化调序模型与层次化短语调序模型。基准系统解码器使用束剪枝与立方剪枝技术来加速解码,使用最小错误率训练来优化特征权重。默认调序最长距离设置为8,短语规则的源语端与目标语端包含单词个数限制为7(与Moses默认设置相同)。对于短语规则集来说,每一个源语短语根据短语翻译概率仅保留前30个翻译候选。
[0056] 本实施例中使用的训练数据包含一百九十万条汉英双语句对,该训练数据来自于NIST MT 2008评测提供的大规模双语预料中NIST部分数据。首先,用GIZA++工具对训练数据进行双向词对齐,之后用“grow-diag-final-and”启发性算法对双向词对齐结果进行对称化处理。此外,本实验中使用英语GIZAWORD的Xinhua部分和双语数据的目标语部分训练了一个5元语言模型。关于开发集和测试集,本实施例使用了NIST MT2003的测试集(919句)作为权重调优的开发集,同时使用NIST MT 2004与NIST MT 2005的测试集(分别含有1788和1082个句子)作为评价系统翻译质量的测试集。翻译质量通过使用上下文不敏感的IBM版本的BLEU评价指标进行评价。
[0057]
[0058]  表1.基准系统与组合方法在开发集(NIST MT 2003)及测试集(NIST MT2004和NIST MT 2005)上的实验结果比较,其中每组实验结果通过5轮实验取平均值而来[0059] 表1表示基准抽取方法与本发明提出的组合规则抽取方法在不同组合值n设置下的实验结果,结果评价指标由BLEU值表示。从表1中“最小规则”行中可以看出,当仅抽取最小规则时,本发明方法将获得一个非常小的短语规则集,但由于最小规则集在抽取的过程中丢失了大量的上下文信息,所以在开发集及测试集上的平均翻译性能比基准系统降低1.37个BLEU点。当进行组合规则抽取时,可以得到包含更多上下文信息的短语规则集,同时BLEU值随规则数量的增多持续增长。例如,通过表1中“基准方法”与“2-Composed”方法进行比较,可以发现当抽取2-composed短语规则集时,可得到与基准方法相当的翻译性能,与此同时,2-Composed方法获得的短语规则集的大小比基准方法减小44.3%。通过实验进一步证明,当抽取3-Composed与4-Composed的短语规则时,开发集与测试集的平均BLEU值相比于基准系统与2-Composed方法都有一定的提高。在同时考虑翻译性能与短语规则大小的情况下,2-Composed短语规则的翻译性能与表1实验中的最高性能可比,同时短语规则大小却有了明显的下降,即2-Comopsed短语规则已基本达到最优。从表1的实验结果看出,本发明提出的方法可以有效的生成高质量的、紧凑的、同时含有较多上下文信息的短语规则集。
[0060] 在基准短语规则抽取方法中,当源语及目标语短语包含单词的最大个数设置为不同值时,可以有效的调整短语规则集的大小。图3比较了基准方法与组合方法在不同设置下的BLEU值。其中横轴表示为短语表的大小(单位百万),纵轴为BLEU值。图3中实线表示的是基准规则抽取方法中短语长度设置为不同值时的情况,在实线中实心方点表示的是具体的实验设置,如“length=3”表示的是在基准系统中短语规则的源语及目标语短语的最大长度均设置为3,其它与之类似。图3中虚线表示的是基于组合的短语抽取方法中n设置为不同值时的情况。从图3中可以看出,本发明提出的n-composed短语规则抽取方法中,当n≥2时,可获得与基准抽取方法相当的翻译性能;同时可以看出,本发明提出组合短语规则抽取方法可更快的达到规则集大小与翻译系统的平衡。从此图中可观察到,仅使用最小规则集时,翻译性能比(≥2)-composed组合方法的值有很大程度的降低,这也从侧面说明了本发明提出的基于组合短语抽取方法的有效性,同时说明含有更多上下文信息的短语规则对翻译系统的性能有非常大的影响。
[0061] 本发明对解码器使用最小短语规则及组合规则的比例情况进行了统计,该统计在开发集及测试集上的30-best翻译结果上进行。图4表示的是在开发集和测试集上的统计情况,其中n-composed*表示仅由n个最小规则组合而成的组合规则。从图4中可以看出,解码器在使用短语规则进行翻译时,绝大多数情况下倾向于选择较短的规则(如minimal与2-composed*)。由较多的最小短语规则构成的组合规则在翻译时则很少使用(如4-composed*)。图4的实验结果同时解释了为什么表1中使用2-Composed组合规则可以取得较高性能。
[0062] 通过使用本发明提出的短语规则抽取方法,可以得到一个为基于短语的统计机器翻译系统服务的高质量、精简的短语规则集。通过与使用最广泛、性能表现优异的启发式短语抽取方法进行相比,在保证翻译性能不降低的情况下,本发明提出的方法抽取的短语规则集比基准方法抽取的短语规则集减小56.5%。通过对实验结果的分析发现,在某些数据集上,通过使用基于组合的短语抽取方法,可以获得BLEU值的提高。同时通过大量的实验,对基于组合的短语规则抽取方法的有效性进行了合理的验证。
[0063] 经过NiuTrans开源系统中的基于短语的统计机器翻译系统的验证,与Moses中默认设置的规则抽取方法相比,本发明提出的基于组合规则抽取方法在保证翻译性能不降低的情况下,可以得到了一个更加简洁的短语规则集。当抽取2-composed短语规则时,本发明的抽取方法得到的翻译规则的质量与Moses的默认规则集相当,同时短语规则集大小为Moses默认设置规则集的56.5%。实验结果同样表明,当随着组合最小短语规则次数的增多,翻译系统的性能与2-composed短语规则性能相比并没有显著的增长。在同时考虑系统翻译性能与短语规则集大小的情况下,2-composed短语规则已基本达到最优。