一种基于谓词论元结构的层次机器翻译方法及系统转让专利

申请号 : CN201310487641.X

文献号 : CN103577398B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘凯姜文斌吕雅娟刘群

申请人 : 中国科学院计算技术研究所

摘要 :

本发明涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。

权利要求 :

1.一种基于谓词论元结构的层次机器翻译方法,其特征在于,包括训练和翻译步骤,其中,训练步骤包括:步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;

步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构,其中所述步骤12中,所有谓词论元结构是通过以下步骤转换为图状结构的:将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同与谓词论元结构1有嵌套关系的谓词论元结构2和3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系;

步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段;

步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;

翻译步骤包括:

步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;

步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;

步骤23,将谓词论元的图状结构拆分成多个语义独立片段;

步骤24,根据基于谓词论元结构的层次机器翻译方法,将带语义独立片段单独翻译并将其合并成为目标语言译文。

2.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤11中,源语言的谓词论元结构可以由语义角色标注工具获得。

3.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤13中,所有谓词论元的图状结构是通过以下步骤转换语义独立片段的:将谓词及所有指向谓词的非谓词语义元素构成的子图抽取出来;

将上述抽取出的子图转换成语义独立片段,其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符S。

4.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤14中,抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。

5.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤21中获得谓词论元结构的方式与步骤11中相同,步骤22中将待翻译源语言句子的谓词论元结构的方法与步骤12中相同,步骤23将谓词论元的图状结构拆分成多个语义独立片段的方法与步骤13中相同。

6.如权利要求1所述的基于谓词论元结构的层次机器翻译方法,其特征在于,步骤24中根据基于谓词论元结构的层次机器翻译方法分别涉及到运用两个不同文法的具体包括:(a)运用语义独立片段翻译文法单独翻译每一个语义独立片段;(b)使用语义独立片段组合文法将上一步翻译好的语义独立片段连同非语义元素的词汇或短语组合成最终的目标端译文;

其中:语义独立片段翻译文法为带谓词论元结构规则的双语同步文法,其中谓词论元结构包括:粘贴规则和泛化规则。

7.一种基于谓词论元结构的层次机器翻译系统,其特征在于,包括训练系统和翻译系统,其中训练系统包括:标注模块,用于对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;

组织模块,用于将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;

拆分模块,用于将源端谓词论元的图状结构拆分成多个语义独立片段,其中所述拆分模块具体包括:谓词语义元素拆分模块,用于将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;语义元素关联模块,用于将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同于谓词论元结构1有嵌套关系的谓词论元结构2和3的谓词通过Pred标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系;

抽取模块,用于在得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;

翻译系统包括:

标注模块,用于对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;

组织模块,用于将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;

拆分模块,用于将谓词论元的图状结构拆分成多个语义独立片段;

翻译模块,用于根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。

8.如权利要求7所述的基于谓词论元结构的层次机器翻译系统,其特征在于,抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。

9.如权利要求7所述的基于谓词论元结构的层次机器翻译系统,其特征在于,训练系统的标注模块、组织模块和拆分模块,与翻译系统的标注模块、组织模块和拆分模块相同。

说明书 :

一种基于谓词论元结构的层次机器翻译方法及系统

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体地说,涉及一种基于谓词语义结构的机器翻译方法及系统。

背景技术

[0002] 对于机器翻译而言,语义信息是非常重要的信息。
[0003] 发明专利“基于语义的机器翻译系统及方法”公开了一种基于语义的自然语言机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤:提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的语义单元表示进行展开;将展开后的句子作为译文输出。本发明机器翻译方法可以高效的同时翻译多种目的语种的译文。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利用人工定义的语义规则来进行语义处理的。
[0004] 发明专利“一种基于语义模板的问题自动翻译方法及其系统”公开了专利摘要:本发明公开了一种基于语义模板的问题自动翻译方法及其系统,其中该方法包括:模板获取步骤,用于获取与用户提出的问题最相关的语义模板;模板映射步骤,用于将最相关的语义模板映射到目标语言模板,得到问题的可填充项及可填充项对应于目标语言模板中的语义标签;语义选择步骤,用于对可填充项进行自动翻译,得到可填充项的所有语义;利用语义标签从所有语义中选择可填充项的最佳语义,将最佳语义填充到目标语言模板中,得目标语言问题。本发明能够对交互式问答系统中用户提出的问题进行自动翻译,实现了不同语言用户之间的无障碍交流。基本翻译方法和语义获取和使用方法均不相同。该专利是基于规则机器翻译方法的,利用人工定义的语义模板来进行翻译的。
[0005] 发明专利“一种语义约定全文翻译系统和方法”公开了一种语义约定全文翻译系统和方法。该翻译系统和方法作为一种多语通用的人机交互自然语言翻译技术可以满足以下要求:保证语义信息传递质量;人机交互只需使用母语;可自动转换为多种语言译文。本发明可用于短信、电子邮件、网页和各类数据库(比如数字图书馆)信息翻译,可提供电子商务多语洽谈、多语交流专线、多语共享BBS,并且可以以短信通讯方式实现任意语言用户之间的远程和面对面多语交流。该方法将不同语言的词汇映射到相同的语义信息上去,利用该信息直接进行翻译。该方法系规则翻译方法,且歧义极大。
[0006] 发明专利“语言翻译系统”公开了用户可以在各种语言之间通信的一种语言转换系统。翻译单元(300)将构建自然语言表达的自然语言的组元翻译为对应于该组元并进入通用语言字典(210)的通用语言元素。翻译规则(220)被应用于经翻译的通用语言元素,由此根据该次序创建以二项式关系表达的通用语言的表达。反翻译部分(350)根据包括在所述翻译规则中的以二元关系表达的规则、参考所述翻译规则(220)将以所述二元关系表达的通用语言的表达解析为构建连接的通用语言元素。参考通用语言(210),将已解析的通用语言元素翻译为构建自然语言表达的组元,由此创建自然语言的表达。该专利技术是一种自然语言的简单翻译技术,基本翻译方法为规则方法,并未在翻译过程中涉及任何语义相关处理,也未使用任何与谓词语义相关的语义算法及结构。
[0007] 可见,目前大部分的统计机器翻译模型都没有对语义结构进行直接建模。
[0008] 语义结构和句法结构是两种独立的结构。任何结构都包括两方面内容,一是成分,二是成分关系。在成分方面,语义结构有施事、受事、谓词等成分,句法结构有主语、谓语、宾语等成分。语义结构的最小单位是语义词(又叫义位),最大单位是义句;句法结构的最小单位是词汇词(又叫词位)。
[0009] 谓词论元结构(PAS:Predicate Argument Structure)作为浅层语义结构的一种,表示句子成分之间的谓词逻辑关系,例如谓词论元结构:“他们[A0]举行[Pred]会议[A1]”,表示“他们”为施事,而“会议”为受事,“举行”为响应的谓词。该结构为统计机器翻译提供了较强的先验结构知识,能够在一定程度上帮助机器进行词汇选择及调序。但是由于谓词论元结构组织结构较为离散,现有工作均是以该结构作为补充信息指导翻译而不是将其直接在机器翻译中进行建模。目前直接针对谓词论元结构建模的障碍在于:谓词论元结构可以互相嵌套,且同样的词汇或短语可以在不同的谓词论元结构中所作为不同的论元成分;谓词论元结构中的成分之间有可能存在不属于该谓词论元结构的词汇或短语。例如图1中,一个句子中有三个谓词论元结构,其中谓词论元结构1中的“A1”成分嵌套着两个不同的谓词论元结构;谓词论元结构2和3共享“会议”作为其结构的组成部分,并且“会议”在不同的谓词论元结构中代表不同作用的论元(A1/A0);其中谓词论元结构3中的“会议”和“将”之间存在着与该谓词论元结构无关的词汇及短语
[0010] 在现有技术中,可以利用统计学习得到的转换映射规则生成目标端语义结构,但不是在源端利用谓词语义结构进行翻译,更不是对语义独立片段进行单独翻译,最终生成目标端翻译。

发明内容

[0011] 为了解决上述问题,本发明的目的在于提出一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
[0012] 具体地讲,本发明公开了一种基于谓词论元结构的层次机器翻译方法,包括训练和翻译步骤,其中,训练步骤包括:
[0013] 步骤11,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;源语言的谓词论元结构可以由语义角色标注工具获得。
[0014] 步骤12,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;所有谓词论元结构是通过以下步骤转换为图状结构的:
[0015] 将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;
[0016] 将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同与谓词论元结构1有嵌套关系的谓词论元结构2和3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。
[0017] 步骤13,将源端谓词论元的图状结构拆分成多个语义独立片段;所有谓词论元的图状结构是通过以下步骤转换语义独立片段的:
[0018] 将谓词及所有指向谓词的非谓词语义元素构成的子图抽取出来;
[0019] 将上述抽取出的子图转换成语义独立片段,其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符S。
[0020] 步骤14,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。
[0021] 翻译步骤包括:
[0022] 步骤21,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;
[0023] 步骤22,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;
[0024] 步骤23,将谓词论元的图状结构拆分成多个语义独立片段;
[0025] 步骤24,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。
[0026] 步骤21中获得谓词论元结构的方式与步骤11中相同,步骤22中将待翻译源语言句子的谓词论元结构的方法与步骤12中相同,步骤23将谓词论元的图状结构拆分成多个语义独立片段的方法与步骤13中相同。
[0027] 步骤24中根据基于谓词论元结构的层次机器翻译方法分别涉及到运用两个不同文法的具体包括:(a)运用语义独立片段翻译文法单独翻译每一个语义独立片段;(b)使用语义独立片段组合文法将上一步翻译好的语义独立片段连同非语义元素的词汇或短语组合成最终的目标端译文。其中:语义独立片段翻译文法为带谓词论元结构规则的双语同步文法,其中谓词论元结构包括:粘贴规则和泛化规则。
[0028] 本发明还公开了一种基于谓词论元结构的层次机器翻译系统,包括训练系统和翻译系统,其中训练系统包括:
[0029] 标注模块,用于对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;
[0030] 组织模块,用于将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;
[0031] 拆分模块,用于将源端谓词论元的图状结构拆分成多个语义独立片段;
[0032] 抽取模块,用于在得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;
[0033] 翻译系统包括:
[0034] 标注模块,用于对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;
[0035] 组织模块,用于将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;
[0036] 拆分模块,用于将谓词论元的图状结构拆分成多个语义独立片段;
[0037] 翻译模块,用于根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。
[0038] 拆分模块具体包括:
[0039] 谓词语义元素拆分模块,用于将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;
[0040] 语义元素关联模块,用于将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同于谓词论元结构1有嵌套关系的谓词论元结构2和3的谓词通过Pred标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。
[0041] 抽取双语谓词论元结构规则和基本层次短语翻译规则具体包括:将语义独立片段中的单词及对应标签组织成线图形式,并将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符;将源端语义独立片段和目标端翻译及其对齐组织成线图结构,在该线图结构上根据源端的线图抽取翻译所需的语义规则。
[0042] 所述的基于谓词论元结构的层次机器翻译系统,训练系统的标注模块、组织模块和拆分模块,与翻译系统的标注模块、组织模块和拆分模块相同。
[0043] 本发明具有如下技术效果:
[0044] 本发明直接在谓词语义结构上对翻译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文。由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。

附图说明

[0045] 图1为一个带有3个谓词语义结构的汉语句子;
[0046] 图2为3个谓词语义结构的汉语句子拆分成3个语义独立片段的过程;
[0047] 图3为谓词语义的图结构中的子图转换成语义片段;
[0048] 图4为从语义独立片段抽取语义规则的示例;
[0049] 图5为翻译一个汉语句子的实施例;
[0050] 图6为利用语义独立片段翻译文法的翻译例子;
[0051] 图7为运用语义独立片段组合文法将翻译好的语义独立片段及独立的词汇或短语合并成最终译文;
[0052] 图8为具体实施翻译系统训练及翻译步骤。

具体实施方式

[0053] 下面结合附图对本发明进行详细说明。
[0054] 本发明提供的基于谓词论元结构的层次机器翻译方法,包括训练步骤和翻译步骤,其中:
[0055] 1、训练步骤包括:
[0056] 步骤1,对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构。源语言的谓词论元结构可以由语义角色标注工具获得,所述语义角色标注工具可以是开源的Illinois Semantic Role Labeler(SRL)1等。
[0057] 步骤2,将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构。
[0058] 所有谓词论元结构是通过以下步骤转换为图状结构的:
[0059] 将源语言句子根据谓词论元结构拆分成最小的谓词语义元素,如图2(a)与2(b)所示。图2为3个谓词语义结构的汉语句子拆分成3个语义独立片段的过程;
[0060] 将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,如图2(c)所示。其中两个不同与谓词论元结构1有嵌套关系的谓词论元结构2&3的谓词通过“Pred”标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。
[0061] 步骤3,将源端谓词论元的图状结构拆分成多个语义独立片段。所有谓词论元的图状结构是通过以下步骤转换语义独立片段的(如图2(c)和2(d)所示):
[0062] 将谓词(带“Pred”标签的词)及所有指向谓词的非谓词语义元素构成的子图抽取出来(如图3(a)所示)。图3为谓词语义的图结构中的子图转换成语义片段;
[0063] 将上述抽取出的子图转换成语义独立片段(如图2(d)及图3(b)),其中句子中与该语义片段无关的单词或短语和下层结构的谓词元素将会泛化为语义非终结符“S”(如图2(d)及图3(b)所示)。
[0064] 步骤4,得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则的步骤。
[0065] 训练步骤4中,抽取双语谓词论元结构规则和基本层次短语翻译规则的步骤为:将语义独立片段中的单词及对应标签组织成如图4(a)中所示的线图形式。并且将对应的目标语言句子与语义非终极符对齐的部分泛化为同样的语义非终结符(如图4(b))。图4为从语义独立片段抽取语义规则的示例;
[0066] 将源端语义独立片段和目标端翻译及其对齐组织成如图4的结构,在该结构上可以根据源端的线图抽取翻译所需的语义规则。在抽取过程中如果在源端抽取语义标签的线段,目标端对齐的词汇或短语也同样会被泛化为相应的语义标签。例如在图4中,如果抽取线图中(2,5)范围内的规则,将得到以下规则:
[0067] X'→
[0068] X'→
[0069] X′→
[0070] 其中,X′为基于谓词论元结构的层次机器翻译文法的起始符,f2f3代表原端词汇对应的e3e4为目标端词汇,S和ADV为语义非终结符。
[0071] 根据以上方法抽取的源端带语义标签或语义非终结符(“S”)的规则称之为谓词论元结构规则。
[0072] 根据双语词汇对齐语料,可以直接使用现有层次短语的规则抽取技术抽取基本层次短语翻译规则。
[0073] 训练步骤4中所述其他通用训练步骤为机器翻译领域通用的概率计算,模型调参等训练步骤,非本专利核心技术。
[0074] 步骤5,其他通用训练步骤。
[0075] 2、翻译步骤包括:
[0076] 步骤1,对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构(如图5(a))。与训练步骤1中相同。
[0077] 步骤2,将待翻译源语言句子所有谓词论元结构组织成相应的图状结构(如图5(a)-5(c))。与训练步骤2中相同。
[0078] 步骤3,将谓词论元的图状结构拆分成多个语义独立片段(如图5(c)-5(d))。与训练步骤3中相同。
[0079] 步骤4,根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。
[0080] 涉及到运用两个不同文法的具体步骤:(a)运用语义独立片段翻译文法单独翻译每一个语义独立片段(;b)使用语义独立片段组合文法将上一步翻译好的语义独立片段连同非语义元素的词汇或短语组合成最终的目标端译文。
[0081] 其中:(a)语义独立片段翻译文法为带谓词论元结构规则的双语同步文法,其中谓词论元结构包括:
[0082] 粘贴规则:
[0083] X'→        (1)
[0084] 其中X′为基于谓词论元结构的层次机器翻译文法的起始符,所有谓词论元结构规则均由此非终结符推导出来。
[0085] 泛化规则:
[0086] Xs→             (2)
[0087] 其中Xs代表所有语义标签及语义非终结符“S”,X代表一般层次短语同步文法的非终结符。一般的层次短语规则,与通用的层次短语翻译方法所使用的规则一致。
[0088] (b)语义独立片段组合文法为改进后的层次短语文法,其中包括文法推导规则:
[0089] S→       (8)
[0090] 其中“S”为语义非终结符。
[0091] S→        (9)
[0092] 其中“X”为层次短语的非终结符。
[0093] 依据上述方案,以图5中的待翻译句子为例。
[0094] 图5为翻译一个汉语句子的实施例。先将该汉语句子拆分成两个语义独立片段进行翻译。获得了语义独立片段之后,分别对两个语义独立片段利用语义独立片段翻译文法进行翻译。
[0095] 以第二个语义独立片段为例,如图6,图6为利用语义独立片段翻译文法的翻译例子(左上为待翻译语义独立片段;左下为通过语义独立片段翻译文法翻译得到的片段译文;右上为所使用的谓词逻辑结构规则;右下为需要使用的层次短语翻译规则)
[0096] 根据语义独立片段翻译文法将该语义独立片段通过以下规则推导生成对应的语义独立片段译文(见下页):
[0097] 其中箭头上括号内的数字代表该推导使用的规则编号,例如“(1)”代表上述的粘贴规则,编号3-7的规则见图6右侧。
[0098] 得到所有上述的语义独立片段后可以通过语义独立片段组合文法将其合并为最终的翻译译文,如图7所示。图7为运用语义独立片段组合文法将翻译好的语义独立片段及独立的词汇或短语合并成最终译文。
[0099]
[0100] 图8为具体实施翻译系统训练及翻译步骤。其中实线的流程为翻译系统训练步骤,虚线为翻译系统翻译步骤。
[0101] 如图8所示,本发明提供的基于谓词语义结构翻译的总体技术方案的实现流程图,该方法包括以下步骤:
[0102] 步骤101:所述训练步骤1和翻译步骤1。
[0103] 步骤102:所述训练步骤2、3和翻译步骤2、3。
[0104] 步骤103:所述训练步骤4中的抽取层次短语翻译规则步骤。
[0105] 步骤104:所述训练步骤4中的抽取谓词语义结构规则步骤。
[0106] 步骤105:所述翻译步骤4中的运用语义独立片段翻译文法单独翻译每一个语义独立片段。
[0107] 步骤106:所述翻译步骤4中的使用语义独立片段组合文法将上一步翻译好的语义独立片段连同非语义元素的词汇或短语组合成最终的目标端译文。
[0108] 其中翻译系统训练目标为获取翻译系统所需的谓词语义结构规则及层次短语翻译规则,其中:
[0109] 翻译系统训练所需数据:已词汇对齐的双语平行句对。
[0110] 获取谓词语义结构规则流程如图8:步骤101→步骤102→步骤104:
[0111] 步骤101:根据双语平行句对的源语言句子输入,通过语义角色标注工具分析句子的谓词论元结构。
[0112] 步骤102:利用步骤101获得的句子的谓词论元结构将各个源语言句子拆分成多个语义独立片段。
[0113] 步骤104:根据步骤102生成的语义独立片段和对应的双语词对齐句对根据发明内容中训练步骤4中的谓词语义结构规则抽取方法抽取谓词语义结构规则。
[0114] 获取层次短语翻译规则流程如图8:步骤103。
[0115] 步骤103:根据双语词汇对齐的平行句对和通用层次短语抽取方法获取层次短语翻译规则。
[0116] 翻译系统翻译目标为利用本发明的方法获取最终所需的译文,其中:
[0117] 翻译系统翻译所需数据:源语言句子。翻译系统训练步骤获得的谓词语义结构规则及层次短语翻译规则。
[0118] 其他通用翻译方法所需数据(例如,语言模型、特征参数等等)。
[0119] 对应翻译流程如图8(虚线所示):步骤101→步骤102→步骤105→步骤106。
[0120] 步骤101:根据待翻译的源语言句子输入,通过语义角色标注工具分析句子的谓词论元结构。
[0121] 步骤102:利用步骤101获得的句子的谓词论元结构将各个源语言句子拆分成多个语义独立片段。
[0122] 步骤105:根据步骤102获得语义独立片段及训练步骤获得的谓词语义结构规则和层次短语规则,利用翻译步骤中所述的语义独立片段翻译文法翻译语义独立片段。
[0123] 步骤106:根据步骤105获得语义独立片段及其译文及训和层次短语规则,利用翻译步骤中所述的语义独立片段组合文法生成最终所需译文。
[0124] 其中如图8中灰框部分所示,步骤102、步骤104、步骤105、步骤106为本发明的原创方法。
[0125] 上面是对本发明基于谓词语义的机器翻译方法的具体说明,基于谓词语义的机器翻译系统相应如下:
[0126] 一种基于谓词论元结构的层次机器翻译系统,包括训练系统和翻译系统,其中训练系统包括:
[0127] 标注模块,用于对双语平行句对中的源语言句子进行语义角色标注,得到源语言句子所有的谓词论元结构;
[0128] 组织模块,用于将双语平行句对中的源语言句子的谓词论元结构组织成相应的图状结构;
[0129] 拆分模块,用于将源端谓词论元的图状结构拆分成多个语义独立片段;
[0130] 抽取模块,用于在得到双语平行句对中的源语言句子及其对应的语义独立片段结构后,在双语词汇对齐的双语平行句对上抽取双语谓词论元结构规则和层次短语翻译规则;
[0131] 翻译系统包括:
[0132] 标注模块,用于对待翻译的源语言句子进行语义角色标注,得到待翻译源语言句子所有的谓词论元结构;
[0133] 组织模块,用于将待翻译源语言句子所有谓词论元结构组织成相应的图状结构;
[0134] 拆分模块,用于将谓词论元的图状结构拆分成多个语义独立片段;
[0135] 翻译模块,用于根据基于谓词论元结构的层次机器翻译文法,将带语义独立片段单独翻译并将其合并成为目标语言译文。
[0136] 标注模块中的源语言的谓词论元结构可以由语义角色标注工具获得。
[0137] 拆分模块具体包括:
[0138] 谓词语义元素拆分模块,用于将源语言句子根据谓词论元结构拆分成最小的谓词语义元素;
[0139] 语义元素关联模块,用于将各个谓词语义元素通过原有的谓词论元结构中语义元素之间的关系联系起来,从而将谓词语义元素组织成图状结构,其中两个不同于谓词论元结构1有嵌套关系的谓词论元结构2和3的谓词通过Pred标签与其上层结构的谓词联系起来,并通过相应边的方向表示其从属关系。
[0140] 训练系统的标注模块、组织模块和拆分模块,与翻译系统的标注模块、组织模块和拆分模块相同。
[0141] 综上,本发明提供一种基于谓词语义结构的机器翻译方法及系统,将机器翻译过程直接在谓词语义结构上进行建模翻译。在翻译模型训练过程及翻译过程中将源语言句子根据谓词语义结构拆分成语义独立片段,并基于此在训练过程中抽取谓词语义结构规则。在翻译过程中首先利用定义好的文法及抽取的谓词语义结构规则和层次短语翻译规则对语义独立片段进行翻译,而后根据另一个组合文法和层次短语翻译规则将上述语义独立片段翻译为完整的句子。本发明直接在谓词语义结构上对翻译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文。由此能够得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
[0142] 以上仅用以说明本发明理论原理和技术方案而非限制。本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。