生成译文和机器翻译的方法及装置转让专利

申请号 : CN200710089195.1

文献号 : CN101271452B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘占一王海峰吴华

申请人 : 株式会社东芝

摘要 :

本发明提供了生成译文的方法,机器翻译的方法,生成译文的装置,以及机器翻译的装置。根据本发明的一个方面,提供了一种生成译文的方法,其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段;上述方法包括:从与第一语种的句子对应的多个第二语种的译文片段组合中,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及根据上述最优的译文片段组合,生成第二语种的译文。

权利要求 :

1.一种生成译文的方法,其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段;上述方法包括:从与第一语种的句子对应的多个第二语种的译文片段组合中,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及根据上述最优的第二语种的译文片段组合,生成第二语种的译文。

2.根据权利要求1所述的生成译文的方法,其中,上述待翻译的第一语种的句子具有多种分割方式,以及上述选择最优的第二语种的译文片段组合的步骤包括根据多个特征函数针对每种分割方式的译文片段组合的综合得分,选择最优的第二语种的译文片段组合。

3.根据权利要求1或2所述的生成译文的方法,其中,上述多个特征函数针对译文片段组合的综合得分通过利用线性log模型对每个特征函数针对该译文片段组合的得分进行计算获得。

4.根据权利要求3所述的生成译文的方法,其中,上述计算上述多个特征函数针对译文片段组合的综合得分的步骤还考虑每个特征函数的权重。

5.根据权利要求4所述的生成译文的方法,其中,上述计算上述多个特征函数针对译文片段组合的综合得分的步骤利用如下公式进行:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述待翻译的第一语种的句子,e代表上述第二语种的译文片段组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

6.根据权利要求1或2所述的生成译文的方法,其中,上述选择最优的第二语种的译文片段组合的步骤包括:利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价。

7.根据权利要求1所述的生成译文的方法,其中,上述待翻译的第一语种的句子具有多种分割方式,以及上述选择最优的第二语种的译文片段组合的步骤包括利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价。

8.根据权利要求6所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤包括通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分进行计算获得。

9.根据权利要求7所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤包括通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分进行计算获得。

10.根据权利要求8所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤还考虑每个特征函数的权重。

11.根据权利要求10所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤利用如下公式进行:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述第一语种的片段或者片段的组合,e代表上述第二语种的译文片段或者译文片段的组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

12.根据权利要求5或11所述的生成译文的方法,其中,上述多个特征函数包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、源语言短语到目标语言短语的翻译概率、目标语言短语到源语言短语的翻译概率、基于长度的目标语言选择概率、目标语言模型、和语义相似度函数中的任意多个。

13.一种生成译文的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,待翻译的第一语种的句子相对于上述双语例句库进行了匹配,并获得了与上述第一语种的句子的每个片段对应的第二语种的至少一个译文片段;上述方法包括:利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价;以及根据上述最优的第二语种的译文片段组合,生成第二语种的译文。

14.根据权利要求13所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤包括通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分进行计算获得。

15.根据权利要求14所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤还考虑每个特征函数的权重。

16.根据权利要求15所述的生成译文的方法,其中,上述根据多个特征函数针对译文片段或者译文片段的组合计算综合得分的步骤利用如下公式进行:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述第一语种的片段或者片段的组合,e代表上述第二语种的译文片段或者译文片段的组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

17.根据权利要求16所述的生成译文的方法,其中,上述多个特征函数包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、源语言短语到目标语言短语的翻译概率、目标语言短语到源语言短语的翻译概率、基于长度的目标语言选择概率、目标语言模型、和语义相似度函数中的任意多个。

18.一种机器翻译的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述方法包括:将待翻译的第一语种的句子分割成多个片段;以及

利用权利要求1-12中任何一项所述的生成译文的方法,生成第二语种的译文。

19.一种机器翻译的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述方法包括:将待翻译的第一语种的句子相对于上述双语例句库进行匹配,以获得与上述第一语种的句子的每个片段对应的第二语种的至少一个译文片段;以及利用权利要求13-17中任何一项所述的生成译文的方法,生成第二语种的译文。

20.一种生成译文的装置,其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段;上述装置包括:选择单元,用于从与第一语种的句子对应的多个第二语种的译文片段组合中,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及译文生成单元,根据上述最优的第二语种的译文片段组合,生成第二语种的译文。

21.根据权利要求20所述的生成译文的装置,其中,上述待翻译的第一语种的句子具有多种分割方式,以及上述选择单元根据多个特征函数针对每种分割方式的译文片段组合的综合得分,选择最优的第二语种的译文片段组合。

22.根据权利要求20或21所述的生成译文的装置,还包括计算单元,用于通过利用线性log模型对每个特征函数针对该译文片段组合的得分,计算上述多个特征函数针对译文片段组合的综合得分。

23.根据权利要求22所述的生成译文的装置,其中,上述计算单元在计算上述多个特征函数针对译文片段组合的综合得分时还考虑每个特征函数的权重。

24.根据权利要求23所述的生成译文的装置,其中,上述计算单元利用如下公式计算上述多个特征函数针对译文片段组合的综合得分:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述待翻译的第一语种的句子,e代表上述第二语种的译文片段组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

25.根据权利要求20或21所述的生成译文的装置,其中,上述选择单元利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价。

26.根据权利要求20所述的生成译文的装置,其中,上述待翻译的第一语种的句子具有多种分割方式,以及上述选择单元利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价。

27.根据权利要求25所述的生成译文的装置,还包括计算单元,用于通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分,计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分。

28.根据权利要求26所述的生成译文的装置,还包括计算单元,用于通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分,计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分。

29.根据权利要求27所述的生成译文的装置,其中,上述计算单元在计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分时还考虑每个特征函数的权重。

30.根据权利要求29所述的生成译文的装置,其中,上述计算单元利用如下公式计算多个特征函数针对译文片段或者译文片段的组合的综合得分:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述第一语种的片段或者片段的组合,e代表上述第二语种的译文片段或者译文片段的组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

31.根据权利要求24或30所述的生成译文的装置,其中,上述多个特征函数包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、源语言短语到目标语言短语的翻译概率、目标语言短语到源语言短语的翻译概率、基于长度的目标语言选择概率、目标语言模型、和语义相似度函数中的任意多个。

32.一种生成译文的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,待翻译的第一语种的句子相对于上述双语例句库进行了匹配,并获得了与上述第一语种的句子的每个片段对应的第二语种的至少一个译文片段;上述装置包括:选择单元,利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价;以及译文生成单元,根据上述最优的第二语种的译文片段组合,生成第二语种的译文。

33.根据权利要求32所述的生成译文的装置,还包括计算单元,用于通过利用线性log模型对每个特征函数针对译文片段或者译文片段的组合的得分,计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分。

34.根据权利要求33所述的生成译文的装置,其中,上述计算单元在计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分时还考虑每个特征函数的权重。

35.根据权利要求34所述的生成译文的装置,其中,上述计算单元利用如下公式计算上述多个特征函数针对译文片段或者译文片段的组合的综合得分:s(e)=Σm=1Mλmhm(e,f,E)其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表上述第一语种的片段或者片段的组合,e代表上述第二语种的译文片段或者译文片段的组合,E代表生成e所需的译文片段的集合,以及s(e)代表上述多个特征函数针对e的综合得分。

36.根据权利要求35所述的生成译文的装置,其中,上述多个特征函数包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、源语言短语到目标语言短语的翻译概率、目标语言短语到源语言短语的翻译概率、基于长度的目标语言选择概率、目标语言模型、和语义相似度函数中的任意多个。

37.一种机器翻译的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述装置包括:分割单元,用于将待翻译的第一语种的句子分割成多个片段;以及

根据权利要求20-31中任何一项所述的生成译文的装置,用于生成第二语种的译文。

38.一种机器翻译的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述装置包括:匹配单元,用于将待翻译的第一语种的句子相对于上述双语例句库进行匹配,以获得与上述第一语种的句子的每个片段对应的第二语种的至少一个译文片段;以及根据权利要求32-36中任何一项所述的生成译文的装置,用于生成第二语种的译文。

说明书 :

技术领域

本发明涉及信息处理技术,具体地,涉及基于双语对齐技术的译文生成技术和机器翻译(Machine Translation,MT)技术。

背景技术

基于双语例句的机器翻译系统是一种自动翻译系统,该翻译系统直接使用进行了对齐的双语例句作为翻译知识。多于待翻译的输入句子,翻译系统首先通过匹配技术从进行了对齐的双语例句库中寻找匹配的双语例句,然后利用双语例句的对齐信息从双语例句中提取与匹配片段对应的译文片段。最后,翻译系统合并这些译文片段从而获得输入句子的译文。
目前,在基于双语例句的机器翻译中,常用的译文生成技术有两种:
(1)基于语义的方法
该方法利用词汇的语义关系计算词汇的语义相似度,利用该相似度选择和输入句子最相近的译文片段,然后按照预先定义的顺序合并译文片段来生成输入句子的译文。
(2)基于统计的方法
该方法通过目标语言的语言模型来选择译文片段和生成输入句子的译文。
第一种方法虽然能够找到和输入句子语义相近的双语例句,但是,生成译文的时候没有考虑译文片段之间的过渡。因此,生成的译文的流利度较差。
第二种方法通过使用目标语言的语言模型来生成译文,虽然能够得到流利度较好的译文,但是,选择译文片段的时候没有考虑输入句子和双语例句的语义关系,因此,生成的译文的可懂性较差。
因此,需要一种同时考虑上述多种因素的生成译文的方法及机器翻译的方法。

发明内容

为了解决上述现有技术中存在的问题,本发明提供了生成译文的方法,机器翻译的方法,生成译文的装置,以及机器翻译的装置。
根据本发明的一个方面,提供了一种生成译文的方法,其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段;上述方法包括:从与第一语种的句子对应的多个第二语种的译文片段组合中,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及根据上述最优的译文片段组合,生成第二语种的译文。
根据本发明的另一个方面,提供了一种生成译文的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,待翻译的第一语种的句子相对于上述双语例句库进行了匹配,并获得了与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段;上述方法包括:利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对可能的译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价(cost);以及根据上述最优的译文片段组合,生成第二语种的译文。
根据本发明的另一个方面,提供了一种机器翻译的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述方法包括:将待翻译的第一语种的句子分割成多个片段;以及利用上述生成译文的方法,生成第二语种的译文。
根据本发明的另一个方面,提供了一种机器翻译的方法,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述方法包括:将待翻译的第一语种的句子相对于上述双语例句库进行匹配,以获得与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段;以及利用上述生成译文的方法,生成第二语种的译文。
根据本发明的另一个方面,提供了一种生成译文的装置,其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段;上述装置包括:选择单元,用于从与第一语种的句子对应的多个第二语种的译文片段组合中,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及译文生成单元,根据上述最优的译文片段组合,生成第二语种的译文。
根据本发明的另一个方面,提供了一种生成译文的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,待翻译的第一语种的句子相对于上述双语例句库进行了匹配,并获得了与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段;上述装置包括:选择单元,利用搜索算法,选择最优的第二语种的译文片段组合,其中,根据多个特征函数针对可能的译文片段或者译文片段的组合计算综合得分,作为搜索算法中的代价(cost);以及译文生成单元,根据上述最优的译文片段组合,生成第二语种的译文。
根据本发明的另一个方面,提供了一种机器翻译的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述装置包括:分割单元,用于将待翻译的第一语种的句子分割成多个片段;以及上述生成译文的装置,用于生成第二语种的译文。
根据本发明的另一个方面,提供了一种机器翻译的装置,其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;上述装置包括:匹配单元,用于将待翻译的第一语种的句子相对于上述双语例句库进行匹配,以获得与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段;以及上述生成译文的装置,用于生成第二语种的译文。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的生成译文的方法的流程图;
图2是根据本发明的实施例的计算综合得分的一个实例的示意图;
图3是根据本发明的实施例的搜索算法的一个实例的示意图;
图4是根据本发明的另一个实施例的生成译文的方法的流程图;
图5是根据本发明的另一个实施例的机器翻译的方法的流程图;
图6是根据本发明的另一个实施例的机器翻译的方法的流程图;
图7是根据本发明的另一个实施例的生成译文的装置的方框图;
图8是根据本发明的另一个实施例的生成译文的装置的方框图;
图9是根据本发明的另一个实施例的机器翻译的装置的方框图;以及
图10是根据本发明的另一个实施例的机器翻译的装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。
生成译文的方法
图1是根据本发明的一个实施例的生成译文的方法的流程图。如图1所示,首先,在步骤101,为进行了分割的待翻译的第一语种的句子,根据多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合。
具体地,在本实施例中,待翻译的第一语种的句子被手动或自动分割成多个片段,并通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的多个片段的每一个对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对分割待翻译的第一语种的句子的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够将待翻译的句子分割为在双语例句库中能够找到译文片段的有效片段即可。
下面详细描述上述多个特征函数及其针对译文片段组合的综合得分的计算过程。
在本实施例中,上述多个特征函数是指在基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识(在模型中,翻译知识被称为特征函数)。例如,计算双语例句和输入句子之间的相似度,双语例句的可信度和生成译文的流利度的特征函数。
本实施例的特征函数包括但不限于以下几种:
A源语言词到目标语言词的翻译概率
h w , f - > e ( e , f ) = Π i p ( e a i | f i )
B目标语言词到源语言词的翻译概率
h w , e - > f ( e , f ) = Π i p ( f a i | e i )
C源语言短语到目标语言短语的翻译概率
h ph , f - > e ( e , f ) = Π i p ( e a i | f i )
D目标语言短语到源语言短语的翻译概率
h ph , e - > f ( e , f ) = Π i p ( f a i | e i )
E基于长度的目标语言选择概率
hTLS(e,f,E)=hTLS(e,f)=logp(I|J)
相对于待翻译的句子来说,对于较短或较长的译文,该函数会给出一个较小的值。
F目标语言模型
h TLM ( e , f , E ) = h TLM ( e ) = log Π i = 1 . . I p ( e i | e i - 2 , e i - 1 )
该特征函数的值越大,那么生成的译文流利度越好。G语义相似度函数
h SS ( e , f , E ) = h SS ( f , E ) = log Π z E M ( z , f )
该特征函数的值越大,那么双语例句和输入句子中对应的片段意思越近。
在上述多个特征函数中:
h是特征;
f是带翻译句子;
e是生成的译文;
ei是译文单词;
fi是输入句子单词;
e’i是译文短语;
f’i是输入句子短语;
ai是与第i个单元相对齐的单元编号;
I是e的长度;
J是f的长度;以及
M(z,f)是双语例句和输入句子中对应的片段的语义相似度。
具体地,特征A、B、E参见Philipp Koehn于2003年发表的博士论文“Noun Phrase Translation,University of Southern California,在此通过参考引入其整个内容(下文称为文献1)。
特征函数C、D参见Franz Josef Och和Hermann Ney于2002发表的文章“Discriminative training and maximum entropy models for statisticalmachine translation”,In Proceedings of the 40th Annual Meeting of theACL,pages295—302,在此通过参考引入其整个内容(下文称为文献2)。
特征函数F参见Andreas Stolcke于2002年发表的文章“SRILM—anextensible language modeling toolkit”,In Proceedings of the InternationalConference on Spoken Language Processing,volume2,pages901—904,在此通过参考引入其整个内容(下文称为文献3)。
特征函数G参见Liu Zhanyi,Wang Haifeng和Wu Hua发表的文章“Example-based machine translation based on TSC and statisticalgeneration”,MT Summit X,Phuket,Thailand,September13-15,2005,在此通过参考引入其整个内容(下文称为文献4)。
在本实施例中,虽然示出了上述特征函数A-G,然而,应该理解,本发明并不限于此,可以包括对生成译文有贡献的任何特征函数。
下面参考图2描述上述多个特征函数针对译文片段组合的综合得分的计算过程。
图2是根据本发明的实施例的计算综合得分的一个实例的示意图。在图2中,首先,将待翻译的第一语种的句子分割成N个片段,其中SF[i]代表待翻译的句子中的第i个片断。接着,为待翻译的句子的每一个片段在进行了对齐的双语例句库中选择一个或多个译文片段,其中TF[i,j]代表与待翻译的句子的第i个片断相对应的第j个译文片段。接着,利用M个特征函数分别对这些选择的译文片段进行评价,其中h[m]代表对译文片断的第m个特征函数。然后,利用线性log模型基于如下公式(1)计算综合得分:
s ( e ) = Σ m = 1 M λ m h m ( e , f , E ) - - - ( 1 )
其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表待翻译的第一语种的句子,e代表第二语种的译文片段组合,E代表生成e所需的译文片段的集合,以及s(e)代表多个特征函数针对e的综合得分。
在本实施例中,优选考虑每个特征函数的权重,其中特征函数的权重的训练方法参见Franz Josef Och.于2003年发表的文章“Minimum errorrate training in statistical machine translation”,In roceedings of the 41stAnnual Meeting of the ACL,pages160-167,在此通过参考引入其整个内容(下文称为文献5)。然而,应该理解,可以不考虑每个特征函数的权重,直接利用线性log模型对每个特征函数针对译文片段组合的得分进行计算获得上述综合得分。
在步骤101中,可以利用上述多个特征函数通过上述图2所示的方法计算所有译文片段组合的每一个的综合得分,从而选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。
可选地,在本实施例中,也可以利用搜索算法从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。在本实施例中,搜索算法包括本领域的技术人员公知的任何算法,例如Beam搜索算法、A搜索算法和A*搜索算法等,本发明对此并没有限制。搜索算法的详细过程将在下面参考图4的实施例中参考图3进行详细描述,其中与下面的实施例不同的是,在本实施例中,待翻译的第一语种的句子已经被分割为多个片段,不需要对待翻译的句子的所有可能的片段进行搜索算法。
可选地,在本实施例中,待翻译的第一语种的句子可以具有多种切割方式,例如切割算法根据找到的所有句子片断自动切割待翻译的句子。例如:
待翻译的句子=“w1w2w3w4w5w6w7w8w9”
有效片段包括:
F1=w1w2w3
F2=w4w5w6
F3=w7w8w9
F4=w1w2w3w4
F5=w5w6w7w8w9
上面的片断可以组成两个切割方式“f1f2f3”或“f4f5”。
对于第一种切割方式“f1f2f3”,利用上述步骤101中描述的方法选择最优的第二语种的译文片段组合。其中,可以利用上述多个特征函数通过上述图2所示的方法计算该切割方式“f1f2f3”的所有译文片段组合的综合得分,从而选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。或者,也可以利用搜索算法从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
对于第二种切割方式“f4f5”,利用上述步骤101中描述的方法选择最优的第二语种的译文片段组合。其中,可以利用上述多个特征函数通过上述图2所示的方法计算该切割方式“f4f5”的所有译文片段组合的综合得分,从而选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。或者,也可以利用搜索算法从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
然后将得到的两种切割方式的最优译文片段组合的综合得分进行比较,保留得分高的译文片段组合,淘汰得分低的译文片段组合,从而为待翻译的第一语种的句子获得最优的第二语种的译文片段组合。
此外,也可以针对第一种切割方式“f1f2f3”和第二种切割方式“f4f5”利用搜索算法从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
应该理解,虽然在这里示出了两种切割方式,但是本发明并不限于此,也可以具有两种以上的切割方式,其中,只需要对每种切割方式进行计算,并对多种切割方式进行比较,最终得到最优的第二语种的译文片段组合。
最后,在步骤105,根据上述最优的译文片段组合,生成第二语种的译文。
通过本实施例的生成译文的方法,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的生成译文的方法,有效地提供了生成译文的效率。同时,在特定的应用中,该方法能够产生质量较好的译文。
此外,本实施例的生成译文的方法利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识甲包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的生成译文的方法可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
生成译文的方法
在同一发明构思下,图4是根据本发明的另一个实施例的生成译文的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,首先,在步骤401,为进行了匹配的待翻译的第一语种的句子,利用搜索算法,选择最优的第二语种的译文片段组合。
具体地,在本实施例中,通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的每个可能的片段对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对待翻译的第一语种的句子进行匹配的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够在双语例句库中为待翻译的句子的每个可能的片段找到相应的译文片段即可。
在本实施例中,搜索算法包括本领域的技术人员公知的任何算法,例如Beam搜索算法、A搜索算法和A*搜索算法等,本发明对此并没有限制。下面参考图3详细描述搜索算法的过程。图3是根据本发明的实施例的搜索算法的一个实例的示意图,其中以Beam搜索算法为例简要说明搜索算法的过程,具体细节参见Philipp Koehn.2004a.Pharaoh发表的文章“abeam search decoder for phrase-based statistical machine translationmodels”,In Proceedings of the Sixth Conference of the Association forMachine Translation in the Americas,pages115-124,在此通过参考引入其整个内容(下文称为文献6),以及Jelinek F.于1998年发表的文章“Statistical Methods for Speech Recognition”,The MIT Press,在此通过参考引入其整个内容(下文称为文献7)。
在图3的实施例中,假设待翻译的句子具有9个词。在进行了对齐的双语例句库中查找每个可能的片段的译文。例如:
句子片段:There  is a red jacket   on the bed.
译文片段:[有][一件红色的夹克]    [在床上][。]
       [一][红色][夹克]
在图3中,每个状态包括:
S:标记,如果词被翻译,则该词被标记为“*”,否则,如果词没有被翻译,则该词被标记为“-”;
T:具有“*”的词的译文;
得分:获得的译文的综合得分。
具体地,Beam搜索算法如下进行:
首先,初始化列表(词=0...9);
接着,对于s=0到9:
扩展S[s]中的每个状态
根据状态标记,将新状态保存在相应的列表中。如果在该状态中被翻译的词的数量是x,那么将该状态保存在词=x的列表中。
如果在该列表中具有与该新状态相同的状态,则比较这两个状态,并保持得分高的状态。
对列表进行删减
如果在一列表中的状态的数量大于给定的阈值,则将得分少的状态删减。
最后,在S[9]的列表中查找得分最高的译文片段组合,作为为待翻译的第一语种的句子选择的最优的第二语种的译文片段组合。
在上述搜索算法中,多个特征函数针对每个译文片段或译文片段的组合的综合得分根据上述实施例中参考图2的方法进行计算,在此不再赘述。
最后,在步骤405,根据上述最优的译文片段组合,生成第二语种的译文。
通过本实施例的生成译文的方法,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的生成译文的方法,有效地提供了生成译文的效率。同时,在特定的应用中,该方法能够产生质量较好的译文。
此外,本实施例的生成译文的方法利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的生成译文的方法可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
此外,本实施例的生成译文的方法不需要事先对待翻译的第一语种的句子进行分割,只需要通过搜索算法就能够生成高质量的译文。
机器翻译的方法
在同一发明构思下,图5是根据本发明的另一个实施例的机器翻译的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,首先,在步骤501,将待翻译的第一语种的句子分割成多个片段。
具体地,在本实施例中,待翻译的第一语种的句子被手动或自动分割成多个片段,并通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的多个片段的每一个对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对分割待翻译的第一语种的句子的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够将待翻译的句子分割为在双语例句库中能够找到译文片段的有效片段即可。
接着,在步骤505,利用根据上述参考图1的实施例的生成译文的方法,生成第二语种的译文,具体细节与上述实施例相同,在此不再赘述。
通过本实施例的机器翻译的方法,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的机器翻译的方法,有效地提供了机器翻译的效率。同时,在特定的应用中,该方法能够产生质量较好的译文。
此外,本实施例的机器翻译的方法利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的机器翻译的方法可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
机器翻译的方法
在同一发明构思下,图6是根据本发明的另一个实施例的机器翻译的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,首先,在步骤601,将待翻译的第一语种的句子相对于进行了对齐的双语例句库进行匹配。
具体地,在本实施例中,通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的每个可能的片段对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对待翻译的第一语种的句子进行匹配的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够在双语例句库中为待翻译的句子的每个可能的片段找到相应的译文片段即可。
接着,在步骤605,利用根据上述参考图4的实施例的生成译文的方法,生成第二语种的译文,具体细节与上述实施例相同,在此不再赘述。
通过本实施例的机器翻译的方法,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的机器翻译的方法,有效地提供了机器翻译的效率。同时,在特定的应用中,该方法能够产生质量较好的译文。
此外,本实施例的机器翻译的方法利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的机器翻译的方法可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
此外,本实施例的机器翻译的方法不需要事先对待翻译的第一语种的句子进行分割,只需要通过搜索算法就能够生成高质量的译文。
生成译文的装置
在同一发明构思下,图7是根据本发明的一个实施例的生成译文的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图7所示,本实施例的生成译文的装置700包括:计算单元701,用于计算多个特征函数针对译文片段组合的综合得分;选择单元705,用于从与第一语种的句子对应的多个第二语种的译文片段组合中,根据计算单元701计算获得的多个特征函数针对译文片段组合的综合得分,选择最优的第二语种的译文片段组合;以及译文生成单元710,根据上述最优的译文片段组合,生成第二语种的译文;其中,待翻译的第一语种的句子被分割成多个片段,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,并包括与上述第一语种的多个片段的每一个对应的第二语种的至少一个译文片段。
具体地,在本实施例中,待翻译的第一语种的句子被手动或自动分割成多个片段,并通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的多个片段的每一个对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对分割待翻译的第一语种的句子的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够将待翻译的句子分割为在双语例句库中能够找到译文片段的有效片段即可。
下面详细描述上述多个特征函数以及计算单元701计算多个特征函数针对译文片段组合的综合得分的过程。
在本实施例中,上述多个特征函数是指在基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识(在模型中,翻译知识被称为特征函数)。例如,计算双语例句和输入句子之间的相似度,双语例句的可信度和生成译文的流利度的特征函数。
本实施例的特征函数包括但不限于以下几种:
A源语言词到目标语言词的翻译概率
h w , f - > e ( e , f ) = Π i p ( e a i | f i )
B目标语言词到源语言词的翻译概率
h w , e - > f ( e , f ) = Π i p ( f a i | e i )
C源语言短语到目标语言短语的翻译概率
h ph , f - > e ( e , f ) = Π i p ( e a i | f i )
D目标语言短语到源语言短语的翻译概率
h ph , e - > f ( e , f ) = Π i p ( f a i | e i )
E基于长度的目标语言选择概率
hTLS(e,f,E)=hTLS(e,f)=logp(I|J)
相对于待翻译的句子来说,对于较短或较长的译文,该函数会给出一个较小的值。
F目标语言模型
h TLM ( e , f , E ) = h TLM ( e ) = log Π i = 1 . . I p ( e i | e i - 2 , e i - 1 )
该特征函数的值越大,那么生成的译文流利度越好。
G语义相似度函数
h SS ( e , f , E ) = h SS ( f , E ) = log Π z E M ( z , f )
该特征函数的值越大,那么双语例句和输入句子中对应的片段意思越近。
在上述多个特征函数中:
h是特征;
f是带翻译句子;
e是生成的译文;
ei是译文单词;
fi是输入句子单词;
e’i是译文短语;
f’i是输入句子短语;
ai是与第i个单元相对齐的单元编号;
I是e的长度;
J是f的长度;以及
M(z,f)是双语例句和输入句子中对应的片段的语义相似度。
具体地,特征A、B、E参见上述文献1。
特征函数C、D参见上述文献2。
特征函数F参见上述文献3。
特征函数G参见上述文献4。
在本实施例中,虽然示出了上述特征函数A-G,然而,应该理解,本发明并不限于此,可以包括对生成译文有贡献的任何特征函数。
下面参考图2描述计算单元701计算上述多个特征函数针对译文片段组合的综合得分的过程。
图2是根据本发明的实施例的计算单元701计算综合得分的一个实例的示意图。在图2中,首先,将待翻译的第一语种的句子分割成N个片段,其中SF[i]代表待翻译的句子中的第i个片断。接着,为待翻译的句子的每一个片段在进行了对齐的双语例句库中选择一个或多个译文片段,其中TF[i,j]代表与待翻译的句子的第i个片断相对应的第j个译文片段。接着,利用M个特征函数分别对这些选择的译文片段进行评价,其中h[m]代表对译文片断的第m个特征函数。然后,利用线性log模型基于如下公式(1)计算综合得分:
s ( e ) = Σ m = 1 M λ m h m ( e , f , E ) - - - ( 1 )
其中,hm代表第m个特征函数,λm代表第m个特征函数的权重,f代表待翻译的第一语种的句子,e代表第二语种的译文片段组合,E代表生成e所需的译文片段的集合,以及s(e)代表多个特征函数针对e的综合得分。
在本实施例中,计算单元701在计算多个特征函数针对译文片段组合的综合得分时优选考虑每个特征函数的权重,其中特征函数的权重的训练方法参见上述文献5。然而,应该理解,可以不考虑每个特征函数的权重,直接利用线性log模型对每个特征函数针对译文片段组合的得分进行计算获得上述综合得分。
在本实施例中,选择单元705可以利用计算单元701通过上述图2所示的方法计算得到的上述多个特征函数针对所有译文片段组合的每一个的综合得分,选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。
可选地,在本实施例中,选择单元705也可以利用搜索单元从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。在本实施例中,搜索单元包括本领域的技术人员公知的任何单元,例如进行Beam搜索算法、A搜索算法和A*搜索算法等的搜索单元,本发明对此并没有限制。搜索算法的详细过程将在下面参考图4的实施例中参考图3进行详细描述,其中与下面的实施例不同的是,在本实施例中,待翻译的第一语种的句子已经被分割为多个片段,不需要对待翻译的句子的所有可能的片段进行搜索算法。
可选地,在本实施例中,待翻译的第一语种的句子可以具有多种切割方式,例如切割算法根据找到的所有句子片断自动切割待翻译的句子。例如:
待翻译的句子=“w1w2w3w4w5w6w7w8w9”
有效片段包括:
F1=w1w2w3
F2=w4w5w6
F3=w7w8w9
F4=w1w2w3w4
F5=w5w6w7w8w9
上面的片断可以组成两个切割方式“f1f2f3”或“f4f5”。
对于第一种切割方式“f1f2f3”,利用选择单元705选择最优的第二语种的译文片段组合。其中,可以利用计算单元701通过上述图2所示的方法计算上述多个特征函数针对该切割方式“f1f2f3”的所有译文片段组合的综合得分,并利用选择单元705选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。或者,选择单元705也可以利用搜索单元从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
对于第二种切割方式“f4f5”,利用选择单元705选择最优的第二语种的译文片段组合。其中,可以利用计算单元701通过上述图2所示的方法计算上述多个特征函数针对该切割方式“f4f5”的所有译文片段组合的综合得分,并利用选择单元705选出得分最高的译文片段组合作为最优的第二语种的译文片段组合。或者,选择单元705也可以利用搜索单元从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
然后将得到的两种切割方式的最优译文片段组合的综合得分进行比较,保留得分高的译文片段组合,淘汰得分低的译文片段组合,从而为待翻译的第一语种的句子获得最优的第二语种的译文片段组合。
此外,选择单元705也可以针对第一种切割方式“f1f2f3”和第二种切割方式“f4f5”利用搜索单元从与第一语种的句子对应的多个第二语种的译文片段组合中选出最优的第二语种的译文片段组合。
应该理解,虽然在这里示出了两种切割方式,但是本发明并不限于此,也可以具有两种以上的切割方式,其中,只需要对每种切割方式进行计算,并对多种切割方式进行比较,最终得到最优的第二语种的译文片段组合。
本实施例的生成译文的装置700及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
通过本实施例的生成译文的装置700,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的生成译文的装置,有效地提供了生成译文的效率。同时,在特定的应用中,该装置能够产生质量较好的译文。
此外,本实施例的生成译文的装置700利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的生成译文的装置700可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
生成译文的装置
在同一发明构思下,图8是根据本发明的另一个实施例的生成译文的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,本实施例的生成译文的装置800包括:计算单元801,用于多个特征函数针对可能的译文片段或者译文片段的组合的综合得分;选择单元805,利用搜索单元,选择最优的第二语种的译文片段组合,其中,将计算单元801计算获得的多个特征函数针对可能的译文片段或者译文片段的组合的综合得分,作为搜索算法中的代价(cost);以及译文生成单元810,根据上述最优的译文片段组合,生成第二语种的译文;其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,待翻译的第一语种的句子相对于上述双语例句库进行了匹配,并获得了与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段。
具体地,在本实施例中,通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的每个可能的片段对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对待翻译的第一语种的句子进行匹配的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够在双语例句库中为待翻译的句子的每个可能的片段找到相应的译文片段即可。
在本实施例中,搜索单元包括本领域的技术人员公知的任何单元,例如进行Beam搜索算法、A搜索算法和A*搜索算法等的搜索单元,本发明对此并没有限制。下面参考图3详细描述搜索算法的过程。图3是根据本发明的实施例的搜索算法的一个实例的示意图,其中以Beam搜索算法为例简要说明搜索算法的过程,具体细节参见上述文献6,以及上述文献7。
在图3的实施例中,假设待翻译的句子具有9个词。在进行了对齐的双语例句库中查找每个可能的片段的译文。例如:
句子片段:There is   a red jacket      on the bed.
译文片段:[有]    [一件红色的夹克]    [在床上][。]
           [一][红色][夹克]
在图3中,每个状态包括:
S:标记,如果词被翻译,则该词被标记为“*”,否则,如果词没有被翻译,则该词被标记为“-”;
T:具有“*”的词的译文;
得分:获得的译文的综合得分。
具体地,Beam搜索算法如下进行:
首先,初始化列表(词=0...9);
接着,对于s=0到9:
扩展S[s]中的每个状态
根据状态标记,将新状态保存在相应的列表中。如果在该状态中被翻译的词的数量是x,那么将该状态保存在词=x的列表中。
如果在该列表中具有与该新状态相同的状态,则比较这两个状态,并保持得分高的状态。
对列表进行删减
如果在一列表中的状态的数量大于给定的阈值,则将得分少的状态删减。
最后,在S[9]的列表中查找得分最高的译文片段组合,作为为待翻译的第一语种的句子选择的最优的第二语种的译文片段组合。
在上述搜索算法中,利用计算单元801根据上述实施例中参考图2的方法计算多个特征函数针对每个译文片段或译文片段的组合的综合得分,在此不再赘述。
本实施例的生成译文的装置800及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
通过本实施例的生成译文的装置800,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的生成译文的装置,有效地提供了生成译文的效率。同时,在特定的应用中,该装置能够产生质量较好的译文。
此外,本实施例的生成译文的装置800利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的生成译文的装置800可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
此外,本实施例的生成译文的装置800不需要事先对待翻译的第一语种的句子进行分割,只需要通过搜索算法就能够生成高质量的译文。
机器翻译的装置
在同一发明构思下,图9是根据本发明的另一个实施例的机器翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图9所示,本实施例的机器翻译的装置900包括:分割单元901,用于将待翻译的第一语种的句子分割成多个片段;以及上述生成译文的装置700,用于生成第二语种的译文;其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。
具体地,在本实施例中,待翻译的第一语种的句子被手动或自动分割成多个片段,并通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的多个片段的每一个对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对分割待翻译的第一语种的句子的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够将待翻译的句子分割为在双语例句库中能够找到译文片段的有效片段即可。
本实施例的生成译文的装置700为上述参考图7的实施例的生成译文的装置,具体细节与上述实施例相同,在此不再赘述。
本实施例的机器翻译的装置900及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
通过本实施例的机器翻译的装置900,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的机器翻译的装置,有效地提供了机器翻译的效率。同时,在特定的应用中,该装置能够产生质量较好的译文。
此外,本实施例的机器翻译的装置900利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的机器翻译的装置900可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
机器翻译的装置
在同一发明构思下,图10是根据本发明的另一个实施例的机器翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图10所示,本实施例的机器翻译的装置1000包括:匹配单元1001,用于将待翻译的第一语种的句子相对于上述双语例句库进行匹配,以获得与上述第一语种的句子的每个可能的片段对应的第二语种的至少一个译文片段;以及上述生成译文的装置800,用于生成第二语种的译文;其中,进行了对齐的双语例句库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。
具体地,在本实施例中,通过匹配在进行了对齐的双语例句库中查找与待翻译的第一语种的每个可能的片段对应的第二语种的一个或多个译文片段。进行了对齐的双语例句库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语例句库,其包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。应该理解,本发明对待翻译的第一语种的句子进行匹配的方法没有任何限制,可以使用本领域的技术人员公知的任何方法,只要其能够在双语例句库中为待翻译的句子的每个可能的片段找到相应的译文片段即可。
本实施例的生成译文的装置800为上述参考图8的实施例的生成译文的装置,具体细节与上述实施例相同,在此不再赘述。
本实施例的机器翻译的装置1000及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
通过本实施例的机器翻译的装置1000,利用进行了对齐的双语例句作为翻译知识(即特征函数),相对于基于规则的机器翻译的装置,有效地提供了机器翻译的效率。同时,在特定的应用中,该装置能够产生质量较好的译文。
此外,本实施例的机器翻译的装置1000利用多种翻译知识从不同角度评价生成的译文,因此能获得高的质量译文。例如,使用的翻译知识中包含了语义资源和目标语语言模型,那么生成的译文既有良好的流利度,也与输入句子具有很高的语义相似度。
此外,本实施例的机器翻译的装置1000可以通过添加新的翻译知识进行扩展,从而进一步提高译文的质量。
此外,本实施例的机器翻译的装置1000不需要事先对待翻译的第一语种的句子进行分割,只需要通过搜索算法就能够生成高质量的译文。
以上虽然通过一些示例性的实施例详细地描述了本发明的生成译文的方法,机器翻译的方法,生成译文的装置,以及机器翻译的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。