一种生成英汉机器翻译的中介汉语语言模型的翻译方法转让专利

申请号 : CN201410265313.X

文献号 : CN105159889B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 不公告发明人

申请人 : 吕海港

摘要 :

为了解决英汉机器翻译的调序带来的逻辑混乱问题,结合基于短语的统计机器翻译和同声传译的顺译技术,本发明建立了一种生成中介汉语语言模型的翻译方法。它包括(1)把英语句子按照英语语法分割为短语;(2)采用机器翻译把英语短语译为汉语词语,其中常用的介词,连词和关系代词不翻译;(3)把翻译好的汉语词语与英语介词,连词和关系代词按照英语句子原来的顺序连接;(4)汉语词语之间使用空格分隔符分割。这样就得到了中介汉语语言的译文。这种中介汉语语言的译文具有可读性好,保留了英语的表达方式而逻辑清晰,可以实现低成本而准确的机器翻译。

权利要求 :

1.一种生成英汉机器翻译的中介汉语语言模型的翻译方法,包括:(1)把英语原文的每个句子按照英语语法划分为各种英语短语;

(2)把英语短语通过机器翻译方法翻译为相应的汉语词语,其中保留一些常用介词、连词和关系代词不翻译;

(3)把翻译后的汉语词语和保留的英语介词、连词和关系代词按照英语原句的顺序连接;

(4)汉语词语之间以空格字符分割;

(5)生成的中介汉语语言句子进一步组合形成翻译后的汉语文章,所得到的介于英语和汉语之间的语言模型就是中介汉语语言模型。

2.根据权利要求1所述的一种生成英汉机器翻译的中介汉语语言模型的翻译方法,步骤(1)所划分的短语包括名词短语,动词短语,介词短语和连词短语。

3.根据权利要求1所述的一种生成英汉机器翻译的中介汉语语言模型的翻译方法,步骤(2)所保留不翻译的常用介词、连词和关系代词包括但不限于of,to,on,for,from,in,about,after,at,with,and,which,that。

4.根据权利要求1所述的一种生成英汉机器翻译的中介汉语语言模型的翻译方法,步骤(4)所使用的用于分割的字符,除了空格,还能够是不影响阅读的下划线。

说明书 :

一种生成英汉机器翻译的中介汉语语言模型的翻译方法

技术领域

[0001] 本发明涉及机器翻译领域,特别是涉及一种生成英汉机器翻译的中介汉语语言模型的翻译方法。

背景技术

[0002] 英语是世界上最常用的语言之一,也是国际政治、经济、文化、教育、科技等领域中最常用的语言。以汉语为母语的人们,虽然在学校期间系统学习过英语,但是获取英语信息的主要方式还是通过英汉翻译。在信息时代,英语信息爆炸式增长,只有使用机器翻译才能解决以汉语为母语的人们快速获取英语信息的问题。
[0003] 目前,基于短语的英汉统计机器翻译已经对简单短句的翻译取得了非常好的效果,成为英汉机器翻译的主流和基础。由于英语和汉语在逻辑思维和表达方式上的差别,在长句和逻辑关系复杂的短句的翻译中,翻译得到的汉语词语必须进行调序(Reordering),因此,调序问题成为英汉机器翻译中既重要又困难的问题。目前,语言专家周海中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题(机器翻译50年,《语文研究群言集》中山大学出版社,1997年。)。
[0004] 从研究外语学习的角度来看,美国语言学家Selinker提出了中介语言(interlanguage)的概念(L.Selinker,Interlanguage.International Review of Applied Linguistics,10,209-241,1972)。所谓“中介语言”就是介于学习者母语和目的语之间的独立的语言系统。从机器翻译的角度,刘涌泉提出了“中介成分体系”(《外汉机器翻译中的中介成分体系》,《中国语文》1982年第2期)。它是根据外语-汉语机器翻译特点建立的一套特殊的句子成分体系,其中各个成分既不是原语成分,也不是译语成分,而是介于原语和译语之间的句子成分。虽然从语言学和机器翻译的角度上已经提出了中介语言的概念和模型,但是到现在还没有建立起任何一个具体的英汉机器翻译的中介语言模型。
[0005] 现代汉语与英语在主要语序上都是主语+谓语+宾语的形式,因此,英汉翻译在大的语序方面的调整相对较少。但是在很多具体方面,现代汉语主要有以下不同于英语的特点和规则。(1)汉语是连续书写的,词与词之间没有像英语单词之间作为分割符的空白。(2)现代汉语属于一种前修饰语,而英语是后修饰语,因此英语翻译为汉语时状语和定语一般要移位。(3)汉语的逻辑关系是隐式的,蕴含在句子中间,而英语的逻辑关系由介词和连词等明确表达。(4)汉语的单复数和动词时态不像英语那样明确。目前,虽然英汉机器翻译中一词多义的问题通过基于短语和上下文的方法得到了比较好的解决,但是上述语法特点和规则的不同造成了翻译结果基于现代汉语语言模型进行调序后逻辑变得混乱,常常出现错配导致表达错误。
[0006] 为了解决词语调序后逻辑混乱的问题,一个重要的方法就是采用顺序翻译的方法,即在翻译结果中保留英语短语的次序。英汉顺序翻译目前已经成功地应用于同声传译领域。由于同声传译即时性的特点,翻译人员只能尽量减少语言结构范围程度的调整,按照自己听到的原文顺序,不停地把句子切成个别的意群或概念单位,再把这些单位比较自然地连接起来,翻译出整体原意。这就是英汉同声传译的“顺句驱动”即“顺译”(syntactic linearity)。顺译所得到的翻译结果虽然不能完全符合现代汉语的习惯,但是也基本能表达原文的意思。
[0007] 现在,英汉机器翻译可以把英语原文中的每个意群或短语比较准确地翻译成汉语词语,同声传译的顺译方法可以把这些翻译好的短语用顺序的方法连接起来。因此,我们可以结合机器翻译和同声传译的顺译两方面的优势和特点,建立既相对准确又具有较好可读性的英汉翻译的中介汉语语言模型,提高英汉机器翻译的效果。

发明内容

[0008] 本发明所要解决的技术问题是,建立一种生成英汉机器翻译的中介汉语语言模型的翻译方法,把基于英语短语翻译得到的汉语词语顺序组织起来,既清晰地表达英语信息的逻辑关系,又具有较好的可读性,使以汉语为母语的读者能清楚地理解英语原文要表达的意思。
[0009] 本发明为解决技术问题而采取的技术方案为,提供一种生成英汉机器翻译的中介汉语语言模型的翻译方法。所述语言模型及其翻译方法如下:(1)把英语原文的每个句子按照语法划分为各种短语,包括名词短语,动词短语,介词短语,连词短语等;(2)把英语短语通过机器翻译方法翻译为相应的汉语词语,其中保留一些常用介词、连词和关系代词(如of,to,on,for,from,in,about,after,at,with,and,which,that)不翻译,即仍为英语单词;(3)把翻译后的汉语词语和保留的英语介词、连词和关系代词按照英语原句的顺序连接;(4)汉语词语之间以空格、下划线不影响阅读的字符分割。这样就得到了逻辑清晰,具有一定可读性的中介汉语语言的译文。这个介于英语和汉语之间的中介汉语语言可以用在机器翻译中,作为语言模型使用,这样就形成了中介汉语语言模型。
[0010] 虽然这种中介汉语语言模型在顺序上与现代汉语有一定的差别,而且间杂一些英语介词、连词等,从而导致在阅读过程中思维有一定跳跃反复,但是它在机器翻译领域和日常使用中具有以下优点。
[0011] 1.它的各个短语之间的顺序与源语言——英语——完全一致,很容易通过基于短语的统计机器翻译得到各个短语的准确汉语翻译,把汉语词语与英语的保留词顺序连接,就可以得到准确的中介汉语语言,因此其翻译成本极低。
[0012] 2.这种中介汉语语言,只含有少数几个简单的英语单词,只要学过初级英语,读者就可以顺利地阅读和理解,因此具有一定的实用性。
[0013] 3.这种中介汉语语言可以作为初级材料,提供给人工翻译,人工翻译只需要调整语序和简单修改,就可以得到高质量的译文。因此,它将大大降低人工翻译的工作量和成本。
[0014] 4.阅读这种中介语言可以快速掌握英语的常用语法和句式,提高使用者的使用地道英语进行表达和写作的能力。

附图说明

[0015] 附图1是本发明提供的把一个英语句子翻译成中介汉语语言的流程图。

具体实施方式

[0016] 按照附图1的流程,可以很容易地把英语句子准确翻译为中介汉语语言:英语句子1首先经过语法分析2分割为一组短语3,把名词短语,动词短语等通过机器翻译译为汉语词语4,并把它们与介词等按照英语的顺序连接,即生成了中介汉语语言的句子5。
[0017] 本翻译方法具有两个必要的文本转换:一是语法分析,把英语句子按照英语语法分割为一系列的短语;二是短语翻译,把英语短语翻译为汉语词语。其中的第一个转换属于英语的自然语言处理问题,已经有比较成熟的技术和方法。例如开源软件JTextPro,可以按照英语语言模型,对英语句子中的单词进行词性标注,并把多个单词组成名词短语,动词短语,连词短语,介词短语等。其中的第二个转换属于机器翻译领域。目前基于短语的统计机器翻译在短语翻译方面基本成熟,并且有谷歌翻译,百度翻译,微软翻译等一系列在线工具。因此,本发明的实施例采用JTextPro把英语句子分割为英语短语和采用百度在线翻译把英语短语翻译为汉语词语。
[0018] 下面主要结合实施例对本发明的中介汉语语言模型的特征和优点进行说明。
[0019] 实施例一.
[0020] 英语原文:We should study the history and grammar of Chinese language.[0021] 中介语言:我们应该研究历史and语法of汉语。
[0022] 这句英语非常简单,可以直接通过附图的流程把句子分割并翻译为中介汉语语言的译文。在这个中介汉语语言的译文中,有三个重要的特征:(1)词语之间有分隔符。本实施例中,空格把整个句子分割成一个个语意和语法明确的词语片段,忠实地表达了英语句子的原意。(2)英汉翻译是基于短语的。本实施例中,would study是动词短语,the history和Chinese language是名词短语。与逐词翻译相比,短语翻译既保证了翻译中的词义准确性,又可以在短语内部进行词序调整,使之尽可能符合汉语语言习惯,这样可以很大程度是提高译文的可读性。(3)英语介词和连词直接保留在译文中。本实施例中,连词and和介词of都保留在了中介汉语语言的译文中,保证了中介语言逻辑清晰。在本句,后置的定语Chinese language可能修饰的是grammar,此时意思是“历史和汉语语法”;也可能同时修饰history和grammar,此时意思为“汉语历史和语法”。这两种意思有显著差异,单从本句无法确定应该是哪一种,只能从更广泛的上下文去分析。因此,中介语言保留了英语的介词和连词,基本上忠实地传达英语原文含义。
[0023] 实施例二.
[0024] 英语原文:U.S.President Barack Obama says the Environmental Protection Agency has designed"commonsense guidelines"for reducing dangerous carbon pollution from power plants.
[0025] 人工译文:美国总统奥巴马说,环境保护署规划了“常识性准则”,以减少来自发电厂的危害性碳污染。
[0026] 百度翻译:美国总统奥巴马说,环境保护署已设计的“减少碳污染的发电厂的危险常识指南”。
[0027] 中介语言:美国总统奥巴马_说_环境保护署_设计了_“常识指南”for减少_危险的碳污染from发电厂。本实施例的英语句子属于新闻英语,其中有for和from两个介词。介词for有多个中文意思:“为,为了;因为;给;对于;至于;适合于”。在人工翻译时翻译为“以”非常贴切,表达前面“常识性准则”的目的。介词from也有多个中文意思:“来自,从;由于;今后”,在本句中表示“碳污染”的来源。在机器翻译的结果中,由于介词难翻译的特点和机器翻译所使用汉语语言模型的局限性,经常无法分析出介词的修饰对象和应该调整的顺序,因此对原文的翻译表达指示不清,逻辑混乱。在中介语言译文中,把介词“for”和“from”都保留下来,最大限度地保留了清晰的逻辑关系。在本中介语言译文中的汉语短语之间使用下划线“_”代替空白作为分隔符,也基本不影响阅读的连续性。另外,在英语单词或字母词之间一般不需要使用可见的分隔符,因为字母和汉字之间的转换可以起到自然的分隔效果。
[0028] 实施例三.
[0029] 英语原文:A transistor is a small electronic device that transfers or carries electronic current.The device helps to create an electrical circuit that provides power to other devices.Scientists hope these new 2D transistors will be used for building high-resolution displays that need very little energy.
[0030] 中介语言:晶体管_是_一个小的电子设备_that_传输或传导_电子电流。该装置_有助于_创造一种电子电路_that_提供电源_to_其它设备。科学家_希望_这些新的二维晶体管_将被用于_高分辨率显示器_that_需要_非常少的能量。
[0031] 百度翻译:晶体管是一个小的电子设备,传输或传导电子电流。该装置有助于创造一种电子电路,向其他设备提供电源。科学家们希望这些新的二维晶体管将被用于构建高分辨率显示器,需要非常少的能量。
[0032] 人工译文:晶体管是传输电流的小型电子设备。该设备帮助创造一个电路为其它设备提供电源。科学家希望这些新型2D晶体管能被用于开发耗能极少的高分辨率显示器。
[0033] 本实施例属于科技英语翻译。科技英语逻辑严密,经常需要使用很多以关系代词that和which引导的限制性定语从句作为限制或补充说明。在本实施例的中介汉语语言译文中,作为引导词的“that”保留在译文中,明确了与前面内容的限制关系。与机器翻译的结果相比,中介汉语语言为读者提供了限制性定语从句与被修饰词之间明确的关系。与人工翻译的结果相比,中介语言不但准确表达了原文的内容,而且更有原汁原味的特点。
[0034] 实施例四.
[0035] 英语原文:The academy said that while it is hard to predict the price of stocks and bonds over the next few days or weeks,the work by these economists make it possible to foresee the broad course of these prices over longer periods,such as the next three to five years.
[0036] 中介语言:研究院_表示that虽然_很难to预测_价格of股票and债券over未来几天或几周,工作by这些经济学家_使之成为可能to预测_广泛的趋势of这些价格over较长的时间,比如_未来三to五年。
[0037] 人工译文:瑞典皇家科学院说,虽然很难准确预测未来几天或几周的股票和债券的价格,但这三位学者的研究使人们能够对三年到五年内的价格趋势进行预测。
[0038] 百度翻译:研究院表示,虽然很难预测股票和债券在未来的几天或几周内的价格,这些经济学家的工作使人们有可能预见到这些价格在较长时期内广泛的趋势,如未来三到五年。
[0039] 本实施例是一个比较复杂的句子,有10个介词、连词和关系代词,分别表示从句,不定式,定语,状语等一系列句子成分。对这个复杂句而言,中介语言方法,机器翻译,人工翻译都基本上能正确翻译出来。但是,从机器翻译和人工翻译得到中文译文,人们很难回溯其源语言英语的表达方式。而使用中介语言的译文,人们可以很容易地掌握它们在英语的地道的表达方式。因此,通过中介语言的阅读,人们可以掌握原汁原味的英语表达方式,提高自己的英语表达和写作水平。因此,英汉翻译的中介语言模型可以为促进以汉语为母语的人们学习英语提供非常好的工具。
[0040] 从上面的四个实施例我们可以发现,这种生成英汉机器翻译的中介汉语语言模型的翻译方法不仅在英汉翻译中具有成本低,翻译准确,使以汉语为母语的人进行轻松阅读,而且还能完全反映英语原文的逻辑关系和表达方式,促进以汉语为母语的人使用原汁原味的英语进行表达并提高英语的写作水平。