一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法转让专利

申请号 : CN201710491848.2

文献号 : CN107301173B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭宇航黄河燕曹倩雯

申请人 : 北京理工大学

摘要 :

本发明公开了一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法,属于计算机自然语言处理及机器翻译技术领域。包括本系统,又包括训练模块与解码模块;本方法分为训练过程与解码过程。训练系统过程建立在传统的神经网络机器翻译模型基础之上,源语料用将翻译原文与初步翻译结果经过简单的语句拼接及再混合后生成的新语料做替换,目标语料用经过翻倍的参考译文做替换,使初步翻译结果与翻译原文在训练过程中互相辅助,交叉验证。翻译解码过程可直接使用已训练得到的系统,对翻译原文与初步翻译结果经过相应拼接的源语料解码,得到译文在流畅度、准确度以及质量整体上均于未经过此译后编辑方法作用的初步翻译结果。

权利要求 :

1.一种基于拼接再混合的多源神经网络自动译后编辑方法,其特征在于:其中,多源指译后编辑的输入可以来自于多种不同的源语言,包括机器翻译译文与翻译原文;

所依托的系统能够使得翻译原文与初步翻译结果在译后编辑过程中相互影响,交叉验证,提高翻译忠实度,进而提高译后编辑结果的整体质量;

本系统包括训练模块与解码模块;

训练模块的功能是训练基于拼接再混合的多源神经网络自动译后编辑系统,输出已训练模型;此已训练模型又称为译后编辑系统模型;

解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;

各模块之间的连接关系如下:

训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连;

定义1:设置一个初步机器翻译系统,称为Machine Translation,即MT系统;

定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料都假设有N句;

定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文假设有M句;所述多源神经网络自动译后编辑方法,包括训练模块的训练过程及解码模块的解码过程两部分;

其中,训练过程完成对基于拼接再混合的多源神经网络自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;

训练模块的训练过程,具体为:

步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经MT系统进行初步翻译,得出初步翻译结果语料;

其中,各语料主要包括训练原文语料和参考译文语料;

其中,训练原文语料和参考译文语料为双语平行语料;

训练原文语料,记为:{source1,source2,…,sourceN},训练译文语料,记为{ref1,ref2,…,refN};

训练原文语料的初步翻译结果语料,记为:

{mt-outs1,mt-outs2,…,mt-outsN};

步骤二、对步骤一的语料进行拼接组合,输出源前译后语料;

源前译后语料,记为:

{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN},每一句话按照训练原文在前,其对应的初步翻译结果在后的顺序依次进行拼接步骤三、对步骤一的语料进行拼接组合,输出源后译前语料;

其中,源后译前的语料,记为:

{mt-outsssource1,mt-outssource2,…,mt-outssourceN},每一句话按照训练原文在后,及其对应的初步翻译结果在前的顺序依次进行拼接;

步骤四、对步骤二及步骤三输出的源前译后语料和源后译前语料整体再次进行混合,得出混合语料,作为训练过程的源语料;

其中,混合语料,记为:{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN,mt-outsssource1,mt-outssource2,…,mt-outssourceN},作为训练模块的源语料;

其中,步骤二、步骤三以及步骤四中的拼接与混合过程均为构造多源翻译语料的过程,即是指翻译原文与初步翻译结果共同形成了译后编辑系统的源语料;

步骤五、对步骤一的训练译文语料整体翻倍,生成训练过程的目标语料;

步骤五中,对训练译文语料进行整体翻倍,其输出记为:{ref1,ref2,…,refN,ref1,ref2,…,refN},作为训练模块的目标语料;

步骤六、用步骤四得到的源语料与步骤五得到的目标语料基于神经网络翻译模型训练所述系统,输出译后编辑系统模型;

至此,从步骤一到步骤六,完成了所述方法中训练模块的训练过程;

步骤七、设置本系统的解码步骤中需要的各语料;

其中,解码步骤中需要的各语料包括翻译原文语料和初步翻译结果语料,初步翻译结果语料由翻译原文语料经MT系统翻译得到;

翻译原文语料,记为:{src1,src2,…,srcM},初步翻译结果语料,记为:{mt1,mt2,…,mtM};

步骤八、对步骤七的语料进行拼接组合,输出解码过程需要的源前译后语料;

其中,源前译后语料,记为:{srcmt1,srcmt2,…,srcmtM};每一句话按照翻译原文在前,对应的初步翻译结果在后的顺序依次进行拼接;

步骤九、对步骤七的语料进行拼接组合,输出解码过程需要的源后译前语料;

其中,源后译前语料,记为:{mtsrc1,mtsrc2,…,mtsrcM};每一句话按照翻译原文在后,对应的初步翻译结果在前的顺序依次进行拼接;

步骤十、将步骤八和步骤九输出的源前译后语料与源后译前语料两者任选其一,输入到步骤六输出的译后编辑系统模型,输出译后编辑译文;

至此,从步骤八到步骤十,完成了本方法中解码模块的解码过程。

说明书 :

一种基于拼接再混合方式的多源神经网络自动译后编辑系统

及方法

技术领域

[0001] 本发明涉及一种基于拼接再混合的多源神经网络译后编辑系统及方法,属于计算机应用、自然语言处理及机器翻译技术领域。技术背景
[0002] 近年来,随着全球化浪潮的推进,国际交流日益频繁,各行各业对翻译服务的需求都更加迫切。尽管机器翻译具有更加高效便捷的优势,然而,其译文相对于人工译文仍有不小的差距。因此,对机器翻译结果进行自动化的译后编辑以提高译文质量具有重要实用价值。
[0003] 神经网络自动译后编辑系统是对传统自动译后编辑的改进,它善于生成流畅度较高的语句,可以改善机器翻译译文的语序问题。现有的神经网络自动译后编辑系统大多单纯将初步翻译结果作为输入的源语言,基本实现了语言流畅度方面的提高,但并不能完全还原翻译原文的信息量,经常出现较为严重的漏译问题,降低了整体的翻译质量。

发明内容

[0004] 本发明的目的是为了解决现有神经网络译后编辑过程中出现的大量漏译问题,提出一种基于拼接再混合的多源神经网络译后编辑系统及方法。
[0005] 一种基于拼接再混合的多源神经网络译后编辑系统及方法包括一种基于拼接再混合的多源神经网络译后编辑系统,称为本系统,及一种基于拼接再混合的多源神经网络译后编辑方法,简称为本方法;
[0006] 其中,多源指译后编辑的输入可以来自于多种不同的源语言,包括机器翻译译文与翻译原文;
[0007] 本系统能够使得翻译原文与初步翻译结果在译后编辑过程中相互影响,交叉验证,提高翻译忠实度,进而提高译后编辑结果的整体质量;
[0008] 本系统包括训练模块与解码模块;
[0009] 各模块的功能如下:
[0010] 训练模块的功能是训练基于拼接再混合方式的多源神经网络自动译后编辑系统,输出已训练模型;此已训练模型又称为译后编辑系统模型;
[0011] 解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
[0012] 各模块之间的连接关系如下:
[0013] 训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连。
[0014] 为实现上述目的,本发明所采用的技术方案如下:
[0015] 定义1:设置一个初步机器翻译系统,称为Machine Translation,即MT系统;
[0016] 定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料都假设有N句;
[0017] 定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文假设有M句;
[0018] 在上述定义的基础之上,本方法包括训练模块的训练过程及解码模块的解码过程两部分,其中训练模块完成对基于拼接再混合方式的多源神经网络自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
[0019] 训练模块的训练过程,具体为:
[0020] 步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经MT系统进行初步翻译,得出初步翻译结果语料;
[0021] 其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为双语平行语料;
[0022] 训练原文语料,记为:{source1,source2,…,sourceN},
[0023] 训练译文语料,记为{ref1,ref2,…,refN},
[0024] 训练原文语料的初步翻译结果语料,记为:
[0025] {mt-outs1,mt-outs2,…,mt-outsN};
[0026] 步骤二、对步骤一的语料进行拼接组合,输出源前译后语料;
[0027] 源前译后语料,记为:
[0028] {sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN},每一句话按照训练原文在前,其对应的初步翻译结果在后的顺序依次进行拼接;
[0029] 步骤三、对步骤一的语料进行拼接组合,输出源后译前语料;
[0030] 源后译前的语料,记为:
[0031] {mt-outsssource1,mt-outssource2,…,mt-outssourceN},每一句话按照训练原文在后,及其对应的初步翻译结果在前的顺序依次进行拼接;
[0032] 步骤四、对步骤二及步骤三输出的源前译后语料和源后译前语料整体再次进行混合,得出混合语料,作为训练过程的源语料;
[0033] 其中,步骤二、步骤三以及步骤四中的拼接与混合过程均为构造多源翻译语料的过程,即是指翻译原文与初步翻译结果共同形成了译后编辑系统的源语料;
[0034] 混合语料,记为:{sourcemt-outs1,sourcemt-outs2,…, sourcemt-outsN,mt-outsssource1,mt-outssource2,…,mt- outssourceN},作为训练模块的源语料;
[0035] 步骤五、对步骤一的训练译文语料整体翻倍,生成训练过程的目标语料;
[0036] 其中,对训练译文语料进行整体翻倍,其输出记为:
[0037] {ref1,ref2,…,refN,ref1,ref2,…,refN},作为训练模块的目标语料;
[0038] 步骤六、用步骤四得到的源语料与步骤五得到的目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
[0039] 至此,从步骤一到步骤六,完成了本方法中训练模块的训练过程;
[0040] 步骤七、设置本系统的解码步骤中需要的各语料;
[0041] 其中,解码步骤中需要的各语料主要包括翻译原文语料和初步翻译结果语料,初步翻译结果语料由翻译原文语料经MT系统翻译得到;
[0042] 翻译原文语料,记为:{src1,src2,…,srcM},
[0043] 初步翻译结果语料,记为:{mt1,mt2,…,mtM};
[0044] 步骤八、对步骤七的语料进行拼接组合,输出解码过程需要的源前译后语料;
[0045] 源前译后语料,记为:{srcmt1,srcmt2,…,srcmtM};
[0046] 每一句话按照翻译原文在前,对应的初步翻译结果在后的顺序依次进行拼接;
[0047] 步骤九、对步骤七的语料进行拼接组合,输出解码过程需要的源后译前语料;
[0048] 源后译前语料,记为:{mtsrc1,mtsrc2,…,mtsrcM};
[0049] 每一句话按照翻译原文在后,对应的初步翻译结果在前的顺序依次进行拼接;
[0050] 步骤十、将步骤八和步骤九输出的源前译后语料与源后译前语料两者任选其一,输入到步骤六输出的译后编辑系统模型,输出译后编辑译文;
[0051] 至此,从步骤八到步骤十,完成了本方法中解码模块的解码过程。
[0052] 有益效果
[0053] 本发明是一种基于多源方式的神经网络自动译后编辑系统及方法,对比现有技术,具有如下有益效果:
[0054] 1.本发明直接将翻译原文加入神经网络译后编辑过程,为神经网络译后编辑系统的训练提供了完整的语义支持,并通过拼接的方式,与未加入翻译原文的方法相比,能够以极低的代价提高机器翻译的流畅度;
[0055] 2.本发明对翻译原文与初步翻译结果采用在语句拼接基础上再次进行整体混合的方法,与仅进行了拼接的多源译后编辑方法相比,神经网络能够同时学习到翻译原文与初步翻译结果两种源语言到译文的翻译过程,两种源语言在译后编辑过程中有效地相互影响,交叉验证,同时提高译文的忠实度与流畅度,从而提高了整体翻译质量。

附图说明

[0056] 图1为本发明一种基于拼接再混合的多源神经网络译后编辑系统及方法的训练过程与解码过程。

具体实施方式

[0057] 本发明所提出的模型和方法基于神经网络机器翻译模型,下面结合附图及实施例对本发明做进一步说明。
[0058] 实施例1
[0059] 本实施例结合附图1,叙述了本发明一种基于拼接再混合的多源神经网络译后编辑系统及方法的详细组成及训练与解码流程。
[0060] 从图1可以看出训练模块与解码模块相连。
[0061] 训练模块的训练过程包含以下步骤:
[0062] 步骤A:搜集本系统训练过程所需要的各语料;
[0063] 其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为平行语料;假定N=600000,即训练原文有60000句;
[0064] 训练原文语料,记为:{source1,source2,…,source600000},
[0065] 训练译文语料,记为{ref1,ref2,…,ref600000},
[0066] 训练原文语料的初步翻译结果语料,记为:
[0067] {mt-outs1,mt-outs2,…,mt-outs600000};
[0068] 其中,初步翻译结果是由训练原文经过Moses翻译系统翻译得到的;
[0069] 步骤B:对步骤A的语料进行不同顺序的拼接组合,可以按照每一句话的训练原文在前,其对应的初步翻译结果在后的顺序依次进行拼接,输出源前译后语料,也可以按照每一句话的训练原文在后,及其对应的初步翻译结果在前的顺序依次进行拼接,输出源后译前语料;
[0070] 其中,源前译后语料,记为:
[0071] {sourcemt-outs1,sourcemt-outs2,…,sourcemt-outs600000},
[0072] 源后译前的语料,记为:
[0073] {mt-outsssource1,mt-outssource2,…,mt-outssource600000};
[0074] 步骤C:对步骤B输出的源前译后语料和源后译前语料整体再次进行混合,构建混合语料,作为训练过程的源语料;
[0075] 其中,混合语料,记为:
[0076] {sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN,
[0077] mt-outsssource1,mt-outssource2,…,mt-outssource600000};
[0078] 步骤D:对步骤A的参考译文语料整体翻倍,生成训练过程的目标语料;
[0079] 其中,对训练译文语料进行整体翻倍,其输出记为:
[0080] {ref1,ref2,…,ref600000,ref1,ref2,…,ref600000};
[0081] 步骤E:利用源语料与目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
[0082] 解码模块与训练模块之间以基于拼接再混合方式的多源神经网络译后编辑系统相连,解码过程包含以下步骤:
[0083] 步骤F:设置本系统的解码步骤中需要的各语料,假定M=1597,即解码过程中的翻译原文有1597句;
[0084] 其中,解码步骤中需要的各语料主要包括翻译原文语料和初步翻译结果语料,初步翻译结果语料由翻译原文语料经Moses翻译系统翻译得到;
[0085] 翻译原文语料,记为:{src1,src2,…,src1597},
[0086] 初步翻译结果语料,记为:{mt1,mt2,…,mt1597};
[0087] 步骤G:对步骤F的语料进行不同顺序的拼接组合,可以按照每一句话的翻译原文在前,其对应的初步翻译结果在后的顺序依次进行拼接,输出源前译后语料,也可以按照每一句话的翻译原文在后,及其对应的初步翻译结果在前的顺序依次进行拼接,输出源后译前语料;
[0088] 其中,源前译后语料,记为:
[0089] {srcmt1,srcmt2,…,srcmt1597};
[0090] 其中,源后译前语料,记为:
[0091] {mtsrc1,mtsrc2,…,mtsrc1597};
[0092] 步骤H:选择步骤G中任意一种拼接方式生成的源前译后语料或源后译前语料输入步骤E输出的译后编辑系统,输出即为经过译后编辑处理的译文。
[0093] 实施例2
[0094] 本实施例以具体句子为例,阐述了本系统及方法的效果。
[0095] 在具体实例中,翻译质量在直观上以忠实度和流畅度体现,其中,忠实度的提高细化到选词准确性的提高上。
[0096] 假定翻译原文为“不过,过去的挑战,不止于资助公共房屋方面,私营房屋也充满重大考验。”一句。
[0097] 初步机器翻译系统使用Moses统计机器翻译系统,翻译结果为“however,the past challenge,not in the funding of public housing, private housing is full of challenge.”,在本句中,翻译原文的关键词“资助”被翻译成了“funding”,意思为“为……提供资金”,缺少了帮助层面的含义,不够准确,同时,翻译原文的句式“不止于”被翻译成“not……”,整体语言流畅性欠佳。
[0098] 经过本发明的基于拼接再混合方式的多源神经网络自动译后编辑系统校正后,译文为“however,the challenges in the past were not limited to subsidizing public housing,and private houses were also a major challenge.”。
[0099] 无论是在关键词“资助”的选词准确性上,还是整体语句流畅度上,都更接近正确的参考译文“nevertheless,past challenges are not limited to subsidized public housing.Private housing is also full of serious ordeals.”,质量远高于初步翻译结果,达到了翻译原文与初步翻译结果互相影响,交叉验证,使得译后编辑译文质量更高。
[0100] 实施例3
[0101] 本实施例在统计意义上阐述了本系统及方法相对于未加入翻译原文,直接利用初步翻译结果作为源语言训练的单源神经网络自动译后编辑系统与只做了拼接而未混合方式多源神经网络自动译后编辑系统在整体翻译质量上的优势。
[0102] 假定用于训练模块的训练原文与参考译文数据集有600000句,用于测试模块的翻译原文数据集有1597句,初步机器翻译系统采用Moses统计机器翻译系统,评分采用multi-bleu脚本,BLEU值代表整体翻译质量,一元至四元打分分别是忠实度与流畅度的量化指标,具体得分如下表1所述:
[0103] 表1:初步翻译系统、单源译后编辑系统、基于拼接方式的多源译后编辑系统与基于拼接再混合方式的多源译后编辑系统对翻译原文处理效果在统计意义上的对比[0104]
[0105] 从表1中可以看出,在整体翻译质量(BLEU)方面,基于拼接再混合方式的多源译后编辑系统无论对源前译后还是源后译前两种拼接方法形成语料的翻译质量都远远高于其他系统,并且一元打分与四元打分都是所有系统中最高的,这说明译文在忠实度和流畅度方面都得到了提高。
[0106] 以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。