混合深度学习网络与单词生成统计学指导的机器翻译方法转让专利

申请号 : CN202010455897.2

文献号 : CN111597831B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张逸钿兰萍杨丹何花吴志强

申请人 : 西藏大学

摘要 :

本发明提供的一种混合深度学习网络与单词生成统计学指导的机器翻译方法,该方法以NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。

权利要求 :

1.混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,包括以下步骤:

S1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模型、第一分类器和第二分类器,形成混合机器翻译系统;

所述SMT模型包括基于一元模型的生成词评分系统和基于二元模型的生成词评分系统;其中:所述基于一元模型的生成词评分系统用于生成一元模型生成词评分;基于二元模型的生成词评分系统用于生成二元模型生成词评分;

S2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模型与SMT模型的翻译进度;

S3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分;

基于一元模型的生成词评分系统具体计算过程为:

所述基于一元模型的生成词评分系统包括预评分模块、重排序评分模块和最终评分计算模块;

待翻译语句在基于一元模型的生成词评分系统中被切割为离散单词后被送入预评分模块中,根据翻译覆盖向量对单词进行预评分,具体计算过程为:其中,xt表示通过翻译覆盖向量限定为待翻译语句中未被翻译的单词,yt限定为对应xt的预评分最高的nlocal个候选生成词,Hm、λm分别为预构造的统计学特征及其对应权重;

因待翻译语句被切割为离散单词后丢失了词对齐信息,而词对齐信息在机器翻译任务中具有重要的作用,预评分结果需送入重排序评分模块对候选词进行重排序评分;

重排序评分模块通过基于距离的词对齐信息计算对预评分结果进行重排序评分,具体计算公式为:

其中, 分别表示待翻译语句中与当前时刻可能的译出结果yt、上一时刻最终译出结果yt‑1对齐的单词在句中的位置;然而,在基于一元模型的生成词评分系统中,SMT模型难以确定待翻译语句中与yt‑1对应的单词,即无法确定 故使用NMT模型的注意力参数对式(2)进行更改,基于一元模型的生成词评分系统中候选单词yt的重排序评分计算公式如下:其中,αt‑1,j为NMT模型前一时刻产生的注意力参数,Tx为待翻译语句的总长度;为综合考虑译出结果yt的预评分和重排序评分,通过最终评分计算模块进行基于一元模型的生成词评分系统最终的评分计算;

在最终评分计算模块中存在一个门控单元,该门控单元负责调整单词预评分与重排序评分在最终评分中的权重,最终评分计算方法如式(4)所示:score1(yt)=λ·SMT1(yt)+(1‑λ)·d1(yt)            (4)

其中,λ为取值为0‑1的门控单元参数;最后,最终评分计算模块的输出将作为基于一元模型的生成词评分系统当前时刻的输出送至第一分类器中;

基于二元模型的生成词评分系统具体计算过程为:

与基于一元模型的生成词评分系统不同的是,基于二元模型的生成词评分系统将包含Tx个单词的待翻译语句x分割成(Tx‑1)个二元单元;由于二元单元经过SMT模型译出结果长度不定,因此需要将该结果补齐或截断为二元单元:当译出结果为一元单元时,在其尾部添加一位空白元素使之形成二元单元;当译出结果长度大于2时,仅保留译出结果的前两位作为基于二元模型的生成词评分系统的评分对象;

将所有译出二元单元中的元素作为候选结果,并按对齐假设与待翻译语句对齐形成序列,序列中的任意候选结果,均可能由两个接续的二元单元依两种对齐假设生成,故在基于二元模型的生成词评分系统中,对某一候选结果,应同时考虑两种对齐假设并分别进行评分,再由最终评分计算模块计算最终的生成词评分;

所述基于二元模型的生成词评分系统由两组预评分模块、重排序评分模块和一个最终评分计算模块组成,从t时刻候选结果序列中的某元素yt出发,基于二元模型的生成词评分系统具体计算过程为:对t时刻的候选结果yt,当仅考虑第一种对齐假设,即yt为译出二元单元的第一个元素时,预评分方法与基于一元模型的评分系统相似,但因预评分输入为二元单元,预评分SMT2‑1计算公式应修改为:其中,<·>表示将括号内两元素连接为二元单元, 表示待翻译语句中紧随xt出现的下一个词,n‑best表示在输入为 的情况下SMT模型输出评分最高的n个结果,表示输出结果的第一位元素为yt,第二位元素由翻译覆盖向量提供限制条件限定,xt、yt的定义与基于一元模型的评分方法相同,对于xt的范围限制同样通过翻译覆盖向量实现;

仅考虑第一种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若翻译覆盖向量中与xt对应的元素为1,即xt已被翻译,则此二元单元自然不符合预评分的输入要求;若覆盖向量中与xt对应元素的下一元素为1,即xt的下一单词 已被翻译,此二元单元亦不符合预评分的输入要求;特别地,在对应输入 满足输入条件的情况下,不再进行任何限制;

由于yt为二元单元译出结果的第一个元素,根据译出顺序假设,在此种情况下,重排序评分d2‑1与基于一元模型的重排序评分方法相同,如下式:对t时刻可能的生成结果yt,当仅考虑第二种对齐假设,即yt为二元单元译出结果的第二个元素时,因使用了译出结果的第一个元素由混合机器翻译系统于前一时刻译出的假设,占用了前一个译码步骤,故预评分模块应根据混合机器翻译系统前一时刻已生成片段y<t‑1=y1,y2,…,yt‑2进行评分;依照第一种对齐情况的预评分方法,t时刻生成词预评分SMT2‑2计算公式应为:式中, 表示待翻译语句中位于xt之前的单词,<_,yt>表示仅考虑输出结果的第二位元素,第一位元素由翻译覆盖向量提供限制条件限定,其他符号意义与式(5)相同;

仅考虑第二种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若待翻译语句中与yt对齐的xt已被翻译,即翻译覆盖向量中xt对应元素已被标注为1,则生成词评分系统将不对yt进行评分;另外,由于在此种对齐情况下,预评分计算使用了译出结果的第一个元素占用了前一个译码步骤,即第一个元素由混合翻译系统于前一译码时间译出的假设,预评分计算模块应通过限制式(7)中的<_,y1>以使预评分对象满足此假设;是否满足上述假设可通过查看当前译码步骤与前一译码步骤的翻译覆盖向量反映:若待翻译语句中二元单元的第一个元素 在前一译码步骤的翻译覆盖向量的对应元素为0,且其在当前译码步骤的翻译覆盖向量的对应元素为1,则满足上述假设,否则不满足;简而言之,若翻译覆盖向量的时间差分向量的第 位为1,则对应的候选结果yt满足该假设,否则,生成词评分系统将不对yt进行评分;另外,若将 于前一译码步骤的最终译出结果记为 则当前步骤xt向前与 连接成的二元单元译出结果的第一个元素必须限定为 故仅符合假设而不符合此译出限定的<_,yt>也将在预评分SMT2‑2计算中被剔除;

考虑到yt为二元单元译出结果的第二个元素,在计算重排序评分时,应依照第二种对齐假设,以yt在待翻译语句中对应单词xt的前一单词,即 作为计算距离的基准;式(6)中用于表示xt在待翻译语句中位置,则 在句中位置可表示为 另外,考虑第一个元素占用了前一个译码步骤,重排序评分方法应向前推移一个时间步骤,计算距离的对象应为待翻译语句中与t‑2时刻生成词对应的单词;同样,由于无法准确定位t‑2时刻混合机器翻译系统生成词由哪一特定单词翻译产生,该情况下重排序评分亦由注意力参数控制并加权求和产生,具体计算方法如式(8)所示:上述过程分别计算了生成单词于二元单元两种对齐情况下,所有候选单词的预评分及对应的重排序评分;为综合考虑预评分、重排序评分,得到对候选单词的最终生成评分,提出基于二元模型的词评分系统设计了最终评分计算模块,具体计算过程为:最终评分计算模块中存在两个门控单元,负责调整上述两种情况下候选单词预评分及对应重排序评分的权重,计算方法与基于一元模型的最终评分计算方法相同,如下式:score2‑1=λ·SMT2‑1(yt)+(1‑λ)·d2‑1(yt)          (9)

score2‑2=λ·SMT2‑2(yt)+(1‑λ)·d2‑2(yt)         (10)

特别地,上述两个门控单元参数λ与基于一元模型的最终评分计算模块中的门口单元参数共享;随后,两路预评分将送入筛选器,筛选器输出将作为基于二元模型的生成词评分系统的最终评分,并送至第二分类器中;

S4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。

2.根据权利要求1所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S1中,所述NMT模型为常用的NMT模型,其最终输出结果为经过Softmax函数映射后词汇表中所有单词的译出概率估计;其中,将Softmax层从NMT模型中分离,并记为第零分类器。

3.根据权利要求2所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S2中,所述翻译覆盖向量用以显式标记待翻译语句中已被翻译的部分;对某一待翻译语句而言,翻译覆盖向量长度与该语句的句长相等,向量元素按序与待翻译语句中的各单词对齐,所有元素均只有0和1两种取值,0表示对应单词未被翻译,1表示对应单词已被翻译。

4.根据权利要求3所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,为在译码过程中标记混合机器翻译系统的翻译状态,所述翻译覆盖向量使用如下更新规则:当混合机器翻译系统最终生成单词由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生时,则根据SMT模型显式对齐关系更新对应位元素至1;

若不由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生,则当前译码步骤不对翻译覆盖向量做任何更新。

5.根据权利要求4所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,所述筛选器作用机制如下:当某可能生成结果yt仅在一路预评分中出现时,则该预评分即为yt的筛选器输出;当某可能生成结果yt在两路预评分中均出现时,取两路预评分中的较大值作为yt的筛选器输出。

6.根据权利要求4所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,所述步骤S4过程具体为:为使单词生成指引与第零分类器输出形式相匹配,第一分类器和第二分类器输出均采用Softmax模块处理;为减轻Softmax模块的负担,进而降低混合机器翻译系统的译码复杂度,第一分类器首先根据对应最终评分对所有候选结果排序,仅保留评分最高的nglobal_1对结果,滤去评分较低的低质量译出结果;紧接着,被保留的候选结果及其对应评分将送入Softmax模块,由Softmax激活函数映射为估计概率,从而实现生成词评分到生成词概率的转化;第二分类器也将根据最终评分对所有候选结果排序并筛选保留评分最高的nglobal_2对结果,其后续计算过程与第一分类器相同;

两个生成词评分系统的输出经第一分类器、第二分类器处理后转化为一定数量的候选译出结果及其对应生成概率;第零分类器、第一分类器、第二分类器将输出统一为“词——生成概率”的形式,为使混合机器翻译系统综合考虑上述输出,通过引入加权单元,使用加权的方式整合候选词的各项输出概率;三个分类器对应权重均受NMT模型控制,由当前时刻的隐藏层状态,参考输入和上下文向量决定,因此各项权重是时变的,t时刻权重计算公式如下:式(11)中,βi表示分类器i的对应权重,st、yt‑1、ct分别表示当前时刻隐藏层状态、参考输入和上下文向量,gi(·)分别对输入st、yt‑1、ct进行线性变换,并由sigmoid激活函数映射为取值为0‑1的标量;

第零分类器、第一分类器、第二分类器产生的三组生成概率经βi分别加权并求和,得到所有候选译出结果的最终生成概率,混合机器翻译系统根据选择最终生成概率最高的单词作为当前时刻的译码输出。

7.根据权利要求6所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在NMT模型中,t时刻的上下文向量ct具体过程具体为:其中,hj为第j个单词经NMT模型编码器编码后的语义向量,αt,j为t时刻对应第j个注意力参数。

说明书 :

混合深度学习网络与单词生成统计学指导的机器翻译方法

技术领域

[0001] 本发明涉及面向机器翻译技术领域,更具体的,涉及一种混合深度学习网络与单词生成统计学指导的机器翻译方法。

背景技术

[0002] 机器翻译研究是对如何通过计算机实现两种自然语言间翻译任务的技术研究,机器翻译技术现已广泛应用于人们的生产、生活当中。目前,机器翻译研究主要面临以下研究难点:第一,从语言学的角度出发,自然语言具有多样性、多变性和歧义性。同样的单词、短语或句子在不同的语境中可能代表不同的意思,不同甚至意义相反的单词、短语或句子在同一语境中有时却能表达相同的含义;自然语言还常存在语言语法不规范的问题,因其表达的灵活性,仅从语言学角度出发都难以寻找能够全面覆盖语法的统一规则;新字、新词和错别字的混用,亦是计算机识别和理解自然语言的主要障碍。第二,从数学建模的角度出发,即便语言学能够提供一个完全覆盖语言语法的统一规则,能够及时、正确对新字、新词、错别字进行更新和更错,也难以建立一个能够尽可能包含文字信息、理解语义并且符合计算机可承受能力的数学模型。第三,从语料的角度出发,什么样的语料正确反应语言特点,如何采集或获取这样的语料都是机器翻译研究所面临的重要问题。
[0003] 在能够提供优质语料,解决第三个研究难点的基础下,统计机器翻译(Statistical Machine Translation,SMT)方法与基于神经网络的机器翻译(Neural Machine Translation,NMT)方法针对第一、第二个研究难点采用了不同的解决方案。SMT方法通过对大量平行语料的统计学分析及统计特征提取,赋予语言统计学意义,将不同语种间的语义语法关系建模为统计学关系,能够在机器翻译任务中得到较准确的翻译结果;而NMT方法以“编码‑译码”模型为基础,搭建深度学习网络,将语言互译过程建模为“编码+译码”的过程,充分适应自然语言多样性、多变性的问题,在完成机器翻译任务上展现出优秀的性能。然而,受限于自身建模方法和翻译机制,上述两种机器翻译方法同样具有难以克服的不足之处。
[0004] NMT方法性能受限于以下因素:首先,NMT方法存在翻译覆盖问题[1]Z.Tu,Z.Lu,Y.Liu,X.Liu,and H.Li,“Modeling coverage for neural machine translation,”in Proc.40th Annu.Meeting Assoc.Comput.Linguistics,2016,pp.76–85,翻译过程以预先约定的符号(如“EOS”符号)为结束标记,缺乏针对待翻译语句中已翻译单词的显式标记机制,从而不能保证待翻译语句中的所有单词能被准确翻译。第二,NMT方法存在翻译不准确的问题[2]P.Arthur,G.Neubig,and S.Nakamura“,Incorporating discrete translation lexicons into neural machine translation,”in Proc.Conf.Empirical Methods Natural Lang.Process.,2016,NMT系统使用了注意力机制,系统的译码器受注意力参数平滑作用的影响,可能产生流畅却不够准确的翻译结果。最后,NMT方法存在有限词汇问题[3]S.Jean,K.Cho,R.Memisevic,and Y.Bengio“,On using very large target vocabulary for  neural  machine  translation,”in  Proc.53rd  Annu.Meeting Assoc.Comput.Linguistics 7th Int.Joint Conf.Natural Lang.Process.(Volume 1:
Long Papers),Beijing,China,Jul.2015,pp.1–10,NMT系统译码器嵌入层及编码器Softmax层计算成本与词汇范围的大小成正比,故NMT系统在待翻译语言和目标语言中均只使用出现频率最高的有限词汇,有限的词汇范围使得待翻译语句中的低频词汇语义丢失、翻译结果中的语义无法充分表达,造成翻译系统输入、输出语句的语义截断,进而使得系统无法得到最优的翻译结果。
[0005] SMT方法性能受限于以下因素:首先,SMT方法较NMT方法而言需要更大的空间开销:SMT方法通过提取双语平行语料库的统计学特征,将不同语言之间的语义语法关系建模为统计学关系,其翻译过程的实质是寻找当前输入条件下,输出概率最大的结果,故需要占用大量的内存储存这些统计学概率。第二,SMT方法对语料库依赖性强,需要高质量的平行语料才能够提取出正确的统计学特征。最后,因SMT方法在翻译过程中使用固定的概率映射关系,导致其翻译结果虽相对准确、充分,却可能缺乏一定的流畅性。

发明内容

[0006] 本发明为克服现有的NMT方法性能和SMT方法性存在的多种受限因素导致系统无法获取最优的翻译结果的技术缺陷,提供一种混合深度学习网络与单词生成统计学指导的机器翻译方法。
[0007] 为解决上述技术问题,本发明的技术方案如下:
[0008] 混合深度学习网络与单词生成统计学指导的机器翻译方法,包括以下步骤:
[0009] S1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模型、第一分类器和第二分类器,形成混合机器翻译系统;
[0010] S2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模型与SMT模型的翻译进度;
[0011] S3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分;
[0012] S4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。
[0013] 上述方案中,该方法NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。
[0014] 其中,在所述步骤S1中,所述NMT模型为常用的NMT模型,其最终输出结果为经过Softmax函数映射后词汇表中所有所有单词的译出概率估计;其中,将Softmax层从NMT模型模型中分离,并记为第零分类器。
[0015] 其中,在所述步骤S1中,所述SMT模型包括基于一元模型的生成词评分系统和基于二元模型的生成词评分系统;其中:所述基于一元模型的生成词评分系统用于生成一元模型生成词评分;基于二元模型的生成词评分系统用于生成二元模型生成词评分。
[0016] 其中,在所述步骤S2中,所述翻译覆盖向量用以显式标记待翻译语句中已被翻译的部分;对某一待翻译语句而言,翻译覆盖向量长度与该语句的句长相等,向量元素按序与待翻译语句中的各单词对齐,所有元素均只有0和1两种取值,0表示对应单词未被翻译,1表示对应单词已被翻译。
[0017] 其中,为在译码过程中标记混合机器翻译系统的翻译状态,所述翻译覆盖向量使用如下更新规则:当混合机器翻译系统最终生成单词由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生时,则根据SMT模型显式对齐关系更新对应位元素至1;若不由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生,则当前译码步骤不对翻译覆盖向量做任何更新。
[0018] 其中,在所述步骤S3中,基于一元模型的生成词评分系统具体计算过程为:
[0019] 所述基于一元模型的生成词评分系统包括预评分模块、重排序评分模块和最终评分计算模块;
[0020] 待翻译语句在基于一元模型的生成词评分系统中被切割为离散单词后被送入预评分模块中,根据翻译覆盖向量对单词进行预评分,具体计算过程为:
[0021]
[0022] 其中,xt表示通过翻译覆盖向量限定为待翻译语句中未被翻译的单词,yt限定为对应xt的预评分最高的nlocal个候选生成词,Hm、λm分别为预构造的统计学特征及其对应权重;
[0023] 因待翻译语句被切割为离散单词后丢失了词对齐信息,而词对齐信息在机器翻译任务中具有重要的作用,预评分结果需送入重排序评分模块对候选词进行重排序评分;
[0024] 重排序评分模块通过基于距离的词对齐信息计算对预评分结果进行重排序评分,具体计算公式为:
[0025]
[0026] 其中, 分别表示待翻译语句中与当前时刻可能的译出结果yt、上一时刻最终译出结果yt‑1对齐的单词在句中的位置;然而,在基于一元模型的生成词评分系统中,SMT模型难以确定待翻译语句中与yt‑1对应的单词,即无法确定 故使用NMT模型的注意力参数对式(2)进行更改,基于一元模型的生成词评分系统中候选单词yt的重排序评分计算公式如下:
[0027]
[0028] 其中,αt‑1,j为NMT模型前一时刻产生的注意力参数,Tx为待翻译语句的总长度;为综合考虑译出结果yt的预评分和重排序评分,通过最终评分计算模块进行基于一元模型的生成词评分系统最终的评分计算;
[0029] 在最终评分计算模块中存在一个门控单元,该门控单元负责调整单词预评分与重排序评分在最终评分中的权重,最终评分计算方法如式(4)所示:
[0030] score1(yt)=λ·SMT1(yt)+(1‑λ)·d1(yt)  (4)
[0031] 其中,λ为取值为0‑1的门控单元参数;最后,最终评分计算模块的输出将作为基于一元模型的生成词评分系统当前时刻的输出送至第一分类器中。
[0032] 其中,在所述步骤S3中,基于二元模型的生成词评分系统具体计算过程为:
[0033] 与基于一元模型的生成词评分系统不同的是,基于二元模型的生成词评分系统将包含Tx个单词的待翻译语句x分割成(Tx‑1)个二元单元;由于二元单元经过SMT模型译出结果长度不定,因此需要将该结果补齐或截断为二元单元:当译出结果为一元单元时,在其尾部添加一位空白元素使之形成二元单元;当译出结果长度大于2时,仅保留译出结果的前两位作为基于二元模型的生成词评分系统的评分对象;
[0034] 将所有译出二元单元中的元素作为候选结果,并按对齐假设与待翻译语句对齐形成序列,序列中的任意候选结果,均可能由两个接续的二元单元依两种对齐假设生成,故在基于二元模型的生成词评分系统中,对某一候选结果,应同时考虑两种对齐假设并分别进行评分,再由最终评分计算模块计算最终的生成词评分;
[0035] 所述基于二元模型的生成词评分系统由两组预评分模块、重排序评分模块和一个最终评分计算模块组成,从t时刻候选结果序列中的某元素yt出发,基于二元模型的生成词评分系统具体计算过程为:
[0036] 对t时刻的候选结果yt,当仅考虑第一种对齐假设,即yt为译出二元单元的第一个元素时,预评分方法与基于一元模型的评分系统相似,但因预评分输入为二元单元,预评分SMT2‑1计算公式应修改为:
[0037]
[0038] 其中,<·>表示将括号内两元素连接为二元单元, 表示待翻译语句中紧随xt出现的下一个词,n‑best表示在输入为 的情况下SMT模型输出评分最高的n个结果,表示输出结果的第一位元素为yt,第二位元素由翻译覆盖向量提供限制条件限定,xt、yt的定义与基于一元模型的评分方法相同,对于xt的范围限制同样通过翻译覆盖向量实现;
[0039] 仅考虑第一种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若翻译覆盖向量中与xt对应的元素为1,即xt已被翻译,则此二元单元自然不符合预评分的输入要求;若覆盖向量中与xt对应元素的下一元素为1,即xt的下一单词 已被翻译,此二元单元亦不符合预评分的输入要求;特别地,在对应输入 满足输入条件的情况下,不再进行任何限制;
[0040] 由于yt为二元单元译出结果的第一个元素,根据译出顺序假设,在此种情况下,重排序评分d2‑1与基于一元模型的重排序评分方法相同,如下式:
[0041]
[0042] 对t时刻可能的生成结果yt,当仅考虑第二种对齐假设,即yt为二元单元译出结果的第二个元素时,因使用了译出结果的第一个元素由混合机器翻译系统于前一时刻译出的假设,占用了前一个译码步骤,故预评分模块应根据混合机器翻译系统前一时刻已生成片段y<t‑1=y1,y2,...,yt‑2进行评分;依照第一种对齐情况的预评分方法,t时刻生成词预评分SMT2‑2计算公式应为:
[0043]
[0044] 式中, 表示待翻译语句中位于xt之前的单词,<‑,yt>表示仅考虑输出结果的第二位元素,第一位元素由翻译覆盖向量提供限制条件限定,其他符号意义与式(5)相同;
[0045] 仅考虑第二种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若待翻译语句中与yt对齐的xt已被翻译,即翻译覆盖向量中xt对应元素已被标注为1,则生成词评分系统将不对yt进行评分;另外,由于再此种对齐情况下,预评分计算使用了译出结果的第一个元素占用了前一个译码步骤,即第一个元素由混合翻译系统于前一译码时间译出的假设,预评分计算模块应通过限制式(7)中的<‑,yt>以使预评分对象满足此假设;是否满足上述假设可通过查看当前译码步骤与前一译码步骤的翻译覆盖向量反映:若待翻译语句中二元单元的第一个元素 在前一译码步骤的翻译覆盖向量的对应元素为0,且其在当前译码步骤的翻译覆盖向量的对应元素为1,则满足上述假设,否则不满足;简而言之,若翻译覆盖向量的时间差分向量的第 位为1,则对应的候选结果yt满足该假设,否则,生成词评分系统将不对yt进行评分;另外,若将 于前一译码步骤的最终译出结果记为 则当前步骤xt向前与 连接成的二元单元译出结果的第一个元素必须限定为 故仅符合假设而不符合此译出限定的<‑,yt>也将在预评分SMT2‑2计算中被剔除;
[0046] 考虑到yt为二元单元译出结果的第二个元素,在计算重排序评分时,应依照第二种对齐假设,以yt在待翻译语句中对应单词xt的前一单词,即 作为计算距离的基准;式(6)中 用于表示xt在待翻译语句中位置,则 在句中位置可表示为 另外,考虑第一个元素占用了前一个译码步骤,重排序评分方法应向前推移一个时间步骤,计算距离的对象应为待翻译语句中与t‑2时刻生成词对应的单词;同样,由于无法准确定位t‑2时刻混合机器翻译系统生成词由哪一特定单词翻译产生,该情况下重排序评分亦由注意力参数控制并加权求和产生,具体计算方法如式(8)所示:
[0047]
[0048] 上述过程分别计算了生成单词于二元单元两种对齐情况下,所有候选单词的预评分及对应的重排序评分;为综合考虑预评分、重排序评分,得到对候选单词的最终生成评分,提出基于二元模型的词评分系统设计了最终评分计算模块,具体计算过程为:
[0049] 最终评分计算模块中存在两个门控单元,负责调整上述两种情况下候选单词预评分及对应重排序评分的权重,计算方法与基于一元模型的最终评分计算方法相同,如下式:
[0050] score2‑1=λ·SMT2‑1(yt)+(1‑λ)·d2‑1(yt)  (9)
[0051] score2‑2=λ·SMT2‑2(yt)+(1‑λ)·d2‑2(yt)  (10)
[0052] 特别地,上述两个门控单元参数λ与基于一元模型的最终评分计算模块中的门口单元参数共享;随后,两路预评分将送入筛选器,筛选器输出将作为基于二元模型的生成词评分系统的最终评分,并送至第二分类器中。
[0053] 其中,所述筛选器作用机制如下:当某可能生成结果yt仅在一路预评分中出现时,则该预评分即为yt的筛选器输出;当某可能生成结果yt在两路预评分中均出现时,取两路预评分中的较大值作为yt的筛选器输出。
[0054] 其中,所述步骤S4过程具体为:
[0055] 为使单词生成指引与第零分类器输出形式相匹配,第一分类器和第二分类器输出均采用Softmax模块处理;为减轻Softmax模块的负担,进而降低混合机器翻译系统的译码复杂度,第一分类器首先根据对应最终评分对所有候选结果排序,仅保留评分最高的nglobal_1对结果,滤去评分较低的低质量译出结果;紧接着,被保留的候选结果及其对应评分将送入Softmax模块,由Softmax激活函数映射为估计概率,从而实现生成词评分到生成词概率的转化;第二分类器也将根据最终评分对所有候选结果排序并筛选保留评分最高的nglobal_2对结果,其后续计算过程与第一分类器相同;
[0056] 两个生成词评分系统的输出经第一分类器、第二分类器处理后转化为一定数量的候选译出结果及其对应生成概率;第零分类器、第一分类器、第二分类器将输出统一为“词——生成概率”的形式,为使混合机器翻译系统综合考虑上述输出,通过引入加权单元,使用加权的方式整合候选词的各项输出概率;三个分类器对应权重均受NMT模型控制,由当前时刻的隐藏层状态,参考输入和上下文向量决定,因此各项权重是时变的,t时刻权重计算公式如下:
[0057]
[0058] 式(11)中,βi表示分类器i的对应权重,st、yt‑1、ct分别表示当前时刻隐藏层状态、参考输入和上下文向量,gi(·)分别对输入st、yt‑1、ct进行线性变换,并由sigmoid激活函数映射为取值为0‑1的标量;
[0059] 第零分类器、第一分类器、第二分类器产生的三组生成概率经βi分别加权并求和,得到所有候选译出结果的最终生成概率,混合机器翻译系统根据选择最终生成概率最高的单词作为当前时刻的译码输出。
[0060] 其中,在NMT模型中,t时刻的上下文向量ct具体过程具体为:
[0061]
[0062] 其中,hj为第j个单词经NMT模型编码器编码后的语义向量,αt,j为t时刻对应第j个注意力参数。
[0063] 与现有技术相比,本发明技术方案的有益效果是:
[0064] 本发明提供的一种混合深度学习网络与单词生成统计学指导的机器翻译方法,该方法以NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。

附图说明

[0065] 图1为本发明所述方法的流程示意图;
[0066] 图2为混合机器翻译系统主要框架示意图;
[0067] 图3为基于一元模型的生成词评分系统框架示意图;
[0068] 图4为译出二元单元与输入二元单元对齐假设示意图;
[0069] 图5为候选结果序列与待翻译语句对齐示意图;
[0070] 图6为基于二元模型的生成词评分系统框架示意图;
[0071] 图7为最终评分计算模块评分流程图。

具体实施方式

[0072] 附图仅用于示例性说明,不能理解为对本专利的限制;
[0073] 为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0074] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0075] 下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0076] 实施例1
[0077] 如图1所示,混合深度学习网络与单词生成统计学指导的机器翻译方法,包括以下步骤:
[0078] S1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模型、第一分类器和第二分类器,形成如图2所示的混合机器翻译系统;
[0079] S2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模型与SMT模型的翻译进度;
[0080] S3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分;
[0081] S4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。
[0082] 在具体实施过程中,该方法NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。
[0083] 更具体的,在所述步骤S1中,所述NMT模型为常用的NMT模型,其最终输出结果为经过Softmax函数映射后词汇表中所有所有单词的译出概率估计;其中,将Softmax层从NMT模型模型中分离,并记为第零分类器。
[0084] 更具体的,在所述步骤S1中,所述SMT模型包括基于一元模型的生成词评分系统和基于二元模型的生成词评分系统;其中:所述基于一元模型的生成词评分系统用于生成一元模型生成词评分;基于二元模型的生成词评分系统用于生成二元模型生成词评分。
[0085] 更具体的,在所述步骤S2中,所述翻译覆盖向量用以显式标记待翻译语句中已被翻译的部分;对某一待翻译语句而言,翻译覆盖向量长度与该语句的句长相等,向量元素按序与待翻译语句中的各单词对齐,所有元素均只有0和1两种取值,0表示对应单词未被翻译,1表示对应单词已被翻译。
[0086] 更具体的,为在译码过程中标记混合机器翻译系统的翻译状态,所述翻译覆盖向量使用如下更新规则:当混合机器翻译系统最终生成单词由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生时,则根据SMT模型显式对齐关系更新对应位元素至1;若不由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生,则当前译码步骤不对翻译覆盖向量做任何更新。
[0087] 更具体的,在所述步骤S3中,基于一元模型的生成词评分系统具体计算过程为:
[0088] 如图3所示,所述基于一元模型的生成词评分系统包括预评分模块、重排序评分模块和最终评分计算模块;
[0089] 待翻译语句在基于一元模型的生成词评分系统中被切割为离散单词后被送入预评分模块中,根据翻译覆盖向量对单词进行预评分[4]P.Koehn,F.J.Och,andD.Marcu,“Statisticalphrase‑basedtranslation,”inProc.Conf.NorthAmer.ChapterAssoc.Comput.LinguisticsHum.Lang.Technol.Volume1,pp.48–54,具体计算过程为:
[0090]
[0091] 其中,xt表示通过翻译覆盖向量限定为待翻译语句中未被翻译的单词,yt限定为对应xt的预评分最高的nlocal个候选生成词,Hm、λm分别为预构造的统计学特征及其对应权重;
[0092] 因待翻译语句被切割为离散单词后丢失了词对齐信息,而词对齐信息在机器翻译任务中具有重要的作用,预评分结果需送入重排序评分模块对候选词进行重排序评分;
[0093] 重排序评分模块通过基于距离的词对齐信息计算对预评分结果进行重排序评分,具体计算公式为:
[0094]
[0095] 其中, 分别表示待翻译语句中与当前时刻可能的译出结果yt、上一时刻最终译出结果yt‑1对齐的单词在句中的位置;然而,在基于一元模型的生成词评分系统中,SMT模型难以确定待翻译语句中与yt‑1对应的单词,即无法确定 故使用NMT模型的注意力参数对式(2)进行更改,基于一元模型的生成词评分系统中候选单词yt的重排序评分计算公式如下:
[0096]
[0097] 其中,at‑1,j为NMT模型前一时刻产生的注意力参数,Tx为待翻译语句的总长度。
[0098] 在具体实施过程中,上述计算方法可描述为:因生成词评分系统无法获得上一时刻混合翻译系统译出结果与待翻译语句中特定词的显式对齐信息,即无法准确定位上一译码步骤中混合翻译系统生成词由待翻译语句中的哪一单词翻译产生,而t‑1时刻译码过程中待翻译语句中非特定词对译码结果的贡献,故使用加权的方式将SMT模型重排序得分计算方式对特定词的限制解除,并扩展为与非特定词距离的加权和。
[0099] 为综合考虑译出结果yt的预评分和重排序评分,通过最终评分计算模块进行基于一元模型的生成词评分系统最终的评分计算;
[0100] 在最终评分计算模块中存在一个门控单元,该门控单元负责调整单词预评分与重排序评分在最终评分中的权重,最终评分计算方法如式(4)所示:
[0101] score1(yt)=λ·SMT1(yt)+(1‑λ)·d1(yt)  (4)
[0102] 其中,λ为取值为0‑1的门控单元参数;最后,最终评分计算模块的输出将作为基于一元模型的生成词评分系统当前时刻的输出送至第一分类器中。
[0103] 其中,在所述步骤S3中,基于二元模型的生成词评分系统具体计算过程为:
[0104] 为保留待翻译语句中二元连用词汇更丰富、更深层次的语义,合理扩大生成词评分系统的评分计算范围,改善SMT模型单词生成指导的流畅性,并最终提高混合机器翻译系统的性能,本发明在基于一元模型的生成词评分系统基础上,增加基于二元模型的生成词评分系统。与基于一元模型的生成词评分系统不同的是,基于二元模型的生成词评分系统将包含Tx个单词的待翻译语句x分割成(Tx‑1)个二元单元;由于二元单元经过SMT模型译出结果长度不定,因此需要将该结果补齐或截断为二元单元:当译出结果为一元单元时,在其尾部添加一位空白元素使之形成二元单元;当译出结果长度大于2时,仅保留译出结果的前两位作为基于二元模型的生成词评分系统的评分对象。
[0105] 在具体实施过程中,为降低计算复杂度,提高基于二元模型的生成词评分系统响应速度,译出二元单元与输入二元单元间采用如图4所示的对齐假设:译出二元单元的第一个元素于第一译码步骤译出,与输入二元单元的第一个元素对齐,如图4(a);译出二元单元的第二个元素紧随第一个元素于第二译码步骤译出,与输入二元单元的第一个元素对齐,如图4(b)。
[0106] 将所有译出二元单元中的元素作为候选结果,并按对齐假设与待翻译语句对齐形成序列,候选结果序列与待翻译语句对齐关系将如图5所示。序列中的任意候选结果,均可能由两个接续的二元单元依两种对齐假设生成,故在基于二元模型的生成词评分系统中,对某一候选结果,应同时考虑两种对齐假设并分别进行评分,再由最终评分计算模块计算最终的生成词评分;
[0107] 更具体的,如图6所示,所述基于二元模型的生成词评分系统由两组预评分模块、重排序评分模块和一个最终评分计算模块组成,从t时刻候选结果序列中的某元素yt出发,基于二元模型的生成词评分系统具体计算过程为:
[0108] 对t时刻的候选结果yt,当仅考虑第一种对齐假设,即yt为译出二元单元的第一个元素时,预评分方法与基于一元模型的评分系统相似,但因预评分输入为二元单元,预评分SMT2‑1计算公式应修改为:
[0109]
[0110] 其中,<·>表示将括号内两元素连接为二元单元, 表示待翻译语句中紧随xt出现的下一个词,n‑best表示在输入为 的情况下SMT模型输出评分最高的n个结果,表示输出结果的第一位元素为yt,第二位元素由翻译覆盖向量提供限制条件限定,xt、yt的定义与基于一元模型的评分方法相同,对于xt的范围限制同样通过翻译覆盖向量实现;
[0111] 仅考虑第一种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若翻译覆盖向量中与xt对应的元素为1,即xt已被翻译,则此二元单元自然不符合预评分的输入要求;若覆盖向量中与xt对应元素的下一元素为1,即xt的下一单词 已被翻译,此二元单元亦不符合预评分的输入要求;特别地,在对应输入 满足输入条件的情况下,不再进行任何限制;
[0112] 由于yt为二元单元译出结果的第一个元素,根据译出顺序假设,在此种情况下,重排序评分d2‑1与基于一元模型的重排序评分方法相同,如下式:
[0113]
[0114] 对t时刻可能的生成结果yt,当仅考虑第二种对齐假设,即yt为二元单元译出结果的第二个元素时,因使用了译出结果的第一个元素由混合机器翻译系统于前一时刻译出的假设,占用了前一个译码步骤,故预评分模块应根据混合机器翻译系统前一时刻已生成片段y<t‑1=y1,y2,...,yt‑2进行评分;依照第一种对齐情况的预评分方法,t时刻生成词预评分SMT2‑2计算公式应为:
[0115]
[0116] 式中, 表示待翻译语句中位于xt之前的单词,<‑,yt>表示仅考虑输出结果的第二位元素,第一位元素由翻译覆盖向量提供限制条件限定,其他符号意义与式(5)相同;
[0117] 仅考虑第二种对齐假设时,翻译覆盖向量对评分范围的限制方式如下:若待翻译语句中与yt对齐的xt已被翻译,即翻译覆盖向量中xt对应元素已被标注为1,则生成词评分系统将不对yt进行评分;另外,由于再此种对齐情况下,预评分计算使用了译出结果的第一个元素占用了前一个译码步骤,即第一个元素由混合翻译系统于前一译码时间译出的假设,预评分计算模块应通过限制式(7)中的<‑,yt>以使预评分对象满足此假设;是否满足上述假设可通过查看当前译码步骤与前一译码步骤的翻译覆盖向量反映:若待翻译语句中二元单元的第一个元素 在前一译码步骤的翻译覆盖向量的对应元素为0,且其在当前译码步骤的翻译覆盖向量的对应元素为1,则满足上述假设,否则不满足;简而言之,若翻译覆盖向量的时间差分向量的第 位为1,则对应的候选结果yt满足该假设,否则,生成词评分系统将不对yt进行评分;另外,若将 于前一译码步骤的最终译出结果记为 则当前步骤xt向前与 连接成的二元单元译出结果的第一个元素必须限定为 故仅符合假设而不符合此译出限定的<‑,yt>也将在预评分SMT2‑2计算中被剔除;
[0118] 考虑到yt为二元单元译出结果的第二个元素,在计算重排序评分时,应依照第二种对齐假设,以yt在待翻译语句中对应单词xt的前一单词,即 作为计算距离的基准;式(6)中 用于表示xt在待翻译语句中位置,则 在句中位置可表示为 另外,考虑第一个元素占用了前一个译码步骤,重排序评分方法应向前推移一个时间步骤,计算距离的对象应为待翻译语句中与t‑2时刻生成词对应的单词;同样,由于无法准确定位t‑2时刻混合机器翻译系统生成词由哪一特定单词翻译产生,该情况下重排序评分亦由注意力参数控制并加权求和产生,具体计算方法如式(8)所示:
[0119]
[0120] 上述过程分别计算了生成单词于二元单元两种对齐情况下,所有候选单词的预评分及对应的重排序评分;为综合考虑预评分、重排序评分,得到对候选单词的最终生成评分,提出基于二元模型的词评分系统设计了最终评分计算模块,具体计算过程为:
[0121] 如图7所示,最终评分计算模块中存在两个门控单元,负责调整上述两种情况下候选单词预评分及对应重排序评分的权重,计算方法与基于一元模型的最终评分计算方法相同,如下式:
[0122] score2‑1=λ·SMT2‑1(yt)+(1‑λ)·d2‑1(yt)  (9)
[0123] score2‑2=λ·SMT2‑2(yt)+(1‑λ)·d2‑2(yt)  (10)
[0124] 特别地,上述两个门控单元参数λ与基于一元模型的最终评分计算模块中的门口单元参数共享;随后,两路预评分将送入筛选器,筛选器输出将作为基于二元模型的生成词评分系统的最终评分,并送至第二分类器中。
[0125] 其中,所述筛选器作用机制如下:当某可能生成结果yt仅在一路预评分中出现时,则该预评分即为yt的筛选器输出;当某可能生成结果yt在两路预评分中均出现时,取两路预评分中的较大值作为yt的筛选器输出。
[0126] 更具体的,所述步骤S4过程具体为:
[0127] 为使单词生成指引与第零分类器输出形式相匹配,第一分类器和第二分类器输出均采用Softmax模块处理;为减轻Softmax模块的负担,进而降低混合机器翻译系统的译码复杂度,第一分类器首先根据对应最终评分对所有候选结果排序,仅保留评分最高的nglobal_1对结果,滤去评分较低的低质量译出结果;紧接着,被保留的候选结果及其对应评分将送入Softmax模块,由Softmax激活函数映射为估计概率,从而实现生成词评分到生成词概率的转化;第二分类器也将根据最终评分对所有候选结果排序并筛选保留评分最高的nglobal_2对结果,其后续计算过程与第一分类器相同;
[0128] 两个生成词评分系统的输出经第一分类器、第二分类器处理后转化为一定数量的候选译出结果及其对应生成概率;第零分类器、第一分类器、第二分类器将输出统一为“词——生成概率”的形式,为使混合机器翻译系统综合考虑上述输出,通过引入加权单元,使用加权的方式整合候选词的各项输出概率;三个分类器对应权重均受NMT模型控制,由当前时刻的隐藏层状态,参考输入和上下文向量决定,因此各项权重是时变的,t时刻权重计算公式如下:
[0129]
[0130] 式(11)中,βi表示分类器i的对应权重,st、yt‑1、ct分别表示当前时刻隐藏层状态、参考输入和上下文向量,gi(·)分别对输入st、yt‑1、ct进行线性变换,并由sigmoid激活函数映射为取值为0‑1的标量;
[0131] 第零分类器、第一分类器、第二分类器产生的三组生成概率经βi分别加权并求和,得到所有候选译出结果(包括NMT模型限定范围中的所有词汇和由SMT模型引入的候选词汇)的最终生成概率,混合机器翻译系统根据选择最终生成概率最高的单词作为当前时刻的译码输出。
[0132] 更具体的,在NMT模型中,t时刻的上下文向量ct具体过程具体为:
[0133]
[0134] 其中,hj为第j个单词经NMT模型编码器编码后的语义向量,αt,j为t时刻对应第j个注意力参数。
[0135] 在具体实施过程中,由式(12)可知,t时刻注意力参数反映了当前时刻待翻译语句中的不同单词对NMT模型译码结果的不同贡献,反映了当前翻译结果与语句中单词的隐式对齐关系。
[0136] 在具体实施过程中,本发明提供的一种混合深度学习网络与单词生成统计学指导的机器翻译方法,该方法以NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统性能具有重要的现实意义。
[0137] 实施例2
[0138] 更具体的,在实施例1的基础上,为实现可靠的翻译,系统使用前需采用如下方式进行训练:由于SMT模型、NMT模型在混合系统中的重要作用,在混合系统训练前,需要单独设置上述模型的超参数并完成预训练。第二,混合系统训练开始时,SMT模型、NMT模型参数需分别初始化为预先训练后的参数值,模型超参数亦保持不变;混合系统中其余参数均进行随机初始化。最后,在混合系统参数初始化完成后,系统除SMT模型外的所有参数将按最小化损失函数规则调整,本系统损失函数定义为以下对数似然函数:
[0139]
[0140] 式中,Ntrain为参与训练的语料对数量,Ty表示某一语料对中目标语句的长度,p(ytnn|y<t,x)表示目标语句中第t个词于t时刻的生成概率。
[0141] 实施例3
[0142] 为更充分地阐述本发明对机器翻译性能提升的有效作用,以下结合一个混合机器翻译系统实例的测试结果,进一步对本发明的有效性和先进性予以说明。
[0143] 该实例训练过程以WMT2013英法双语新闻评论文本为训练集,SMT、NMT基础模型分别选用Moses、RNNSearch系统,系统超参设置方式如下:
[0144] Moses系统使用KenLM学习训练语料,得到四阶语言模型。双向词对齐信息使用Giza++,并采用“grow‑diag‑final”提取规则由训练集获得,系统参数微调使用最小错误率算法。
[0145] RNNSearch系统解码器隐藏层节点数设置为1000,嵌入层节点数设置为60,网络结构的其他设置与文献[5]BAHDANAU D,CHOK,BENGIO Y.Neural Machine Translation by Jointly Learning to Align and Translate[J].Computer Science,2015,12(6):223–237相同,训练总迭代次数设置为15万次。在基于一元模型的生成词评分系统中,nlocal设定为5;在基于二元模型的生成词评分系统中nglobal_1设定为20,nglobal_2设定为10,n‑best中n设定为3,gi隐藏层节点数设置为50。
[0146] Moses系统、RNNSearch根据上述方案设置超参数并完成预训练后,混合系统再经12万次迭代后完成训练。表1为训练后混合机器翻译系统与基础系统在英法双语新闻文本“newstest 2008”、“newstest 2009”、“newstest 2010”、“newstest 2011”上的BLEU评分对照。
[0147] 表1混合机器翻译系统与基础系统BLEU评分对照表
[0148]
[0149]
[0150] 由表1可知,混合机器翻译系统BLEU评分在四个测试集上均优于基于SMT方法的Moses系统与基于NMT方法的RNNSearch系统,在四个测试集BLEU评分均值上,较Moses、RNNSearch系统分别获得了3.13、2.86点的评分增益,进而证明了本发明对机器翻译性能提升的有效作用。
[0151] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。