文本翻译方法、装置、存储介质和计算机设备转让专利

申请号 : CN201811033545.7

文献号 : CN109145315B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 涂兆鹏王龙跃

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请涉及一种文本翻译方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;将依次解码得到的目标端向量构成目标端向量序列;按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;依据所述重构分数和所述各候选目标词,生成目标文本。本申请提供的方案可以提高翻译质量。

权利要求 :

1.一种文本翻译方法,包括:

获取初始源文本和重构源文本;所述重构源文本是在所述初始源文本中缺略词的位置处添加指代符而得到的源文本;

对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;

依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;

将依次解码得到的目标端向量构成目标端向量序列;

按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;

依据所述重构分数和所述各候选目标词,生成目标文本。

2.根据权利要求1所述的方法,其特征在于,所述获取初始源文本和重构源文本包括:获取初始源文本;

通过预训练的缺略词还原模型确定所述初始源文本中缺略词的位置;

在所述缺略词的位置处添加指代符以得到重构源文本。

3.根据权利要求1所述的方法,其特征在于,所述依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词,包括:依次获取当次的与所述源端向量序列对应的注意力分配权重向量;

根据所述注意力分配权重向量、以及所述源端向量序列,计算得到当次的内容向量;

依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标词。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述源端向量序列对应的源端注意力分配权重向量;

根据所述源端注意力分配权重向量、以及所述源端向量序列,计算得到源端内容向量;

获取与所述目标端向量序列对应的目标端注意力分配权重向量;

根据所述目标端注意力分配权重向量、以及所述目标端向量序列,计算得到目标端内容向量;

所述按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数,包括:按照所述重构源文本,对所述源端内容向量和所述目标端内容向量进行重构评估处理,得到与各候选目标词对应的重构分数。

5.根据权利要求4所述的方法,其特征在于,所述按照所述重构源文本,对所述源端内容向量和所述目标端内容向量进行重构评估处理,得到与各候选目标词对应的重构分数,包括:

根据所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词对应的隐层状态向量;

根据与所述重构源文本中当前词对应的隐层状态向量、所述重构源文本中当前词的前一词的词向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词所对应的重构分数;

对与所述重构源文本中各词所对应的重构分数进行连乘运算,得到与各候选目标词对应的重构分数。

6.根据权利要求5所述的方法,其特征在于,所述获取与所述源端向量序列对应的源端注意力分配权重向量,包括:

对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、以及所述源端向量序列进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量;或,

对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端向量序列、以及所述目标端内容向量进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量。

7.根据权利要求5所述的方法,其特征在于,所述获取与所述目标端向量序列对应的目标端注意力分配权重向量,包括:

对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、以及所述目标端向量序列进行注意力机制处理,得到与所述目标端向量序列对应的目标端注意力分配权重向量;或,对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述目标端向量序列、以及所述源端内容向量进行注意力机制处理,得到与所述目标端向量序列对应的目标端注意力分配权重向量。

8.根据权利要求1所述的方法,其特征在于,所述根据当次的目标端向量确定当次的候选目标词包括:

根据当次的目标端向量,确定当次的候选目标词、以及所述候选目标词对应的翻译分数;

所述依据所述重构分数和所述各候选目标词,生成目标文本包括:根据所述各候选目标词,生成候选目标文本;

依据所述翻译分数和所述重构分数,从所述候选目标文本中筛选出与所述初始源文本对应的目标文本。

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述文本翻译方法通过机器翻译模型执行,所述机器翻译模型的训练步骤包括:获取初始样本源文本、参考目标文本、以及重构样本源文本;所述重构样本源文本是对所述初始样本源文本进行缺略词位置信息补充而得到的源文本;

将所述初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本;

依据所述参考目标文本和预测目标文本构建最大似然函数;

通过所述机器翻译模型,获取与所述初始样本源文本对应的源端样本向量序列、以及目标端样本向量序列;

依据所述重构样本源文本、所述源端样本向量序列、以及所述目标端样本向量序列构建重构评估函数;

根据所述最大似然函数和所述重构评估函数,确定目标函数;

将所述目标函数最大化时的模型参数作为机器翻译模型的模型参数,返回所述将所述初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本的步骤继续训练,直至满足训练停止条件时停止训练。

10.根据权利要求9所述的方法,其特征在于,所述根据所述最大似然函数和所述重构评估函数,确定目标函数包括:

将所述最大似然函数和所述重构评估函数的加权和函数作为所述机器翻译模型的目标函数;其中,通过以下公式表示所述目标函数:其中,θ和γ分别是模型参数;[x,y]是模型训练中的训练样本对;gr()和fr()分别为归一化函数和激活函数; 表示所述重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i个词的词向量对应的隐层状态向量序列;hj表示各源端向量或目标端向量;

表示源端注意力分配权重或目标端注意力分配权重;·表示向量点乘运算。

11.根据权利要求10所述的方法,其特征在于,所述方法还包括:获取与所述初始样本源文本对应的样本缺略词序列;

通过所述机器翻译模型的重构模块对所述源端样本向量序列、以及所述目标端样本向量序列进行缺略词重构处理,得到与所述样本缺略词序列对应的隐层状态向量序列;

根据所述样本缺略词序列和所述隐层状态向量序列构建缺略词还原函数;

所述根据所述最大似然函数和所述重构评估函数,确定目标函数包括:根据所述最大似然函数、所述重构评估函数、以及所述缺略词还原函数,确定目标函数。

12.根据权利要求11所述的方法,其特征在于,所述根据所述最大似然函数、所述重构评估函数、以及所述缺略词还原函数,确定目标函数,包括:将所述最大似然函数、所述重构评估函数、以及所述缺略词还原函数的加权和函数作为所述机器翻译模型的目标函数;其中,通过以下公式表示所述目标函数:其中,θ、γ和τ分别是模型参数;dp={dp1,dp2,…,dpD}是样本缺略词序列;

是与所述样本缺略词序列对应的隐层状态向量序列;gp()是归一化函数。

13.一种文本翻译装置,其特征在于,所述装置包括:获取模块,用于获取初始源文本和重构源文本;所述重构源文本是在所述初始源文本中缺略词的位置处添加指代符而得到的源文本;

编码模块,用于对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;

解码模块,用于依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;

拼接模块,用于将依次解码得到的目标端向量构成目标端向量序列;

重构模块,用于按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;

生成模块,用于依据所述重构分数和所述各候选目标词,生成目标文本。

14.根据权利要求13所述的装置,其特征在于,所述获取模块,还用于获取初始源文本;

通过预训练的缺略词还原模型确定所述初始源文本中缺略词的位置;在所述缺略词的位置处添加指代符以得到重构源文本。

15.根据权利要求13所述的装置,其特征在于,所述解码模块,还用于依次获取当次的与所述源端向量序列对应的注意力分配权重向量;根据所述注意力分配权重向量、以及所述源端向量序列,计算得到当次的内容向量;依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标词。

16.根据权利要求13所述的装置,其特征在于,所述装置还包括注意力机制处理模块,用于获取与所述源端向量序列对应的源端注意力分配权重向量;根据所述源端注意力分配权重向量、以及所述源端向量序列,计算得到源端内容向量;获取与所述目标端向量序列对应的目标端注意力分配权重向量;根据所述目标端注意力分配权重向量、以及所述目标端向量序列,计算得到目标端内容向量;

所述重构模块,还用于按照所述重构源文本,对所述源端内容向量和所述目标端内容向量进行重构评估处理,得到与各候选目标词对应的重构分数。

17.根据权利要求16所述的装置,其特征在于,所述重构模块,还用于根据所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词对应的隐层状态向量;根据与所述重构源文本中当前词对应的隐层状态向量、所述重构源文本中当前词的前一词的词向量、所述源端内容向量、以及所述目标端内容向量,计算得到与所述重构源文本中当前词所对应的重构分数;对与所述重构源文本中各词所对应的重构分数进行连乘运算,得到与各候选目标词对应的重构分数。

18.根据权利要求17所述的装置,其特征在于,所述注意力机制处理模块,还用于对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、以及所述源端向量序列进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量;或,对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述源端向量序列、以及所述目标端内容向量进行注意力机制处理,得到与所述源端向量序列对应的源端注意力分配权重向量。

19.根据权利要求17所述的装置,其特征在于,所述注意力机制处理模块还用于对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、以及所述目标端向量序列进行注意力机制处理,得到与所述目标端向量序列对应的目标端注意力分配权重向量;或,对所述重构源文本中当前词的前一词的词向量、与所述重构源文本中前一词对应的隐层状态向量、所述目标端向量序列、以及所述源端内容向量进行注意力机制处理,得到与所述目标端向量序列对应的目标端注意力分配权重向量。

20.根据权利要求13所述的装置,其特征在于,所述解码模块,还用于根据当次的目标端向量,确定当次的候选目标词、以及所述候选目标词对应的翻译分数;

所述生成模块,还用于根据所述各候选目标词,生成候选目标文本;依据所述翻译分数和所述重构分数,从所述候选目标文本中筛选出与所述初始源文本对应的目标文本。

21.根据权利要求13至20中任一项所述的装置,其特征在于,所述装置还包括训练模块,用于:

获取初始样本源文本、参考目标文本、以及重构样本源文本;所述重构样本源文本是对所述初始样本源文本进行缺略词位置信息补充而得到的源文本;

将所述初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本;

依据所述参考目标文本和预测目标文本构建最大似然函数;

通过所述机器翻译模型,获取与所述初始样本源文本对应的源端样本向量序列、以及目标端样本向量序列;

依据所述重构样本源文本、所述源端样本向量序列、以及所述目标端样本向量序列构建重构评估函数;

根据所述最大似然函数和所述重构评估函数,确定目标函数;

将所述目标函数最大化时的模型参数作为机器翻译模型的模型参数,返回所述将所述初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本的步骤继续训练,直至满足训练停止条件时停止训练。

22.根据权利要求21所述的装置,其特征在于,所述训练模块,还用于将所述最大似然函数和所述重构评估函数的加权和函数作为所述机器翻译模型的目标函数;其中,通过以下公式表示所述目标函数:

其中,θ和γ分别是模型参数;[x,y]是模型训练中的训练样本对;gr()和fr()分别为归一化函数和激活函数; 表示所述重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i个词的词向量对应的隐层状态向量序列;hj表示各源端向量或目标端向量;

表示源端注意力分配权重或目标端注意力分配权重;·表示向量点乘运算。

23.根据权利要求22所述的装置,其特征在于,所述训练模块,还用于获取与所述初始样本源文本对应的样本缺略词序列;通过所述机器翻译模型的重构模块对所述源端样本向量序列、以及所述目标端样本向量序列进行缺略词重构处理,得到与所述样本缺略词序列对应的隐层状态向量序列;根据所述样本缺略词序列和所述隐层状态向量序列构建缺略词还原函数;根据所述最大似然函数、所述重构评估函数、以及所述缺略词还原函数,确定目标函数。

24.根据权利要求23所述的装置,其特征在于,所述训练模块,还用于将所述最大似然函数、所述重构评估函数、以及所述缺略词还原函数的加权和函数作为所述机器翻译模型的目标函数;其中,通过以下公式表示所述目标函数:其中,θ、γ和τ分别是模型参数;dp={dp1,dp2,…,dpD}是样本缺略词序列;

是与所述样本缺略词序列对应的隐层状态向量序列;gp()是归一化函数。

25.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

说明书 :

文本翻译方法、装置、存储介质和计算机设备

技术领域

[0001] 本申请涉及机器学习技术领域,特别是涉及一种文本翻译方法、装置、计算机可读存储介质和计算机设备。

背景技术

[0002] 机器翻译是指通过计算机将一种自然语言文本(需翻译的自然语言文本一般称为源文本)翻译为另一种自然语言文本(翻译后的自然语言文本称为目标文本),以实现不同
语种的文本之间的转换。而不同的语种之间会有不同的语法及句式习惯,比如,在汉语和日
语等语言中,代词缺略是极为常见的现象,与之相反,在英、法等语言中,代词作为句子成分
则必不可少。当从代词缺略语言(比如汉语)到非代词缺略语言(比如英语)翻译时,需要将
隐含的缺略代词召回并正确地翻译出来,这给机器翻译带来了极大挑战。
[0003] 传统的机器翻译方式,以中译英为例,为了减少缺少缺略代词所带来的影响,通常是借助平行语料库中中英代词省略的差异性,自动标注中文句子中的缺略代词。然后,利用
此语料库训练基于神经网络的缺略代词还原系统,通过训练好的缺略代词还原系统对待翻
译的汉语句子进行缺略代词还原的处理,再将处理后的待翻译句子(也就是补全了缺略代
词的句子)传递给统计机器翻译系统进行翻译。
[0004] 传统的机器翻译方式,常常由于缺略代词还原系统的低准确率带来错误传递,导致源端被添加了错误的代词从而使得翻译结果错误,导致了文本翻译准确率低的问题。

发明内容

[0005] 基于此,有必要针对文本翻译准确率低的技术问题,提供一种文本翻译方法、装置、计算机可读存储介质和计算机设备。
[0006] 一种文本翻译方法,包括:
[0007] 获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;
[0008] 对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;
[0009] 依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词;
[0010] 将依次解码得到的目标端向量构成目标端向量序列;
[0011] 按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;
[0012] 依据所述重构分数和所述各候选目标词,生成目标文本。
[0013] 一种文本翻译装置,所述装置包括:
[0014] 获取模块,用于获取初始源文本和重构源文本;所述重构源文本是对所述初始源文本进行缺略词位置信息补充而得到的源文本;
[0015] 编码模块,用于对所述初始源文本进行语义编码,得到与所述初始源文本对应的源端向量序列;
[0016] 解码模块,用于依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候
选目标词;
[0017] 拼接模块,用于将依次解码得到的目标端向量构成目标端向量序列;
[0018] 重构模块,用于按照所述重构源文本,对所述源端向量序列和所述目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数;
[0019] 生成模块,用于依据所述重构分数和所述各候选目标词,生成目标文本。
[0020] 一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。
[0021] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。
[0022] 上述文本翻译方法、装置、计算机可读存储介质和计算机设备,通过对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列,再依次对源端向量序列进行解码
得到的目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据
当次的目标端向量确定当次的候选目标词。可使得解码生成的候选目标词不仅包含了源文
本的语义信息,还综合了前次的候选目标词的语义信息,使得最终生成的目标文本更为连
贯,翻译结果更准确。将依次解码得到的目标端向量构成目标端向量序列,并按照对初始源
文本进行缺略词位置信息补充而得到的重构源文本,对源端向量序列和目标端向量序列进
行重构评估处理,得到与各候选目标词对应的重构分数,再依据重构分数和各候选目标词,
生成目标文本。这样,通过融合源端和目标端的隐层向量特征可以共享两端的共性信息,在
进行重构评估处理时可以减少冗余信息并能避免重要信息的缺失,使得重构分数可以很好
的衡量缺略词信息的召回程度。这样,依据重构分数和各候选目标词,生成目标文本,可以
减少翻译时缺少缺略代词所带来的影响,大大提高了翻译质量。

附图说明

[0023] 图1为一个实施例中文本翻译方法的应用环境图;
[0024] 图2为一个实施例中文本翻译方法的流程示意图;
[0025] 图3为一个实施例中在汉语表达中缺略代词被省略的实例示意图;
[0026] 图4为一个实施例中进行缺略代词还原的结构示意图;
[0027] 图5为一个实施例中通过机器翻译模型对初始源文本进行翻译得到目标文本的流程示意图;
[0028] 图6为一个实施例中通过包括编码器‑解码器结构的机器翻译模型进行文本翻译的流程示意图;
[0029] 图7为一个实施例中机器翻译模型的训练步骤的流程示意图;
[0030] 图8为一个实施例中通过采用最大似然函数和重构评估函数的加权和函数作为目标函数而训练得到的机器翻译模型,对源端向量序列和目标端向量序列进行共享重构处理
的结构示意图;
[0031] 图9为一个实施例中通过采用最大似然函数、重构评估函数、以及缺略词还原函数的加权和函数为目标函数训练机器翻译模型时,对源端向量序列和目标端向量序列进行共
享重构处理的结构示意图;
[0032] 图10为一个实施例中通过重构模块将源端向量序列和目标端向量序列重构回含缺略代词的文本的结构示意图;
[0033] 图11为另一个实施例中文本翻译方法的流程示意图;
[0034] 图12为一个实施例中文本翻译装置的结构框图;
[0035] 图13为另一个实施例中文本翻译装置的结构框图;
[0036] 图14为一个实施例中计算机设备的结构框图。

具体实施方式

[0037] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并
不用于限定本申请。
[0038] 图1为一个实施例中文本翻译方法的应用环境图。参照图1,该文本翻译方法应用于文本翻译系统。该文本翻译系统包括终端110和服务器120。终端110可获取初始源文本,
将初始源文本发送至服务器120,服务器120根据初始源文本确定重构源文本,进而执行文
本翻译方法,得到目标文本,再将目标文本返回至终端110。终端110也可在获取初始源文本
后执行文本翻译方法得到目标文本。终端110和服务器120通过网络连接。终端110具体可以
是台式终端或移动终端,移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。
服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0039] 如图2所示,在一个实施例中,提供了一种文本翻译方法。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端110或服务器120。参
照图2,该文本翻译方法具体包括如下步骤:
[0040] S202,获取初始源文本和重构源文本;重构源文本是对初始源文本进行缺略词位置信息补充而得到的源文本。
[0041] 其中,初始源文本是待翻译的初始文本。重构源文本是对初始源文本进行缺略词位置信息补充而得到的源文本。对初始源文本进行缺略词位置信息补充是指确定初始源文
本中缺少的缺略词的位置,在初始源文本中补充相应的位置信息。
[0042] 其中,缺略词是指在语言表达中被省略的词,通常指缺略代词(DP,Dropped Pronoun)。在特定语言(如,汉语、日语)表达中,一些代词常常会被省略从而使表达更加简
洁。虽然这些代词被省略了,但可以通过上下文语境推断出缺失的信息(即,缺略代词及其
指代的先行词),因而这种表达并不会影响人们对内容的理解。此现象属于篇章理论中的零
指代或空指代范畴。参考图3,图3示出了一个实施例中在汉语表达中缺略代词被省略的实
例示意图。如图3所示,汉语端括号中的主格代词“你”、“我”和宾格代词“它”都被省略了(括
号中的文字被省略了),但在英文端对应的代词则没有被省略。
[0043] 对初始源文本进行缺略词位置信息补充可参考图4,图4示出了一个实施例中进行缺略代词还原的结构示意图。如图4所示,图4中上部分对缺少了缺略代词的句子“喜欢这块
蛋糕吗?很喜欢。你烤的吗?”进行缺略代词还原后,得到“你喜欢这块蛋糕吗?我很喜欢它。
你烤的它吗?”可以理解的是,被还原的缺略代词与源文本中其他词之间的位置关系就是本
申请中使得缺略词位置信息。相应的,参考图4中的下部分,对缺少了缺略代词的句子“喜欢
这块蛋糕吗?很喜欢。你烤的吗?”进行指代消解后,得到“ 喜欢这块蛋糕吗? 很喜欢 你
烤的 吗?”其中, 就是用来对初始源文本进行缺略词位置信息补充的指代符,而进行指
代消解后得到的“ 喜欢这块蛋糕吗? 很喜欢 你烤的 吗?”文本就是重构源文本。
[0044] 源文本具体可以是句子、段落或篇章等文本。源文本可以是中文文本,也可以是日文文本等。在一个实施例中,计算机设备可对源文本进行分词处理后得到的各个词所组成
的词序列。其中,对于源文本为中文文本的分词处理,可采用基于词典或基于统计的分词方
式。
[0045] 具体地,计算机设备可直接获取初始源文本和重构源文本,对初始源文本和重构源文本进行分词处理,得到相应的词序列。计算机设备也可接收由其他计算机设备根据初
始源文本和重构源文本分别生成的词序列。
[0046] 在一个实施例中,计算机设备在获取初始源文本的词序列后,可通过词嵌入(word embedding)处理将离散的词序列转换成连续的空间表示向量序列。再将空间表示向量序列
输入至预训练的机器翻译模型的输入层,通过预训练的机器翻译模型执行文本翻译方法,
以得到目标文本。
[0047] 在一个实施例中,计算机设备可通过预训练的缺略代词还原模型对初始源文本标注缺略代词位置信息。首先,计算机设备可根据样本库中的样本源文本和样本参考文本构
建平行语料库。采用词对齐算法,借助平行语料中样本源文本和样本参考文本之间代词省
略的差异性(比如,汉语句子中代词缺略,而对应的英文句子中代词不缺略),自动标注样本
源文本中的缺略代词。这样可以不需要人工标注就可以快速构建大规模的源文本缺略代词
语料库,比如“源端汉语‑自动补全缺略代词位置的汉语‑目标端英语”三元对应语料库。然
后,利用此语料库训练基于神经网络的缺略代词还原模型,通过训练好的缺略代词还原模
型可以很好的预测初始源文本中缺略代词的位置。这样,计算机设备可在缺代词的位置处
添加指代符以得到重构源文本。
[0048] S204,对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列。
[0049] 其中,对初始源文本进行语义编码,是将初始源文本转换为向量的过程。源端向量序列,是指对初始源文本的词序列进行语义编码后得到的向量序列。具体地,计算机设备可
对初始源文本进行分词,得到词序列。分别对各词进行语义编码,提取各词的语义特征,将
各词转换成向量表示。拼接各词所对应的向量表示,得到源端向量序列。
[0050] 在一个实施例中,计算机设备可对初始源文本进行分词,得到初始源文本的词序列。计算机设备可通过词嵌入处理将离散的词序列转换成连续的空间表示向量序列。再将
空间表示向量序列输入至预训练的机器翻译模型中,通过机器翻译模型中的编码器对与初
始源文本对应的空间表示向量序列进行语义编码处理,得到源端向量序列。其中源端向量
序列中的每个源端向量分别对应初始源文本的词序列中的各词。
[0051] 其中,预训练的机器翻译模型采用基于神经网络的Sequence‑to‑Sequence(序列‑序列)框架。Sequence‑to‑Sequence框架是包含Encoder‑Decoder(编码器‑解码器)结构的
框架。Encoder‑Decoder结构将输入序列转换为另一个序列输出。在该框架中,编码器将输
入序列转化成向量,解码器则接受向量并按时间顺序依次生成输出序列。编码器以及解码
器可以采用相同类型的神经网络模型,也可以是不同类型的神经网络模型。神经网络模型
比如CNN(Convolutional Neural Networks,卷积神经网络)模型、RNN(Recurrent Neural 
Networks)模型、长短时记忆模型(Long Short‑Term Memory,LSTM)、时延网络模型或闸控
卷积神经网络模型等。
[0052] 在一个实施例中,计算机设备可将初始源文本的词序列输入到机器翻译模型中编码器的输入层,通过编码器中各隐层进行语义编码处理,得到隐层所输出的向量序列。其
中,隐层是神经网络模型中的一种术语,是相对于输入层和输出层的中间层,隐层中包括对
神经网络模型训练得到的模型参数。这里编码器的隐层是相对于编码器的输入层和编码器
的输出层的中间层。编码器的隐层可包括多个神经网络层。这里将编码器的隐层当作“黑
盒”进行描述。
[0053] 举例说明,以初始源文本的词序列为一个长度为m的序列为例,将初始源文本的词序列输入到编码器中进行语义编码,得到词序列中各词对应的向量。编码器的处理过程如
下:
[0054] 计算机设备可以对初始源文本进行分词,得到初始源文本的词序列为x=(x1,x2,...,xm),通过词嵌入方式将词序列转换成连续的空间表示向量,可记为p=(p1,p2,...,
pm)。通过编码器的神经网络,对空间表示向量进行语义编码,得到源端向量序列,可记为H
=(h1,h2,...,hm)。
[0055] S206,依次对源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标词。
[0056] 其中,解码是将向量转换为序列输出的过程。目标端向量,是指对初始源文本对应的源端向量进行解码计算得到的向量。具体地,计算机设备可在要生成当次(也可称作当前
时刻)的候选目标词时,获取前次(也可称作前一时刻)所输出候选目标词的词向量,依据前
一时刻所输出候选目标词的词向量,对源端向量序列进行解码,得到当前时刻的目标端向
量,再根据当前时刻的目标端向量确定当前时刻所输出的候选目标词。这样当前时刻的目
标端向量不仅包含了初始源文本的词序列中各词的语义信息,且综合了前一时刻所输出候
选目标词的语义信息,可以使得最终生成的目标文本更为连贯,信息量更为丰富。
[0057] 在一个实施例中,计算机设备可对候选目标词进行词嵌入(word embedding)处理,以将候选目标词转换成用实数表示的空间表示向量。
[0058] 在一个实施例中,计算机设备可通过预训练的机器翻译模型中的解码器对源端向量序列进行解码,以得到目标端向量序列。机器翻译模型可将源端向量序列输入到解码器
的隐层中计算得到目标端向量。这里解码器的隐层是相对于解码器的输入层和解码器的输
出层的中间层。解码器的隐层可包括多个神经网络层。这里将解码器的隐层当做“黑盒”进
行描述。在一个实施例中,解码器在初始时刻的隐层状态向量可以是模型训练得到的模型
参数,也可以是默认设置的模型参数。
[0059] 在一个实施例中,计算机设备根据目标端向量确定的候选目标词可以是一个,也可以是多个。具体地,解码器可根据当次(也可称作当前时刻)的目标端向量,计算得到当次
(也可称作当前时刻)的输出概率序列。其中,机器翻译模型当次确定的输出概率序列是指
在输出端词集中各候选词为当次输出的目标词的概率所组成的序列。进一步地,机器翻译
模型可选择输出概率序列中的最大概率所对应的候选词作为当次的候选目标词。计算机设
备也可选择输出概率序列中的概率值最大的前几名(比如前十名)所对应的候选词作为当
次的候选目标词。
[0060] 在一个实施例中,解码器可根据当次的目标端向量,确定当次的翻译分数序列。其中,机器翻译模型当次确定的翻译分数序列是指在输出端词集中各候选词所对应的翻译分
数的序列。翻译分数用于评价该候选词作为目标词时的翻译准确性。候选词所对应的翻译
分数越大,表示该候选词作为目标词的概率越大。进一步地,机器翻译模型可选择翻译分数
序列中的最大分数所对应的候选词作为当次的候选目标词。计算机设备也可选择翻译分数
序列中的翻译分数最大的前几名(比如前十名)所对应的候选词作为当次的候选目标词。
[0061] 当候选目标词为多个时,计算机设备可对多个候选词分别进行词嵌入(word embedding)处理,以将候选目标词转换成用实数表示的空间表示向量。对多个候选词所对
应的空间表示向量进行向量的加权处理,得到候选词对应的词向量。在另一个实施例中,计
算机设备可从多个候选词中选择输出概率/翻译分数最大的候选目标词、或者从多个候选
目标词中随机选择一个候选目标词,将该候选目标词进行词嵌入处理,以将候选目标词转
换成用实数表示的空间表示向量。
[0062] 在一个实施例中,计算机设备可根据以下公式计算各候选目标词对应的翻译分数: 其中,yi‑1是前次解码器解码得到的候选目标词;si是当次
的目标端向量;ci是对源端向量序列进行当次的注意力机制处理后得到的当次的内容向
量;g表示softmax函数;Π()函数表示连乘运算。
[0063] 在一个实施例中,步骤S206具体包括:依次获取当次的与源端向量序列对应的注意力分配权重向量;根据注意力分配权重向量、以及源端向量序列,计算得到当次的内容向
量;依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,
计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标词。
[0064] 在一个实施例中,计算机设备在生成当次(也称当前时刻)的候选目标词之前,可获取当次(也称当前时刻)的与源端向量序列对应的注意力分配权重向量。其中,当次的注
意力分配权重向量可根据源端向量序列、以及解码器中前次(前一时刻)的目标端向量序列
所确定。具体地,可参考以下公式: ei,j=ATT(si‑1,hj)。其中,i指第i
次,j指源端向量序列中第j个向量,αi,j指第i次中源端向量序列中第j个向量所对应的注意
力分配权重。将每次源端向量序列中各个向量所对应的注意力分配权重进行拼接,即可得
到当次与源端向量序列对应的注意力分配权重向量。
[0065] 进一步地,计算机设备可根据当次的注意力分配权重向量、以及源端向量序列,计算得到当次的内容向量。举例说明,对于当次的自注意力分配权重向量,可以表示为αi,j=
{α1,α2,…,αJ}。其中,源端向量序列可以表示为H={h1,h2,…,hJ},则当次的内容向量可以
通过以下公式计算: 相应的,对于每一次的内容向量都可以通过上
述公式计算得到。
[0066] 进一步地,计算机设备可依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定
当次的候选目标词。举例说明,对于当次的目标端向量,可以用si表示,前次的候选目标词
可以用yi‑1表示,当次的内容向量可以用ci表示,则si=f(si‑1,yi‑1,ci);其中,f()表示激活
函数。相应的,对于每一次的目标端向量都可以通过上述公式计算得到。进一步地,可通过
以下公式计算确定当次的候选目标词:yi=g(yi‑1,si,ci);其中,g()是softmax函数。
[0067] 可以理解的是,解码器首次解码得到候选目标词的解码方式和后面时刻解码的方式一样,对于首次解码时所需的前一时刻的相应的数据则可以根据经验预设初始值或随机
生成初始值,以进行下一步的处理。
[0068] 可以理解,本申请所使用的“当次”或“当前时刻”用于描述机器翻译模型的解码器进行解码并确定当次的目标词的时刻,“前次”或“前一时刻”用于描述解码器进行解码并确
定前次的目标词的时刻。比如,前次为第i‑1次,机器翻译模型所输出的目标词则为yi‑1;当
次为第i次,机器翻译模型所输出的目标词则为yi。并且,当次是一个相对变化的次数,比
如,机器翻译模型在输出当次i的下次i+1的目标词时,则可将该下次i+1作为新的当次,将
当次i作为新的前次。
[0069] 上述实施例中,根据当次的注意力分配权重向量、以及源端向量序列,计算得到当次的内容向量,再依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标
词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标
词。这样通过注意力机制处理,可以使得当次的目标端向量包含初始源文本中对当次而言
更重要的语义信息,再综合了前次所输出候选目标词的语义信息,可以使得最终生成的目
标文本更为连贯,信息量更为丰富。
[0070] S208,将依次解码得到的目标端向量构成目标端向量序列。
[0071] 具体地,计算机设备可按照解码得到目标端向量的顺序,将各目标端向量进行拼接,得到目标端向量序列。
[0072] S210,按照重构源文本,对源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数。
[0073] 其中,重构评估处理是根据源端向量序列和目标端向量序列重构回标注了缺略词位置信息的源文本,并通过和输入的重构源文本进行比较,以评估根据源端向量序列和目
标端向量序列重构回的源文本的重构能力。重构分数为衡量缺略代词信息召回程度的分
值。
[0074] 具体地,计算机设备可通过源端向量序列和目标端向量序列,重新构建标注了缺略词位置信息的源文本,此处称作预估重构源文本。通过比较获取的重构源文本与预估重
构源文本之间的差异,可以计算得到与各候选目标词对应的重构分数。其中,重构分数用来
衡量各候选目标词的翻译质量,重构分数越高,则该候选目标词作为目标词的可能性越高。
[0075] 在一个实施例中,当每次根据目标端向量序列所确定的候选目标词为多个时,则与各候选目标词对应的重构分数是一个与解码的次数、以及每次解码得到的候选目标词的
数量相对应的数值矩阵。
[0076] 在一个实施例中,可通过预训练的机器翻译模型执行文本翻译方法。计算机设备可将源端向量序列和目标端向量序列输入至机器翻译模型的重构模块中,通过重构模块将
编码器端的隐层向量序列和解码器端的隐层向量序列重构回自动标注了缺略词位置信息
的源语端句子。这相当于一个自动编码器(auto‑encoder)操作,我们假设此过程可以使源
端向量序列和目标端向量序列学习到DP(Dropped Pronoun,缺略代词)位置信息。其中,重
构模块可以由深层神经网络所构成。
[0077] S212,依据重构分数和各候选目标词,生成目标文本。
[0078] 其中,目标文本是对初始源文本进行机器翻译得到的文本。目标文本和初始源文本为不同语言的文本。具体地,计算机设备可依据各候选目标词所对应的重构分数,对候选
目标词进行拼接,得到目标文本。
[0079] 在一个实施例中,计算机设备在根据当次的目标端向量,确定当次的候选目标词时,同时确定各候选目标词对应的翻译分数。翻译分数用于评价该候选词作为目标词时的
翻译准确性。候选词所对应的翻译分数越大,表示该候选词作为目标词的概率越大。进一步
地,计算机设备可通过每次解码生成的候选目标词对应的翻译分数和重构分数,对各候选
目标词的翻译分数和重构分数进行加权求和。选择每次解码得到的加权求和的值最大的候
选目标词作为目标词。按各目标词生成的顺序拼接目标词得到目标文本。
[0080] 在一个实施例中,步骤S212具体包括:根据各候选目标词,生成候选目标文本;依据翻译分数和重构分数,从候选目标文本中筛选出与初始源文本对应的目标文本。
[0081] 具体地,计算机设备在每次解码得到每次的候选目标词后,可以采用beam search(集束搜索)的方式,根据候选目标词生成多个候选目标文本。进一步地,计算机设备可根据
各候选目标文本中的每个候选目标词对应的翻译分数和重构分数,计算得到各候选目标文
本的加权分数。进而选择加权分数最大的候选目标文本作为与初始源文本对应的目标文
本。这样,依据翻译分数和重构分数,从候选目标文本中筛选出目标文本,可以极大地缓解
源文本中代词缺失的痛点问题,大大提高了翻译的准确性。
[0082] 参考图5,图5示出了一个实施例中,通过机器翻译模型对初始源文本进行翻译得到目标文本的流程示意图。如图5所示,计算机设备可将初始源文本(source sentence)输
入至机器翻译模型的编码器‑解码器(encoder‑decoder)中,得到候选目标文本{cand1,
cand2,...,candk},以及候选目标文本所对应的翻译分数{P1,P2,...,Pk}。其中,候选目标文
本对应的翻译分数可以将候选目标文本中各候选目标词对应的翻译分数进行加法计算得
到。再将重构源文本、源端向量序列和目标端向量序列输入至机器翻译模型的重构模块中
进行重构评估处理,得到各候选目标词对应的重构分数。相应的,计算机设备可根据候选目
标词所对应的重构分数计算各候选目标文本对应的重构分数{R1,R2,...,Rk}。计算机设备
可对各候选目标文本的翻译分数和重构分数进行加权求和,比如y=R1+λR1,其中,λ为加权
系数。通过选择模块将加权求和所得到的结果中最大值所对应的候选目标文本作为目标文
本输出。
[0083] 上述文本翻译方法,通过对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列,再依次对源端向量序列进行解码得到的目标端向量,且每次解码时根据前
次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标
词。可使得解码生成的候选目标词不仅包含了源文本的语义信息,还综合了前次的候选目
标词的语义信息,使得最终生成的目标文本更为连贯,翻译结果更准确。将依次解码得到的
目标端向量构成目标端向量序列,并按照对初始源文本进行缺略词位置信息补充而得到的
重构源文本,对源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词
对应的重构分数,再依据重构分数和各候选目标词,生成目标文本。这样,通过融合源端和
目标端的隐层向量特征可以共享两端的共性信息,在进行重构评估处理时可以减少冗余信
息并能避免重要信息的缺失,使得重构分数可以很好的评估候选目标词的翻译质量。这样,
依据重构分数和各候选目标词,生成目标文本,可以减少翻译时缺少缺略代词所带来的影
响,大大提高了翻译质量。
[0084] 在一个实施例中,步骤S202,也就是获取初始源文本和重构源文本的步骤具体包括:获取初始源文本;通过预训练的缺略词还原模型确定初始源文本中缺略词的位置;在缺
略词的位置处添加指代符以得到重构源文本。
[0085] 其中,指代符是指代缺略词的符号,比如具体可以是 “#DP#”、“&”等符号,用来替代初始源文本中缺少的代词。具体地,计算机设备可通过预训练的缺略词还原模型预
测初始源文本中缺略词的位置,再在初始源文本中缺略词的位置处添加指代符以得到重构
源文本。
[0086] 举例说明,对缺少了缺略代词的句子“喜欢这块蛋糕吗?很喜欢。你烤的吗?”进行缺略词位置信息补充后,得到“ 喜欢这块蛋糕吗? 很喜欢 你烤的 吗?”其中,就是
用来对初始源文本进行缺略词位置信息补充的指代符。“ 喜欢这块蛋糕吗? 很喜欢 你
烤的 吗?”就是对初始源文本进行缺略词位置信息补充而得到的重构源文本。
[0087] 在一个实施例中,计算机设备可通过预训练的缺略代词还原模型对初始源文本标注缺略代词位置信息。首先,计算机设备可根据样本库中的样本源文本和样本参考文本构
建平行语料库。采用词对齐算法,借助平行语料中样本源文本和样本参考文本之间代词省
略的差异性(比如,汉语句子中代词缺略,而对应的英文句子中代词不缺略),自动标注样本
源文本中的缺略代词。这样可以不需要人工标注就可以快速构建大规模的源文本缺略代词
语料库,比如“源端汉语‑自动补全缺略代词位置的汉语‑目标端英语”三元对应语料库。然
后,利用此语料库训练基于神经网络的缺略代词还原模型,通过训练好的缺略代词还原模
型可以很好的预测初始源文本中缺略代词的位置。这样,计算机设备可在缺代词的位置处
添加指代符以得到重构源文本。
[0088] 根据实验表明,训练机器学习模型,使机器学习模型具有预测缺略词位置信息的能力的模型效果要远远高于使机器学习模型具有还原缺略词能力的模型效果。也就是说,
通过训练缺略词还原模型,使得缺略词还原模型能够准确的预测初始源文本中缺略词的位
置的准确性很高。这样,通过重构源文本来辅助翻译能进一步提升翻译质量。
[0089] 上述实施例中,通过预训练的缺略词还原模型确定初始源文本中缺略词的位置,在缺略词的位置处添加指代符以得到重构源文本,可以通过预训练的缺略词还原模型快速
准确的构建重构源文本。
[0090] 在一个实施例中,该文本翻译方法还包括对源端向量序列和目标端向量序列分别进行注意力机制处理的步骤,该步骤具体包括:获取与源端向量序列对应的源端注意力分
配权重向量;根据源端注意力分配权重向量、以及源端向量序列,计算得到源端内容向量;
获取与目标端向量序列对应的目标端注意力分配权重向量;根据目标端注意力分配权重向
量、以及目标端向量序列,计算得到目标端内容向量。步骤S210也就是按照重构源文本,对
源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数
的步骤包括:按照重构源文本,对源端内容向量和目标端内容向量进行重构评估处理,得到
与各候选目标词对应的重构分数。
[0091] 在一个实施例中,计算机设备对源端向量序列、以及目标端向量序列进行注意力机制处理的过程中可采用独立注意力机制处理或交叉注意力机制处理。其中独立注意力机
制处理是指对源端向量序列、以及目标端向量序列进行注意力机制处理的注意力权重各自
独立计算;交叉注意力机制处理是指对源端向量序列、以及目标端向量序列进行注意力机
制处理的注意力权重交叉计算。
[0092] 在一个实施例中,获取与源端向量序列对应的源端注意力分配权重向量的步骤具体包括:对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前
一词对应的隐层状态向量、以及源端向量序列进行注意力机制处理,得到与源端向量序列
对应的源端注意力分配权重向量;或,对重构源文本中当前词的前一词的词向量、重构模块
所输出的与重构源文本中前一词对应的隐层状态向量、源端向量序列、以及目标端内容向
量进行注意力机制处理,得到与源端向量序列对应的源端注意力分配权重向量。
[0093] 在一个实施例中,获取与目标端向量序列对应的目标端注意力分配权重向量的步骤包括:对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前
一词对应的隐层状态向量、以及目标端向量序列进行注意力机制处理,得到与目标端向量
序列对应的目标端注意力分配权重向量;或,对重构源文本中当前词的前一词的词向量、重
构模块所输出的与重构源文本中前一词对应的隐层状态向量、目标端向量序列、以及源端
内容向量进行注意力机制处理,得到与目标端向量序列对应的目标端注意力分配权重向
量。
[0094] 在一个实施例中,以重构文本的词序列的词数为次数基准,当计算机设备对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层
状态向量、以及源端向量序列进行注意力机制处理,得到当次的与源端向量序列对应的源
端注意力分配权重向量;且对重构源文本中当前词的前一词的词向量、重构模块所输出的
与重构源文本中前一词对应的隐层状态向量、以及目标端向量序列进行注意力机制处理,
得到当次的与目标端向量序列对应的目标端注意力分配权重向量时,就可认为计算机设备
对源端向量序列、以及目标端向量序列进行独立注意力机制处理。
[0095] 举例说明,计算机设备可采用以下公式计算得到源端注意力分配权重:其中,ATT表示注意力机制处理; 表示重构源文本中的第
i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词向量对应的隐层状态向量,
也就是重构模块所输出的隐层状态向量; 表示各源端向量。计算机设备可采用以下公
式计算得到目标端注意力分配权重: 其中,ATT表示注意力
机制处理; 表示重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i‑
1个词的词向量对应的隐层状态向量,也就是重构模块所输出的隐层状态向量; 表示
各目标端向量。
[0096] 在一个实施例中,以重构文本的词序列的词数为次数基准,当计算机设备对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层
状态向量、以及源端向量序列进行注意力机制处理,得到当次的与源端向量序列对应的源
端注意力分配权重向量;且目标端对重构源文本中当前词的前一词的词向量、重构模块所
输出的与重构源文本中前一词对应的隐层状态向量、目标端向量序列、以及源端内容向量
进行注意力机制处理,得到当次的与目标端向量序列对应的目标端注意力分配权重向量
时,就可认为计算机设备对源端向量序列、以及目标端向量序列进行交叉注意力机制处理。
[0097] 举例说明,计算机设备可采用以下公式计算得到源端注意力分配权重:其中,ATT表示注意力机制处理; 表示重构源文本中的第
i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词向量对应的隐层状态向量,
也就是重构模块所输出的隐层状态向量; 表示各源端向量。计算机设备可采用以下公
式计算得到目标端注意力分配权重:
其中,ATT表示注意力机制处理;
表示重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词
向量对应的隐层状态向量,也就是重构模块所输出的隐层状态向量; 表示各目标端向
量;●表示向量点乘运算。
[0098] 在一个实施例中,以重构文本的词序列的词数为次数基准,当计算机设备对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层
状态向量、源端向量序列、以及目标端内容向量进行注意力机制处理,得到当次的与源端向
量序列对应的源端注意力分配权重向量;且对重构源文本中当前词的前一词的词向量、重
构模块所输出的与重构源文本中前一词对应的隐层状态向量、以及目标端向量序列进行注
意力机制处理,得到当次的与目标端向量序列对应的目标端注意力分配权重向量时,就可
认为计算机设备对源端向量序列、以及目标端向量序列进行交叉注意力机制处理。
[0099] 举例说明,计算机设备可采用以下公式计算得到源端注意力分配权重:其中,ATT表示注意力机制处理;
表示重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词
向量对应的隐层状态向量,也就是重构模块所输出的隐层状态向量; 表示各源端向
量; 表示各目标端向量; 表示目标端注意力分配权重;●表示向量点乘运算。计算
机设备可采用以下公式计算得到目标端注意力分配权重:
其中,ATT表示注意力机制处理; 表示重构源文本中的第i‑1个词的词向量; 表示与
重构源文本中的第i‑1个词的词向量对应的隐层状态向量,也就是重构模块所输出的隐层
状态向量; 表示各目标端向量。
[0100] 在一个实施例中,以重构文本的词序列的词数为次数基准,当计算机设备对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层
状态向量、源端向量序列、以及目标端内容向量进行注意力机制处理,得到当次的与源端向
量序列对应的源端注意力分配权重向量;且且目标端对重构源文本中当前词的前一词的词
向量、重构模块所输出的与重构源文本中前一词对应的隐层状态向量、目标端向量序列、以
及源端内容向量进行注意力机制处理,得到当次的与目标端向量序列对应的目标端注意力
分配权重向量时,就可认为计算机设备对源端向量序列、以及目标端向量序列进行交叉注
意力机制处理。
[0101] 举例说明,计算机设备可采用以下公式计算得到源端注意力分配权重:其中,ATT表示注意力机制处理;
表示重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词
向量对应的隐层状态向量,也就是重构模块所输出的隐层状态向量; 表示各源端向
量; 表示各目标端向量; 表示目标端注意力分配权重;●表示向量点乘运算。计算
机设备可采用以下公式计算得到目标端注意力分配权重:
其中,ATT表示注意力机制处理;
表示重构源文本中的第i‑1个词的词向量; 表示与重构源文本中的第i‑1个词的词
向量对应的隐层状态向量,也就是重构模块所输出的隐层状态向量; 表示各目标端向
量;·表示向量点乘运算。
[0102] 上述实施例中,通过独立或交叉的关注机制处理源端向量序列和目标端向量序列,可更好地利用源端和目标端的共性知识,能更好的共享源端和目标端的隐层特征,提高
文本翻译的准确性。
[0103] 进一步地,当分别确定了当次的源端注意力分配权重向量和当次的目标端注意力分配权重向量时,可根据源端注意力分配权重向量、以及源端向量序列,计算得到当次的源
端内容向量;根据目标端注意力分配权重向量、以及目标端向量序列,计算得到当次的目标
端内容向量。
[0104] 在一个实施例中,计算机设备可通过以下公式计算当次的源端内容向量:其中, 表示各源端向量; 表示源端注意力分配权重;·表示
向量点乘运算。计算机设备可通过以下公式计算当次的目标端内容向量:
其中, 表示各目标端向量; 表示目标端注意力分配权重;●
表示向量点乘运算。
[0105] 进一步地,计算机设备在计算得到当次的源端内容向量和当次的目标端内容向量后,可按照重构源文本,对源端内容向量和目标端内容向量进行重构评估处理,得到与各候
选目标词对应的重构分数。
[0106] 在一个实施例中,计算机设备可根据重构源文本中当前词的前一词的词向量、与重构源文本中前一词对应的隐层状态向量、源端语义向量、以及目标端语义向量,计算得到
与重构源文本中当前词对应的隐层状态向量;根据与重构源文本中当前词对应的隐层状态
向量、重构源文本中当前词的前一词的词向量、源端语义向量、以及目标端语义向量,计算
得到与重构源文本中当前词所对应的重构分数;对与重构源文本中各词所对应的重构分数
进行连乘运算,得到与各候选目标词对应的重构分数。
[0107] 在一个实施例中,计算机设备可通过以下公式计算与重构源文本中当前词对应的隐层状态向量: 其中,fr()为激活函数; 表示重构源文
本中的第i‑1个词向量; 表示与重构源文本中的第i个词向量对应的隐层状态向量序
列; 表示当次的源端内容向量; 表示当次的目标端内容向量。
[0108] 在一个实施例中,计算机设备可通过以下公式计算得到与各候选目标词对应的重构分数: 其中,gr()为归一化函数; 表示
重构源文本中的第i‑1个词向量; 表示与重构源文本中的第i个词向量对应的隐层状态
向量序列; 表示当次的源端内容向量; 表示当次的目标端内容向量;Π()表示连乘
运算。
[0109] 在一个实施例中,参考图6,图6示出了一个实施例中,通过包括编码器‑解码器结构的机器翻译模型进行文本翻译的流程示意图。首先将初始源文本(也就是输入句子)输入
机器翻译模型的编码器中,通过编码器模块输出源端向量序列。再将源端向量序列输入注
意力模块,通过注意力机制处理模块对源端向量序列进行注意力机制处理,得到当次的源
端内容向量,也就是当前时刻的源端上下文。再将当前时刻的源端上下文输入机器翻译模
型的解码器中,通过解码器模块对当前时刻的源端上下文进行解码处理,输出当前时刻的
目标端向量。依次重复上述步骤,直到与初始源文本对应的目标端向量序列。将源端向量序
列、目标端向量序列、以及重构源文本输入至机器翻译模型的重构模型,通过重构模块处理
源端向量序列、目标端向量序列,得到重构向量序列,通过比较重构向量序列和重构源文本
之间的差异,得到重构分数。最后依据重构分数和目标端向量序列,生成目标文本。
[0110] 上述实施例中,通过对分别对源端向量序列和目标端向量序列进行注意力机制处理,得到对应的源端内容向量和目标端内容向量,再按照重构源文本,对源端内容向量和目
标端内容向量进行重构评估处理,可以得到融合了源端和目标端信息的更准确的重构分
数,使得重构分数能很好的衡量源端向量序列和目标端向量序列与重构源文本之间的相似
关系,进而可以通过重构分数辅助生成准确的目标文本。
[0111] 在一个实施例中,文本翻译方法通过机器翻译模型执行,机器翻译模型的训练步骤包括:
[0112] S702,获取初始样本源文本、参考目标文本、以及重构样本源文本;重构样本源文本是对初始样本源文本进行缺略词位置信息补充而得到的源文本。
[0113] 其中,初始样本源文本、参考目标文本、以及重构样本源文本为训练数据。重构样本源文本是对初始样本源文本进行缺略词位置信息补充而得到的源文本。具体地,计算机
设备可从多个公开数据集中获取“样本源文本‑重构样本源文本‑参考目标文本”的三元对
应语料作为训练数据。
[0114] 在一个实施例中,计算机设备可通过预训练的缺略词还原模型确定初始样本源文本中缺略词的位置,并在缺略词的位置处添加指代符以得到重构样本源文本。
[0115] S704,将初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本。
[0116] 具体地,计算机设备可将初始样本源文本的词序列输入到机器翻译模型中,根据机器翻译模型执行上述文本翻译方法,得到预测目标文本。计算机设备可朝着减小预测目
标文本和参考目标文本之间的差异的方向,调整模型参数。这样,通过不断的输入初始样本
源文本的词序列,得到预测目标文本,根据预测目标文本和参考目标文本之间的差异调整
模型参数,以训练机器翻译模型。
[0117] S706,依据参考目标文本和预测目标文本构建最大似然函数。
[0118] 其中,最大似然函数用于评估参考目标文本与预测目标文本之间的差异程度。最大似然函数承担了训练得到好的机器翻译模型的责任,使模型生成语法正确、文字流畅的
目标文本。
[0119] 在 一 个 实 施 例 中 ,可 通 过 以 下 公 式 构 建 最 大 似 然 函 数 :其中,argmax是表示寻找具有最大值的参
n n
量的函数,就是求使得logP(y|x ;θ)的值最大时的θ值。 是模型训练中的训
练样本对。log为对数函数,∑()为叠加运算,θ为模型参数。
[0120] S708,通过机器翻译模型,获取与初始样本源文本对应的源端样本向量序列、以及目标端样本向量序列。
[0121] 具体地,计算机设备可将初始源文本的词序列输入至机器翻译模型,通过机器翻译模型中的编码器对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列。
通过机器翻译模型的解码器,依次对源端向量序列进行解码得到目标端向量,且每次解码
时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候
选目标词。将依次解码得到的目标端向量拼接成目标端向量序列。
[0122] S710,依据重构样本源文本、源端样本向量序列、以及目标端样本向量序列构建重构评估函数。
[0123] 其中,重构评估函数用来衡量缺略代词信息召回程度,可以辅助机器翻译模型和重构模块更好的学习关于缺略词位置信息的隐层表示。具体地,计算机设备可将源端向量
序列和目标端向量序列输入至机器翻译模型的重构模块中,通过重构模块将编码器端的隐
层序列和解码器端的隐层序列重构回自动标注了缺略词位置信息的源语端句子。这相当于
一个自动编码器(auto‑encoder)操作,我们假设此过程可以使源端向量序列和目标端向量
序列学习到DP(Dropped Pronoun,缺略代词)位置信息。通过获取的重构源文本与预估重构
源文本之间的差异,构建重构评估函数。
[0124] 在一个实施例中,可通过以下公式构建重构评估函数:
[0125]
[0126] 其中, 表示重构分数;θ和γ分别是模型参数;gr()和fr()分别为归一化函数和激活函数; 表示重构源文本中的第i‑1个词的词向量; 表示与重构
源文本中的第i个词的向量对应的隐层状态向量序列;hj表示各源端向量或目标端向量;
表示源端注意力分配权重或目标端注意力分配权重;●表示点乘运算。
[0127] S712,根据最大似然函数和重构评估函数,确定目标函数。
[0128] 具体地,计算机设备可对最大似然函数和重构评估函数进行加权求和,将加权求和函数作为机器翻译模型的目标函数。机器翻译模型可通过以下公式得到各个样本的目标
函数:J=Jlikelihood+λJreconstruction。其中,其中,λ是加权系数。
[0129] 在一个实施例中,可通过以下函数表示目标函数:
[0130]
[0131]
[0132]
[0133]
[0134]
[0135] 其中,θ和γ分别是模型参数;[x,y]是模型训练中的训练样本对;gr()和fr()分别为归一化函数和激活函数; 表示重构源文本中的第i‑1个词的词向量; 表示与重
构源文本中的第i个词的词向量对应的隐层状态向量序列;hj表示各源端向量或目标端向
量; 表示源端注意力分配权重或目标端注意力分配权重;·表示向量点乘运算。
[0136] S714,将目标函数最大化时的模型参数作为机器翻译模型的模型参数,返回将初始样本源文本输入机器翻译模型中进行训练,得到预测目标文本的步骤继续训练,直至满
足训练停止条件时停止训练。
[0137] 其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的机器翻译模型的性能指标达到预设指标。调整机器翻译
模型的模型参数,是对机器翻译模型的模型参数进行调整。
[0138] 具体地,对于每个样本序列对应的目标函数,取目标函数最大时的模型参数作为机器翻译模型的模型参数,然后在该模型参数的基础上对下一个样本序列进行预测,以对
模型参数继续进行训练,直至满足训练停止条件时停止训练。
[0139] 在一个实施例中,参考图8,图8示出了通过采用最大似然函数和重构评估函数的加权和函数作为目标函数而训练得到的机器翻译模型,对源端向量序列和目标端向量序列
进行共享重构处理的结构示意图。如图8所示,将与源端x“你烤的吗?”对应的源端向量序
列,以及目标端y“Did you bake it”对应的目标端向量序列输入至机器翻译模型的重构模
块中,通过重构模块重构回添加了缺略词位置信息的预测重构源文本 “你烤的#DP#吗?”
相应的重构隐层状态向量。进而重构模块通过预测重构源文本 与重构源文本之间的差异
计算得到重构分数,用于辅助衡量编码器和解码器对缺略代词的还原能力。
[0140] 机器翻译模型引入额外的共享式重构层(也就是重构模块),其输入为编码器端和解码器端的隐层状态向量序列和自动标注缺略词位置信息的源端句子,输出为共享重构分
数。训练时,重构分数与最大似然估计线性叠加一起优化,使源端向量序列和目标端向量序
列可以共享地学习到缺略代词的位置信息。
[0141] 上述实施例中,在训练模型的过程中,训练的目标不仅仅考虑最大似然,还考虑了源端向量序列和目标端向量序列共享的对隐含的代词的总结能力,合并两个学习目标可以
统一地加强整体翻译质量,并且有效地引导参数朝还原缺略词的方向调整,使得训练得到
的机器翻译模型具有更高的翻译准确性。
[0142] 在一个实施例中,机器翻译模型的训练步骤还包括:获取与初始样本源文本对应的样本缺略词序列;通过机器翻译模型的重构模块对源端样本向量序列、以及目标端样本
向量序列进行缺略词重构处理,得到与样本缺略词序列对应的隐层状态向量序列;根据样
本缺略词序列和隐层状态向量序列构建缺略词还原函数。步骤S712,也就是根据最大似然
函数和重构评估函数,确定目标函数的步骤具体包括:根据最大似然函数、重构评估函数、
以及缺略词还原函数,确定目标函数。
[0143] 其中,与初始样本源文本对应的样本缺略词序列是由初始样本源文本中缺少的缺略词所组成的序列。缺略词还原函数用来衡量缺略代词还原程度,可以辅助机器翻译模型
和重构模块更好的预测缺略词的词信息。
[0144] 在一个实施例中,计算机设备可对初始样本源文本和参考目标文本进行词对齐处理,依据参考目标文本还原初始样本源文本中所缺少的缺略词。或者,计算机设备可根据初
始样本源文本的语言环境,人工还原初始样本源文本中所缺少的缺略词。计算机设备可将
初始源文本中缺少的词按顺序拼接成样本缺略词序列。
[0145] 进一步地,计算机设备可将源端样本向量序列、以及目标端样本向量序列输入至机器翻译模型的重构模块中,以进行缺略词重构处理,得到与样本缺略词序列对应的隐层
状态向量序列。重构模块可根据重构样本源文本与预估重构源文本之间的差异,构建重构
评估函数,并根据预估重构源文本在指定位置上的缺略词进行分类处理,预测还原在指定
位置上的缺略词本身。计算机设备根据样本缺略词序列和隐层状态向量序列构建缺略词还
原函数。
[0146] 在一个实施例中,计算机设备通过以下公式构建缺略词还原函数:
[0147]
[0148]
[0149] 其中,θ、γ和τ分别是模型参数;dp={dp1,dp2,…,dpD}是样本缺略词序列;是与样本缺略词序列对应的重构模块所输出的隐层状态向量序
列;gp()是归一化函数。
[0150] 进一步地,计算机设备可将最大似然函数、重构评估函数、以及缺略词还原函数的加权和函数作为机器翻译模型的目标函数。具体地,计算机设备可分别对最大似然函数、重
构评估函数、以及缺略词还原函数进行加权求和,将加权求和函数作为机器翻译模型的目
标函数。
[0151] 在一个实施例中,计算机设备可通过以下公式得到各个样本的目标函数:J=Jlikelihood+λJreconstruction+τJpredicition。其中,其中,λ和τ分别是加权系数。具体地,计算机设备
可通过以下公式表示目标函数:
[0152]
[0153] 其中,
[0154] 其中,dp={dp1,dp2,…,dpD}是样本缺略词序列; 是与样本缺略词序列对应的隐层状态向量序列;gp()是归一化函数。
[0155] 进而,在机器翻译模型的训练过程中,计算机设备可对于每个样本序列对应的目标函数,取目标函数最大时的模型参数作为机器翻译模型的模型参数,然后在该模型参数
的基础上对下一个样本序列进行预测,以对模型参数继续进行训练,直至满足训练停止条
件时停止训练。
[0156] 在一个实施例中,参考图9,图9示出了通过采用最大似然函数、重构评估函数、以及缺略词还原函数的加权和函数为目标函数训练机器翻译模型时,对源端向量序列和目标
端向量序列进行共享重构处理的结构示意图。如图9所示,将与源端x“你烤的吗?”对应的源
端向量序列,以及目标端y“Did you bake it”对应的目标端向量序列输入至机器翻译模型
的重构模块中,通过重构模块重构回添加了缺略词位置信息的预测重构源文本 “你烤的#
DP#吗?”相应的重构隐层状态向量,以及根据重构隐层状态向量预测缺少的缺略词“它”。
[0157] 参考图10,图10示出了一个实施例中通过重构模块将源端向量序列和目标端向量序列重构回含缺略代词的文本的结构示意图。如图10所示,源端向量序列可以表示成{v1,
v2,...,vT};对于解码器,每一时刻对源端向量序列进行注意力机制处理后得到的内容向量
序列记为 相应的,每一时刻解码器根据内容向量解码得到的目标端向量序列
记为 重构模块根据内容向量序列和目标端向量序列重构成补全了缺略词的
源文本
[0158] 进而,计算机设备可根据预测目标文本、预测重构源文本、以及预测缺少的缺略词与样本之间的差异,调整模型参数以训练机器翻译模型。通过将最大似然函数、重构评估函
数、以及缺略词还原函数的加权和函数作为机器翻译模型的目标函数而训练得到的机器翻
译模型,引入了联合学习的思想,一方面重构模块可共享源端和目标端的隐层状态向量,重
构回标注缺略词位置信息的源端句子,另一方面利用重构模块预测缺略词的词表层信息。
训练时,重构分数、最大似然估计和缺略词还原损失线性叠加一起优化,使机器翻译模型不
仅可以学习到缺略词的位置信息,更具备还原缺略词的词表层的还原能力。当通过上述方
法训练得到的机器翻译模型在使用过程中,对于重构模块,输入为隐层状态向量序列和含
缺略代词的句子,输出为衡量缺略代词信息召回程度的重构分数。
[0159] 在一个实施例中,本申请提供的依据机器翻译模型实施的各种实施例,一方面共享编码器端和解码器端的隐层状态向量信息,另一方面可以对缺略代词的词表层还原任务
和翻译任务进行统一建模。这样基于共享重构机制的缺略代词还原与神经网络机器翻译联
合学习的文本翻译方法,进一步增强了机器翻译模型对缺略代词的关注和学习能力,从而
进一步提高翻译质量。
[0160] 本申请提供的方法可以用在所有主流神经网络机器翻译系统中,比如,RNN模型或Transformer(变压器)框架系统,并适用于所有代词缺略语言到非代词缺略语言的翻译任
务(如,日语到英语、阿拉伯语到英语等)。并且,本申请各种实施例在文本翻译上,翻译质量
都有显著提升。
[0161] 上述实施例中,在训练模型的过程中,训练的目标不仅仅考虑最大似然和重构分数,还考虑了缺略词还原损失,将重构分数、最大似然估计和缺略词还原损失线性叠加一起
优化,使机器翻译模型不仅可以学习到缺略词的位置信息,更具备还原缺略词的词表层的
还原能力,使得训练得到的机器翻译模型具有更高的翻译准确性。
[0162] 如图11所示,在一个具体的实施例中,文本翻译方法包括以下步骤:
[0163] S1102,获取初始源文本。
[0164] S1104,通过预训练的缺略词还原模型确定初始源文本中缺略词的位置。
[0165] S1106,在缺略词的位置处添加指代符以得到重构源文本。
[0166] S1108,对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列。
[0167] S1110,依次获取当次的与源端向量序列对应的注意力分配权重向量。
[0168] S1112,根据注意力分配权重向量、以及源端向量序列,计算得到当次的内容向量。
[0169] S1114,依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标
词、以及候选目标词对应的翻译分数。
[0170] S1116,将依次解码得到的目标端向量构成目标端向量序列。
[0171] S1118,获取与源端向量序列对应的源端注意力分配权重向量。
[0172] S1120,根据源端注意力分配权重向量、以及源端向量序列,计算得到源端内容向量。
[0173] S1122,获取与目标端向量序列对应的目标端注意力分配权重向量。
[0174] S1124,根据目标端注意力分配权重向量、以及目标端向量序列,计算得到目标端内容向量。
[0175] S1126,根据重构源文本中当前词的前一词的词向量、与重构源文本中前一词对应的隐层状态向量、源端语义向量、以及目标端语义向量,计算得到与重构源文本中当前词对
应的隐层状态向量。
[0176] S1128,根据与重构源文本中当前词对应的隐层状态向量、重构源文本中当前词的前一词的词向量、源端语义向量、以及目标端语义向量,计算得到与重构源文本中当前词所
对应的重构分数。
[0177] S1130,对与重构源文本中各词所对应的重构分数进行连乘运算,得到与各候选目标词对应的重构分数。
[0178] S1132,根据各候选目标词,生成候选目标文本。
[0179] S1134,依据翻译分数和重构分数,从候选目标文本中筛选出与初始源文本对应的目标文本。
[0180] 上述文本翻译方法,通过对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列,再依次对源端向量序列进行解码得到的目标端向量,且每次解码时根据前
次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标
词。可使得解码生成的候选目标词不仅包含了源文本的语义信息,还综合了前次的候选目
标词的语义信息,使得最终生成的目标文本更为连贯,翻译结果更准确。将依次解码得到的
目标端向量构成目标端向量序列,并按照对初始源文本进行缺略词位置信息补充而得到的
重构源文本,对源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词
对应的重构分数,再依据重构分数和各候选目标词,生成目标文本。这样,通过融合源端和
目标端的隐层向量特征可以共享两端的共性信息,在进行重构评估处理时可以减少冗余信
息并能避免重要信息的缺失,使得重构分数可以很好的衡量缺略词信息的召回程度。这样,
依据重构分数和各候选目标词,生成目标文本,可以减少翻译时缺少缺略代词所带来的影
响,大大提高了翻译质量。
[0181] 图11为一个实施例中文本翻译方法的流程示意图。应该理解的是,虽然图11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺
序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤
可以以其它的顺序执行。而且,图11中的至少一部分步骤可以包括多个子步骤或者多个阶
段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这
些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的
子步骤或者阶段的至少一部分轮流或者交替地执行。
[0182] 如图12所示,在一个实施例中,提供了一种文本翻译装置1200,包括:获取模块1201、编码模块1202、解码模块1203、拼接模块1204、重构模块1205和生成模块1206。
[0183] 获取模块1201,用于获取初始源文本和重构源文本;重构源文本是对初始源文本进行缺略词位置信息补充而得到的源文本。
[0184] 编码模块1202,用于对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列。
[0185] 解码模块1203,用于依次对源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候
选目标词。
[0186] 拼接模块1204,用于将依次解码得到的目标端向量构成目标端向量序列。
[0187] 重构模块1205,用于按照重构源文本,对源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词对应的重构分数。
[0188] 生成模块1206,用于依据重构分数和各候选目标词,生成目标文本。
[0189] 在一个实施例中,获取模块1201还用于获取初始源文本;通过预训练的缺略词还原模型确定初始源文本中缺略词的位置;在缺略词的位置处添加指代符以得到重构源文
本。
[0190] 在一个实施例中,解码模块1203还用于依次获取当次的与源端向量序列对应的注意力分配权重向量;根据注意力分配权重向量、以及源端向量序列,计算得到当次的内容向
量;依次根据当次的内容向量、前次的目标端向量、以及前次确定的候选目标词的词向量,
计算得到当次的目标端向量,并根据当次的目标端向量确定当次的候选目标词。
[0191] 在一个实施例中,文本翻译装置1200还包括注意力机制处理模块1207,注意力机制处理模块1207用于获取与源端向量序列对应的源端注意力分配权重向量;根据源端注意
力分配权重向量、以及源端向量序列,计算得到源端内容向量;获取与目标端向量序列对应
的目标端注意力分配权重向量;根据目标端注意力分配权重向量、以及目标端向量序列,计
算得到目标端内容向量。重构模块1205还用于按照重构源文本,对源端内容向量和目标端
内容向量进行重构评估处理,得到与各候选目标词对应的重构分数。
[0192] 在一个实施例中,重构模块1205还用于根据重构源文本中当前词的前一词的词向量、与重构源文本中前一词对应的隐层状态向量、源端语义向量、以及目标端语义向量,计
算得到与重构源文本中当前词对应的隐层状态向量;根据与重构源文本中当前词对应的隐
层状态向量、重构源文本中当前词的前一词的词向量、源端语义向量、以及目标端语义向
量,计算得到与重构源文本中当前词所对应的重构分数;对与重构源文本中各词所对应的
重构分数进行连乘运算,得到与各候选目标词对应的重构分数。
[0193] 在一个实施例中,注意力机制处理模块1207还用于对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层状态向量、以及源端向
量序列进行注意力机制处理,得到与源端向量序列对应的源端注意力分配权重向量;或,对
重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的
隐层状态向量、源端向量序列、以及目标端内容向量进行注意力机制处理,得到与源端向量
序列对应的源端注意力分配权重向量。
[0194] 在一个实施例中,注意力机制处理模块1207还用于对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一词对应的隐层状态向量、以及目标端
向量序列进行注意力机制处理,得到与目标端向量序列对应的目标端注意力分配权重向
量;或,对重构源文本中当前词的前一词的词向量、重构模块所输出的与重构源文本中前一
词对应的隐层状态向量、目标端向量序列、以及源端内容向量进行注意力机制处理,得到与
目标端向量序列对应的目标端注意力分配权重向量。
[0195] 在一个实施例中,解码模块1203还用于根据当次的目标端向量,确定当次的候选目标词、以及候选目标词对应的翻译分数。生成模块1206还用于根据各候选目标词,生成候
选目标文本;依据翻译分数和重构分数,从候选目标文本中筛选出与初始源文本对应的目
标文本。
[0196] 在一个实施例中,参考图13,文本翻译装置还包括训练模块1208,训练模块1208用于获取初始样本源文本、参考目标文本、以及重构样本源文本;重构样本源文本是对初始样
本源文本进行缺略词位置信息补充而得到的源文本;将初始样本源文本输入机器翻译模型
中进行训练,得到预测目标文本;依据参考目标文本和预测目标文本构建最大似然函数;通
过机器翻译模型,获取与初始样本源文本对应的源端样本向量序列、以及目标端样本向量
序列;依据重构样本源文本、源端样本向量序列、以及目标端样本向量序列构建重构评估函
数;根据最大似然函数和重构评估函数,确定目标函数;将目标函数最大化时的模型参数作
为机器翻译模型的模型参数,返回将初始样本源文本输入机器翻译模型中进行训练,得到
预测目标文本的步骤继续训练,直至满足训练停止条件时停止训练。
[0197] 在一个实施例中,训练模块1208还用于将最大似然函数和重构评估函数的加权和函数作为机器翻译模型的目标函数;其中,通过以下公式表示目标函数:
[0198]
[0199]
[0200]
[0201]
[0202]
[0203] 其中,θ和γ分别是模型参数;[x,y]是模型训练中的训练样本对;gr()和fr()分别为归一化函数和激活函数; 表示重构源文本中的第i‑1个词的词向量; 表示与重构
源文本中的第i个词的词向量对应的隐层状态向量序列;hj表示各源端向量或目标端向量;
表示源端注意力分配权重或目标端注意力分配权重;●表示向量点乘运算。
[0204] 在一个实施例中,训练模块1208还用于获取与初始样本源文本对应的样本缺略词序列;通过机器翻译模型的重构模块对源端样本向量序列、以及目标端样本向量序列进行
缺略词重构处理,得到与样本缺略词序列对应的隐层状态向量序列;根据样本缺略词序列
和隐层状态向量序列构建缺略词还原函数;根据最大似然函数、重构评估函数、以及缺略词
还原函数,确定目标函数。
[0205] 在一个实施例中,训练模块1208还用于将最大似然函数、重构评估函数、以及缺略词还原函数的加权和函数作为机器翻译模型的目标函数;其中,通过以下公式表示目标函
数:
[0206]
[0207]
[0208] 其中,θ、γ和τ分别是模型参数;dp={dp1,dp2,…,dpD}是样本缺略词序列;是与样本缺略词序列对应的隐层状态向量序列;gp()是归一化函
数。
[0209] 上述文本翻译装置,通过对初始源文本进行语义编码,得到与初始源文本对应的源端向量序列,再依次对源端向量序列进行解码得到的目标端向量,且每次解码时根据前
次确定的候选目标词的词向量进行解码,并根据当次的目标端向量确定当次的候选目标
词。可使得解码生成的候选目标词不仅包含了源文本的语义信息,还综合了前次的候选目
标词的语义信息,使得最终生成的目标文本更为连贯,翻译结果更准确。将依次解码得到的
目标端向量构成目标端向量序列,并按照对初始源文本进行缺略词位置信息补充而得到的
重构源文本,对源端向量序列和目标端向量序列进行重构评估处理,得到与各候选目标词
对应的重构分数,再依据重构分数和各候选目标词,生成目标文本。这样,通过融合源端和
目标端的隐层向量特征可以共享两端的共性信息,在进行重构评估处理时可以减少冗余信
息并能避免重要信息的缺失,使得重构分数可以很好的衡量缺略词信息的召回程度。这样,
依据重构分数和各候选目标词,生成目标文本,可以减少翻译时缺少缺略代词所带来的影
响,大大提高了翻译质量。
[0210] 图14示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图14所示,该计算机设备包括该计算机设备包括通过系统总
线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该
计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序
被处理器执行时,可使得处理器实现文本翻译方法。该内存储器中也可储存有计算机程序,
该计算机程序被处理器执行时,可使得处理器执行文本翻译方法。
[0211] 本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设
备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0212] 在一个实施例中,本申请提供的文本翻译装置可以实现为一种计算机程序的形式,计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成
该文本翻译装置的各个程序模块,比如,图12所示的获取模块、编码模块、解码模块、拼接模
块、重构模块和生成模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描
述的本申请各个实施例的文本翻译方法中的步骤。
[0213] 例如,图14所示的计算机设备可以通过如图12所示的文本翻译装置中的获取模块执行步骤S202。计算机设备可通过编码模块执行步骤S204。计算机设备可通过解码模块执
行步骤S206。计算机设备可通过拼接模块执行步骤S208。计算机设备可通过重构模块执行
步骤S210。计算机设备可通过生成模块执行步骤S212。
[0214] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本翻译方法的步骤。此处文
本翻译方法的步骤可以是上述各个实施例的文本翻译方法中的步骤。
[0215] 在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本翻译方法的步骤。此处文本翻译方法的步骤
可以是上述各个实施例的文本翻译方法中的步骤。
[0216] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取
存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供
的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性
和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编
程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器
(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM
(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM
(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直
接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0217] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
[0218] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员
来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保
护范围。因此,本申请专利的保护范围应以所附权利要求为准。