文本翻译方法、装置、设备及计算机可读存储介质转让专利
申请号 : CN202110287301.7
文献号 : CN112668347B
文献日 : 2021-06-22
发明人 : 张祥文
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种文本翻译方法,其特征在于,所述方法包括:调用编码器对待翻译文本中的每个待翻译词依次进行映射处理,得到所述待翻译文本的隐状态表示,所述隐状态表示包括每个所述待翻译词的词向量表示;
根据所述待翻译文本的隐状态表示,预测得到候选词集合;
在调用解码器对所述隐状态表示进行解码翻译过程中,针对于每个所述待翻译词,获取在所述待翻译词之前的已翻译词对应的中间向量表示;
根据所述中间向量表示,预测所述待翻译词的未来词向量表示,其中,所述未来词向量表示与未来词对应,所述未来词是指预测得到的位于当前的待翻译词之后的其他待翻译词对应的译文词;
调用所述解码器依次基于每一所述待翻译词的词向量表示和所述未来词向量表示,在所述候选词集合中预测出与所述待翻译文本对应的译文;
所述解码器包括标准解码器和未来解码器;所述调用所述解码器依次基于每一所述待翻译词的词向量表示和所述未来词向量表示,在所述候选词集合中预测出与所述待翻译文本对应的译文,包括:调用所述标准解码器,根据所述当前的待翻译词的词向量表示和所述当前的待翻译词对应的所述中间向量表示,生成与所述当前的待翻译词对应的标准状态表示,其中,所述标准状态表示是指预设词库中具有最高概率作为所述当前的待翻译词的译文词的词的词向量表示,所述当前的待翻译词的译文词的词是基于所述当前的待翻译词的词向量表示和所述中间向量表示确定的;调用所述未来解码器,根据所述当前的待翻译词的词向量表示和所述未来词向量表示,生成与所述当前的待翻译词对应的未来状态表示,其中,所述未来状态表示是指所述预设词库中具有未来词数量的词的词向量表示,所述具有未来词数量的词是基于所述当前的待翻译词的词向量表示和所述未来词向量表示确定的;根据每个所述待翻译词的所述标准状态表示和所述未来状态表示,在所述候选词集合中生成与所述待翻译文本对应的译文。
2.根据权利要求1所述的方法,其特征在于,所述调用编码器对待翻译文本中的每个待翻译词依次进行映射处理,得到所述待翻译文本的隐状态表示,包括:对所述待翻译文本进行分词处理,得到至少一个待翻译词;
调用所述编码器对每个所述待翻译词进行词向量映射,得到与每个待翻译词对应的词向量表示;
通过所述编码器对每个待翻译词对应的所述词向量表示依次进行向量变换处理,得到所述待翻译文本的隐状态表示。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待翻译文本的隐状态表示,预测得到候选词集合,包括:
调用全局分类器,基于所述待翻译文本的隐状态表示,采用多分类方式,确定出预设词库中的每一词作为所述待翻译词对应的候选词的概率;
按照所述概率由大到小的顺序,对所述预设词库中的词进行排序,形成词序列;
将所述词序列中的前预设数量的词,确定为所述候选词集合中的候选词。
4.根据权利要求1所述的方法,其特征在于,所述获取在所述待翻译词之前的已翻译词对应的中间向量表示,包括:
将所述待翻译文本中位于当前的待翻译词之前的全部待翻译词,确定为目标待翻译词;
获取所述解码器对所述目标待翻译词进行翻译后得到的全部已翻译词;
对所述全部已翻译词进行词向量映射,得到与每个所述已翻译词对应的词向量表示;
通过所述解码器对每个所述已翻译词对应的词向量表示依次进行向量变换处理,得到与所述全部已翻译词对应的隐状态表示;
将所述全部已翻译词对应的隐状态表示,确定为所述当前的待翻译词对应的中间向量表示。
5.根据权利要求4所述的方法,其特征在于,所述根据所述中间向量表示,预测所述待翻译词的未来词向量表示,包括:
在调用所述解码器对所述待翻译文本中的每个待翻译词进行解码翻译的过程中,调用局部分类器,根据所述当前的待翻译词对应的所述中间向量表示,预测与所述当前的待翻译词对应的未来词的所述未来词向量表示。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述待翻译词的所述标准状态表示和所述未来状态表示,在所述候选词集合中生成与所述待翻译文本对应的译文,包括:
对所述标准状态表示和所述未来状态表示进行融合处理,得到与所述当前的待翻译词对应的译文词的词向量表示;
根据全部待翻译词对应的译文词的词向量表示,在所述候选词集合中生成与所述待翻译文本对应的译文。
7.根据权利要求1所述的方法,其特征在于,所述调用所述标准解码器,根据所述当前的待翻译词的词向量表示和所述当前的待翻译词对应的所述中间向量表示,生成与所述当前的待翻译词对应的标准状态表示,包括:调用所述标准解码器,根据所述当前的待翻译词的词向量表示和所述当前的待翻译词对应的所述中间向量表示,确定出预设词库中的每一词作为所述当前的待翻译词对应的所述译文词的第一概率;
将具有最高第一概率的词的词向量表示,确定为所述标准状态表示。
8.根据权利要求1所述的方法,其特征在于,所述调用所述未来解码器,根据所述当前的待翻译词的词向量表示和所述未来词向量表示,生成与所述当前的待翻译词对应的未来状态表示,包括:
调用所述未来解码器,根据所述当前的待翻译词的词向量表示和所述未来词向量表示,确定出预设词库中的每一词作为所述当前的待翻译词对应的未来词的第二概率;
确定所述当前的待翻译词对应的未来词的未来词数量;
根据所述第二概率,在所述预设词库中选择具有所述未来词数量的词,作为所述当前的待翻译词对应的目标未来词;
将所述目标未来词的词向量表示,确定为所述未来状态表示。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:在调用所述解码器对所述隐状态表示进行解码翻译过程中,采用注意力机制获取所述编码器得到的所述待翻译文本的隐状态表示。
10.根据权利要求1至9任一项所述的方法,其特征在于,由所述编码器、所述解码器、全局分类器和局部分类器形成文本翻译模型,通过所述文本翻译模型实现所述文本翻译方法;
其中,所述文本翻译模型通过以下步骤进行训练:将样本待翻译文本输入至所述文本翻译模型中;
通过所述编码器,对所述样本待翻译文本中的每个样本待翻译词依次进行映射处理,得到所述样本待翻译文本的样本隐状态表示,所述样本隐状态表示包括每个所述样本待翻译词的样本词向量表示;
通过所述全局分类器,根据所述样本待翻译文本的样本隐状态表示,预测得到样本候选词集合;
通过所述局部分类器,预测所述样本待翻译词的样本未来词向量表示;
通过所述解码器,依次基于每一所述样本待翻译词的样本词向量表示和所述样本未来词向量表示,在所述样本候选词集合中预测出与所述样本待翻译文本对应的样本译文;
将所述样本译文输入至预设损失模型中,得到损失结果;
根据所述损失结果,对所述编码器、所述解码器、所述全局分类器和所述局部分类器中的参数进行修正,得到训练后的文本翻译模型。
11.一种文本翻译装置,其特征在于,所述装置包括:映射处理模块,用于调用编码器对待翻译文本中的每个待翻译词依次进行映射处理,得到所述待翻译文本的隐状态表示,所述隐状态表示包括每个所述待翻译词的词向量表示;
第一预测模块,用于根据所述待翻译文本的隐状态表示,预测得到候选词集合;
获取模块,用于在调用解码器对所述隐状态表示进行解码翻译过程中,针对于每个所述待翻译词,获取在所述待翻译词之前的已翻译词对应的中间向量表示;
第二预测模块,用于根据所述中间向量表示,预测所述待翻译词的未来词向量表示,其中,所述未来词向量表示与未来词对应,所述未来词是指预测得到的位于当前的待翻译词之后的其他待翻译词对应的译文词;
第三预测模块,用于调用所述解码器依次基于每一所述待翻译词的词向量表示和所述未来词向量表示,在所述候选词集合中预测出与所述待翻译文本对应的译文;
所述解码器包括标准解码器和未来解码器;所述第三预测模块,还用于调用所述标准解码器,根据所述当前的待翻译词的词向量表示和所述当前的待翻译词对应的所述中间向量表示,生成与所述当前的待翻译词对应的标准状态表示,其中,所述标准状态表示是指预设词库中具有最高概率作为所述当前的待翻译词的译文词的词的词向量表示,所述当前的待翻译词的译文词的词是基于所述当前的待翻译词的词向量表示和所述中间向量表示确定的;调用所述未来解码器,根据所述当前的待翻译词的词向量表示和所述未来词向量表示,生成与所述当前的待翻译词对应的未来状态表示,其中,所述未来状态表示是指所述预设词库中具有未来词数量的词的词向量表示,所述具有未来词数量的词是基于所述当前的待翻译词的词向量表示和所述未来词向量表示确定的;根据每个所述待翻译词的所述标准状态表示和所述未来状态表示,在所述候选词集合中生成与所述待翻译文本对应的译文。
12.一种文本翻译设备,其特征在于,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的文本翻译方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至10任一项所述的文本翻译方法。
说明书 :
文本翻译方法、装置、设备及计算机可读存储介质
技术领域
背景技术
自回归式建模中,每个解码步骤只能看到过去已经生成的译文片段(即完整译文的前缀),
而无法看到尚未生成的译文片段(即完整译文的后缀)。显然,这使得机器翻译模型在解码
时能获得的信息,受限于已翻译的局部上下文。
用以下技术方案:同步双向解码和预测当前词的词性。
发明内容
下文,并对解码器翻译得到的中间向量表示进行预测得到未来词向量表示,从而实现提前
预测并建模未来上下文,如此,在对待翻译文本进行翻译时,能够充分利用全局信息和局部
未来信息,从而有效提升文本翻译的效率。
表示;
备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器用于执行所述
计算机指令,实现上述的文本翻译方法。
测得到候选词集合,实现建模全局上下文;在调用解码器对隐状态表示进行解码翻译过程
中,针对于每个待翻译词,获取在待翻译词之前的已翻译词对应的中间向量表示,并根据中
间向量表示,预测待翻译词的未来词向量表示,从而实现提前预测并建模未来上下文,如
此,在对待翻译文本进行翻译时,能够基于每一待翻译词的词向量表示和未来词向量表示,
在候选词集合中预测出与待翻译文本对应的译文,即充分利用预测得到的全局信息和局部
未来信息来辅助翻译过程,从而有效提升文本翻译的效率。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于
本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只
是为了描述本申请实施例的目的,不是旨在限制本申请。
态。
合认知逻辑的自然语言建模方式。因此,在自回归式建模中,每个解码步骤只能看到过去已
经生成的译文片段,而无法看到尚未生成的译文片段。显然,这使得机器翻译模型在解码时
能获得的信息,受限于已翻译的局部上下文。而相关技术中并没有同时利用全局上下文和
局部未来上下文进行建模的方式。
来上下文的信息,来辅助当前解码;另外,通过建模全局上下文,提高模型生成的表示的可
判别性。这两种方式的结合,使得模型能够充分利用全局信息和局部未来信息,从而有效提
升翻译模型的性能。此外,建模全局上下文的一个额外好处是,还可以大幅缩减翻译时的候
选词表,从而有效提升翻译模型的效率。
译词的词向量表示;并根据待翻译文本的隐状态表示,预测得到候选词集合;然后,在调用
解码器对隐状态表示进行解码翻译过程中,针对于每个待翻译词,获取在待翻译词之前的
已翻译词对应的中间向量表示;并根据中间向量表示,预测待翻译词的未来词向量表示;最
后,调用解码器依次基于每一待翻译词的词向量表示和未来词向量表示,在候选词集合中
预测出与待翻译文本对应的译文。如此,在对待翻译文本进行翻译时,能够基于每一待翻译
词的词向量表示和未来词向量表示,在候选词集合中预测出与待翻译文本对应的译文,即
充分利用预测得到的全局信息和局部未来信息来辅助翻译过程,从而有效提升文本翻译的
效率。
(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智
能机器人等任意的具备文本输入功能或文本编辑功能或文本翻译应用的终端;在另一种实
现方式中,本申请实施例提供的文本翻译设备还可以实施为服务器。下面,将说明文本翻译
设备实施为服务器时的示例性应用。
100、网络200和服务器300,终端100上运行有文本翻译应用,该文本翻译应用能够实现将输
入的待翻译文本翻译成对应的译文并输出。本申请实施例中,用户可以在终端上的文本翻
译应用的客户端输入待翻译文本,终端根据待翻译文本形成文本翻译请求,文本翻译请求
中包括待翻译文本,终端将文本翻译请求通过网络200发送给服务器300。
文本的隐状态表示,其中隐状态表示包括每个待翻译词的词向量表示;并根据待翻译文本
的隐状态表示,预测得到候选词集合;然后,在调用解码器对隐状态表示进行解码翻译过程
中,针对于每个待翻译词,获取在待翻译词之前的已翻译词对应的中间向量表示;根据中间
向量表示,预测待翻译词的未来词向量表示;最后,调用解码器依次基于每一待翻译词的词
向量表示和未来词向量表示,在候选词集合中预测出与待翻译文本对应的译文。服务器300
在生成译文之后将译文发生给终端100,终端100在当前界面100‑1上现实与待翻译文本对
应的译文。在一些实施例中,在当前界面上可以同时显示待翻译文本和译文,也可以仅显示
译文。
生成最终的译文。或者,还可以具有云端存储器,可以将编码器和解码器的参数存储于云端
存储器中,在进行文本翻译处理时,可以从云端存储器中获取编码器和解码器准确的参数,
从而通过编码器和解码器实现本申请实施例的文本翻译方法。在一些实施例中,可以将翻
译得到的译文存储于云端存储器中,以便于用户在后续想继续翻译相同的待翻译文本时,
可以直接从云端存储器中获取该待翻译文本对应的译文,无需服务器进行再次翻译,降低
了服务器的数据处理量。
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技
术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络
系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。
伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需
要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需
要强大的系统后盾支撑,只能通过云计算来实现。
文本中的每个待翻译词依次进行映射处理,通过人工智能技术预测得到候选词集合,且通
过人工智能技术预测每个待翻译词的未来词,进而准确的确定出待翻译文本对应的译文。
在一些实施例中,还可以通过人工智能技术训练一文本翻译模型,通过该文本翻译模型来
实现本申请实施例的文本翻译方法,即通过该文本翻译模型来自动生成对应于待翻译文本
的译文。
统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人
类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性
能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的
各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归
纳学习、式教学习等技术。自然语言处理(NLP,Nature Language processing)是计算机科
学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行
有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科
学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研
究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问
答、知识图谱等技术。
备中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之
间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号
总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统340。
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非
易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性
存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器
350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各
种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
Universal Serial Bus)等;
本翻译装置,其可以是程序和插件等形式的软件,包括以下软件模块:映射处理模块3541、
第一预测模块3542、获取模块3543、第二预测模块3544和第三预测模块3545,这些模块是逻
辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个
模块的功能。
请实施例提供的文本翻译方法,例如,硬件译码处理器形式的处理器可以采用一个或多个
应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑
器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex
Programmable Logic Device)、现场可编程门阵列(FPGA,Field‑Programmable Gate
Array)或其他电子元件。
文本编辑功能或文本翻译应用的终端,或者也可以是服务器,即本申请实施例的文本翻译
方法可以通过终端来执行,也可以通过服务器来执行,或者还可以通过终端与服务器进行
交互来执行。
为执行主体来实现的文本翻译方法。
待翻译文本的隐状态表示。需要说明的是,待翻译文本的隐状态表示是编码器的输出向量,
即待翻译文本的隐状态表示是编码器的最后一层的输出。隐状态表示包括每个待翻译词的
词向量表示,隐状态表示由全部待翻译词的词向量表示形成。
词集合中确定出译文。候选词集合是从预设词库中筛选得到的词集合,候选词集合中的候
选词的数量远小于预设词库中的词的数量。举例来说,预设词库可以是预先设置的包括所
有常规词的词库,预设词库中的词的数量众多,但是对于待翻译文本来说,需要的候选词只
是预设词库中的一小部分词,因此,可以先对预设词库中的词进行筛选,得到候选词集合,
这样,在后续确定译文的时候,只需在候选词集合中确定出匹配的译文,从而能够极大的提
高翻译的速度。
选出与待翻译词语义最接近的一定数量的词作为候选词。
译之后所得到的词。需要说明的是,对每一待翻译词进行解码翻译后得到的译文词包括一
个或多个单词,因此,当前的待翻译词之前的已翻译词的数量与当前的待翻译词之前的全
部待翻译词的数量可以相同,也可以不同。
可以通过注意力机制进行连接,这样通过注意力机制作为连接编码器和解码器的桥梁,能
够起到信息抽取和双语对齐的作用。
根据待翻译词之前的已翻译词对应的中间向量表示来得到,即可以对中间向量表示进行一
系列的线性变换处理,从而预测得到未来词的未来词向量表示。
词的数量。当前的待翻译词对应的未来词是指预测得到的位于当前的待翻译词之后的其他
待翻译词对应的译文词,预测得到的未来词与待翻译词对应的真实的译文词可以相同,也
可以不同,也可以相近。
翻译,从而能够极大的提高对待翻译文本的翻译准确性。
码翻译。
候选词集合中匹配出与每一待翻译词对应的译文词,并对译文词进行排序形成译文,如此,
能够极大的降低解码翻译的数据匹配量,从而提高翻译效率。并且,由于候选词集合是根据
待翻译文本的隐状态表示得到的,因此候选词集合中包括了全部待翻译词对应的可能的译
文词,因此在候选词集合中预测译文,也能够保证所预测的译文的准确性。
预测得到候选词集合,实现建模全局上下文;在调用解码器对隐状态表示进行解码翻译过
程中,针对于每个待翻译词,获取在待翻译词之前的已翻译词对应的中间向量表示,并根据
中间向量表示,预测待翻译词的未来词向量表示,从而实现提前预测并建模未来上下文,如
此,在对待翻译文本进行翻译时,能够基于每一待翻译词的词向量表示和未来词向量表示,
在候选词集合中预测出与待翻译文本对应的译文,即充分利用预测得到的全局信息和局部
未来信息来辅助翻译过程,从而有效提升文本翻译的效率。
器402、全局分类器403和局部分类器404,其中,编码器401用于将输入的待翻译文本编码成
隐状态来表示;解码器402用于从编码器生成的隐状态中,抽取相关的源端上下文信息,来
从左向右逐个生成译文单词;全局分类器403用于预测解码器解码翻译时的候选词集合;局
部分类器404用于在对每个待翻译词进行解码翻译过程中,预测与该待翻译词对应的未来
的K个词(即未来词)。
在一些实施例中,步骤S301可以通过以下步骤实现:
分类时,可以采用多分类方式进行预测,将预设词库中的词分成多个类别,对于每一待翻译
词,在每一类别中确定候选词。
小。
最终概率,通过这个最终概率来进行候选词的筛选。
应的未来词的未来词向量表示。
结构,也可以与解码器具有不同的网络结构,局部分类器是基于解码器对当前的待翻译词
之前的其他待翻译词进行预测所得到的中间向量表示,来进行进一步的预测的,且针对于
每一当前的待翻译词,局部分类器与解码器的预测过程可以是同时进行的,因此,局部分类
器在进行预测时,不仅与解码器进行串行计算,还与解码器进行并行计算。
示,文本翻译模型400包括:编码器401、标准解码器601、未来解码器602、全局分类器403和
局部分类器404,其中,标准解码器601用于生成与当前的待翻译词对应的标准状态表示,未
来解码器602用于生成与当前的待翻译词对应的未来状态表示。
第一概率。
S7022,确定当前的待翻译词对应的未来词的未来词数量。步骤S7023,根据第二概率,在预
设词库中选择具有未来词数量的词,作为当前的待翻译词对应的目标未来词。步骤S7024,
将目标未来词的词向量表示,确定为未来状态表示。
示,在候选词集合中生成与待翻译文本对应的译文。
示,包括以下步骤:
样本词向量表示。
即文本翻译模型能够实现准确的翻译工作,因此损失结果表明当前的文本翻译模型中的参
数需要修正的范围较小或者无需再进行修正;当样本译文与标准译文之间的相似度小于或
等于相似度阈值时,表明样本译文与标准译文之间差距比较大,文本翻译模型不能准确的
预测出待翻译文本的译文,即文本翻译模型不能实现准确的翻译工作,因此损失结果表明
当前的文本翻译模型中的参数需要进行较大范围的修正。
修正范围,并采用所确定出的修正值和修正范围对参数进行修正,实现对文本翻译模型中
参数的反向传播。
之间的相似度阈值。
阈值时,则停止对文本翻译模型的训练,并将当前得到的训练后的文本翻译模型,确定为最
终训练好的文本翻译模型。
文本翻译模型,确定为最终训练好的文本翻译模型。
停止对文本翻译模型的训练,并将当前得到的训练后的文本翻译模型,确定为最终训练好
的文本翻译模型。
译文;并通过预设损失模型确定样本译文与标准译文之间的相似度,得到损失结果,从而实
现根据损失结果对文本翻译模型中的参数进行修正,得到最终训练好的文本翻译模型。如
此,根据训练好的文本翻译模型,能够对待翻译文本进行高效和准确的翻译,提高文本翻译
应用的用户使用体验。
前解码步骤,从而提升模型性能;且本申请实施例的文本翻译模型的训练方式和传统机器
翻译模型相同,不额外增加训练复杂度;在解码时,通过预测得到的词袋(即候选词集合)对
候选词表(即预设词库)进行剪枝,在不损失性能的前提下,能够提升解码速度;同时,本申
请实施例的方法实现方式简单,容易实现线上部署。
了一个中文句子901对应的英文译文902,在将中文句子901翻译成英文译文902时,可以采
用本申请实施例提供的文本翻译方法来进行后台实现。
型结构如图10所示,机器翻译模型1000遵循常见的编解码器架构,由编码器1001
(encoder)、解码器1002(decoder)和注意机制1003(attention)组成。编码器1001、解码器
1002和注意机制1003(即注意力机制)均为多层神经网络。
从左向右逐个生成译文单词;注意机制1003作为连接编码器1001、解码器1002的桥梁,在某
种程度上起到信息抽取、双语对齐的作用。
(即待翻译文本的隐状态表示);第二步,以解码器生成第t个词为例,解码器将前目标端y的
t‑1个词映射为词向量,输入到解码器中,并使用解码器生成的隐状态,记为 (即中间向量
表示),来预测 ;最后,解码器重复上述的第二步,直到生成完整的译文。源端和目标端的
隐状态,分别来自NMT子模型的编码器与解码器的最后一层向量,表示 所对应的相关
信息。
用于对 做线性变换。
文建模。与解码器的不同点在于,解码器使用自回归的方式逐个生成译文单词,因此后生成
的词依赖于之前生成的词,而在全局上下文建模时,可以使用多分类的方式,直接预测目标
端的所有词。基于图10,图11是本申请实施例提供的机器翻译模型的结构示意图,如图11所
示,在编码器端增加了一个全局分类器1101。 是该全局分类器的目标函数,全局分类器
的目标函数如以下公式(1‑2)至(1‑4):
为源端信息的总结,用于预测目标端词袋;公式(1‑3)与上述公式(1‑1)使用相同的参数W,
以避免增加额外的参数。
的全局上下文,从而显式地拉近编码器生成的隐状态与解码器生成的译文之间的距离,提
高编码器生成的隐状态与解码器生成的译文之间相关性,以及编码器所生成表示关于译文
的判别能力。
器端引入局部未来上下文的建模。
类器1201(记为局部分类器F),用于预测未来的K个词。与编码器中的全局分类器G不同的
是,全局分类器G只在生成所有源端隐状态H后,预测一次目标端词袋;而局部分类器F在解
码器端的每一个解码步骤都需要预测未来译文的词袋,即需要预测n次。与公式(1‑4)相似,
在第t个步骤,局部分类器的目标函数 通过以下公式(1‑5)和(1‑6)进行定义:
解码步骤在目标端词表上预测未来的第k个词的概率分布; 表示在满足
的条件下,第t个解码步骤在目标端词表上预测未来的第k个词的概率分布。
记为未来上下文词 和 (其中,未来上下文词对应的词向量表示即为上述未来词向量
表示)。
解码器1402。至于未来上下文词 ,则以同样的方式建模 ,并以此类推。
络结构。
隐状态;连接 的粗虚线,则表示未来解码器与标准解码器一样,需要通过注意机制
(attention)来访问编码器的信息。
解码器和标准解码器信息的过程示意图。
现:
来调节3个损失函数的重要性。
表,即公式(1‑8)中的矩阵W进行剪枝,只保留矩阵W中N个候选词对应的N个参数向量,从而
大幅提升解码效率。例如,可以将目标端词表中的词从32000个缩减到1000个。
源。
解码器与标准解码器不仅可以使用相同结构,还可以采用不同的架构,通过增加网络结构
多样性,从而进一步提升性能或提升速度,例如标准解码器使用基于自注意机制的模型,而
未来解码器使用基于循环神经网络的模型;在一些实施例中,还可以在未来解码器中使用
与标准解码器相同的自回归方式,建模 ,从而保留K个未来上下文的时序关系;也可以
采取完全独立建模的方式,丢弃它们间的时序关系,实现进一步加速;在一些实施例中,公
式(1‑7)中的聚合函数,可以使用任意方式进行组合从而归纳成一个单独的向量,例如:(1)
可以使用求平均、最大化、最小化(即mean、max、min)三种池化(pooling)方式;(2)使用自注
意机制;(3)先对 进行任意的聚合处理(aggregate)得到 ,再通过残差连接融合 ,
即 ;(4)还可以用最简单的方式,只保留未来解码器的最后一个未来状态,即
。
个都不影响另一个正常工作。
向量表示;第一预测模块3542,用于根据所述待翻译文本的隐状态表示,预测得到候选词集
合;获取模块3543,用于在调用解码器对所述隐状态表示进行解码翻译过程中,针对于每个
所述待翻译词,获取在所述待翻译词之前的已翻译词对应的中间向量表示;第二预测模块
3544,用于根据所述中间向量表示,预测所述待翻译词的未来词向量表示;第三预测模块
3545,用于调用所述解码器依次基于每一所述待翻译词的词向量表示和所述未来词向量表
示,在所述候选词集合中预测出与所述待翻译文本对应的译文。
待翻译词对应的词向量表示;通过所述编码器对每个待翻译词对应的所述词向量表示依次
进行向量变换处理,得到所述待翻译文本的隐状态表示。
候选词的概率;按照所述概率由大到小的顺序,对所述预设词库中的词进行排序,形成词序
列;将所述词序列中的前预设数量的词,确定为所述候选词集合中的候选词。
翻译后得到的全部已翻译词;对所述全部已翻译词进行词向量映射,得到与每个所述已翻
译词对应的词向量表示;通过所述解码器对每个所述已翻译词对应的词向量表示依次进行
向量变换处理,得到与所述全部已翻译词对应的隐状态表示;将所述全部已翻译词对应的
隐状态表示,确定为所述当前的待翻译词对应的中间向量表示。
对应的所述中间向量表示,预测与所述当前的待翻译词对应的未来词的所述未来词向量表
示。
译词对应的所述中间向量表示,生成与所述当前的待翻译词对应的标准状态表示;调用所
述未来解码器,根据所述当前的待翻译词的词向量表示和所述未来词向量表示,生成与所
述当前的待翻译词对应的未来状态表示;根据每个所述待翻译词的所述标准状态表示和所
述未来状态表示,在所述候选词集合中生成与所述待翻译文本对应的译文。
待翻译词对应的译文词的词向量表示,在所述候选词集合中生成与所述待翻译文本对应的
译文。
的每一词作为所述当前的待翻译词对应的所述译文词的第一概率;将具有最高第一概率的
词的词向量表示,确定为所述标准状态表示。
述当前的待翻译词对应的未来词的第二概率;确定所述当前的待翻译词对应的未来词的未
来词数量;根据所述第二概率,在所述预设词库中选择具有所述未来词数量的词,作为所述
当前的待翻译词对应的目标未来词;将所述目标未来词的词向量表示,确定为所述未来状
态表示。
译文本的隐状态表示。
下步骤进行训练:将样本待翻译文本输入至所述文本翻译模型中;通过所述编码器,对所述
样本待翻译文本中的每个样本待翻译词依次进行映射处理,得到所述样本待翻译文本的样
本隐状态表示,所述样本隐状态表示包括每个所述样本待翻译词的样本词向量表示;通过
所述全局分类器,根据所述样本待翻译文本的样本隐状态表示,预测得到样本候选词集合;
通过所述局部分类器,预测所述样本待翻译词的样本未来词向量表示;通过所述解码器,依
次基于每一所述样本待翻译词的样本词向量表示和所述样本未来词向量表示,在所述样本
候选词集合中预测出与所述样本待翻译文本对应的样本译文;将所述样本译文输入至预设
损失模型中,得到损失结果;根据所述损失结果,对所述编码器、所述解码器、所述全局分类
器和所述局部分类器中的参数进行修正,得到训练后的文本翻译模型。
请参照本申请方法实施例的描述而理解。
理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机
设备执行本申请实施例上述的方法。
示出的方法。
读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,
Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,
Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、
或光盘只读存储器(CD‑ROM,Compact Disk‑Read Only Memory)等存储器;也可以是包括上
述存储器之一或任意组合的各种设备。
可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计
算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
内。