基于交叉层级注意机制的篇章神经机器翻译方法及系统转让专利

申请号 : CN202111016267.6

文献号 : CN113705168B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李军辉陈林卿贡正仙周国栋

申请人 : 苏州大学

摘要 :

本发明公开一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:将未处理的语料生成包含文档结构信息的训练语料;使用训练语料训练基础结构的篇章神经机器翻译模型;利用翻译模型获取具有句子边界信息的源端文档句向量集合;将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;将全局上下文与翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;对其进行神经网络训练。本发明在训练中引入篇章的全局上下文信息,将待翻译的篇章视为整体进行翻译,保持篇章结构信息的同时,可避免上下文信息被忽略,导致错翻或者漏翻。

权利要求 :

1.一种基于交叉层级注意机制的篇章神经机器翻译方法,其特征在于,包括:S1:将未处理的语料生成包含文档结构信息的训练语料;

S2:使用训练语料训练基础结构的篇章神经机器翻译模型;

S3:利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;

S4:将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;

S5:将S4得到的篇章级别的全局上下文与S2得到的篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;

S6:对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练;S1步骤中生成训练语料包括以下步骤:

S1.1:将文档处理为单个长句,使用特殊符号标记文档句子边界;

S1.2:在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章;S4步骤中利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文包括:利用编码器将句子编码为字符级别的向量表达形式; 利用句向量嵌入层将文档转化为句向量集合的表达形式,即每个句子用一个向量表示,而每个篇章由若干句向量组成的集合表示;通过交叉层级注意力机制获取当前句中每个词与文档中所有句子之间的依赖关系权重矩阵; 将上下文根据上述依赖关系权重矩阵进行分配,从而得到针对当前句中每个字符独有的全局上下文。

2.如权利要求1所述的一种基于交叉层级注意机制的篇章神经机器翻译方法,其特征在于:所述语料包括源语料和目标语料。

3.如权利要求1所述的一种基于交叉层级注意机制的篇章神经机器翻译方法,其特征在于:S3步骤中具有句子边界信息的源端文档句向量集合包括:利用神经网络生成以篇章为单位但仍然保持句子独立性的词级隐藏状态,利用句子嵌入层将词级隐藏状态转化为以句子为单位的句向量集合。

4.如权利要求1所述的一种基于交叉层级注意机制的篇章神经机器翻译方法,其特征在于:S6步骤中所述翻译模型的训练包括:将S2得到的所述基础结构的篇章神经机器翻译模型的参数加载入基于交叉注意机制的篇章神经机器翻译模型;

将基于交叉注意机制的篇章神经机器翻译模型中与基础结构的篇章神经机器翻译模型共享的参数进行冻结;

对基于交叉注意机制的篇章神经机器翻译模型进行训练。

5.一种基于交叉层级注意机制的篇章神经机器翻译系统,其特征在于,包括:语料预处理模块,其用于将未处理的语料生成包含文档结构信息的训练语料;

基础翻译模型训练模块,其用于使用训练语料训练基础结构的篇章神经机器翻译模型;

句向量获取模块,其用于利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;

全局上下文模块,其用于将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;

神经机器翻译模型获得模块,其用于将篇章级别的全局上下文与篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;

神经机器翻译模型训练模块,其用于对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练;所述语料预处理模块包括:

语料标记单元,其用于将文档处理为单个长句,使用特殊符号标记文档句子边界;

语料切分单元,其用于在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章;所述全局上下文模块利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文包括:利用编码器将句子编码为字符级别的向量表达形式; 利用句向量嵌入层将文档转化为句向量集合的表达形式,即每个句子用一个向量表示,而每个篇章由若干句向量组成的集合表示;通过交叉层级注意力机制获取当前句中每个词与文档中所有句子之间的依赖关系权重矩阵; 将上下文根据上述依赖关系权重矩阵进行分配,从而得到针对当前句中每个字符独有的全局上下文。

说明书 :

基于交叉层级注意机制的篇章神经机器翻译方法及系统

技术领域

[0001] 本发明涉及神经机器翻译技术领域,具体涉及一种基于交叉层级注意机制的篇章神经机器翻译的方法及系统。

背景技术

[0002] 现有常见神经机器翻译方法是基于平行句对的神经机器翻译方法,利用大规模双语平行语料,通过编码器‑解码器神经网络框架进行模型训练。在训练的时候使用词级注意机制计算一个句子内所有词之间的依赖关系,为词获取来自其所在句内其他词的有效信息。
[0003] 然而词级注意机制只能获取单个句子内部词之间的依赖关系,忽略文档内句子间的联系及结构关系。而上下文有利于文档翻译质量提升已经得到诸多研究者的研究成果支持。同时,忽略篇章上下文信息也会造成翻译错误累积传播,带来诸如指代不一致等问题。

发明内容

[0004] 为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种基于交叉层级注意机制的篇章神经机器翻译的方法、装置及系统,通过模型自动感知文档边界,并提供上下文捕获器为当前句中每个词获取来自整个文档的上下文,提高翻译质量及翻译流畅度,解决诸如指代不一致等问题。
[0005] 为了解决上述技术问题,本发明提供了一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:
[0006] S1:将未处理的语料生成包含文档结构信息的训练语料;
[0007] S2:使用训练语料训练基础结构的篇章神经机器翻译模型;
[0008] S3:利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;
[0009] S4:将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;
[0010] S5:将S4得到的篇章级别的全局上下文与S2得到的篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;
[0011] S6:对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练。
[0012] 在本发明的一个实施例中,所述语料包括源语料和目标语料。
[0013] 在本发明的一个实施例中,S1步骤中生成训练语料包括以下步骤:
[0014] S1.1:将文档处理为单个长句,使用特殊符号标记文档句子边界;
[0015] S1.2:在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章。
[0016] 在本发明的一个实施例中,S2步骤中所述基础结构的篇章神经机器翻译模型的能力包括:
[0017] 具备以篇章为单位进行注意机制运算的能力;
[0018] 具备以篇章为单位进行文档翻译的能力;
[0019] 具备以篇章为单位进行翻译模型训练过程中必须的能力;
[0020] 在进行以上运算过程中保持句子对齐的能力。
[0021] 在本发明的一个实施例中,S3步骤中具有句子边界信息的源端文档句向量集合包括:
[0022] 利用神经网络生成以篇章为单位但仍然保持句子独立性的词级隐藏状态,利用句子嵌入层将词级隐藏状态转化为以句子为单位的句向量集合。
[0023] 在本发明的一个实施例中,S4步骤中所述词与句之间的依赖权重矩阵及每个词获取独立的篇章级别的全局上下文包括:
[0024] 从源语料获取当前语句的词级隐藏状态,以及获取整个篇章的句子向量集合作为上下文来源,句子向量表示与词向量表示通过交叉级别注意机制运算获取当前句中每个词与篇章中所有句子的依赖关系权重矩阵,为目标句子中的词分别获取来自整个篇章的全局上下文。
[0025] 在本发明的一个实施例中,S6步骤中所述翻译模型的训练包括:
[0026] 将S2得到的所述基础结构的篇章神经机器翻译模型的参数加载入基于交叉注意机制的篇章神经机器翻译模型;
[0027] 将基于交叉注意机制的篇章神经机器翻译模型中与基础结构的篇章神经机器翻译模型共享的参数进行冻结;
[0028] 对基于交叉注意机制的篇章神经机器翻译模型进行训练。
[0029] 此外,本发明还提供一种基于交叉层级注意机制的篇章神经机器翻译系统,包括:
[0030] 语料预处理模块,其用于将未处理的语料生成包含文档结构信息的训练语料;
[0031] 基础翻译模型训练模块,其用于使用训练语料训练基础结构的篇章神经机器翻译模型;
[0032] 句向量获取模块,其用于利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;
[0033] 全局上下文模块,其用于将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;
[0034] 神经机器翻译模型获得模块,其用于将篇章级别的全局上下文与篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;
[0035] 神经机器翻译模型训练模块,其用于对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练。
[0036] 在本发明的一个实施例中,所述语料预处理模块包括:
[0037] 语料标记单元,其用于将文档处理为单个长句,使用特殊符号标记文档句子边界;
[0038] 语料切分单元,其用于在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章。
[0039] 在本发明的一个实施例中,所述全局上下文模块包括:
[0040] 词级表达形式编码单元,其用于对上下文在词层面进行编码;
[0041] 句向量转化单元,其用于将上下文的词级表达形式转化为句级表达形式;
[0042] 交叉层级注意力机制单元,其用于获取交叉层级的词/句级依赖权重关系矩阵;
[0043] 全局上下文分配单元,其用于将获取的上下文按需分配给当前句的每个词。
[0044] 本发明的上述技术方案相比现有技术具有以下优点:
[0045] 本发明通过在训练中引入了来自整个篇章的全局上下文信息,将待翻译的篇章视为一个整体进行翻译,在翻译过程中保持篇章结构信息的同时,因此可以避免上下文信息被忽略,导致错翻或者漏翻的情况。

附图说明

[0046] 图1是本发明一种基于交叉层级注意机制的篇章神经机器翻译方法的流程示意图。
[0047] 图2是本发明将未处理的语料生成包含文档结构信息的训练语料的方法示意图。
[0048] 图3是本发明利用交叉注意机制全局上下文的方法示意图。
[0049] 图4是本发明将全局上下文与篇章神经机器翻译模型结合的方法示意图。
[0050] 图5是本发明对基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练的方法示意图。
[0051] 图6是本发明一种基于交叉层级注意机制的篇章神经机器翻译系统的结构示意图。
[0052] 图7是本发明语料预处理模块的结构示意图。
[0053] 图8是本发明全局上下文模块的结构示意图。
[0054] 图中标号说明:10、语料预处理模块;101、语料标记单元;102、语料切分单元;20、基础翻译模型训练模块;30、句向量获取模块;40、全局上下文模块;401、词级表达形式编码单元;402、句向量转化单元;403、交叉层级注意力机制单元;404、全局上下文分配单元;50、神经机器翻译模型获得模块;60、神经机器翻译模型训练模块。

具体实施方式

[0055] 下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0056] 实施例一
[0057] 参考图1至图8所示,本发明实施例提供了一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:
[0058] S1:将未处理的语料生成包含文档结构信息的训练语料;
[0059] S2:使用训练语料训练基础结构的篇章神经机器翻译模型;
[0060] S3:利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;
[0061] S4:将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;
[0062] S5:将S4得到的篇章级别的全局上下文与S2得到的篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;
[0063] S6:对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练。
[0064] 上述工作原理为:直接将来源于整个篇章的句子与当前句中的字符计算依赖关系,则相应的字符可以获取其特有的全局上下文,一起加入神经训练过程,从而使得最终的翻译模型可以让来自篇章全局的上下文直接参与翻译过程。其通过在训练中引入了来源于篇章全局的上下文信息,将文档中的句子集合作为候选上下文分配给当前句中的词,可以确保在翻译的过程中上下文的文档机构被充分利用,每个单词充分获取全局上下文。
[0065] 其中,S1步骤中生成训练语料包括以下步骤:
[0066] S1.1:将文档处理为单个长句,使用特殊符号标记文档句子边界;
[0067] S1.2:在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章。其能够大幅度减少单个篇章内的句子数量,减少计算量,缩短训练时间,减少模型参数,使得技术更可靠。
[0068] 其中,S2步骤中所述基础结构的篇章神经机器翻译模型的能力包括:具备以篇章为单位进行注意机制运算的能力;具备以篇章为单位进行文档翻译的能力;具备以篇章为单位进行翻译模型训练过程中必须的能力;在进行以上运算过程中保持句子对齐的能力。
[0069] 其中,S3步骤中具有句子边界信息的源端文档句向量集合包括利用神经网络生成以篇章为单位但仍然保持句子独立性的词级隐藏状态,利用句子嵌入层将词级隐藏状态转化为以句子为单位的句向量集合。
[0070] 其中,S4步骤中利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文包括:利用编码器将句子编码为字符级别的向量表达形式;利用句向量嵌入层将文档转化为句向量集合的表达形式,即每个句子用一个向量表示,而每个篇章由若干句向量组成的集合表示;通过交叉层级注意力机制获取当前句中每个词与文档中所有句子之间的依赖关系权重矩阵;将上下文根据上述依赖关系权重矩阵进行分配,从而得到针对当前句中每个字符独有的全局上下文。
[0071] 上述工作原理为:计算获得的依赖关系权重矩阵代表了当前句中每个字符对全篇章中其他句子的依赖关系,即两者之间的联系紧密程度;句子嵌入将一个句子内所有字符的向量表达形式,根据句子内字符间的重要程度求权重和,从而达到获取句子向量的目的,使用单个向量表达句子可以减少模型计算量,同时利用字符重要性求权重和又可以尽最大可能保留原句子中重要字符携带的信息;根据计算获取的权重矩阵将句子向量按重要性分配给当前句中的各字符,使得字符获得其独有的来自全文的全局上下文。其给出了一种具体的为当前句中获取具有全篇章总要信息全局上下文的方法。通过句向量与关系权重矩阵相结合,可以准确、高效选获取全局上下文,同时大大减少了该过程中的计算时间及算力开销。
[0072] 其中,如图4所示,将篇章级别的全局上下文与篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型包括:将语料按照自然文档结构进行切分;为源语言篇章获取上下文;将上下文与源语言篇章结合;将结合篇章上下文后的篇章作为翻译模型的源端输入。
[0073] 其中,如图5所示,对所述基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练至少包含以下内容:训练一个具有传统编码器‑解码器结构的翻译模型;将训练好的模型与本发明模型复用的参数加载入本发明提出的基于交叉注意机制的篇章神经机器翻译模型;冻结已经训练好的复用参数;训练完整的由本发明提出的基于交叉注意力机制的篇章时间机器翻译模型。
[0074] 上述工作原理为:受迁移学习等方法启发,两步训练的方式训练出的翻译模型性能更好,第一步训练好的模型的参数作为完整大模型的初始化参数,不但训练速度快,计算开销也相对较少。其能够大幅度减少训练时间,有意义的提高翻译系统性能。
[0075] 实施例二
[0076] 本发明实施例提供一种基于交叉层级注意机制的篇章神经机器翻译系统,包括:
[0077] 语料预处理模块10,其用于将未处理的语料生成包含文档结构信息的训练语料;
[0078] 基础翻译模型训练模块20,其用于使用训练语料训练基础结构的篇章神经机器翻译模型;
[0079] 句向量获取模块30,其用于利用所述翻译模型获取具有句子边界信息的源端文档句向量集合;
[0080] 全局上下文模块40,其用于将句向量集合作为基于交叉层级注意力的上下文捕获器的输入,利用交叉注意机制获取词与句之间的依赖权重矩阵,为当前语句中的每个词获取独立的篇章级别的全局上下文;
[0081] 神经机器翻译模型获得模块50,其用于将篇章级别的全局上下文与篇章神经机器翻译模型结合,得到基于交叉注意机制的篇章神经机器翻译模型;
[0082] 神经机器翻译模型训练模块60,其用于对基于交叉注意机制的篇章神经机器翻译模型进行神经网络训练。
[0083] 其中,语料预处理模块10包括:
[0084] 语料标记单元101,其用于将文档处理为单个长句,使用特殊符号标记文档句子边界;
[0085] 语料切分单元102,其用于在处理过程中,针对长文档将其按照长度进行切分,得到长度适中的子篇章,对于切分的长文档,其中间子篇章保留其相邻前后子篇章的部分句子作为连接上下文,若切分出子篇章集合的最后一个子篇章句数过少,则将其附加于前一个子篇章。
[0086] 其中,所述全局上下文模块40包括:
[0087] 词级表达形式编码单元401,其用于对上下文在词层面进行编码;
[0088] 句向量转化单元402,其用于将上下文的词级表达形式转化为句级表达形式[0089] 交叉层级注意力机制单元403,其用于获取交叉层级的词/句级依赖权重关系矩阵;
[0090] 全局上下文分配单元404,其用于将获取的上下文按需分配给当前句的每个词。
[0091] 以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。