一种基于神经网络的英译汉词义消歧方法转让专利

申请号 : CN201910591682.0

文献号 : CN110287496A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吕海港

申请人 : 吕海港

摘要 :

为了确定单词在英文句子中的准确中文词义,本发明提出了一种基于神经网络的英译汉词义消岐方法,首先基于英汉词典和中英文语料的中英文句子,生成与每个英文句子对应的中英文混合序列;接着以英文句子和中英文混合序列为平行语料,通过神经网络方法训练得到翻译模型;最后使用翻译模型,依次在待翻译英文句子各个英文单词的中文词义中限制性解码,找到单词在英文句子中的准确词义,从而有效地解决了英译汉中的词义消岐问题。

权利要求 :

1.一种基于神经网络的英译汉词义消岐方法,其特征在于,首先基于英汉词典和中英文语料的中英文句子,生成与每个英文句子对应的中英文混合序列;接着以英文句子和中英文混合序列为平行语料,通过神经网络方法训练得到翻译模型;最后使用翻译模型,依次在待翻译英文句子各个英文单词的词义中限制性解码,生成中英文混合序列,此序列中与每个单词对应的中文词就是该单词在英文句子中的准确词义,从而解决了英译汉的词义消岐问题。

2.根据权利要求1所述的英译汉词义消岐方法的英汉词典,其特征在于,英汉词典包括英文单词及其所有可能的中文词义,其中的英文单词包括单词原形、名词复数、动词第三人称单数、动词过去式、动词现在分词、动词过去分词、形容词和副词的比较级和最高级。

3.根据权利要求1所述的英译汉词义消岐方法的中英文混合序列,其特征在于,当在英文句子对应的中文句子中有某个单词的某个词义,就用此中文词义代替英文句子的该单词,依次替换完成后形成了一个中文词义、英文单词和标点符号组成的中英文混合序列。

4.根据权利要求1所述的英译汉词义消岐方法的神经网络训练,其特征在于,神经网络训练可以是循环神经网络(RNN)、卷积神经网络(CNN)或变换器(Transformer)。

5.根据权利要求1所述英译汉词义消岐方法的限制性解码,其特征在于,在解码过程的每一步,集束搜索只选取当前英文单词的所有中文词义中概率最大的1-10个中文词义。

说明书 :

一种基于神经网络的英译汉词义消歧方法

技术领域

[0001] 本发明涉及机器翻译领域,特别涉及一种英译汉的词义消岐方法。

背景技术

[0002] 词义消岐是自然语言处理中的一个重点和难点。在英汉翻译中,一个英文单词可以有一个或多个中文词义,找到该单词在当前句子中的准确词义是一个尚未完全解决的问题。
[0003] 目前,基于神经网络的机器翻译已经比较成熟,可以把英文句子相对准确地翻译为中文句子,再通过其中的注意力机制将英文句子和中文句子在单词级别进行对齐,从而找到单词的大致词义。但是,由于这种注意力机制是一种软对齐,词义之间的注意力没有明显的边界。这种方法找到的词义经常比英汉字典中的标准词义差一两个字,有时候找到的甚至是反义词,效果非常不理想。因此,需要一种更准确的方式来找到句子中单词的准确词义。
[0004] 词义消岐方法确定的英文单词的准确词义可以用于单词注释,帮助人们快速阅读英文资料,还可以作为机器翻译的预翻译步骤,为准确翻译提供更丰富的语料和条件。

发明内容

[0005] 本发明所要解决的技术问题是,提供一种基于神经网络的英译汉词义消岐方法,确定每个单词在英文句子中的准确中文词义。
[0006] 为解决上述技术问题,本发明所采用的技术方案是:一种基于神经网络的英译汉词义消岐方法,首先基于英汉词典和中英文语料的中英文句子,生成与每个英文句子对应的中英文混合序列;接着以英文句子和中英文混合序列为平行语料,通过神经网络方法训练得到翻译模型;最后使用翻译模型,依次在待翻译英文句子各个英文单词的中文词义中限制性解码,生成中英文混合序列。此序列中与每个单词对应的中文词就是该单词在英文句子中的准确词义,从而解决了英译汉的词义消岐问题。
[0007] 所述的英译汉词义消岐方法的英汉词典,包括英文单词及其所有可能的中文词义,其中的英文单词包括单词原形、名词复数、动词第三人称单数、动词过去式、动词现在分词、动词过去分词、形容词和副词的比较级和最高级。
[0008] 所述的英译汉词义消岐方法的中英文混合序列中,当在英文句子对应的中文句子中有某个单词的某个词义,就用此中文词义代替英文句子的该单词,依次替换完成后形成了一个中文词义、英文单词和标点符号组成的中英文混合序列。
[0009] 所述的英译汉词义消岐方法的神经网络训练,可以是循环神经网络(RNN)、卷积神经网络(CNN)或变换器(Transformer)。
[0010] 所述英译汉词义消岐方法的限制性解码,是指在解码过程的每一步,集束搜索只选取当前英文单词的所有中文词义中概率最大的1-10个中文词义。
[0011] 本发明的有益效果有三点:(1)所选取的的中文词义完全由英汉字典准确给出,不会出现多字或少字的情况;(2)神经网络是最先进的机器翻译技术,可以有效地解决与翻译密切相关的英译汉词义消岐问题;(3)可以一次性将整句所有单词的准确词义找出,进行单词注释以提高用户的英文阅读效率。

附图说明

[0012] 图1为本发明一种基于神经网络的英译汉词义消岐方法的训练和解码流程图。

具体实施方式

[0013] 下面结合附图对本发明做进一步阐述。
[0014] 实施例一本发明实施例采用开源神经网络机器翻译软件OpenNMT软件包(http://opennmt. net/),训练所用的100万句中英对照语料来自开源Niutrans软件包(http://www. niutrans.com),英汉词典来自ECDict项目(https://github.com/skywind3000/ ECDICT)。
[0015] 本实施例主要包括两个部分(图1):训练翻译模型和解码词义消岐。
[0016] 在训练翻译模型阶段,分为四步。
[0017] 第一步,根据ECDict的英汉词典文件,提取出英文单词及其各种变形,找出对应的所有中文词义,生成英汉词典,一个单词一行,比如单词work及其各种变形的所有词义格式如下:work|||工作,作品,劳动,功,干活,奏效,运行,运转,职业,有效
works|||工作,作品,劳动,功,干活,奏效,运行,运转,职业,有效
worked|||工作,干活,奏效,运行,运转,有效
working|||工作,干活,奏效,运行,运转,有效
其中,“|||”前的是英文单词或其变形,后面是此单词的所有中文词义,词义之间用逗号分开。
[0018] 第二步是对英文语料进行标记(token)预处理,把标点符号和单词分开,生成新的英文序列。比如英文句子(The GNU General Public License is a free, copyleft license for software and other kinds of works. )标记预处理后为(The GNU General Public License is a free  , copyleft license for software and other kinds of works .),其中把标点符号和单词都用空格隔开。
[0019] 第三步是按照英汉词典,在中文句子中查找英文句子中各个单词的中文词义。如果查找到中文词义,就用查到的中文词义代替英文句子中的对应单词,由此生成中文词、英文单词和标点符号组成的中英文混合序列。比如,上述英文句子对应的中文翻译为(GNU通用公共许可协议是一份面向软件及其他类型作品的,自由的公共版权协议。),生成的中英文混合序列为(The GNU 通用 公共 协议 是 一份 自由  , 公共版权 协议 for 软件 和 其他 类型 of 作品  .),其中英文单词都被相应的中文词义所代替,比如works用其词义“作品”代替,还有“The”,“GNU”,逗号和句点保持不变。标记预处理的英文句子和对应的中英文混合序列分别作为源语言和目标语言的平行语料,进行神经网络机器翻译的训练。
[0020] 第四步是使用OpenNMT对100万句平行语料进行神经网络训练。本实施例采用两层500个隐藏单元的循环神经网络(RNN)和全局注意力机制进行训练,源语言和目标语言都使用10万单词量,每层使用512维词向量空间,训练10万步,生成的翻译模型大约800MB。
[0021] 在翻译词义消岐阶段,对于待翻译的英文句子中的单词依次使用翻译模型进行限制解码,主要通过修改OpenNMT的解码部分实现。修改主要包括两部分:(1)在读入翻译模型后接着读入英汉词典,并且把英文单词源id作为“键”,把所有中文词义对应的目标id作为“值”,按照“键-值”的格式保存待用;(2)在集束搜索的每一步,只保留该单词(比如work)中文词义的所有id(对应“工作,作品,劳动,功,干活,奏效,运行,运转,职业,有效”各个词义的目标id)对应的对数概率不变,其它id的对数概率统一设为很小的值-10E20。这样,集束搜索就被限制在单词的有限个词义中。依次进行解码和限制性集束搜索,就得到的一系列的中文词义、英文单词和标点符号的中英文混合系列,其中的每个中文词义就是对应单词在本句子的准确词义。
[0022] 本实施例使用1000个英文句子进行评估。使用英汉词典中最常用词义时,单词在句子中的词义准确率为66.8%。而本实施例中,集束大小为10、5、1时词义准确率分别为76.8%、76.6%、74.3%,可见基于神经网络的英译汉词义消岐方法在确定句子中单词词义方面有明显的改进,集束大小对准确率也有一些不大的影响。
[0023] 实施例二英汉词典、语料处理和解码过程与实施例一相同,训练翻译模型采用两层500个隐藏单元的卷积神经网络(CNN)和全局注意力机制进行训练,源语言和目标语言都使用10万单词量,每层使用512维词向量空间,生成的翻译模型大约900MB。使用本翻译模型进行限制性解码,得到句子中词义的准确率为79.4%。
[0024] 实施例三英汉词典、语料处理和解码过程与实施例一相同,训练翻译模型采用6层512个隐藏单元的变换器(Transformer)和8个多头自注意力机制进行训练,源语言和目标语言都使用10万单词量,每层使用512维词向量空间,生成的翻译模型大约3000MB。使用本翻译模型进行限制性解码,得到句子中词义的准确率为83.2%。
[0025] 从三个实施例可以看出,这种基于神经网络的英译汉词义消岐方法不但有比较好的词义消岐效果,而且可以使用不同的神经网络方法进行训练,有效地使用神经网络机器翻译的各种最新技术。因此,使用其它基于神经网络的英译汉机器翻译方法进行翻译模型训练和限制性解码进行英译汉词义消岐也在本发明的保护之下。