基于动态窗口的翻译处理方法和装置转让专利

申请号 : CN201910490402.7

文献号 : CN110276082A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 熊皓张睿卿张传强何中军吴华李芝王海峰

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明提出了一种基于动态窗口的翻译处理方法和装置,其中,方法包括:按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;将翻译后的目标词与目标窗口当前范围内的目标词进行相似度计算;根据相似度计算结果进行语音合成输出目标译文。由此,降低了同声传译的翻译延时,提高了翻译效率。

权利要求 :

1.一种基于动态窗口的翻译处理方法,其特征在于,包括以下步骤:按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;

将翻译后的目标词与所述目标窗口当前范围内的目标源端词语进行相似度计算;

根据相似度计算结果进行语音合成输出目标译文。

2.如权利要求1所述的方法,其特征在于,在所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动之前,还包括:判断当前输入的源端词语的长度是否满足所述目标窗口的初始长度;

若获知所述当前输入的源端词语的长度满足所述目标窗口的初始长度,则对所述述当前输入的源端词语进行翻译生成目标词。

3.如权利要求2所述的方法,其特征在于,还包括:根据对齐方法计算每个词的对齐关系,获取样本目标词对应的样本源端词句;

根据所述样本目标词对应的样本源端词句训练所述目标窗口的初始长度。

4.如权利要求1所述的方法,其特征在于,所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动,包括:获取所述目标窗口当前的起始位置和结束位置;

根据预设函数和预设阈值计算所述起始位置和所述结束位置的状态值;

根据所述起始位置和所述结束位置的状态值控制所述目标窗口在输入的源端词语中滑动。

5.如权利要求1所述的方法,其特征在于,在所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动之前,还包括:根据所述目标窗口当前的起始位置和输入的源端词语的当前位置获取预调整序列;

若根据预先训练的调序函数确定所述输入的源端词语的当前位置与所述目标窗口对应的词语语义相似度满足预设条件,则对所述预调整序列进行词语位置的调整。

6.一种基于动态窗口的翻译处理装置,其特征在于,包括:滑动模块,用于按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;

计算模块,用于将翻译后的目标词与所述目标窗口当前范围内的目标源端词语进行相似度计算;

合成模块,用于根据相似度计算结果进行语音合成输出目标译文。

7.如权利要求6所述的装置,其特征在于,还包括:判断模块,用于判断当前输入的源端词语的长度是否满足所述目标窗口的初始长度;

生成模块,用于在获知所述当前输入的源端词语的长度满足所述目标窗口的初始长度时,对所述述当前输入的源端词语进行翻译生成目标词。

8.如权利要求6所述的装置,其特征在于,所述滑动模块,包括:获取单元,用于获取所述目标窗口当前的起始位置和结束位置;

计算单元,用于根据预设函数和预设阈值计算所述起始位置和所述结束位置的状态值;

控制单元,用于根据所述起始位置和所述结束位置的状态值控制所述目标窗口在输入的源端词语中滑动。

9.如权利要求6所述的装置,其特征在于,还包括:获取模块,用于根据所述目标窗口当前的起始位置和输入的源端词语的当前位置获取预调整序列;

调整模块,用于在根据预先训练的调序函数确定所述输入的源端词语的当前位置与所述目标窗口对应的词语语义相似度满足预设条件时,对所述预调整序列进行词语位置的调整。

10.一种计算机设备,其特征在于,包括处理器和存储器;

其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的基于动态窗口的翻译处理方法。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于动态窗口的翻译处理方法。

说明书 :

基于动态窗口的翻译处理方法和装置

技术领域

[0001] 本发明涉及语音处理技术领域,尤其涉及一种基于动态窗口的翻译处理方法和装置。

背景技术

[0002] 通常,在进行同声传译过程中,先对待翻译的语音信号进行识别,然后进行句子边界识别,识别出一个句子。通过标点符号标注模型对句子进行处理,形成一个完整的可被翻
译的句子,经过机器翻译引擎进行目标译文的生成。
[0003] 然而,上述翻译过程,从演讲者开始语音输出到最后生成目标端的译文,环节较多,延时较大。例如在英中同声传译场景中,往往需要等待演讲者的停顿进行断句,在接收
几秒甚至十几秒后内容后,才能识别出一个完整的句子,进行译文生成。

发明内容

[0004] 为此,本发明的第一个目的在于提出一种基于动态窗口的翻译处理方法,降低了同声传译的翻译延时,提高了翻译效率。
[0005] 本发明的第二个目的在于提出一种基于动态窗口的翻译处理装置。
[0006] 本发明的第三个目的在于提出一种计算机设备。
[0007] 本发明的第四个目的在于提出一种计算机可读存储介质。
[0008] 本发明第一方面实施例提出了一种基于动态窗口的翻译处理方法,包括以下步骤:按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;将翻译后的目标词
与所述目标窗口当前范围内的目标源端词语进行相似度计算;根据相似度计算结果进行语
音合成输出目标译文。
[0009] 另外,本发明实施例的基于动态窗口的翻译处理方法,还具有如下附加的技术特征:
[0010] 可选地,在所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动之前,还包括:判断当前输入的源端词语的长度是否满足所述目标窗口的初始长度;若获知
所述当前输入的源端词语的长度满足所述目标窗口的初始长度,则对所述述当前输入的源
端词语进行翻译生成目标词。
[0011] 可选地,还包括:根据对齐方法计算每个词的对齐关系,获取样本目标词对应的样本源端词句;根据所述样本目标词对应的样本源端词句训练所述目标窗口的初始长度。
[0012] 可选地,所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动,包括:获取所述目标窗口当前的起始位置和结束位置;根据预设函数和预设阈值计算所述
起始位置和所述结束位置的状态值;根据所述起始位置和所述结束位置的状态值控制所述
目标窗口在输入的源端词语中滑动。
[0013] 可选地,在所述按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动之前,还包括:根据所述目标窗口当前的起始位置和输入的源端词语的当前位置获取预调
整序列;若根据预先训练的调序函数确定所述输入的源端词语的当前位置与所述目标窗口
对应的词语语义相似度满足预设条件,则对所述预调整序列进行词语位置的调整。
[0014] 本发明第二方面实施例提出了一种基于动态窗口的翻译处理装置,包括:滑动模块,用于按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动;计算模块,用于
将翻译后的目标词与所述目标窗口当前范围内的目标源端词语进行相似度计算;合成模
块,用于根据相似度计算结果进行语音合成输出目标译文。
[0015] 另外,本发明实施例的基于动态窗口的翻译处理装置,还具有如下附加的技术特征:
[0016] 可选地,还包括:判断模块,用于判断当前输入的源端词语的长度是否满足所述目标窗口的初始长度;生成模块,用于在获知所述当前输入的源端词语的长度满足所述目标
窗口的初始长度时,对所述述当前输入的源端词语进行翻译生成目标词。
[0017] 可选地,所述滑动模块,包括:获取单元,用于获取所述目标窗口当前的起始位置和结束位置;计算单元,用于根据预设函数和预设阈值计算所述起始位置和所述结束位置
的状态值;控制单元,用于根据所述起始位置和所述结束位置的状态值控制所述目标窗口
在输入的源端词语中滑动。
[0018] 可选地,还包括:获取模块,用于根据所述目标窗口当前的起始位置和输入的源端词语的当前位置获取预调整序列;调整模块,用于在根据预先训练的调序函数确定所述输
入的源端词语的当前位置与所述目标窗口对应的词语语义相似度满足预设条件时,对所述
预调整序列进行词语位置的调整。
[0019] 本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应
的程序,以用于实现如第一方面实施例所述的基于动态窗口的翻译处理方法。
[0020] 本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的基于动态窗口的翻译处理方法。
[0021] 本发明实施例提供的技术方案至少具有如下附加的技术特征:
[0022] 能够根据演讲者内容,动态调整注意力的窗口大小,实时生成译文,降低同声传译时延。

附图说明

[0023] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0024] 图1是现有技术的同声传译的流程示意图;
[0025] 图2是根据本发明一个实施例的基于动态窗口的翻译处理方法的流程图;
[0026] 图3是根据本发明一个实施例的注意力机制的注意力计算示意图;
[0027] 图4是根据本发明另一个实施例的注意力机制的注意力计算示意图;
[0028] 图5是根据本发明一个实施例的动态窗口的动态变化示意图;
[0029] 图6是根据本发明一个实施例的基于动态窗口的翻译处理装置的结构示意图;
[0030] 图7是根据本发明另一个实施例的基于动态窗口的翻译处理装置的结构示意图;
[0031] 图8是根据本发明又一个实施例的基于动态窗口的翻译处理装置的结构示意图;以及
[0032] 图9是根据本发明还一个实施例的基于动态窗口的翻译处理装置的结构示意图。

具体实施方式

[0033] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0034] 针对上述背景技术中提到的,在传统的同声传译过程中,如图1所示,需要先识别语音,基于识别到的语音中的停顿进行自动断句,进而,在断句后识别出句号等标点所在的
位置,基于标点识别的位置进行标点的添加,将添加标点后的语音信息进行机器翻译,进
而,根据翻译后的文本进行语音合成输出,在该方法中,在一定程度上都会造成延时很大,
例如演讲者可能语速较快,说完十几秒后才停顿。或者语音识别错误造成断句模块准确率
下降,十几秒后才判断出是否是一个完整的句子,翻译的延时较大。
[0035] 为了解决上述技术问题,本发明提出一种利用动态窗口注意力机制的同声传译装置,无需等待演讲者说完一个完整的句子,可以动态的滑动注意力窗口,实时生成目标译
文。
[0036] 具体而言,图2是根据本发明一个实施例的基于动态窗口的翻译处理方法的流程图,如图2所示,该方法包括:
[0037] 步骤101,按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动。
[0038] 其中,源端词语为接收到的待翻译的词语。
[0039] 可以理解,在本申请实施例中,采用端到端的神经网络翻译模型,在神经网络翻译模型中,注意力模块对于翻译质量的提升起着非常重要的作用。在实际应用中,如图3所示,
基于注意力模块的注意力机制可以实现输入的远端词句和翻译后的语句的相似度的识别,
基于相似度确定目标词中比较重要的需要重点关注的词,参照图3(图中以灰度值标识相似
度,灰度值越高,相似度越高),与翻译后的目标词越相似的词可能就是越需要关注的词,需
要赋予较高的权重等,由此,来目标词进行不同词的注意力的调整,使得在后续得到目标译
文时可以提高翻译的质量。
[0040] 当然,考虑到在如图3所示的注意力机制中,仍然是以的得到的整个句子作为注意力处理的基础,要求模型能够得到源端词句所有的词(完整的句子)后,才能进行注意力计
算。而得到完整的句子代价较高,容易产生高延时的译文。因此,如图4所示,引入可滑动的
目标窗口,每次只计算目标窗口范围内的源端词句的注意力。参照图4,每次在生成最后的
译文之前,仅仅需要计算窗口范围内的源端词语的注意力信息,无需识别出源端句子的句
子边界,也无需把所有已经识别的内容作为一个长句子来进行注意力计算。我们只需要计
算当前窗口范围内的注意力信息。
[0041] 需要说明的是,本发明实施例的目标窗口是可以滑动的,其中,目标窗口的初始长度可以根据实验数据训练得到。
[0042] 作为一种可能的实现方式,可以人工标注少量数据集,标明目标词生成的时候需要考察源端哪些词句,训练时,基于对齐方式计算每个词的对齐关系,获取样本目标词对应
的样本源端词句,根据样本目标词对应的样本源端词句训练目标窗口的初始长度,该训练
过程可以使用传统技术中的一些训练方法,确定目标词与依赖的源端词句的关系进行收敛
训练,确定初始长度。
[0043] 在本示例中,判断当前输入的源端词语的长度是否满足目标窗口的初始长度,若获知当前输入的源端词语的长度满足目标窗口的初始长度,则触发开始翻译的条件,对述
当前输入的源端词语进行翻译生成目标词。此时由于初始长度包含的源端词句显然少于整
个句子的词句数量,因而,可以快速触发翻译过程,提高翻译效率。
[0044] 在本示例中,初始长度确定后,伴随翻译得到的目标词的变化动态调整窗口的大小,以保证尽量少的源端词句与翻译出的目标词尽量一致。
[0045] 具体而言,控制目标窗口的滑动机制为:获取当前目标窗口的当前的起始位置和结束位置,根据预设的函数和预设阈值计算起始位置和结束位置的状态值,该状态值用于
确定是否对窗口的开始位置和结束位置进行滑动,根据起始位置和结束位置的状态值控制
目标窗口在输入的源端词语中滑动。在本示例中,滑动的方向为窗口右方向滑动,该状态值
可以为预先规定的多种格式的信息,比如可以为0和1,其中,0代表不向右滑,1代表向右滑。
[0046] 基于此,一个目标窗口如图5所示,可能仅仅结束位置向右滑动,也可能仅仅开始位置向右滑动,也可能开始位置和结束位置均向右滑动,这依赖于目标词生成的时候需要
考察源端哪的词句,这种依赖关系的考量可以由RL方法收敛训练得到,基于RL方法收敛训
练可以根据预设函数和预设阈值的比较确定起始位置和结束位置的状态值,作为一种可能
的实现方式,该预设函数为Sigmoid函数或者为Bernoulli函数等,这两种函数主要基于开
始位置和结束位置之间涵盖的源端词句是否可以翻译出较为准确的目标词计算状态值。
[0047] 在该方法中,如可以把动态窗口起始位置定义为s,结束位置定义为e,s和e的值有0或1两种结果,0表示不向右滑动,1表示向右滑动一个位置。s和e的值可以采用Bernoulli
分布采样得到,或者利用Sigmoid函数判断状态值是否超过0.5来判断。其中,RL的训练有两
种方式,如policy gradient,根据采样得到决策后进行reward计算后反向传播梯度。或者
imitation learning,设计一个teacher agent,利用teacher agent产生的词语对齐结果,
生成对应的action序列,然后使用有监督进行训练,上述由RL方法收敛训练的方法可由现
有技术得到,在此不详述。
[0048] 步骤102,将翻译后的目标词与目标窗口当前范围内的目标源端词语进行相似度计算。
[0049] 其中,翻译后的目标词为对应于当前目标窗口内的源端语句对应的翻译词,当前范围内的目标源端词语为当前目标窗口中所包含的源端语句。
[0050] 具体地,将翻译后的目标词与目标窗口当前范围内的目标源端词语进行相似度计算,相似度越高,显然,生成翻译后的目标词越依赖,因此,基于该依赖程度即相似度程度在
后续生成译文时增加其翻译的权重,举例而言,当目标源端词语为Gonna make it right,
目标词为“想让它正确”,由于比较标准的翻译结果为“想要把它做好”,因此,显然源端词语
“right”的相似度不是很高,显然,此时相似度较高的源端词语为“make”、“it”、“Gonna”,作为一种可能的实现方式,可以基于上下文信息以及语义相似度来确定相似度。
[0051] 步骤103,根据相似度计算结果进行语音合成输出目标译文。
[0052] 具体地,在得到相似度后,根据相似度计算结果进行语音合成输出目标译文,比如将相似度较高的目标词的权重提高生成对应的译文,以及获取和译文对应的语音合成。
[0053] 当然,因为机器翻译问题的特殊性:翻译的词串往往会依赖于长距离的调序,即当前生成的词可能需要看很远的一个源端词句,尤其是对于英文翻译场景时,可能主人公的
名字出现在长句的最开始等,因此,我们需要对源端句子进行一定的预调序。
[0054] 在本发明的一个实施例中,根据目标窗口当前的起始位置和输入的源端词语的当前位置获取预调整序列,比如,如图6所示,当前窗口的起始位置为第16个源端词,而当前输
入的源端词语的当前位置为第18个源端词,此时,基于当前翻译的目标词结果和源端词句
之间的语义对应关系,以及新获取的第17-18个词确定第18个词加入到当前目标窗口进行
翻译,具体的,可以基于预先训练的调序函数确定输入的源端词语的当前位置与目标窗口
对应的词语语义相似度满足预设条件,即新输入的源端词句与目标窗口中的源端词句具有
较强的语义关系,这预调整序列进行词语位置的调整,比如,将第18个词加入当前目标窗口
中,选择一个语义贡献度不大的词放入窗口之外。
[0055] 其中,作为一种可能的示例,预先训练的调序函数可以为如下函数对应的公式(1),其中,在公式(1)中,ht为当前t时刻的语义表示;tanh为正切非线性变换函数;τ为调序
窗口的大小;T为模型大小;σ为Sigmoid函数,取值在0~1之间;i为整数变量,取值在0~2τ
之间;e为嵌入式词向量表示,w为需要学习的参数。
[0056]
[0057] 综上,本发明实施例的基于动态窗口的翻译处理方法,能够根据演讲者内容,动态调整注意力的窗口大小,实时生成译文,降低同声传译时延。
[0058] 为了实现上述实施例,本发明还提出一种基于动态窗口的翻译处理装置。
[0059] 图6是根据本发明一个实施例的基于动态窗口的翻译处理装置的结构示意图,如图6所示,该基于动态窗口的翻译处理装置包括:滑动模块10、计算模块20、合成模块30,其
中,
[0060] 滑动模块10,用于按照预设的窗口滑动参数控制目标窗口在输入的源端词语中滑动。
[0061] 计算模块20,用于将翻译后的目标词与目标窗口当前范围内的目标源端词语进行相似度计算。
[0062] 合成模块30,用于根据相似度计算结果进行语音合成输出目标译文。
[0063] 在本发明的一个实施例中,如图7所示,在如图6所示的基础上,该装置还包括:判断模块40、生成模块50,其中,
[0064] 判断模块40,用于判断当前输入的源端词语的长度是否满足目标窗口的初始长度。
[0065] 生成模块50,用于在获知当前输入的源端词语的长度满足目标窗口的初始长度时,对述当前输入的源端词语进行翻译生成目标词。
[0066] 在本发明的一个实施例中,如图8所示,在如图6所示的基础上,滑动模块10包括:获取单元11、计算单元12、控制单元13,其中,
[0067] 获取单元11,用于获取目标窗口当前的起始位置和结束位置。
[0068] 计算单元12,用于根据预设函数和预设阈值计算起始位置和结束位置的状态值。
[0069] 控制单元13,用于根据起始位置和结束位置的状态值控制目标窗口在输入的源端词语中滑动。
[0070] 在本发明的一个实施例中,如图9所示,在如图6所示的基础上,该装置还包括:获取模块60和调整模块70,其中,
[0071] 获取模块60,用于根据目标窗口当前的起始位置和输入的源端词语的当前位置获取预调整序列。
[0072] 调整模块70,用于在根据预先训练的调序函数确定输入的源端词语的当前位置与目标窗口对应的词语语义相似度满足预设条件时,对预调整序列进行词语位置的调整。
[0073] 需要说明的是,前述实施例对基于动态窗口的翻译处理方法的解释说明同样适用于本实施例的基于动态窗口的翻译处理装置,此处不再赘述。
[0074] 综上,本发明实施例的基于动态窗口的翻译处理装置,能够根据演讲者内容,动态调整注意力的窗口大小,实时生成译文,降低同声传译时延。
[0075] 为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程
序,以用于实现如前述任一实施例所述的基于动态窗口的翻译处理方法。
[0076] 为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的基于动态窗口的翻译处理方
法。
[0077] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0078] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0079] 在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内
部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员
而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0080] 在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在
第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0081] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
[0082] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。