现场维护语音到语音翻译的系统和方法转让专利

申请号 : CN200980118837.3

文献号 : CN102084417B

文献日 : 2014-05-21

提供一种更新把第一语言翻译成第二语言的语音到语音翻译系统的、包括书面单词和口语单词的词汇表的方法和设备。所述方法包括把第一语言中的生词添加到第一语言的第一识别字典中，和把描述与所述生词联系起来，其中所述描述包含发音和单词类别信息。随后在与第一语言相关的第一机器翻译模块中更新所述生词和描述。第一机器翻译模块包括第一标注模块、第一翻译模型和第一语言模块，并被配置成把生词翻译成第二语言中的对应翻译单词。可选的是，本发明可被用于双向或多向翻译。

1.一种更新用于把第一语言翻译成第二语言的语音翻译系统的词汇表的方法，所述方法包括：由语音翻译系统的麦克风接收来自语音翻译系统的用户的话语，其中，语音翻译系统用于将话语从第一语言翻译成第二语言并在语音翻译系统的至少一个扬声器处以第二语言输出话语的发声翻译；

在接收到话语之后，借助语音翻译系统的用户界面从语音翻译系统的用户接收把第一语言中的生词添加到语音翻译系统的自动语音识别模块的第一语言的第一识别字典中，其中语音翻译系统的自动语音识别模块包括第一识别字典、针对第一语言的声学模型以及针对第一语言的语言模型，并且，其中，所述生词未被包含在第一语言的第一识别字典中；

由语音翻译系统为生词确定单词类别信息、在第一语言中的发音和在第二语言中的翻译；

由语音翻译系统将生词连同由语音翻译系统确定的单词类别信息和在第一语言中的发音添加到语音翻译系统的第一语言的第一识别字典中；

由语音翻译系统将生词连同由语音翻译系统确定的单词类别信息和在第二语言中的翻译添加到与语音翻译系统的第一语言相关联的第一机器翻译模块，其中第一机器翻译模块包括第一标注模块、第一翻译模型和第一语言模型，并被配置成把生词翻译成第二语言中的对应翻译单词。

2.按照权利要求1所述的方法，其中在不重新初始化或重新启动自动语音识别模块的情况下，把生词添加到第一语言的第一识别字典中。

3.按照权利要求1所述的方法，其中在不重新初始化或重新启动机器翻译组件的情况下，把生词及其描述添加到第一语言的翻译字典中，和更新所述生词及其翻译的翻译概率。

4.按照权利要求1所述的方法，还包括下述步骤：

由与语音翻译系统的第二语言相关联的第二机器翻译模块把所述对应翻译单词从第二语言回译成第一语言的所述生词，使第一语言中的所述生词与第二语言中的所述对应翻译单词关联，和把所述对应翻译单词及其描述添加到第二语言的第二识别字典中；和用所述对应翻译单词及所述描述来更新第二机器翻译模块，其中第二机器翻译模块包括第二标注模块、第二翻译模型和第二语言模型。

5.按照权利要求1所述的方法，还包括：

把所述对应翻译单词输入到与第二语言相关的文本到语音发音字典中。

6.按照权利要求4所述的方法，还包括把生词输入与第一语言相关的文本到语音发音字典中的步骤。

7.按照权利要求4所述的方法，其中，将所述对应翻译单词添加到第二识别字典的步骤还包括增大所述生词在与第二语言相关的基于类别的语言模型的类别内的相对单词概率。

8.按照权利要求1所述的方法，还包括：

把第一语言的生词翻译成第二语言和一种或多种其它语言的对应翻译单词，使第一语言的生词分别与所述一种或多种其他语言的对应第三单词或更多单词关联，把所述一种或多种其它语言的所述第三单词或更多单词添加到语音翻译系统中与所述一种或多种其它语言中的每种相关联的识别字典中；和更新与所述一种或多种其它语言相关的机器翻译模块，其中每个所述机器翻译模块都包括相应的标注模块、翻译模型和语言模型。

9.按照权利要求1所述的方法，还包括：

由语音翻译系统利用置信度度量和生词模型来识别接收的来自用户的话语中的生词；

和

借助语音翻译系统提示用户添加所述生词。

10.按照权利要求1所述的方法，其中把所述生词添加到第一语言的第一识别字典中还包括增大所述生词在与第一语言相关的基于类别的语言模型的类别内的相对单词概率。

11.按照权利要求10所述的方法，其中增大与第一语言相关的生词的相对单词概率是通过把所述生词与未知类别联系起来并增大所述生词在未知单词类别内的概率而在已知类别之外进行的。

12.按照权利要求10所述的方法，其中把生词添加到第一语言的第一识别字典中还包括增大所述生词及其翻译的翻译概率，从而提高随后为用户更恰当地翻译所述生词的可能性。

13.按照权利要求1所述的方法，其中联系描述包括接受用户提供的描述。

14.按照权利要求1所述的方法，其中联系描述包括从与语音翻译系统相关的词典中选择一个或多个可能的描述，并显示所述一个或多个可能的描述供用户接受。

15.按照权利要求1所述的方法，其中联系描述包括利用语音翻译系统的用户现场定制模块自动生成假设。

16.按照权利要求15所述的方法，其中通过从音译的语音数据中学习所述生成。

17.按照权利要求15所述的方法，还包括由语音翻译系统根据具有相似的已知类别的其它单词的同现统计数字为所述生词选择最可能的单词类别。

18.按照权利要求1所述的方法，其中，第二语言相关的第二机器翻译模块用第一语言中的第二翻译单词来翻译第二语言中的第二生词。

19.按照权利要求1所述的方法，其中用户界面接受用户语言的拼字正确的输入。

20.按照权利要求1所述的方法，其中利用基于对语音识别假设做出的错误校正的至少一个更新来更新第一语言的语言模型，其中所述至少一个更新包括更新自动语音识别模块的针对第一语言的语言模型中的概率，以通过增大校正的单词序列的语言模型概率和降低密切竞争的假设的语言模型概率，降低发生相同错误的可能性。

现场维护语音到语音翻译的系统和方法

[0001] 对相关申请的交叉引用：

[0002] 本申请要求于2008年4月15日提交的美国临时申请No.61/045,079、2008年8月28日提交的美国临时申请No.61/092,581、2008年9月3日提交的美国临时申请No.61/093,898的优先权。

技术领域

[0003] 本发明涉及一种跨语种交流的语音到语音翻译系统，更具体地说，涉及一种现场维护方法和设备，所述方法和设备使用户能够增加新的词条，及在现场改进和修改其系统的内容和使用，而不需要语言或技术知识或专长。

背景技术

[0004] 自动语音识别(ASR)和机器翻译(MT)技术已成熟到可用于为限定领域和非限定领域开发膝上型计算机或移动设备上的实用语音翻译系统的程度。特别地，关于各种应用领域(包括旅游、医疗部署和军事应用)，在研究领域和研究实验室中开发了领域限定的语音到语音翻译系统。以前在A.Waibel，C.Fugen的“Spoken language translation”，Signal Processing Magazine，IEEE，2008年5月；25(3)：70-79，In Proc.HLT，2003；和Nguyen Bach，Matthias Eck，Paisarn Charoenpornsawat，Thilo Sebastian Stüker，ThuyLinh Nguyen，Roger Hsiao，Alex Waibel，Stephan Vogel，Tanja Schultz和 Alan W.Black 的“The CMU TransTac 2007 eyes-free and hands-free two-way speech-to-speech translation system”，In Proc.of the IWSLT，Trento，Italy，2007年10月中看到了这样的系统。不过，这些系统受到限制，因为它们借助有限的词汇表工作，所述词汇表由系统开发人员预先定义，并且由应用领域以及预想的使用所述系统的场所确定。从而，词汇表和语言用法主要是根据例证情形、并由在这种情形下收集或假定的数据确定的。

[0005] 不过，在现场(field)情况下，实际的单词和语言用法偏离实验室的预期情形。即使在诸如旅游之类的简单领域中，当用户旅行到不同的地点，与不同的人互动，和追求不同的目的和需要时，语言用法也会在现场发生显著变化。从而，总是会出现新的单词和新的措辞。这种生词-用语音识别的话来说“集外词(OOV)”会被误识别为集内词，从而被错误翻译。用户可尝试释义，不过如果不能输入或者表达关键单词或者概念(例如，人名或城市名称)，那么单词或措辞的缺乏会导致交流中断。

[0006] 尽管需要用户可修改的语音到语音翻译系统，不过迄今为止一直未提出实际的解决方案。虽然在系统中添加单词看起来容易，不过事实证明进行这种修改格外困难。必须对整个系统内的许多组件模块进行适当的修改，必须重新训练多数模块，以恢复组件的平衡和综合功能。事实上，为了学习生词，必须修改或者重新优化大约20个不同模块。这种修改要求关于语音翻译系统的组件的专门知识和经验，结果，基于发明人的理解，迄今为止只由专家在实验室中进行了这样的修改，它需要专家经验，时间和成本。

[0007] 例如，如果为欧洲用户设计的系统在词汇表中不包含地名“Hong Kong”，那么一旦说话者说出句子“Let′s go to Hong Kong”，系统就会识别词典中发音最近似的单词，从而产生“Let′s go to home call”。此时，并不明显该错误是识别错误的结果，还是整个语音到语音翻译系统中缺少该单词的结果。用户于是着手校正系统。这可用几种校正技术之一来实现。最简单的可能是复述或者键入，不过更有效的是利用如其它公开文献和现有技术描述的交叉模式纠错技术(Waibel等，美国专利5855000)来实现。一旦确定了期望的单词序列的正确拼写(“Let′s go to Hong Kong”)，系统就进行翻译。如果“Hong Kong”在词典中，那么系统会根据词典正常继续进行翻译和合成。不过，如果识别和翻译词典中没有“Hong Kong”，那么系统需要确定该单词是否是命名实体。最后并且最重要的是，即使通过用户的干预，名称或单词可被正确地翻译成输出语言，但如果不学习所述名称或单词，那么当用户下次说出相同的单词时，系统会再次失败。

[0008] 不幸的是，仅仅通过在单词表中键入生词，并不能解决学习生词的问题，相反它需要在语音翻译系统的大约20个不同点，和在语音翻译系统的所有层面做出改变。目前，它还涉及词条的人工标注和编辑，涉及所需单词的庞大数据库的收集，语言模型概率和翻译模型概率的再训练，和整个系统的重新优化，以便重新建立所有组件和组件的词典之间的一致性，以及恢复系统中单词、短语和概念之间的统计平衡(概率必须总和为1，从而单个单词的添加会影响到所有单词)。

[0009] 结果，现有语音翻译系统的即使微小的修改通常也要求使用研究实验室中的高级计算工具和语言学资源。不过对实际的现场应用来说，要求每种修改都在实验室中进行是不可接受的，因为它花费太多的时间，努力和成本。改为需要学习和定制模块，所述学习和定制模块使用户无法察觉所有的复杂性，在后台半自主地或者自主地进行所有关键的操作和语言处理步骤，并借助简单的直观界面，以可能的干扰最小的方式与人类用户交互作用，从而完全消除现场对语言或技术专长的需要。在本发明中，我们提供满足这些需要的学习和定制模块的详细说明。

[0010] 不幸的是，翻译系统通常复杂得惊人，以致用户访问是不实际的，或者用户访问不被使用。从而，需要使用机器翻译技术、并且赋予用户修改能力以能够提供跨语种交流，而不需要语言或技术知识或专长的系统和方法，从而使得能够克服语言障碍和使人们更亲密。

发明内容

[0011] 在各个实施例中，本发明通过提供一种更新语音翻译系统的词汇的方法和设备，解决了上述问题。在各个实施例中，提供一种更新把第一语言翻译成第二语言的语音到语音翻译系统的、包括书面单词和口语单词的词汇表的方法。所述方法包括把第一语言中的生词添加到第一语言的第一识别字典中，和把描述与所述生词联系起来，其中所述描述包含发音和单词类别信息。随后在与第一语言相关的第一机器翻译模块中更新所述生词和描述。第一机器翻译模块包括第一标注模块、第一翻译模型和第一语言模块，并被配置成把生词翻译成第二语言中的对应翻译单词。

[0012] 可选的是，对双向翻译来说，所述方法另外包括下述步骤：把翻译后的单词从第二语言回译成第一语言的生词，使所述生词与第二语言中对应的翻译的单词关联，并把翻译的单词及其描述添加到第二语言的第二识别字典中。随后用翻译的单词和描述更新与第二语言相关的第二机器翻译模块。第二机器翻译模块包含第二标注模块、第二翻译模型和第二语言模块。

[0013] 在实施例中，所述方法还包括下述步骤：把第一单词输入与第一语言相关的文本到语音发音字典中，把第二单词输入与第二语言相关的文本到语音发音字典中。输入信号可以是不同的模式(例如，说话和非言语的(nonverbal)拼写，说话和言语拼写，书写和说话等)(这里称为“交叉模式”)，或者可以是相同的模式(说话和复述，书写和重写，等)。

[0014] 本发明的一个实施例目的在于一种现场可维护的语音到语音翻译系统，用于在第一语言和第二语言之间交流。所述系统包括两个语音识别单元和两个对应的机器翻译单元，每个语音识别单元被配置成接受包括第一或第二语言的口语单词的声音和产生与口语对应的文本，每个机器翻译单元被配置成从语音识别单元之一接收文本，和输出所述文本到另一种语言的文本的翻译。所述系统还包括使系统能够与用户合作学习生词的用户现场定制模块。用户现场定制模块被配置成接受用户选择的输入，所述用户选择的输入包括与第一语言和/或第二语言对应的声音或文本，和用用户选择的输入恰当地更新机器翻译单元。

[0015] 在一个实施例中，四个主要的特征装备系统，以提供一种现场可维护的基于类别的语音到语音翻译系统。第一个特征包括语音翻译架构，所述语音翻译架构能够实现生词到当前系统词汇表的添加，或者在特定于位置或任务的词汇表之间的切换。这便于动态地把单词添加到语音识别模块中，而不需要重新启动该模块。基于单语言标注器和借助源于已知标注语言的并行库、采用对齐方法的新语言中的单词类别标注的组合，系统在跨语音到语音翻译设备中的所有系统组件中使用多语言系统词典和与语言无关的单词类别，基于类别的机器翻译(基于短语的统计MT，句法的，基于例子的，等等)和在模型训练期间的多语言单词类别标注。其次，多模式交互式接口使非专家能够把生词添加到系统中。第三，系统被设计成利用用户提供的多模式反馈，提供ASR和SMT模型自适应。第四，系统具有连网能力，从而能够实现校正或单词的共享。

[0016] 在另一个实施例中，公开一种使用户能够现场把生词添加到语音到语音翻译设备中，而不需要技术专长的多模式交互式接口。例子包括：(1)自动对待添加到系统中的单词或单词-短语的类别进行分类，并自动生成所述单词的发音和翻译的方法；(2)通过说话、键入、拼写、书写、浏览、释义中的一个或多个，交叉模式地输入生词的方法；(3)帮助语言上未经训练的用户确定语音音译和翻译是否恰当的多模式反馈：多种文本形式(即，罗马化形式，以及另一种语言的文字的书面形式)和借助文本到语音(TTS；即，它听起来是否正确)的声音形式；(4)设定生词的语言模型和翻译概率的方法，和(5)根据与用户活动、兴趣和使用历史的关联性，提高或减小学习的生词的语言模型和翻译概率。

[0017] 在另一个实施例中，公开一种借助现场的多模式用户反馈，进行校正的在线系统。例子包括：(1)使用户能够校正自动语音识别结果，和使用所述反馈信息修改语音识别组件的接口和方法；(2)使用户能够校正机器翻译假设，和使用所述反馈信息来改进机器翻译组件的接口和方法；和(3)根据用户校正，自动调整(提高或减小)正确或校正的单词的语言模型、词典和翻译模型概率的方法。

[0018] 在另一个实施例中，公开一种允许用户跨设备共享现场进行的校正或生词添加的因特网应用。例子包括：(1)通过万维网上传、下载和编辑供语音到语音翻译设备之用的模型的方法；(2)在整个用户社区内核对现场生词添加和校正的方法；和(3)上传、下载和编辑供语音到语音翻译设备之用的特定于场所或任务的词汇表的方法。

附图说明

[0019] 附图图解说明本发明的实施例的例子。在附图中：

[0020] 图1是图解说明按照本发明的一个实施例构成的语音到语音翻译系统的方框图；

[0021] 图2图解说明通过平板电脑接口，向用户显示的图形用户界面的例子；

[0022] 图3是图解说明按照图1中的本发明的一个实施例进行的语音到语音翻译的步骤的流程图；

[0023] 图4是图解说明系统向用户进行的校正学习的步骤(校正和修复模块)的流程图；

[0024] 图5是图解说明用户能够向系统增加生词的步骤(用户现场定制模块)的流程图；

[0025] 图6是图解说明设备自动生成用户希望增加到系统中的生词的翻译和发音的方法的一个例子的流程图；

[0026] 图7是图解说明通过多模式接口，核实生词输入的方法的一个例子的流程图；

[0027] 图8图解说明显示自动生成的单词信息的可视界面的例子；

[0028] 图9是图解说明训练基于类别的MT模型所需的步骤的流程图；

[0029] 图10是图解说明把基于类别的MT应用于输入的句子的步骤的流程图；

[0030] 图11是图解说明在借助统计或机器学习方法的单词类别标注期间使用的可能特征的示图。

具体实施方式

[0031] 本发明的各个实施例说明语音到语音翻译方法和系统。实施例可被用于通过模型自适应，适应用户的话音和讲话风格。在另外的实施例中，用户能够校正识别错误，系统能够从用户校正的错误中学习，从而使得未来不太可能再次发生这些错误。本发明使用户能够通过或者把生词增加到系统中，或者选择为特定场所或任务优化的预定词典，按照他或她个人的需要和环境定制词汇表。当增加生词时，多模式接口允许用户校正和核实自动生成的翻译和发音。当用户不了解另一种语言时，这也允许用户把生词增加到系统中。在一个实施例中，系统还被配置成把用户输入的任何新词汇传给用户社区。核对该数据，并自动生成随后可被任何用户下载的词典。

[0032] 图1图解说明按照本发明的现场可维护的语音到语音翻译系统的例子的方框图。在这个例子中，系统在两种语言La和Lb之间工作。这是涉及双向语音到语音翻译(从La到Lb和从Lb到La)的语音对话系统的典型实现。不过，这种结构的双向性不是本公开的先决条件。从La到Lb的单向系统，或者涉及几种语言L1...Ln的多向系统同样可受益于本发明。
所述系统具有两个ASR模块2和9，ASR模块2和9分别识别La和Lb的语音，并且分别利用声学模块18，ASR基于类别的语言模型19和识别字典模型20(示于图3中)分别产生与La和Lb对应的文本。在本例中，我们使用在Mobile Technologies，LLC开发的“Ninja”语音识别器系统。可以使用的其它种类的ASR模块包括由IBM公司，SRI，BBN或者在Cambridge或Aachen开发的语音识别器。

[0033] 系统还包括两个机器翻译模块3和8，机器翻译模块3和8分别把文本从La翻译成Lb，和从Lb翻译成La(模块11)。本例中使用的MT是在Mobile Technologies，LLC开发的“PanDoRA”系统。可以使用其它MT模块，比如由IBM公司，SRI，BBN或者在Aachen大学开发的那些MT模块。

[0034] 分别对应于机器翻译模块3和8之一的两个文本到语音引擎4和7被配置成接收从对应的ASR单元产生的文本。输出的文本被传送给相应的MT模块3或8，MT模块3或8分别把文本从La翻译成Lb，和从Lb翻译成La。TTS模块产生音频输出，从而分别借助输出装置5(比如扬声器)，把La的至少一个文本单词转换成语音，和借助装置5或者另一输出装置(比如扬声器6)把Lb的至少一个文本单词转换成语音。对这个例子来说，使用Cepstral TTS模块。也可采用支持Windows SAPI(语音应用编程接口)约定的任何TTS模块。

[0035] 校正和修复模块11允许用户通过多种模式：包括语音、手势、书写、触觉、触敏和键盘接口，校正系统输出，并使系统能够从用户的校正中学习。校正和修复模块可以是诸如在美国专利No.5855000中公开的那种校正和修复模块。用户现场定制模块12向用户提供把新词汇表增加到系统中的接口，还能够为用户的当前情况选择适当的系统词汇表。例如，由位置的变化(由指示设备的当前位置的GPS坐标确定)或者用户对任务或场所的明确选择所触发。

[0036] 用户能够访问用户现场定制模块12，并通过显示在设备13的屏幕(或者使用中的触摸屏)上的图形用户界面和指示装置14(包括鼠标或笔)与系统交互作用。图2中表示了图形用户界面的一个例子。在这个例子中，设备13把音频输入La的文本和对应文本显示在窗口15中。文本La在第二种语言Lb中的机器翻译被显示在窗口16中。

[0037] 在一个实施例中，相同的麦克风和扬声器可被用于两种语言。从而，麦克风1和麦克风10可以是单个物理设备，扬声器5和6可以是单个物理设备。

[0038] 图3中表示了图解说明本发明方法的例子的操作的流程图。首先，用户在步骤15b启动语音识别系统。例如，可在图形用户界面(图2，项目15b)或者在外部物理按钮(未示出)上，选择按钮。用户的语音(项目25)随后在步骤27被ASR模块之一识别；如果用户说La，那么是模块2，如果用户说Lb，那么是模块9。ASR模块2和9应用三种模型：声学模型18，ASR基于类别的语言模型19和识别字典模型20。这些模型是语言特有的，每个ASR模块包含它自己的一组模型。在步骤28，所得到的用户语音的文本通过GUI被显示在设备屏幕13上。

[0039] 随后根据输入的语言，借助MT模块3或8应用翻译(步骤29)。MT模块3和8应用三种主要模型：识别单词类别的标注或解析[Collins02]模型(模型22)，基于类别的翻译模型(模型23)和基于类别的语言模型(模型24)。标注模型22可以是任何适当种类的标注或解析模型，比如在J.Lafferty，A.McCallum和F.Pereira的“Conditional random fields：Probabilistic models for segmenting and labeling sequence data”，Proceedings of 18th International Conference on Machine Learning，第282-289页，2001年(“Lafferty0l”)或者Michael Collins的“Parameter estimation for statistical parsing models：Theory and practice of distribution-free methods”(2004 年 )，编辑为 Harry Bunt，John Carroll 和 Giorgio Satta，New Developments in Parsing Technology，Kluwer中描述的那些种类的标注或解析模型。在机器翻译期间应用的其它模型包括约束在翻译中单词如何被重新排序的调序模型，以及句子长度模型。下面给出基于类别的机器翻译的详细说明。所得到的翻译通过GUI被显示在设备13上，如步骤30中所示。

[0040] 为了帮助用户确定翻译输出是否适当，自动生成的翻译(图2，项目16)通过MT模块3或8被回译成输入语言，并带括号地显示在初始输入的下面，如图2中的项目15a所示。如果由ASR模型2或9，和MT模块3或8确定的语音识别和翻译的置信度都较高(步骤31)，那么借助扬声器5或6，借助TTS模块4或7生成口语输出(项目26)(步骤33)。否则，系统借助GUI，音频和/或触觉反馈指示该翻译可能是错误的。在步骤33中使用的具体TTS模块是根据输出语言选择的。

[0041] 之后，如果用户不满意生成的翻译，那么用户可在语音到语音翻译过程期间，在步骤27-33任意之一中，或者在完成该过程之后进行干预。这将在步骤35调用校正和修复模块11。校正和修复模块11录制和记录用户可能做出的任何校正，所述校正稍后可被用于更新ASR模块2和9，以及MT模块3和8，如本文中下面更详细所述。如果所述校正包含新词条(步骤36)，或者如果用户在步骤15c中进入明确把生词增加到系统中的现场定制模式，或者在步骤15d中，利用置信度量度或生词模型(比如在Thomas Schaaf的“Detection of OOV words using generalized word models and a semantic class language model”，Proc.of Eurospeech，2001年中描述的方法)在输入音频中自动探测到生词；那么调用用户现场定制模块12。模块12提供使用户能够把生词增加到当前系统词汇表中的多模式接口。当用户增加生词或短语时，根据需要更新ASR、MT和TTS模型(项目17、21和33a)。下面关于两种语言进一步说明该模块的功能。

[0042] 对于两种语言，在ASR和MT中使用公共的一组类别(例如，人名、地名和机构名称)。这提供一种允许把生词增加到系统中的一组全系统语义槽。出现在这些类别内的名称、专用词和措辞是根据不同用户的部署、位置、文化、习惯和任务，最易变的单词，从而它们最需要用户定制。

[0043] 在优选例子中，使用的特定类别取决于系统的应用领域。类别可包括命名实体；人名、地名和机构名称；或者特定于任务的名词短语；例如：食品、疾病或药物的名称的语义类别；和不符合任意预定类别的单词或短语的另一种开放式类别。也可以使用句法类别或单词等效类别，比如同义词。应用领域的例子包括(但不限于)旅游、医学、维和等。在一个例子中，在旅游应用领域中需要的类别包括人名、城市名称、食品名称等。在另一个例子中，对医学专业应用来说，需要的类别包括疾病名称、药物名称、解剖学名称等等。在另一个例子中，维和应用所需的类别包括武器名称，车辆名称等等。为了能够实现可现场定制的语音到语音翻译，通过与用户现场定制模块12结合的校正和修复模块11的操作，系统允许纠错，和稍后从这些错误中学习。

[0044] 校正和修复模块

[0045] 校正和修复模块11使用户能够在任何时候干预语音到语音翻译过程。用户可以识别和记录错误，或者如果他/她希望的话，可以校正语音识别或翻译输出中的错误。这种用户干预是相当有价值的，因为它提供人-人交流过程中的即时校正，和为系统提供适应用户需要和兴趣以及从错误中学习的机会。图4中表示了这种错误反馈功能的流程图。如果用户不满意话语的翻译(即，出现错误)，那么用户可记录当前输入(步骤40)。系统将把当前话语的音频以及其它信息保存到日志文件。所述日志文件稍后可被用户访问和校正，或者可被上传到社区数据库，以允许专家级用户识别和校正错误。

[0046] 用户还可借助多种模式，校正语音识别或机器翻译输出。用户能够通过复述整个话语，或者通过键盘或书写接口输入句子，校正整个话语。另一方面，用户可借助触摸屏、鼠标或光标键，突出显示输出的假设中的错误部分，并利用键盘、手写、语音或者明确地逐个字母地拼出单词，只校正该短语或单词。用户还能够通过触摸屏，选择输出假设中的错误部分，并通过在自动生成的下拉列表中选择竞争假设，或者通过用语音重新输入错误部分，或者用任何其它补充模式(例如，手写、拼写、释义等)，校正所述错误部分。这些方法和如何恰当地组合补充修复措施建立在Waibel等在美国专利No.5855000中关于多模式语音识别校正和修复提出的方法之上。这里，把它们应用于交互式语音到语音翻译系统的语音识别和翻译模块。

[0047] 如果用户校正语音识别输出(步骤43)，那么系统首先确定所述校正是否包含生词(步骤44)。这种确定是通过在与每种语言La和Lb相关的识别字典模型20中查找该单词实现的。如果未找到单词，那么系统提示用户把该生词增加到当前系统词汇表中(如果需要的话)(图5，步骤50)。否则，更新ASR模型(图3，项目17)中的概率，以降低再次出现相同错误的可能性。这可按照差别化方式来进行，其中校正的单词序列的概率被增大，密切竞争假设的概率被降低。

[0048] 如果用户具有足够的语言专长，那么他们还能够校正机器翻译输出。可以使用和在ASR情况下使用的模式相同的模式。如果机器翻译输出被用户校正(步骤45)，并且所述校正包含生词，那么用对话框提示用户，从而使他们能够把该生词增加到当前系统词汇表中(图5，步骤50)。如果所述校正只包含已在当前系统词汇表中的单词，那么机器翻译模型(图3，项目21)被更新。具体地说，可以使用一种实现，其中从校正的句子对中提取短语，并把这些短语混入翻译模型中。可按照与ASR情况类似的方式更新使用的目标语言模型。

[0049] 用户现场定制模块

[0050] 用户现场定制模块12使系统能够与用户合作地学习生词。现有系统不允许用户修改语音到语音翻译系统中的词汇表。不同于现有系统，用户现场定制模型12使用户能够在运行系统中进行对具有极少或者没有计算机语音和语言处理技术知识或者语言知识的非专业人员来说，相对容易实现的递增修改。模型12通过提供和接受来自用户的某些易于理解的反馈，并根据所述反馈自主得到所有必需的参数和系统配置，来提供这样的现场定制。现场定制模块12通过：1)用户定制用直观界面，和2)自动估计用户定制所需的所有内部参数和设置，从而减轻用户在这方面的负担的内部工具实现这一点。

[0051] 对单向翻译来说，系统处理最少四条关于单词或短语的信息，以把生词或短语增加到当前系统词汇表中。这些信息包括：

[0052] ·类别(即，新词条的语义或句法类别)

[0053] ·语言La的单词(即，La的书写形式)

[0054] ·单词的La发音

[0055] ·单词的Lb翻译(即，Lb的书写形式)

[0056] 对双向翻译来说，系统还需要生词的Lb发音。Lb使TTS能够生成音频输出和Lb的ASR模，以反过来识别该生词。

[0057] 在图5中表示了图解说明用户现场定制模型12的操作步骤的流程图。当系统遇到生词时，根据前一节中借助校正和修复模型11的校正干预，系统将提示用户(图5，步骤50)确定该单词是否应被“学习”，即，增加到当前的系统词汇表中。如果是，那么激活单词学习模式，现场定制模块12开始行动。注意现场定制或生词学习不仅需要源自纠错对话的结果。而且用户还可专门选择从下拉菜单进入单词学习模式，预先增加一个生词或生词表。
生词学习还可由导致对不同单词(比如专用词、名称、地点等)的突然需要的外部事件触发。不过，在所有这样的情况下，系统必须收集上述信息。

[0058] 在用户指示他/她希望向系统词汇表中增加生词之后(步骤50)，系统首先查阅大型外部词典，所述大型外部词典或者本地包含在设备上，或者是能够通过因特网访问的词典服务，或者是这两者的组合。外部词典由单词翻译对的词条组成。每个词条包含使生词能够容易地被增加到当前系统词汇表中的发音和单词类别信息。每个词条还包含每个单词对的用两种语言的描述。即使用户不了解目标语言，这也将允许用户选择单词的恰当翻译。如果生词包含在外部词典中(步骤51)，那么系统显示该单词的备选翻译的列表，以及每种翻译的描述(步骤52)。如果用户从词典中选择预定翻译之一(步骤53)，那么用户能够核实由词典提供的发音和其它信息(步骤53a)，并对其进行编辑(如果需要的话)。该生词随后被增加到当前系统词汇表中。

[0059] 为了把生词增加到当前系统词汇表中，需要三个步骤(步骤59，59a，59b)。首先，把生词及其翻译增加到模块2和9的ASR识别字典模型中(步骤59)。该单词连同由词典给出的发音一起被增加到识别字典模型20中。由于用户刚刚输入该单词，因此该单词的出现概率被设定成大于ASR基于类别的语言模型19内的相同类别的竞争单词的概率。这将使用户专门增加的单词似乎更合适。随后，该单词及其翻译被增加到MT模型(图3，项目21)中，使系统能够沿两个翻译方向翻译该生词。最后，向TTS发音模型(图3，模型33a)登记该单词，这使系统能够用两种语言正确地发出该单词的读音。

[0060] 当在外部词典中未找到用户输入的生词时，系统将自动生成为把该单词记录到当前系统词汇表中而需要的信息，并将和用户核实该信息。首先，利用周围的单词上下文(如果存在的话)，借助标注模型(图3，模型22)估计生词的类别(步骤54)。随后，借助基于规则的模型，或者借助统计模型，自动生成该生词的发音和翻译(步骤55)。随后通过多模式接口向用户显示所得到的信息(步骤58)。系统提示用户核实(步骤58)或校正(步骤57)自动生成的翻译或发音。最后，在用户核实该信息之后，该生词被增加到当前系统词汇表中(步骤59，59a，59b)。为了动态地把生词(具体地说，“单词+发音+单词类别”)增加到ASR词汇表中(步骤59)，搜索并且随后更新识别字典模型20(它通常以树状结构的形式保存在ASR模块2或9内)，以包括该生词。这使生词能够被动态地增加到识别词汇表中，并且如果在接下来的话语中说出该生词，那么该生词能够立即被识别。不需要像现有系统中那样，重新初始化或者重新启动ASR系统。

[0061] 类似地，生词(具体地说，“单词+翻译+单词类别”)可被附加到MT翻译模型(59a)，搜索翻译模型23(它可以哈希图的形式保存在MT模块3和/或8内)，附加包含生词和其翻译以及单词类别的新的翻译对。这使生词能够被动态地增加到MT模块3和/或8中，并且在继续进行的话语中，该生词能够被正确翻译。不需要像现有工作中那样，重新初始化或者重新启动MT系统。

[0062] 自动估计所有该信息是必不可少的，以致现场的非专家用户能够完成定制任务。下面，我们详细说明如何自动估计关于单词的关键信息，随后如何从用户那里直观地获得或核实所述关键信息。

[0063] 生词的发音和翻译的生成

[0064] 由于语音到语音翻译系统的用户通常具有有限的或不具有语音学，语言学，语言技术的知识，并且通常甚至不知道另一种语言中的该单词及其使用，因此不能期望他们提供他们希望增加到系统中的每个生词的翻译和所有有关信息(发音，正确拼字，单词使用等)。从而，当用户输入生词时，系统估计单词类别，并自动生成该单词在两种语言中的翻译和发音信息。

[0065] 为了把生词记录到当前系统词汇表中，需要该单词的翻译，和该单词及其翻译的发音。可以如图6中所示的三步处理的形式，实现这种信息的生成。首先，生成单词的发音(步骤60)。根据单词的字符序列及其发音，生成翻译(步骤61)。随后，利用在前面的步骤中生成的信息，生成该生词在目标语言中的发音(步骤62)。在图6的右手侧表示了在日语-英语现场可维护S2S翻译系统内，使用不同的技术生成该信息的两个例子。为了把新的英语单词“Wheeling”(项目64)增加到系统中，首先通过机器学习，生成英语发音(步骤65)。可利用任何适当的技术，比如Damper，R.I.(编辑)，Data-Driven Techniques in Speech Synthesis.Dordrecht，The Netherlands：Kluwer Academic Publishers(2001年)描述的那些技术，进行机器学习。随后，借助统计机器音译自动生成该单词在日语中的音译(步骤66)，随后借助人工定义的规则生成日语发音(步骤67)。可利用任何适当的统计机器音译引擎完成音译。例子包括K.Knight和J.Graehl的Machine transliteration，Computational Linguistics 24 4(1998年)，第599-612页；及Bing Zhao，Nguyen Bach，Ian Lane和Stephan Vogel的“A Log-linear Block Transliteration Model based on Bi-Stream HMMs”(将出版在HLT/NAACL-2007中)讨论的那些统计机器音译引擎。所得到的信息(项目68)随后由用户利用声音重放和借助语音串核实，之后把该单词记录到当前系统词汇表中。

[0066] 类似地，为了把新的日语单词“Wakayama”(项目70)增加到系统中，首先，借助人工定义的规则生成日语发音(步骤71)。随后，借助基于规则的音译，自动生成该单词的日语音译(步骤72)，随后借助人工定义的规则，生成英语发音(步骤73)。可利用Mansur Arbabi，Scott M.Fischthal，Vincent C.Cheng和Elizabeth Bar的方法(“Algorithms for Arabic name transliteration”，IBM Journal of research and Development，38(2)：183-193，1994年)，进行基于规则的音译。所得到的信息(项目74)随后由用户核实，之后把该单词记录到当前系统词汇表中。

[0067] 用户能够借助发声输出，核实生成的翻译和发音。另一方面，在已知用户的母语的情况下，如果认为更适合于用户的话，那么可以使用书面形式(即，如果用户是说英语者，那么用汉语的“汉语拼音”，或者日语的“罗马字”)。如果需要的话，用户可编辑翻译和/或发音。一旦得到用户的认可，单词和单词特征就被增加到多语言系统词典中。

[0068] 通过在交互式用户输入的帮助下自动生成所需的信息，系统还消除了对增加到词典中的每个生词的翻译的需要。图8中表示了用户界面的一个例子。

[0069] 交互式用户界面

[0070] 之后，系统咨询用户，以确认和核实估计的语言信息。这是直观地进行的，以致不利用任何特殊的语言或技术知识。从而，使用适当的界面。下面，我们说明生词学习期间的用户交互作用。

[0071] 在该界面中，用户可从菜单选择“生词”模式，或者在用户校正已产生新的/未知单词之后，可调用生词学习模式。在出现的窗格中，他/她现在能够键入期望的新单词，名称，专用词，概念，措辞。根据用户语言的拼字正确的输入(这可以是不同于英语的字符集，例如，汉语、日语、俄语等的字符集)。系统随后生成采用罗马字母的音译，和单词的预测发音。这是利用或者手写的，或者从现有的语音词典提取的，或者从音译的语音数据中学习的变换规则进行的。用户随后查看自动变换，并且能够借助TTS播放生成的发音的声音。用户可重述和修改这些表示之一(两种语言任意之一的文字，罗马化音译，标音(phonetic transcription)及其声音)，另一个对应的条目将类似地重新生成(从而，一种语言中的修改的标音会修改另一种语言中的标音)。

[0072] 系统还根据其它单词(具有已知类别)在类似句子上下文中的同现(co-occurrence)统计数字，自动选择该生词最可能属于的单词类别。不过，生词窗格也允许这种类别身份的人工选择(和/或校正)，以致用户能够超越任何这种估计的类别评估。

[0073] 总之，已知来自用户的生词/短语，系统将：

[0074] ·自动分类词条的语义类别(由ASR和MT组件使用)

[0075] ·自动生成单词的发音(由L1的ASR和TTS使用)

[0076] ·自动生成单词的翻译(由两个MT组件使用)

[0077] ·自动生成翻译的发音(由L2的ASR和TTS使用)

[0078] ·允许用户根据需要校正/编辑自动生成的数据

[0079] ·向用户提供其它模式来核实自动生成的翻译是否恰当(即，通过TTS听该单词的发音)。

[0080] 如果用户输入不和系统内的任意预定类别匹配的单词，那么用户可把该单词分配给‘未知’类别。对ASR来说，‘未知’类别由出现在训练数据中，而不出现在识别字典中的单词定义。对SMT来说，不出现在翻译字典中的双语词条被设定成目标语言模型中的未知标签。

[0081] 类内概率和关联性提高(Boosting)

[0082] 这些输入方法都不需要语言训练，向用户提供判断生词是否得到恰当表示的直观方式。随后通过把该单词添加到“多语言系统词典”，即用户的个人字典中，用户可接受该生词。整个系统把标准化的字典和定制的字典合并到用户的运行时词典中。

[0083] 除了上面的五条之外，还定义类内概率P(w|C)。按照这种方式，系统能够区分属于相同类别的单词。从而，更接近用户的任务、爱好和习惯的单词将是优先选用的，并且被分配较高的类内概率。较高的类内概率的这种提高是根据与用户的关联性确定的，其中关联性是通过观察下述内容评估的：

[0084] ·生词词条及其新近性。

[0085] ο输入的生词自然更可能在不远的将来被使用，因为用户通过输入所述生词，指示他/她需要所述生词，从而比起备选的现有类别条目来，类内概率被提高(增大)。

[0086] ·生词与用户活动、兴趣和任务之间的相关性，包括

[0087] ο诸如城市名称、地标、关心的地方之类的场所的距离。

[0088] ο过去的使用历史

[0089] ο同现统计数字(与和Bogota相关相比，Sushi更与Tokyo相关)

[0090] ·生词的一般显著性(general saliency)，包括

[0091] ο城市人口

[0092] ο媒体中的最近提及

[0093] 根据用户的观察位置，历史或活动，和/或另一方面，通过观察系统的生词在大背景语言资源(比如因特网)中的出现，收集这种观察和关联性统计数字。可单一语言地在数据丰富的语言中收集这种统计数字，并用在翻译词典和翻译语言模型中。

[0094] 提升的单词的关联性也会随着时间而衰退，因为用户的新活动和任务使这样的单词随着时间而变得不太可能，和/或如果新信息(当到达不同的城市时)使单词的子类别不太关联的话。

[0095] 交叉模式输入

[0096] 可选的是，用下述之一输入生词：

[0097] ·说话：用户说出生词。如前面那样，不过基于声学输入，用生词模型，翻译模型，背景词典估计所有信息，比如发音和音译。系统可以参加口头对话，以选择类别身份和其它有关信息。

[0098] ·拼写：用户发声拼写生词。与说出生词相比，这种输入方法通常提高正确音译的可能性。它还可被互补地用于说话和其它输入模式。

[0099] ·手写：用户通过手写输入生词。与说出生词相比，这种输入方法通常提高正确音译的可能性。它还可被互补地用于说话、拼写或者其它输入模式。

[0100] ·浏览：也可利用交互式浏览选择生词。这里，通过搜索因特网，寻找统计概况与用户的最近使用历史和/或最近选择输入的生词类似的文本，系统可提出有关的关联生词。

[0101] 通过因特网的远程生词学习和共享字典形成

[0102] 前面各节中描述的方法目的都在于允许个体用户按照他/她自己在现场的个人需要和任务，定制语音翻译系统。不过，许多这样的用户定制对其它用户也是有用的。在一个实施例中，用户定制被上传到全社区数据库，在该数据库，在感兴趣的各方间共享名称、专用词或者措辞。收集词汇表词条，翻译和类别标签，并与同样感兴趣的社区相联系。后续用户能够下载这些共享的社区资源，并作为资源添加到他们自己的系统中。

[0103] 另一方面，用户可以选择只上传翻译较差的句子，以向社区请求人工翻译。对于这种不正确或者不完整的源单词或者句子，以及它们的遗漏或者不正确的翻译，其他用户能够自愿(或者收费)地提供在线校正和翻译。所得到的校正和翻译再次被重新提交到更新的共享社区翻译数据库。

[0104] 无人管理的自适应

[0105] 在校正、修复和生词学习之后，最后，我们获得校正后的假设，从而获得口语句子的正确标音或翻译。语音到语音翻译设备或系统能够自动利用这种基本事实已被提供的实情，进一步使ASR模块(图1，模块2或9)适合于所述设备的主要用户。设计这种自适应是为了提高设备的准确性和可用性。执行两种具体的自适应方法。首先，更好地识别用户的话音的系统的自适应；声学模型和发音模型自适应，其次，利用语言模型自适应，适合于用户的讲话风格。简表被用于保存特定用户的自适应数据，并且能够在现场被切换。

[0106] 基于类别的机器翻译

[0107] 在前面的各节中，我们说明了错误修复和生词学习。在这些模块中，提到了基于类别的机器翻译。下面，我们说明这种基于类别的机器翻译的详细功能。

[0108] 方法

[0109] 现有技术的机器翻译系统在单词层面进行翻译。根据现有的翻译系统，包括在下面三篇文献中描述的那些翻译系统，这是显而易见的；(1)P.Koehn，H.Hoang，A.Birch，C.Callison-Burch，M.Federico，N.Bertoldi，B.Cowan，W.Shen，C.Moran，R.Zens，C.Dyer，O.Bojar，A.Constantin 和 E.Herbst 的“Moses：Open source toolkit for statistical machine translation”，Proc.ACL，2007 年 (“[Koehn07”)；(2)D.Chiang，A.Lopez，N.Madnani，C.Monz，P.Resnik和M.Subotin的“The Hiero machine translation system：extensions，evaluation，and analysis”，Proc.Human Language Technology and Empirical Methods in Natural Language Processing，第779-786页2005年(“Chiang05”)；和(3)K.Yamada和K.Knight的“A decoder for syntax-based statistical MT”，Proc.Association for Computational Linguistics，2002 年(“Yamada02”)。逐个单词地进行对齐；在单词层面匹配翻译例子，或者短语对；并应用基于单词的语言模型。通过引入中间结构，分级翻译模块，比如Chiang05中的分级翻译模块，和基于语法的翻译模型，比如Yamada02中的翻译模型对此进行扩展。不过，这些方法仍然要求精确的单词匹配。由于每个单词被看作独立的实体，因此这些模型不能普及到不可见的单词。

[0110] 基于类别的机器翻译的一个实施例是基于类别的统计机器翻译，其中通过搜索具I J I有最大似然的假设^e1，外语句子f1＝f1，f2，...，fJ被翻译成另一种语言e1＝e1，e2，...，eI，假定：

[0111] ^eI1＝argmax P(eI1|fJ1)＝argmax P(fJ1|eI1)·P(eI1)

[0112] 类别可以是语义类别，比如命名实体，句法类别或者由同义词或单词短语组成的类别。作为一个例子，我们说明当把命名实体合并到系统中时的情况。

[0113] 在翻译期间应用的两个最信息丰富的模型是目标语言模型P(eI1)和翻译模型J I J IP(f1|e1)。在基于类别的统计机器翻译架构中，P(f1|e1)是基于类别的翻译模型(图3，I
模型23)，P(e1)是基于类别的语言模型(图3，模型24)。

[0114] 利用图9中所示的程序，可训练统计机器翻译架构的基于类别的模型。首先，使句子对的训练库标准化(步骤100)，并使用标注模型(图3，模型22)来标注该训练库(步骤101)。在Lafferty0l中说明了这样做的一种方法。在该步骤中，组合形成训练对的句子可被独立标注，一起被标注，或者源自一种语言的标签可被投射到另一种语言。在标注整个训练库之后，对齐句子对内的单词(步骤102)。可利用目前的方法，比如Franz Josef Och，Christoph Tillmann，Hermann Ney的“Improved Alignment Models for Statistical Machine Translation”；第20-28页；Proc.of the Joint Conf.of Empirical Methods in Natural Language Processing and Very Large Corpora；University of Maryland，College Park，MD，1999年6月；和Brown，Peter F，Stephen A.Della Pietra，Vincent J.Della Pietra和R.L.Mercer在1993的“The mathematics of statistical machine translation：Parameter estimation”，Computational Linguistics，vol 19(2)：263-311中的方法，完成所述对齐。在该步骤中，被标注实体内的多词短语(即，“New York”)被看作单一标志。随后利用诸如Koehn07之类的方法提取短语(步骤103)，从而生成基于类别的翻译模型(图3，模型23)。标注的训练库还被用于训练基于类别的目标语言模型(图3，模型24)。可利用例如在B.Suhm和W.Waibel的“Towards better language models for spontaneous speech”(Proc.ICSLP-1994，1994年(“Suhm94”))中描述的方法之类的方法完成所述训练(步骤104)。

[0115] 为了翻译输入的句子，应用在图10中图解说明的方法。首先，使输入的句子标准化(步骤106)，并利用和对训练库应用的方法类似的方式标注输入的句子(步骤107)。利用单一语言标注器(图3，模型22)标注输入的句子。随后，利用基于类别的MT模型(图3，模型23和24)解码输入的句子(步骤108)。对于基于类别的统计机器翻译解码来说，利用和在标准的统计机器翻译中使用的程序相同的程序进行解码，不过，短语对是在类别层面匹配的，而不是在单词层面匹配的，如在下面的例子中所示。

[0116] 已知标注的输入句子：

[0117] the train to @PLACE.city{Wheeling}leaves at @TIME{4:30}

[0118] 下述短语可被匹配：

[0119]

[0120] 类别内的单词或短语(即，:@PLACE.city{Wheeling}，@TIME{4:30})或者被直接通过(这是数字/时间的情况)，或者根据翻译模型确定翻译。借助“用户现场定制模块”(图1，模块12)，用户能够把生词添加到翻译模型中。如果用户先前添加了城市名称“Wheeling”(如在图6中例子中详述)，那么翻译模型还将包含下述短语：

[0121]J I

[0122] 在给定翻译模型概率P(f1|e1)(图3，模型23)和MT基于类别的语言模型概率I J I IP(e1)(图3，模型24)的条件下，进行搜索，以找出具有最大似然P(f1|e1)·P(e1)的翻译假设。

[0123] 在给定上面的输入句子和短语的条件下，所得到的翻译将是：

[0124]

[0125] 这是输入句子的正确翻译。

[0126] 在这个例子中，即使单词“Wheeling”未出现在训练库中，不过在用户通过“用户现场定制模块”(图1，模块12)输入该单词之后，系统也能够正确地翻译该单词。此外，由于单词类别已知(在本例中，“@PLACE.city”)，因此系统能够为周围的单词选择更好的翻译，并正确地对翻译输出中的单词排序。

[0127] 多语言库的并行标注

[0128] 在一个实施例中，通过用单一语言标注器独立标注训练库的每一侧，随后从每个句子对中消除不一致的标签，获得标注的并行库。在这种方法中，对于每个句子对(Sa，Sb)，选择具有最大条件概率P(Ta，Sa)和P(Tb，Sb)的标签序列对(Ta，Tb)。如果在P(Ta，Sa)和P(Tb，Sb)之间，任何类别标签的出现计数不同，那么从标签序列对(Ta，Tb)中除去该类别标签。一种估计P(Ta，Sa)和P(Tb，Sb)的方法是应用基于条件随机场的标注模型Lafferty0l。图11中表示了在单一语言标注期间使用的特征集的一个例子。

[0129] 在一个实施例中，除了单一语言特征之外，通过利用从单词对齐提取的目标单词(图11中的wb，j)，能够进一步提高句子对之间的标注一致性。

[0130] 在另一个实施例中，在应用类别标签集必须等同的约束条件的时候，翻译对中的两个句子被一起标注。具体地说，对于句子对(Sa，Sb)，我们搜寻使连合最大条件概率最大化的标签序列对(Ta，Tb)

[0131] λa P(Ta，Sa)·λb P(Tb，Sb)其中Oi(Ta)＝Oi(Tb)，1≤i≤M

[0132] Oi(Ta) 类别标签i在标签序列Ta中的出现计数(实体的数目，不是单词计数)[0133] M 类别的总数

[0134] λa，λb 比例系数

[0135] 如果单一语言模型的性能明显不同，那么可以优化λa和λb，以提高双语言标注性能。

[0136] 在一个实施例中，在没有人工注解的训练库可用于特定语言的情况下，通过跨越训练库中的句子对，把标签从其中标签已知的第一语言投射到非注解语言，能够生成标签。在D.Yarowsky，G.Ngai和R.Wicentowski的“Inducting Multilingual Text Analysis Tools via Robust Projection across Aligned Corpora”(Proc.HLT，第161-168页，2001年(“Yarowsky 01”))中说明了实现这一点的一种方法。

[0137] 基于类别的机器翻译的例证系统和评估

[0138] 通过实验评估，我们证实与以前的方法相比，如上所述的基于类别的机器翻译提高了翻译性能。此外，我们证实通过利用在上文描述的标注方法，进一步提高了翻译准确性。

[0139] 评估了为旅游领域开发的日语和英语间的翻译系统。训练和测试数据的描述示于表1中。

[0140]

[0141] 表1：训练和测试数据

[0142] 为了实现有效的基于类别的SMT，跨越句子对的准确和一致的标注是至关重要的。我们研究了两种方法来提高标注质量；首先，源于单词对齐的双语特征的引入；其次，句子对的两侧被联合标注的双语标注。从并行训练集中，利用在表2中指出的16个类别标签，人工标注14000个句子对。

[0143]类别类别标签
数字基数，序数，序列，字母
时间时间，日期，天，月
人物名字，姓
地点城市，国家，地标
机构航空公司，旅馆，公司名称

[0144] 表2：评估系统中使用的类别

[0145] 从该人工标注的集合中，我们选择包含一个或多个标签的10％(1400个句子对)作为评估标注准确性的留存(held-out)数据。

[0146] 首先，评估基线的、单语言的基于CRF的标注器的性能。利用语言相关模型，独立标注留存集合的每一侧。随后比较输出结果和人工参考。关于各种度量的标注准确性示于表3中。

[0147]

[0148] 表3：关于留存训练集的单语和双语标注准确性

[0149] 对双语标注来说，如果在训练库的两侧，实体都被正确标注，那么认为标签是正确的。右手一列指示其中两侧都被正确标注的句子对的百分率。尽管对独立的语言来说，F分数大于0.90，不过双语标注准确性明显低至0.84，只有80％的句子对被正确标注。把对齐特征结合到单语言标注器中提高了两种语言的精度，并且显著提高了日语侧的查全率(recall)，不过，正确标注的句子对的百分率仅仅稍微增加。消除句子对间的不一致标签提高了精度，不过正确标注的句子对的数目未提高。

[0150] 随后，利用上面说明的方法评估双语标注的有效性。这种方法的标注准确性，以及当结合单词对齐特征时的标注准确性示于表3的下面两行中。与单语言情况相比，双语标注显然提高了标注准确性。不仅标注一致性得到提高(双语标注的F分数从0.84增大到0.95)，而且英语侧和日语侧的标注准确性都提高。结合单词对齐特征进一步少少地提高关于所有度量的标注准确性。

[0151] 通过比较三种基于类别的系统和不使用类别模型的基线系统的性能，进一步评估系统的有效性。

[0152] 对基线系统来说，利用比如在Koehn05中描述的Moses工具包和GIZA++(比如Franz Josef Och，Hermann Ney在“A Systematic Comparison of Various Statistical Alignment Models”(Computational Linguistics，volume 29，number 1，第19-51页，2003的3月)中使用的GIZA++)，训练基于短语的翻译模型。利用A.Stolcke的“SRILM-an extensible language modeling toolkit”(Proc.of ICSLP，第 901-904 页，2002 年 )的SRILM工具包训练3-gram语言模型。利用我们的PanDoRA解码器进行解码。在Ying Zhang，Stephan Vogel 的“PanDoRA：A Large-scale Two-way Statistical Machine Translation System for Hand-held Devices”(the Proceedings of MT Summit XI，Copenhagen，Denmark，2007年9月10-14日)中描述了该解码器。利用在表1中描述的训练集，对两个翻译方向J→E(日语到英语)和E→J(英语到日语)创建了系统。用于训练目标语言模型的数据局限于该训练库。关于600个句子的测试集合评估了基线系统的翻译质量。评估期间使用一个基准。J→E和E→J系统的BLEU分数分别为0.4381和
0.3947。在Kishore Papineni，Salim Roukos，Todd Ward和Wei-Jing Zhu的“BLEU：a Method for Automatic Evaluation of Machine Translation”(Proc.Association for ComputationalLinguistics，第311-318页，2002年)中说明了BLEU分数。评估了利用三种不同标注方案的翻译质量：

[0153] +num：与数字、时间相关的8个类别

[0154] +NE-class：以上，+命名实体的8类别

[0155] +Bi-Tagging：以上16个类别，双语标注的训练库

[0156] 对+num和+NE-class情况应用单语言标注，除去句子对之间不一致的标签。在+Bi-Tagging情况下，使用结合单词对齐特征的双语标注。对于每种标注方案，用适当的一组类别标签标注整个训练库。随后利用与在基线系统中使用的程序等同的程序，训练基于类别的翻译模型和语言模型。测试期间，利用单语言标注器标注输入的句子。测试集合中的所有命名实体被输入用户词典中，以便在翻译期间使用。

[0157] 就J→E和E→J系统的BLEU分数而言，把关于基线系统和基于类别的系统的600个句子测试集合的性能示于表4中。

[0158]

[0159] 表4：基于类别的SMT的翻译质量

[0160] 对于两个翻译方向来说，与基线系统相比，利用数字和时间标签(+num)的基于类别的SMT系统获得提高的翻译质量。对这些模型来说，获得0.4441和0.4104的BLEU分数。当应用除了数字和时间标签之外还利用命名实体类别的基于类别的系统时，翻译质量显著提高。获得J→E系统的0.5014的BLEU分数，和E→J系统的0.4464的BLEU分数。当使用双语标注来标注训练库时(+Bi-Tagging)，对于两个翻译方向来说，进一步获得BLEU的
0.8点的增加。对于测试集合中的包含一个或多个命名实体的14％的句子，(+Bi-Tagging)系统在性能上超过单语言标注的系统(″+NE-class″)多达3.5个BLEU点。

[0161] 尽管上面相当详细地进行了说明，不过显然附图和具体实施例是为了举例说明而给出的，而不是对本发明的限制。在本发明的原理之内，可以做出设计和结构变化。本领域的技术人员会认识到本发明的这种改变或修改，或者其中的要素、变化、等同物或改进的组合仍然在附加权利要求中限定的本发明的范围之内。

现场维护语音到语音翻译的系统和方法转让专利

申请号 : CN200980118837.3

文献号 : CN102084417B

文献日 : 2014-05-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : I·R·莱恩 , A·魏贝尔

申请人 : 飞书博公司

摘要 :

权利要求 :

说明书 :