一种辅助翻译中处理术语的方法转让专利

申请号 : CN202010412122.7

文献号 : CN111597826B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李延叶庆

申请人 : 苏州七星天专利运营管理有限责任公司

摘要 :

本说明书实施例提供一种辅助翻译中处理术语的方法。该方法包括:获取第一文本中的一个第一术语;获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合;获取所述第一术语与每一个所述候选词组的相似度,确定作为第二术语的候选词组;对所述第二术语进行以下操作的一种或多种:显示所述第二术语,标识所述第二术语,用第三术语替换第二术语。

权利要求 :

1.一种辅助翻译中处理术语的方法,其中,包括:获取第一文本中的一个第一术语,以及,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;

对第二文本分词后顺序获取连续词的组合以获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;

获取所述第一术语与每一个所述候选词组的相似度,基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;

对所述第二术语进行以下操作的一种或多种:显示所述第二术语,

标识所述第二术语,

用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。

2.如权利要求1所述的方法,其中,所述相似度的获取方法包括:基于所述第一术语通过自动翻译模型获取第四术语,所述第四术语所用语言为所述第二文本所对应的语言;

基于所述第四术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;

基于所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。

3.如权利要求1所述的方法,其中,所述相似度的获取方法包括:基于所述第一术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;

基于所述源术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。

4.一种辅助翻译中处理术语的系统,其中,包括:用于存储计算机指令的至少一个存储器;

与所述存储器通讯的至少一个处理器,以及当所述至少一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:对第二文本分词后顺序获取连续词的组合以获取第一文本中的一个第一术语,其中,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;

获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;

获取所述第一术语与每一个所述候选词组的相似度,基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;

对所述第二术语进行以下操作的一种或多种:显示所述第二术语,

标识所述第二术语,

用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。

5.如权利要求4所述的系统,其中,为获取所述第一术语与每一个所述候选词组的相似度,所述至少一个处理器使所述系统进一步执行:基于所述第一术语通过自动翻译模型获取第四术语,所述第四术语所用语言为所述第二文本所对应的语言;

基于所述第四术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;

基于所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。

6.如权利要求4所述的系统,其中,为获取所述第一术语与每一个所述候选词组的相似度,所述至少一个处理器使所述系统进一步执行:基于所述第一术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;

基于所述源术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。

7.一种辅助翻译中处理术语的系统,其中,包括:第一获取模块,用于获取第一文本中的一个第一术语,以及,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;

第二获取模块,用于对第二文本分词后顺序获取连续词的组合以获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;

计算模块,用于获取所述第一术语与每一个所述候选词组的相似度;

确定模块,用于基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;

处理模块,用于对所述第二术语进行以下操作的一种或多种:显示所述第二术语,

标识所述第二术语,

用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。

8.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取所述存储介质中的所述计算机指令后,所述计算机执行如权利要求1~3中任一项所述的方法。

说明书 :

一种辅助翻译中处理术语的方法

技术领域

[0001] 本说明书涉及翻译技术领域,特别涉及一种辅助翻译中处理术语的方法。

背景技术

[0002] 在翻译项目中,技术资料的翻译经常会涉及到大量的专业术语。使用机器翻译技术虽然速度快、效率高,但是当源语言文件存在某一领域专业术语时,机器翻译的结果可能
存在不准确的情况,还是需要通过人工进行进一步检查并替换为准确的译文。同时,在源语
言文件中,同一个专业术语对应同一个特定的技术概念或者专有名词,然而,由于上下文语
境等原因,同一个专业术语在译文中可能存在不同的翻译,需要人工检查并替换为统一的
术语对应的翻译。
[0003] 因此,期望提供一种辅助翻译中处理术语的方法,以保证专业术语译文的一致性,从而提高翻译效率。

发明内容

[0004] 本说明书实施例之一提供一种辅助翻译中处理术语的方法。所述辅助翻译中处理对应术语的方法包括:获取第一文本中的一个第一术语;获取第二文本中的多个候选词组,
每一个所述候选词组为个数小于预设值的连续的词的组合;获取所述第一术语与每一个所
述候选词组的相似度,确定作为第二术语的候选词组;对所述第二术语进行以下操作的一
种或多种:显示所述第二术语,标识所述第二术语,用第三术语替换第二术语。
[0005] 在一些实施例中,所述方法还包括:在多个源文本单元中查找所述第一术语,其中,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;对包
含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,
获取所述目标文本单元中的第二术语,所述目标文本单元使用与所述第二文本对应的语
言;如果对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相
同。
[0006] 在一些实施例中,所述相似度的获取方法包括:基于所述第一术语通过自动翻译模型获取第四术语,所述第四术语所用语言为所述第二文本所对应的语言;基于所述第四
术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;基于
所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。
[0007] 在一些实施例中,所述相似度的获取方法包括:基于所述第一术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量确定相似度;基于所述源
术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型
为机器学习模型。
[0008] 在一些实施例中,所述确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入确定所述第二术语。
[0009] 本说明书实施例之一提供一种辅助翻译中处理术语的系统,该系统包括:用于存储计算机指令的至少一个存储器;与所述存储器通讯的至少一个处理器,其中当所述至少
一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:获取第一文本
中的一个第一术语;获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预
设值的连续的词的组合;获取所述第一术语与每一个所述候选词组的相似度,确定作为第
二术语的候选词组;对所述第二术语进行以下操作的一种或多种:显示所述第二术语,标识
所述第二术语,用第三术语替换第二术语。
[0010] 在一些实施例中,所述至少一个处理器使所述系统进一步执行:在多个源文本单元中查找所述第一术语,其中,所述源文本单元使用与第一文本对应的语言,且包含不同于
所述第一文本的内容;对包含所述第一术语的每一个所述源文本单元,将其对应的目标文
本单元作为所述第二文本,获取所述目标文本单元中的第二术语,所述目标文本单元使用
与所述第二文本对应的语言;如果对多个所述目标文本单元中的所述第二术语进行替换,
所使用的所述第三术语相同。
[0011] 在一些实施例中,为获取所述第一术语与每一个所述候选词组的相似度,所述处理器使所述系统进一步执行:基于所述第一术语通过自动翻译模型获取第四术语,所述第
四术语所用语言为所述第二文本所对应的语言;基于所述第四术语和所述候选词组,分别
通过文本嵌入模型获取源术语向量和多个候选词组向量;基于所述源术语向量与每一个所
述候选词组向量的向量距离确定相似度。
[0012] 在一些实施例中,为获取所述第一术语与每一个所述候选词组的相似度,所述处理器使所述系统进一步执行:基于所述第一术语和所述候选词组,分别通过文本嵌入模型
获取源术语向量和多个候选词组向量;基于所述源术语向量与每一个所述候选词组向量,
通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。
[0013] 在一些实施例中,为确定作为第二术语的候选词组,所述处理器使所述系统进一步执行:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户
输入确定所述第二术语。
[0014] 本说明书实施例之一提供一种辅助翻译中处理术语的系统,包括:第一获取模块,用于获取第一文本中的一个第一术语;第二获取模块,用于获取第二文本中的多个候选词
组,每一个所述候选词组为个数小于预设值的连续的词的组合;计算模块,用于获取所述第
一术语与每一个所述候选词组的相似度;确定模块,用于确定作为第二术语的候选词组;处
理模块,用于对所述第二术语进行以下操作的一种或多种:显示所述第二术语,标识所述第
二术语,用第三术语替换第二术语。
[0015] 本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行本申请中任一实施例所述的辅
助翻译中处理术语的方法。

附图说明

[0016] 本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其
中:
[0017] 图1是根据本说明书一些实施例所示的文本辅助处理系统的应用场景图;
[0018] 图2是根据本说明书一些实施例所示的一种辅助翻译中处理术语的方法的示例性流程图;
[0019] 图3是根据本说明书一些实施例所示的确定源文本文件中第二术语的方法的示例性流程图;
[0020] 图4是根据本说明书一些实施例所示的相似度获取方法的示例性流程图;
[0021] 图5是根据本说明书又一实施例所示的相似度获取方法的示例性流程图;
[0022] 图6是根据本说明书一些实施例所示的一种辅助翻译中处理术语的系统的模块图。

具体实施方式

[0023] 为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实
施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标
号代表相同结构或操作。
[0024] 应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,
则可通过其他表达来替换所述词语。
[0025] 如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提
示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者
设备也可能包含其它的步骤或元素。
[0026] 本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时
处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数
步操作。
[0027] 图1是根据本说明书一些实施例所示的一种文本辅助处理系统的应用场景图。
[0028] 如图1所示,文本辅助处理系统100可以包括计算系统110、原文120、用户终端130、译文140等。
[0029] 计算系统110可以用于文本处理的多种应用场景。例如,计算系统110可以根据专有名词官方译法的变更,更新新闻、资讯、文献的译文。又例如,计算系统110可以在译文140
中标识出词组或术语的翻译,辅助用户理解外文文献。再例如,计算系统110可以统计术语
及其相关表述在文档中出现的次数,辅助判别文本的关键词。
[0030] 在一个典型的应用场景中,计算系统110可以获取原文120和对应译文140;计算系统110可以根据原文120中的术语,以及译文140中术语对应的翻译,统一术语在译文140中
的表述。例如:计算系统110可以根据原文120中的术语“traffic data”以及译文140中该术
语对应的翻译“交通数据”、“路况数据”、“流量数据”、“运输数据”等,将译文140中“traffic 
data”的翻译统一为“交通数据”。
[0031] 计算系统110是指具有计算能力的系统,可以包括各种计算机,比如服务器、个人计算机,也可以是由多台计算机以各种结构连接组成的计算平台。
[0032] 计算系统110中可以包括处理器,处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器(central processing unit,CPU)、图形处理器(Graphics 
Processing  Unit,GPU)、微处理器、特殊应用集成电路(application‑specific 
integrated circuit,ASIC)、或其他类型的集成电路。
[0033] 计算系统110中可以包括存储介质,存储介质可以存储指令,也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其
任意组合。
[0034] 计算系统110还可以包括用于内部连接和与外部连接的网络。也可以包括用于输入或输出的终端。网络可以是有线网络或无线网络中的任意一种或多种。终端可以包括各
类具有信息接收和/或发送功能的设备,如计算机、手机、文字扫描设备、显示设备、打印机
等。
[0035] 用户终端130是指用户使用的电子设备,可以包括各类移动设备、智能设备、可穿戴设备等,例如,手机、智能手镯、车载计算机等。
[0036] 计算系统110可以通过用户终端130获取原文120和译文140。原文120和译文140可以通过各种常见的方式(例如,有线网络、无线网络或USB)通过用户终端130传输至计算系
统110。
[0037] 原文120和译文140使用的语言可以不同或相同。例如,原文120使用的语言是英语,译文140使用的语言是中文。又例如,原文120使用的语言是简体中文,译文140使用的语
言是繁体中文。
[0038] 图2是根据本说明书一些实施例所示的一种辅助翻译中处理术语的方法200的示例性流程图。
[0039] 步骤210,获取第一文本中的一个第一术语。具体地,步骤210可以由文本处理模块实现。具体地,步骤210可以由第一获取模块610实现。
[0040] 第一文本可以是指被翻译的文本。第一文本可以包括各种语言的文本。例如,英语、中文或日语。
[0041] 在一些实施例中,第一文本可以是被翻译的全部文本中的一个句子或一个段落。第一文本可以由用户在全部文本中选择,例如用户通过鼠标选中连续的一个句子或一个段
落作为第一文本。第一文本也可以被辅助翻译软件自动选中,例如,将用户当前处理的段落
对应的原文作为第一文本。
[0042] 在一些实施例中,第一术语是需要翻译或修订的一个词或多个词的组合。术语通常是指原文中用来表达某一专业领域或学科领域中的概念的词语,具有明显的专业化、标
准化的特征,同时也是原文中高频出现的词语,需要在译文中保持统一译名。特别地,第一
术语可以是非标准的术语,不存在统一的译法,并且难以自动获得其准确译法。
[0043] 在一些实施例中,第一术语可以是第一文本中的关键词或词组。第一术语可以由用户通过用户终端在第一文本中选择或手动输入。
[0044] 步骤220,获取第二文本中的多个候选词组,每一个候选词组为个数小于预设值的连续的词的组合。具体地,步骤220可以由第二获取模块620实现。
[0045] 第二文本是指与第一文本对应的翻译后的文本。第二文本可以来自于服务器、存储设备、其他接口或用户上传、输入的内容等,以及通过其他方式获取。具体地,第二文本可
以通过翻译程序自动翻译获得,或者通过获取人工翻译后的输入获得,或者来源于已存储
的预先翻译的内容。例如,第一文本可以是包含了第一术语“traffic data”的一句话:the 
processors may obtain the traffic data related to the road segment,其对应的第
二文本可以是:处理器可以获得与该路段有关的交通数据。
[0046] 在一些实施例中,处理设备可以获取第二文本中的多个候选词组。候选词组为第二文本中个数小于预设值的连续的词的组合。候选词组可以包括一个词、多个词或多个词
的组合。预设值指一个候选词组中可以包含的词的个数的上限。预设值可以由用户预先设
置,也可以由处理设备默认设置。例如,预设值可以是2、3、4、5、6等,优选地,预设值可以是3
或4。例如,第二文本是:处理器可以获得与该路段有关的交通数据。预设值是3,那么以下内
容均为候选词组:处理器、可以、处理器/可以、处理器/可以/获得、有关、有关/的、有关/的/
交通、交通/数据等。以“处理器/可以/获得”为例,这是由处理器、可以、获得三个连续的词
组成的候选词组。而以下词组由于不连续所以不是候选词组:处理器/获得、有关/交通/数
据。候选词组可以通过分词后顺序获取连续词的组合来获取。分组可以使用ansj、jieba、
hanlp等分词工具实现,本说明书不做限制。
[0047] 在一些实施例中,本说明书中的处理设备可以是计算系统110。
[0048] 步骤230,获取第一术语与每一个候选词组的相似度。具体地,步骤230可以由计算模块630实现。
[0049] 第一术语与每一个候选词组的相似度反映了第一术语与每一个候选词组之间的语义接近程度。相似度可以通过多种方式获取,其中两个实施例的详细描述可以参见图4和
图5的说明。
[0050] 步骤240,确定作为第二术语的候选词组。具体地,步骤240可以由确定模块640实现。
[0051] 在一些实施例中,处理设备可以将相似度最高的候选词组作为第二术语。第二术语可以被认为是第二文本中与第一术语相对应的翻译内容。比如,在第二文本“处理器可以
获得与该路段有关的交通数据”中,“交通数据”被认为是与第一术语“traffic data”相对
应的翻译内容。
[0052] 在一些实施例中,处理设备可以将相似度符合预设条件的一个或多个候选词组作为候选术语。预设条件可以是相似度大于阈值、相似度排序靠前的几个等。
[0053] 处理设备可以获取用户通过用户终端的输入,从一个或多个候选术语中确定一个作为第二术语。例如,处理设备可以显示相似度最高的候选术语,由用户进行确定。如果用
户否定该候选术语,则提示下一个候选术语。在一些实施例中,也可以进一步由用户选择确
定第二术语。在一些实施例中,若候选术语只有一个,则处理设备也可以显示该候选术语,
由用户进行确认。
[0054] 由于在一段第二文本中,可能有多个语义相近的词组,简单通过相似度最高来确定第二术语有可能出现偏差。基于自动选择与获取用户输入相结合的方式,可以更准确地
确定第二术语。
[0055] 步骤250,对第二术语进行处理。具体地,步骤250可以由处理模块650实现。
[0056] 在一些实施例中,处理设备可以将第二术语以多种方式显示出来。例如,可以在第一文本中以悬浮图片的方式在第一术语上方显示第二术语,也可以在第二文本中高亮显示
第二术语,还可以在第一文本和第二文本中同时以同样的方式(如,同样的字体颜色)显示
第二术语,本说明书不做限制。
[0057] 在一些实施例中,可以将第二术语以多种方式标识出来。例如,可以在第二文本中以下划线、阴影、字体变换(如,加粗、宋体变换为黑体等)的形式标识第二术语,本说明书不
做限制。
[0058] 显示或标识第二术语,可以帮助用户进行进一步的处理,比如重点检查术语的翻译是否正确等等,可以提高翻译效率。
[0059] 在一些实施例中,处理设备可以用第三术语替换第二术语。第三术语可以是第二术语的改进的译法。第三术语可以来自于预置的术语表,也可以来自于获取用户的输入。
[0060] 无论是人工还是机器翻译,都有可能对于文本中的自定义的术语没有做出很准确或者很适当的翻译。通过本说明书中的方法,可以找到当前译文中对于自定义的术语的译
法,从而进行进一步的调整。由此可以大幅度提高辅助翻译的效果。
[0061] 图3是根据本说明书一些实施例所示的确定源文本中第二术语的方法300的示例性流程图。
[0062] 在一个源文本中,可能包括很多段落或句子。一个术语可能在这些内容中多次出现。但是,由于不同段落、句子的内容不同,术语出现时的上下文不同,所以有可能相同的术
语会出现不同的译法。将这些译法统一到最正确、适当的译法具有重要的意义。
[0063] 步骤310,在多个源文本单元中查找第一术语,获得包含第一术语的源文本单元。具体地,步骤310可以由第一获取模块610实现。
[0064] 源文本单元使用与第一文本对应的语言,源文本单元是原文全文中除第一文本外的其余文本单元,例如句子、段落等。源文本单元可以是按预设条件预先划分好的,也可以
由用户自定义划分。例如,如图3最上方所示,源文本文件被划分为m个源文本单元。
[0065] 在一些实施例中,在从第一文本中获取第一术语后,处理设备可以在多个源文本单元中查找第一术语,可以获得包含第一术语的源文本单元。例如,如图3所示,第一术语是
“traffic data”,通过在前述m个源文本单元中查找第一术语,可以获得包含第一术语的源
文本单元,如,包含第一术语的源文本单元可以为源文本单元1(“In some embodiments,to 
determine the back‑propagation wave speed corresponding to the road segment,
the one or more processors may obtain traffic data related to the road 
segment.”)、源文本单元2(“The traffic data related to the road segment may 
include a vehicle flow rate of the road segment and a vehicle density of the 
road segment corresponding to the vehicle flow rate.”。
[0066] 步骤320,获得目标文本单元,将其对应的目标文本单元的内容作为第二文本。所述目标文本单元使用与所述第二文本对应的语言。具体地,步骤320可以由第二获取模块
620实现。
[0067] 目标文本单元是对应源文本单元的译文,目标文本单元使用与第二文本对应的语言。例如,第二文本使用的语言为中文,目标文本单元使用的语言也为中文。译文的获取方
式与第二文本类似。例如,源文本单元是“In some embodiments,it is determined that 
the one or more processors may obtain traffic data related to the road 
segment in response to the free flow speed of the road segment.”,目标文本单元
是“在一些实施例中,确定响应于所述路段的所述自由流动速度,所述一个或多个处理器可
以获取与所述路段相关的交通数据。”。
[0068] 在一些实施例中,对每一个包含了第一术语的源文本单元,将其对应的目标文本单元的内容作为第二文本。例如,如图3所示,源文本单元1、源文本单元2包含第一术语
“traffic data”,对应的目标文本单元1可以作为源文本单元1的第二文本,目标文本单元2
可以作为源文本单元2的第二文本。
[0069] 在一些实施例中,将包含第一术语的每一个源文本单元对应的目标文本单元作为第二文本,缩小了处理的范围,提高了效率。
[0070] 步骤330,在每一个第二文本中获取相应的第二术语。
[0071] 在一些实施例中,将包含第一术语的每一个源文本单元对应的目标文本单元作为第二文本,处理设备可以按照类似图2(如,步骤220~240)的方法,获取每一个第二文本
(即,目标文本单元)中的第二术语,此处不再赘述。
[0072] 步骤340,对多个所述目标文本单元中的所述第二术语进行替换。具体地,步骤340可以由处理模块650实现。
[0073] 步骤330中获取的目标文本单元中的第二术语与步骤240中确定的第二术语可以相同,也可以不同,即,目标文本单元中的第二术语与第二文本中的第二术语可以相同,也
可以不同。
[0074] 如果目标文本单元中的第二术语与步骤240中确定的第二术语不同,且在步骤250中未使用第三术语对第二术语进行替换,处理设备可以使用步骤240中确定的第二术语替
换目标文本单元中的第二术语,以使目标文本单元中的第二术语与第二文本中的第二术语
一致,也即:使第一文本和多个源文本单元中第一术语的翻译保持一致。在一些实施例中,
如果目标文本单元中的第二术语与步骤240中确定的第二术语相同,且在步骤250中未使用
第三术语对第二术语进行替换,此时对第二术语不进行任何处理。
[0075] 如果在步骤250中使用了第三术语对第二术语进行了替换,处理设备还可以使用第三术语对多个目标文本单元中的第二术语进行替换,所使用的第三术语与步骤250中使
用的第三术语相同。
[0076] 例如,如图3所示,目标文本单元1中的第二术语为“路况数据”,目标文本单元2中的第二术语为“运输数据”,二者统一被替换成第一文本中第一术语对应的第二术语“交通
数据”。
[0077] 第三术语是第一术语的优选译文。第三术语可以获取自用户的输入,可以获取自预设的术语表,也可以通过其他方式获取。
[0078] 通过本说明书中的方法,可以在对一个第一术语确定适当的译文后,在多个源文件中找到所有使用了该第一术语的内容,并在相应的译文中找到对应的内容,进一步替换
为相同的、适当的译文。由此,保证了译文全文中术语的一致性,提高了辅助翻译的效率和
质量。
[0079] 图4是根据本说明书一些实施例所示的相似度获取方法400的示例性流程图。
[0080] 在本实施例中,说明了计算第一术语与候选词组相似度的一种方法。本实施例可以由计算模块630执行。
[0081] 步骤410,将第一术语输入自动翻译模型获取第四术语,第四术语所用语言为第二文本对应的语言。
[0082] 自动翻译模型是基于机器学习的自动翻译模型,是将检测到的源文本语言翻译成目标语言。自动翻译模型可以是Sequence to Sequence模型、Transformer模型、BERT模型,
也可以是在Sequence to Sequence模型基础上加入Attention机制与Bi‑RNN模型等常见的
机器翻译模型,这里不做限制。
[0083] 第四术语指第一术语经自动翻译模型翻译而成的文本,且第四术语与第二文本所用语言类型相同。例如,第一文本为英语文本,经自动翻译模型翻译为第二文本,第二文本
是中文(简体)文本。第一文本中的第一术语是“traffic data”,经自动翻译模型翻译为“交
通数据”,“交通数据”即为第四术语,且与第二文本的语言类型相同。
[0084] 步骤420,基于第四术语和每一个候选词组,通过文本嵌入模型获取第四术语向量和多个候选词组向量。
[0085] 将第四术语输入文本嵌入模型可以得到第四术语的词向量,即源术语向量;将每一个候选词组输入文本嵌入模型可以得到对应的候选词组的词向量。
[0086] 文本嵌入模型可以将词语文本转化为向量表示。文本嵌入模型可以是Word2vec模型、TF‑IDF模型、BERT模型等常见文本嵌入模型。
[0087] 例如,第四术语是“交通数据”,候选词组包括“交通”、“数据”、“交通数据”、“相关的交通数据”。将第四术语“交通数据”输入Word2vec模型,输出得到第四术语的词向量,即
源术语向量;将候选词组“交通”输入Word2vec模型,输出得到候选词组的词向量1,将候选
词组“数据”输入Word2vec模型,输出得到候选词组的词向量2,将候选词组“交通数据”输入
Word2vec模型,输出得到候选词组的词向量3,将候选词组“相关的交通数据交通”输入
Word2vec模型,输出得到候选词组的词向量4。
[0088] 步骤430,计算源术语向量和每一个候选词组向量的相似度。
[0089] 相似度可以反映两个文本在语义上相似的程度。
[0090] 在一些实施例中,可以基于源术语向量与每一个候选词组向量的向量距离确定相似度。例如,可以使用余弦法、欧几里得距离法、马氏距离法、闵可夫斯基距离法、汉明距离
法等计算源术语向量和每一个候选词组向量之间的相似度。
[0091] 通过这一方法,可以不需要依赖于专门的训练,直接应用常用的翻译模型和词嵌入模型,即可完成相似度计算。这个方法便于实施,避免了训练样本不足时对准确度的影
响,提高了辅助翻译工作的质量。
[0092] 图5是根据本说明书又一实施例所示的相似度获取方法500的示例性流程图。
[0093] 在本实施例中,说明了计算第一术语与候选词组相似度的一种方法。本实施例可以由计算模块630执行。
[0094] 步骤510,基于第一术语和每一个候选词组,通过文本嵌入模型获取第一术语向量和每一个候选词组向量。
[0095] 将第一术语输入文本嵌入模型得到第一术语向量,即源术语向量,将至少一个候选词组输入文本嵌入模型得到一个或多个候选词组向量。文本嵌入模型可参见图4的相关
描述,这里不再赘述。
[0096] 步骤520,基于第一术语向量和每一个候选词组向量,输入相似度模型确定相似度。
[0097] 在一些实施例中,相似度模型可以为机器学习模型。例如,神经网络模型。在一些实施例中,将第一术语向量与每一个候选词组向量分别输入神经网络模型确定相似度。该
模型的输入为第一术语向量和每一个候选词组向量,输出为第一术语和每一个候选词组的
相似度。
[0098] 该相似度模型可以通过训练获得。相似度模型训练时,可以获取经用户确认的原文、译文对作为正样本,将原文或译文中的词替换为近义词作为负样本,基于训练数据通过
梯度下降法更新模型的参数。
[0099] 通过这种方式,可以避免对于自动翻译模型的依赖,减少自动翻译模型的干扰造成的选择偏差,通过充足的训练语料选择获得效果更好的相似度模型,从而更好地完成相
似度计算。
[0100] 图6是根据本说明书一些实施例所示的一种辅助翻译中处理术语的系统的模块图。
[0101] 如图6所示,该辅助翻译中处理术语的系统600可以包括第一获取模块610、第二获取模块620、计算模块630、确定模块640和处理模块650。
[0102] 第一获取模块610可以用于获取第一文本中的一个第一术语。在一些实施例中,第一获取模块610可以用于获取多个源文本单元并查找第一术语。
[0103] 第二获取模块620可以用于获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合。在一些实施例中,第二获取模块620可以用于获取
包含第一术语的每一个所述源文本单元对应的目标文本单元作为所述第二文本,并获取目
标文本单元中的第二术语。
[0104] 计算模块630可以用于计算第一术语与每一个候选词组的相似度。
[0105] 确定模块640可以用于确定作为第二术语的候选词组。
[0106] 处理模块650可以用于对第二术语进行处理。具体地,处理模块650可以显示或标识第二术语,或者用第三术语替换第二术语。在一些实施例中,处理模块650还可以对多个
目标文本单元中的第二术语进行替换。
[0107] 应当理解,图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可
以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微
处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计
算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的
载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据
载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或
门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备
等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实
现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
[0108] 需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理
后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模
块连接。例如,图6中披露的第一获取模块610和第二模块620可以是一个系统中的不同模
块,也可以是一个模块实现上述的两个模块的功能。又例如,处理模块650可以是一个模块,
也可以是三个模块分别具有显示、标识、替换第二术语的功能。诸如此类的变形,均在本说
明书的保护范围之内。
[0109] 应当注意的是,上述有关辅助翻译中处理对应术语的流程描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以
对辅助翻译中处理对应术语的流程进行各种修正和改变。然而,这些修正和改变仍在本说
明书的范围之内。
[0110] 本说明书实施例可能带来的有益效果包括但不限于:(1)通过术语与候选词组相似度的计算,确定该术语的较优译法,然后通过与用户输入相结合的方式,可以确定出该术
语的更准确的译文;(2)通过在全部译文中对该术语的译文进行统一,提高了辅助翻译的效
率和质量。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能
产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效
果。
[0111] 上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能
会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所
以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
[0112] 同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特
点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一
个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个
实施例中的某些特征、结构或特点可以进行适当的组合。
[0113] 此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或
对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以
完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件
或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的
各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可
读程序编码。
[0114] 计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或
合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介
质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用
的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线
电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
[0115] 本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、
VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、
COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序
编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在
用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种
情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网
(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软
件即服务(SaaS)。
[0116] 此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通
过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说
明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本
说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过
硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设
备上安装所描述的系统。
[0117] 同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附
图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要
求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
[0118] 一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说
明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例
中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点
可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的
方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体
实施例中,此类数值的设定在可行范围内尽可能精确。
[0119] 针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容
不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当
前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、
定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、
定义和/或术语的使用为准。
[0120] 最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代
配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介
绍和描述的实施例。