一种辅助翻译中处理术语的方法转让专利
申请号 : CN202010412122.7
文献号 : CN111597826B
文献日 : 2021-10-01
发明人 : 李延 , 叶庆
申请人 : 苏州七星天专利运营管理有限责任公司
摘要 :
权利要求 :
1.一种辅助翻译中处理术语的方法,其中,包括:获取第一文本中的一个第一术语,以及,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;
对第二文本分词后顺序获取连续词的组合以获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;
获取所述第一术语与每一个所述候选词组的相似度,基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;
对所述第二术语进行以下操作的一种或多种:显示所述第二术语,
标识所述第二术语,
用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。
2.如权利要求1所述的方法,其中,所述相似度的获取方法包括:基于所述第一术语通过自动翻译模型获取第四术语,所述第四术语所用语言为所述第二文本所对应的语言;
基于所述第四术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;
基于所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。
3.如权利要求1所述的方法,其中,所述相似度的获取方法包括:基于所述第一术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;
基于所述源术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。
4.一种辅助翻译中处理术语的系统,其中,包括:用于存储计算机指令的至少一个存储器;
与所述存储器通讯的至少一个处理器,以及当所述至少一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:对第二文本分词后顺序获取连续词的组合以获取第一文本中的一个第一术语,其中,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;
获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;
获取所述第一术语与每一个所述候选词组的相似度,基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;
对所述第二术语进行以下操作的一种或多种:显示所述第二术语,
标识所述第二术语,
用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。
5.如权利要求4所述的系统,其中,为获取所述第一术语与每一个所述候选词组的相似度,所述至少一个处理器使所述系统进一步执行:基于所述第一术语通过自动翻译模型获取第四术语,所述第四术语所用语言为所述第二文本所对应的语言;
基于所述第四术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;
基于所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。
6.如权利要求4所述的系统,其中,为获取所述第一术语与每一个所述候选词组的相似度,所述至少一个处理器使所述系统进一步执行:基于所述第一术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;
基于所述源术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。
7.一种辅助翻译中处理术语的系统,其中,包括:第一获取模块,用于获取第一文本中的一个第一术语,以及,在多个源文本单元中查找所述第一术语,所述源文本单元使用与第一文本对应的语言,且包含不同于所述第一文本的内容;
第二获取模块,用于对第二文本分词后顺序获取连续词的组合以获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预设值的连续的词的组合,其中,对包含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,所述目标文本单元使用与所述第二文本对应的语言;
计算模块,用于获取所述第一术语与每一个所述候选词组的相似度;
确定模块,用于基于所述相似度确定作为与所述第一术语对应的第二术语的候选词组,其中,所述基于所述相似度确定作为第二术语的候选词组包括:将所述相似度符合预设条件的一个或多个所述候选词组作为候选术语,获取用户输入以从所述候选术语中确定所述第二术语;
处理模块,用于对所述第二术语进行以下操作的一种或多种:显示所述第二术语,
标识所述第二术语,
用第三术语替换第二术语,其中,对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相同。
8.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取所述存储介质中的所述计算机指令后,所述计算机执行如权利要求1~3中任一项所述的方法。
说明书 :
一种辅助翻译中处理术语的方法
技术领域
背景技术
存在不准确的情况,还是需要通过人工进行进一步检查并替换为准确的译文。同时,在源语
言文件中,同一个专业术语对应同一个特定的技术概念或者专有名词,然而,由于上下文语
境等原因,同一个专业术语在译文中可能存在不同的翻译,需要人工检查并替换为统一的
术语对应的翻译。
发明内容
每一个所述候选词组为个数小于预设值的连续的词的组合;获取所述第一术语与每一个所
述候选词组的相似度,确定作为第二术语的候选词组;对所述第二术语进行以下操作的一
种或多种:显示所述第二术语,标识所述第二术语,用第三术语替换第二术语。
含所述第一术语的每一个所述源文本单元,将其对应的目标文本单元作为所述第二文本,
获取所述目标文本单元中的第二术语,所述目标文本单元使用与所述第二文本对应的语
言;如果对多个所述目标文本单元中的所述第二术语进行替换,所使用的所述第三术语相
同。
术语和所述候选词组,分别通过文本嵌入模型获取源术语向量和多个候选词组向量;基于
所述源术语向量与每一个所述候选词组向量的向量距离确定相似度。
术语向量与每一个所述候选词组向量,通过相似度模型确定相似度;其中,所述相似度模型
为机器学习模型。
一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:获取第一文本
中的一个第一术语;获取第二文本中的多个候选词组,每一个所述候选词组为个数小于预
设值的连续的词的组合;获取所述第一术语与每一个所述候选词组的相似度,确定作为第
二术语的候选词组;对所述第二术语进行以下操作的一种或多种:显示所述第二术语,标识
所述第二术语,用第三术语替换第二术语。
所述第一文本的内容;对包含所述第一术语的每一个所述源文本单元,将其对应的目标文
本单元作为所述第二文本,获取所述目标文本单元中的第二术语,所述目标文本单元使用
与所述第二文本对应的语言;如果对多个所述目标文本单元中的所述第二术语进行替换,
所使用的所述第三术语相同。
四术语所用语言为所述第二文本所对应的语言;基于所述第四术语和所述候选词组,分别
通过文本嵌入模型获取源术语向量和多个候选词组向量;基于所述源术语向量与每一个所
述候选词组向量的向量距离确定相似度。
获取源术语向量和多个候选词组向量;基于所述源术语向量与每一个所述候选词组向量,
通过相似度模型确定相似度;其中,所述相似度模型为机器学习模型。
输入确定所述第二术语。
组,每一个所述候选词组为个数小于预设值的连续的词的组合;计算模块,用于获取所述第
一术语与每一个所述候选词组的相似度;确定模块,用于确定作为第二术语的候选词组;处
理模块,用于对所述第二术语进行以下操作的一种或多种:显示所述第二术语,标识所述第
二术语,用第三术语替换第二术语。
助翻译中处理术语的方法。
附图说明
中:
具体实施方式
施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标
号代表相同结构或操作。
则可通过其他表达来替换所述词语。
示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者
设备也可能包含其它的步骤或元素。
处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数
步操作。
中标识出词组或术语的翻译,辅助用户理解外文文献。再例如,计算系统110可以统计术语
及其相关表述在文档中出现的次数,辅助判别文本的关键词。
的表述。例如:计算系统110可以根据原文120中的术语“traffic data”以及译文140中该术
语对应的翻译“交通数据”、“路况数据”、“流量数据”、“运输数据”等,将译文140中“traffic
data”的翻译统一为“交通数据”。
Processing Unit,GPU)、微处理器、特殊应用集成电路(application‑specific
integrated circuit,ASIC)、或其他类型的集成电路。
任意组合。
类具有信息接收和/或发送功能的设备,如计算机、手机、文字扫描设备、显示设备、打印机
等。
统110。
言是繁体中文。
落作为第一文本。第一文本也可以被辅助翻译软件自动选中,例如,将用户当前处理的段落
对应的原文作为第一文本。
准化的特征,同时也是原文中高频出现的词语,需要在译文中保持统一译名。特别地,第一
术语可以是非标准的术语,不存在统一的译法,并且难以自动获得其准确译法。
以通过翻译程序自动翻译获得,或者通过获取人工翻译后的输入获得,或者来源于已存储
的预先翻译的内容。例如,第一文本可以是包含了第一术语“traffic data”的一句话:the
processors may obtain the traffic data related to the road segment,其对应的第
二文本可以是:处理器可以获得与该路段有关的交通数据。
的组合。预设值指一个候选词组中可以包含的词的个数的上限。预设值可以由用户预先设
置,也可以由处理设备默认设置。例如,预设值可以是2、3、4、5、6等,优选地,预设值可以是3
或4。例如,第二文本是:处理器可以获得与该路段有关的交通数据。预设值是3,那么以下内
容均为候选词组:处理器、可以、处理器/可以、处理器/可以/获得、有关、有关/的、有关/的/
交通、交通/数据等。以“处理器/可以/获得”为例,这是由处理器、可以、获得三个连续的词
组成的候选词组。而以下词组由于不连续所以不是候选词组:处理器/获得、有关/交通/数
据。候选词组可以通过分词后顺序获取连续词的组合来获取。分组可以使用ansj、jieba、
hanlp等分词工具实现,本说明书不做限制。
图5的说明。
获得与该路段有关的交通数据”中,“交通数据”被认为是与第一术语“traffic data”相对
应的翻译内容。
户否定该候选术语,则提示下一个候选术语。在一些实施例中,也可以进一步由用户选择确
定第二术语。在一些实施例中,若候选术语只有一个,则处理设备也可以显示该候选术语,
由用户进行确认。
确定第二术语。
第二术语,还可以在第一文本和第二文本中同时以同样的方式(如,同样的字体颜色)显示
第二术语,本说明书不做限制。
做限制。
法,从而进行进一步的调整。由此可以大幅度提高辅助翻译的效果。
语会出现不同的译法。将这些译法统一到最正确、适当的译法具有重要的意义。
由用户自定义划分。例如,如图3最上方所示,源文本文件被划分为m个源文本单元。
“traffic data”,通过在前述m个源文本单元中查找第一术语,可以获得包含第一术语的源
文本单元,如,包含第一术语的源文本单元可以为源文本单元1(“In some embodiments,to
determine the back‑propagation wave speed corresponding to the road segment,
the one or more processors may obtain traffic data related to the road
segment.”)、源文本单元2(“The traffic data related to the road segment may
include a vehicle flow rate of the road segment and a vehicle density of the
road segment corresponding to the vehicle flow rate.”。
620实现。
式与第二文本类似。例如,源文本单元是“In some embodiments,it is determined that
the one or more processors may obtain traffic data related to the road
segment in response to the free flow speed of the road segment.”,目标文本单元
是“在一些实施例中,确定响应于所述路段的所述自由流动速度,所述一个或多个处理器可
以获取与所述路段相关的交通数据。”。
“traffic data”,对应的目标文本单元1可以作为源文本单元1的第二文本,目标文本单元2
可以作为源文本单元2的第二文本。
(即,目标文本单元)中的第二术语,此处不再赘述。
可以不同。
换目标文本单元中的第二术语,以使目标文本单元中的第二术语与第二文本中的第二术语
一致,也即:使第一文本和多个源文本单元中第一术语的翻译保持一致。在一些实施例中,
如果目标文本单元中的第二术语与步骤240中确定的第二术语相同,且在步骤250中未使用
第三术语对第二术语进行替换,此时对第二术语不进行任何处理。
用的第三术语相同。
数据”。
为相同的、适当的译文。由此,保证了译文全文中术语的一致性,提高了辅助翻译的效率和
质量。
也可以是在Sequence to Sequence模型基础上加入Attention机制与Bi‑RNN模型等常见的
机器翻译模型,这里不做限制。
是中文(简体)文本。第一文本中的第一术语是“traffic data”,经自动翻译模型翻译为“交
通数据”,“交通数据”即为第四术语,且与第二文本的语言类型相同。
源术语向量;将候选词组“交通”输入Word2vec模型,输出得到候选词组的词向量1,将候选
词组“数据”输入Word2vec模型,输出得到候选词组的词向量2,将候选词组“交通数据”输入
Word2vec模型,输出得到候选词组的词向量3,将候选词组“相关的交通数据交通”输入
Word2vec模型,输出得到候选词组的词向量4。
法等计算源术语向量和每一个候选词组向量之间的相似度。
响,提高了辅助翻译工作的质量。
描述,这里不再赘述。
模型的输入为第一术语向量和每一个候选词组向量,输出为第一术语和每一个候选词组的
相似度。
梯度下降法更新模型的参数。
似度计算。
包含第一术语的每一个所述源文本单元对应的目标文本单元作为所述第二文本,并获取目
标文本单元中的第二术语。
目标文本单元中的第二术语进行替换。
以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微
处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计
算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的
载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据
载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或
门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备
等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实
现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模
块连接。例如,图6中披露的第一获取模块610和第二模块620可以是一个系统中的不同模
块,也可以是一个模块实现上述的两个模块的功能。又例如,处理模块650可以是一个模块,
也可以是三个模块分别具有显示、标识、替换第二术语的功能。诸如此类的变形,均在本说
明书的保护范围之内。
对辅助翻译中处理对应术语的流程进行各种修正和改变。然而,这些修正和改变仍在本说
明书的范围之内。
语的更准确的译文;(2)通过在全部译文中对该术语的译文进行统一,提高了辅助翻译的效
率和质量。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能
产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效
果。
会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所
以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一
个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个
实施例中的某些特征、结构或特点可以进行适当的组合。
对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以
完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件
或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的
各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可
读程序编码。
合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介
质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用
的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线
电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、
COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序
编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在
用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种
情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网
(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软
件即服务(SaaS)。
过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说
明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本
说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过
硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设
备上安装所描述的系统。
图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要
求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例
中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点
可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的
方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体
实施例中,此类数值的设定在可行范围内尽可能精确。
不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当
前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、
定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、
定义和/或术语的使用为准。
配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介
绍和描述的实施例。