文本翻译方法、装置、电子设备和存储介质转让专利

申请号 : CN202210446882.9

文献号 : CN114896991B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张睿卿刘辉王曦阳何中军李芝吴华

申请人 : 北京百度网讯科技有限公司

摘要 :

本公开提供了一种文本翻译方法、装置、电子设备和存储介质,涉及文本处理领域,尤其涉及智能搜索、人工智能和深度学习领域。具体实现方案为:获取初始文本,并在所述初始文本中确定第一文本;根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。本公开实施例可以提高文本翻译的准确性。

权利要求 :

1.一种文本翻译方法,包括:

获取初始文本,并在所述初始文本中确定第一文本;

根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;

对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;

根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本;

其中,所述对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本,包括:采用分隔文本的符号将所述初始文本与所述第二文本隔开放置在同一语句或同一段落中,所述第二文本放置于所述初始文本之后,得到拼接文本;

对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本,所述初始翻译文本和所述描述翻译文本在同一语句中的顺序与所述初始文本和所述第二文本在同一语句中的顺序相同。

2.根据权利要求1所述的方法,其中,所述根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本,包括:根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本。

3.根据权利要求2所述的方法,其中,所述根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本,包括:将所述拼接翻译文本输入至预先训练的改写模型中,得到所述改写模型中输出的所述初始文本的目标翻译文本。

4.根据权利要求1所述的方法,其中,所述根据所述第一文本,确定所述第二文本,包括:获取所述第一文本的释义内容;

根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本。

5.根据权利要求4所述的方法,其中,所述第二文本包括所述第一文本与所述描述文本之间的对应关系。

6.根据权利要求1所述的方法,其中,所述第一文本的字面语义与所述第一文本的实际语义不同。

7.一种文本翻译装置,包括:

初始文本获取模块,用于获取初始文本,并在所述初始文本中确定第一文本;

描述文本获取模块,用于根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;

文本翻译模块,用于对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;

翻译文本更新模块,用于根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本;

其中,所述文本翻译模块,包括:

文本拼接单元,用于通过分隔文本的符号将所述初始文本与所述第二文本隔开放置在同一语句或同一段落中,所述第二文本放置于所述初始文本之后,得到拼接文本;

拼接文本翻译单元,用于对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本,所述初始翻译文本和所述描述翻译文本在同一语句中的顺序与所述初始文本和所述第二文本在同一语句中的顺序相同。

8.根据权利要求7所述的装置,其中,所述翻译文本更新模块,包括:翻译文本改写单元,用于根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本。

9.根据权利要求8所述的装置,其中,所述翻译文本改写单元,包括:模型改写子单元,用于将所述拼接翻译文本输入至预先训练的改写模型中,得到所述改写模型中输出的所述初始文本的目标翻译文本。

10.根据权利要求7所述的装置,其中,所述描述文本获取模块,包括:释义内容获取单元,用于获取所述第一文本的释义内容;

描述文本确定单元,用于根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本息。

11.根据权利要求10所述的装置,其中,所述第二文本包括所述第一文本与所述描述文本之间的对应关系。

12.根据权利要求7所述的装置,其中,所述第一文本的字面语义与所述第一文本的实际语义不同。

13.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的文本翻译方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑6中任一项所述的文本翻译方法。

说明书 :

文本翻译方法、装置、电子设备和存储介质

技术领域

[0001] 本公开涉及文本处理领域,尤其涉及智能搜索、人工智能和深度学习领域,具体涉及一种文本翻译方法、装置、电子设备和存储介质。

背景技术

[0002] 随着互联网的发展,人们已经不再满足于从单一语言资料中获取信息,开始越来越多的关注从其他语言的资料中获取信息,因此需要借助机器自动翻译系统来实现跨语言信息获取。
[0003] 语言会随着时间的推移而不断的进化。机器翻译的准确率决定了人们是否可以准确获取信息。

发明内容

[0004] 本公开提供了一种文本翻译方法、装置、电子设备和存储介质。
[0005] 根据本公开的一方面,提供了一种文本翻译方法,包括:
[0006] 获取初始文本,并在所述初始文本中确定第一文本;
[0007] 根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;
[0008] 对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;
[0009] 根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0010] 根据本公开的一方面,提供了一种文本翻译装置,包括:
[0011] 初始文本获取模块,用于获取初始文本,并在所述初始文本中确定第一文本;
[0012] 描述文本获取模块,用于根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;
[0013] 文本翻译模块,用于对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;
[0014] 翻译文本更新模块,用于根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0015] 根据本公开的另一方面,提供了一种电子设备,包括:
[0016] 至少一个处理器;以及
[0017] 与所述至少一个处理器通信连接的存储器;其中,
[0018] 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的文本翻译方法。
[0019] 根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的文本翻译方法。
[0020] 根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的文本翻译方法。
[0021] 本公开实施例可以提高文本翻译的准确性。
[0022] 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0023] 附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024] 图1是根据本公开实施例公开的一种文本翻译方法的流程图;
[0025] 图2是根据本公开实施例公开的另一种文本翻译方法的流程图;
[0026] 图3是根据本公开实施例公开的另一种文本翻译方法的流程图;
[0027] 图4是根据本公开实施例公开的一种文本翻译方法的场景图;
[0028] 图5是根据本公开实施例公开的一种文本翻译方法的场景图;
[0029] 图6是根据本公开实施例公开的一种文本翻译装置的结构图;
[0030] 图7是用来实现本公开实施例的文本翻译方法的电子设备的框图。

具体实施方式

[0031] 以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032] 图1是根据本公开实施例公开的一种文本翻译方法的流程图,本实施例可以适用于对文本进行翻译的情况。本实施例方法可以由文本翻译装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
[0033] S101,获取初始文本,并在所述初始文本中确定第一文本。
[0034] 初始文本为待翻译的文本。初始文本可以包括下述至少一项:查询语句文档中文本等。示例性的,初始文本可以通过用户输入获取。例如,初始文本可以是用户直接输入的文本,还可以是用户输入的语音,并进行语音识别得到的文本。此外,初始文本还可以从公开的文档中提取得到。初始文本通常可以包括下述至少一项:字、词和语句等。初始文本可以包括第一文本。第一文本可以与初始文本相同,也可以是初始文本中的部分文本。第一文本可以包括下述至少一项:字、词和语句等。第一文本的数量可以为至少一个,在初始文本中可以确定至少一个第一文本。第一文本可以是指语义难以确定的文本,也可以是语义容易出错的文本,示例性的,第一文本可以是指存在多种含义的文本,例如,多义词;或者,第一文本可以是新衍生出含义的文本,例如,新词、网络用语或热词等。
[0035] 在一个具体的例子中,初始文本为语句,第一文本为词语,获取初始文本,并对初始文本进行分词,在得到的词语中,选择至少一个词语,确定为第一文本。选择方式,可以是预先建立语义难以确定的词库,在得到的词语中,与词库中词语相同的词语,确定为第一文本。
[0036] S102,根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本。
[0037] 第二文本用于描述第一文本,具体是用于对第一文本的语义进行限定,以区分第一文本在初始文本中的正确语义和错误语义,从而辅助翻译第一文本,修正第一文本在初始文本的译文中的翻译结果。第二文本包括第一文本的描述文本,描述文本用于辅助翻译第一文本。描述文本可以是指描述第一文本的文本。描述文本可以与第二文本相同,或者,第二文本是在描述文本的基础上增加内容形成的文本,增加的内容可以是第一文本。
[0038] 示例性的,描述文本可以与第一文本的语义相同,也即描述文本可以是第一文本的同义文本。又如,描述文本是第一文本的限定性文本,其中,限定性文本用于对第一文本进行限定,限定性文本可以包括第一文本内容的功能、起源、所属领域或发展历程等。示例性的,第一文本为“饭圈”。第二文本包括“饭圈”的同义文本“粉丝圈子”。第二文本可以是“饭圈又称为粉丝圈子”。或者,第二文本包括“饭圈”的限定性语义文本“追星的新名词”。第二文本可以是“饭圈是追星的新名词”。
[0039] 根据第一文本,确定第二文本,可以是查询第一文本的近义词、同义词和相似词确定为描述文本,并生成第二文本。或者,还可以是查询第一文本的释义内容,并从中提取文本,确定为描述文本,并生成第二文本。
[0040] S103,对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本。
[0041] 初始翻译文本是初始文本翻译得到的文本,通常是通过机器翻译得到的文本。描述翻译文本是第二文本翻译得到的文本,通常是通过机器翻译得到的文本。翻译方法可以包括基于规则的翻译方法、基于语料库的翻译方法或混合翻译方法等。示例性的,可以采用预先训练的神经网络模型对文本进行翻译,例如,Transformer(转换)模型。其中,初始文本中包括第一文本,初始翻译文本包括第一文本的译文。其中,对初始文本进行翻译和对第二文本进行翻译可以是同步翻译,还可以是异步翻译。
[0042] S104,根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0043] 描述翻译文本用于对初始翻译文本进行更新,具体是对第一文本的译文进行更新,以修改第一文本的错误译文。需要说明的是,更新可以是替换,或可以是改写。其中,替换可以采用基于规则的替换方式,对初始翻译文本进行分词,得到第一文本的译文,并替换为描述翻译文本。改写可以采用基于预先训练的机器学习模型实现,例如,将描述翻译文本和初始翻译文本输入到模型中,得到改写模型输出的目标翻译文本,示例性的,模型可以是Transformer模型。初始翻译文本更新得到目标翻译文本。目标翻译文本作为初始文本的最准确的翻译文本。在得到目标翻译文本之后可以提供给用户,还可以进行回译等。
[0044] 在现有技术中,有些词语,例如,新词热词,还有一些语言文化衍生词等,按照字直接翻译,得到的结果,与词语的实际语义不同,导致翻译错误。现有中对这种词语,需要人工预先收集,并人工翻译添加到语料库中,才能实现这类词语的准确翻译。
[0045] 根据本公开的技术方案,通过获取初始文本中的第一文本,并获取第一文本对应的描述文本生成的第二文本,分别对初始文本和第二文本进行翻译,并基于第二文本翻译得到的描述翻译文本,对初始文本翻译得到的初始翻译文本进行更新,得到初始文本的目标翻译文本,可以基于第一文本的描述内容,并对应得到描述翻译文本,对第一文本在初始翻译文本中的译文进行更新,以在初始翻译文本中准确确定第一文本的译文,提高第一文本的译文的准确性,从而,提高目标翻译文本的翻译准确性,并且减少人工翻译成本,提高翻译的实时性和效率。
[0046] 图2是根据本公开实施例公开的另一种文本翻译方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本,具体化为:将所述初始文本与所述第二文本进行拼接,得到拼接文本;对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本。
[0047] S201,获取初始文本,并在所述初始文本中确定第一文本。
[0048] S202,根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本。
[0049] S203,将所述初始文本与所述第二文本进行拼接,得到拼接文本。
[0050] 拼接文本包括初始文本和第二文本。拼接文本用于同时对初始文本和第二文本进行翻译。拼接方式可以是,将初始文本和第二文本放置在同一语句或同一段落中,并采用分隔文本的符号进行隔开。该符号用于在翻译前后对初始文本和第二文本进行分隔,确保初始文本和第二文本在翻译时不会受到彼此的语义的干扰。示例性,符号可以是逗号或句号等。例如,将第二文本置于初始文本之后,并采用逗号进行分隔。在一个具体的例子中,初始文本为“去年就想来了,今天终于拔草了”,第一文本为拔草,第二文本为拔草是消除欲望。拼接文本为“年就想来了,今天终于拔草了,拔草是消除欲望”。
[0051] S204,对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本。
[0052] 对拼接文本进行翻译,实现同时对初始文本和第二文本进行翻译。拼接翻译文本为拼接文本的译文,拼接翻译文本包括初始文本翻译得到的初始翻译文本,以及第二文本翻译得到的描述翻译文本。
[0053] 实际上,拼接文本中初始文本和第二文本的语义不进行混合,从而在拼接文本进行翻译的同时,初始文本和第二文本保持独立翻译,形成拼接翻译文本,该拼接翻译文本包括初始翻译文本和描述翻译文本,初始翻译文本为初始文本的译文,描述翻译文本为第二文本的译文。在拼接翻译文本中,初始翻译文本和描述翻译文本的拼接结构可以同于初始文本和第二文本的拼接结果,例如,初始文本和第二文本置于同一语句中,并用逗号分隔,初始翻译文本和描述翻译文本置于同一语句中,并用逗号分隔,且初始翻译文本和描述翻译文本的在同一语句中的顺序,与初始文本和第二文本在同一语句中的顺序相同。
[0054] S205,根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0055] 根据描述翻译文本对初始翻译文本进行更新,实际为根据拼接翻译文本包括的描述翻译文本,对拼接翻译文本包括的初始翻译文本进行更新,得到初始文本的目标翻译文本。实现将两个文本的处理,转变为同步的一个文本的处理,可以简化翻译操作,提高翻译效率。并且,相对于在第二文本和初始文本分别翻译的情况下,还需要人工或者额外操作建立两个译文之间的关联关系,增加翻译复杂度,拼接同步翻译,可以降低翻译的复杂度,提高翻译效率。
[0056] 可选的,所述根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本,包括:根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本。
[0057] 根据拼接翻译文本包括的描述翻译文本,对拼接翻译文本中初始翻译文本进行改写,可以理解为对拼接翻译文本进行改写,得到目标翻译文本,或者是根据描述翻译文本对初始翻译文本进行改写。其中,根据描述翻译文本对初始翻译文本进行改写,还需要额外剔除描述翻译文,得到改写后的初始翻译文本,确定为目标翻译文本。根据拼接翻译文本包括的描述翻译文本,对拼接翻译文本中初始翻译文本进行改写,实际是,根据描述翻译文本对初始翻译文本中第一文本的译文进行修正。但存在第一文本和第二文本并非是同义词的情况,这种情况无法直接进行替换,因为直接替换会导致修正后的初始翻译文本的语法错误,从而,对初始翻译文本进行改写,以得到修正的第一文本的译文,且符合语法规范的语句,确定为目标翻译语句。
[0058] 在一个具体的例子中,初始文本为:饭圈文化毒害了青少年一代;第二文本为饭圈指粉丝圈子的简称。相应的,初始翻译文本为:Rice circle culture has poisoned the younger generation。描述翻译文本为:Rice circle is short for fan circle。第一文本为饭圈,直接替换得到的结果为:Is short for fan circle culture has poisoned the younger generation,该文本的语法不符合英文的规范不适合作为译文。由此,可以根据描述翻译文本对初始翻译文本进行改写,例如,改写得到The fan culture has poisoned the younger generation,该文本的语法符合英文的规范,同时译文的语义与初始文本的语义一致。
[0059] 需要说明的是,初始文本可以包括至少一个第一文本,每个第一文本都确定对应的第二文本,从而,存在至少一个第二文本。拼接文本中包括一个初始文本,和至少一个第二文本。拼接文本中,初始文本置于首位,将第二文本放置在初始文本后面进行拼接,拼接时采用均采用逗号进行连接。示例性的,初始文本为A,第二文本包括B、C和D,拼接文本为:A,B,C,D。相应的,拼接文本中每个部分都对应翻译,得到拼接翻译文本,拼接翻译文本中初始翻译文本置于首位,描述翻译文本置于初始翻译文本后面,初始翻译文本和各描述翻译文本之间采用逗号进行连接,同时,第二文本的顺序,与对应的描述翻译文本的顺序一致。
又如,初始翻译文本为A’,第二文本B的描述翻译文本为B’,第二文本C的描述翻译文本为C’,第二文本D的描述翻译文本为D’。拼接翻译文本为:A’,B’,C’,D’。
[0060] 另外,根据拼接翻译文本中描述翻译文本,对拼接翻译文本中初始翻译文本进行改写,可以实现将两个文本的处理,转变为同步的一个文本的处理,可以简化改写操作,减少描述翻译文本和初始翻译文本在改写过程中建立关系的人工干预。
[0061] 通过同一拼接翻译文本中描述翻译文本,对拼接翻译文本中初始翻译文本进行改写,可以简化改写操作,减少描述翻译文本和初始翻译文本在改写过程中建立关系的人工干预操作,提高翻译改写效率,同时对初始翻译文本进行改写,可以减少译文语法错误,提高翻译准确性。
[0062] 相应的,根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本,可以包括:根据拼接翻译文本中,初始翻译文本和描述翻译文本之间的排列次序,确定初始翻译文本和描述翻译文本,根据描述翻译文本对初始翻译文本进行更新。
[0063] 可选的,所述根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,确定所述初始文本的目标翻译文本,包括:将所述拼接翻译文本输入至预先训练的改写模型中,得到所述改写模型中输出的所述初始文本的目标翻译文本。
[0064] 改写模型用于根据拼接翻译文本中描述翻译文本,对拼接翻译文本中初始翻译文本进行改写。改写模型为预先训练的深度学习模型,例如,可以是Transformer模型。训练样本可以包括同语种的两个文本,其中一个文本为拼接翻译文本,另一个文本为目标翻译文本。拼接翻译文本是初始翻译文本和至少一个描述翻译文本拼接形成的语句,初始翻译文本和描述翻译文本之间采用逗号连接。
[0065] 通过基于预先训练的改写模型,对拼接翻译文本的中的初始翻译文本进行改写,最终得到目标翻译文本,可以提高翻译准确性和效率。
[0066] 需要说明的是,前述翻译和改写都可以通过预先训练的模型实现,为了便于翻译和改写,可以将初始文本和第二文本中的第一文本替换为对应的占位符,不同的第一文本采用不同的占位符进行替换。使得模型的输入输出更加简化以及更加精准识别出第一文本。示例性的,初始文本为:经过多次拔草,我终于对饭圈生成的周边产品失去了兴趣。第一文本包括拔草、饭圈和周边产品,分别采用占位符A、B和C进行替换。替换后的初始文本为:经过多次A,我终于对B生成的C失去了兴趣。
[0067] 根据本公开的技术方案,通过将初始文本和第二文本进行拼接,形成拼接文本,对拼接文本进行翻译,得到拼接翻译文本,实现对初始文本和第二文本进行同步翻译,对初始翻译文本进行更新,转变为对拼接翻译文本进行处理,从而减少初始文本和第二文本在翻译过程中的人工干预,同时实现将两个文本的处理,转变为同步的一个文本的处理,可以简化翻译操作,提高翻译效率。
[0068] 图3是根据本公开实施例公开的另一种文本翻译方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述根据所述第一文本,确定所述第二文本,具体化为:获取所述第一文本的释义内容;根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本。
[0069] S301,获取初始文本,并在所述初始文本中确定第一文本。
[0070] S302,获取所述第一文本的释义内容。
[0071] 第一文本的释义内容可以是指第一文本关联的百科知识,第一文本的释义内容用于确定第一文本在初始文本中的语义,以区分第一文本在初始文本中的语义和其他文本的语义,以及区分第一文本在初始文本中的语义和第一文本的其他语义。第一文本的释义内容可以包括第一文本的多个语义,例如原义和引申含义等,还可以包括每个语义的应用的示例语句,每个语义的起源和关联的知识文档等。此外还可以针对不同语义的应用领域,将涉及的学科知识、评论性信息和相关的政策信息等也纳入释义内容中。
[0072] 其中,第一文本的释义内容可以在网络上查询获取,例如调用百科知识的查询接口,搜索第一文本相关的内容,确定为第一文本的释义内容。
[0073] S303,根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本。
[0074] 释义内容可以包括冗余和无关的信息,可以对释义内容进行处理,得到描述文本。示例性的,对释义内容进行摘要提取,获取描述文本。可以通过预先训练的机器学习模型,对释义内容进行摘要提取。其中,预先训练的机器学习模型可以包括序列到序列模型或长短期记忆神经网络模型等。或者,还可以将释义内容中各语句与第一文本进行匹配,得到第一文本匹配的语句,确定为描述文本。第一文本匹配的语句可以是包括第一文本的语句。此外,可以根据初始文本和第一文本,在释义内容确定描述文本,由于第一文本可以是多义词,从而,根据初始文本可以确定第一文本在初始文本中的语义,更准确的确定第一文本的描述文本。
[0075] 其中,第一文本的释义内容可以通过问答系统查询获取,或者可以通过搜索引擎查询获取。示例性的,可以生成第一文本的问句,例如“第一文本是什么意思”,输入到问答系统中,问答系统根据问句,获取第一文本的释义内容,并对释义内容进行摘要提取,得到第一文本的描述文本。
[0076] 生成第二文本,实际是根据第一文本的描述文本,生成第二文本,具体的,可以直接将描述文本确定为第二文本,或者是对描述文本进行处理,生成第二文本。处理具体是,将描述文本与第一文本建立对应关系,形成第二文本。
[0077] 可选的,所述第二文本包括所述第一文本与所述描述文本之间的对应关系。
[0078] 第一文本与描述文本之间的对应关系,用于确定第一文本与描述文本之间存在关系,并且表明第一文本和描述文本是一致的。实际上,初始文本中可以存在多个第一文本,每个第一文本对应确定描述文本,并生成第二文本,相应的,存在多个描述文本和多个第二文本。从而,在第二文本中建立第一文本和描述文本之间的对应关系,可以确定第二文本是针对哪个第一文本确定的文本。从而,在多个第二文本中可以按照不同的第一文本进行区分。第二文本包括第一文本与描述文本之间的对应关系,实际相当于,还包括第一文本和描述文本,以及描述对应关系的连接词,其中,连接词可以包括:是或用于等。
[0079] 此外,第二文本中包括第一文本,可以不需要在初始文本中额外标识第一文本,从而,只需要确定初始文本和第二文本中重复的文本,即为第一文本,省却人工标识的成本。
[0080] 建立对应关系的具体方式可以是,将第一文本和描述文本建立限定关系,例如,将第一文本和描述文本建立等同关系,通常用“是”描述,例如,第一文本是描述文本;又如,将第一文本和描述文本建立功能关系,通常用“用于”描述,例如,第一文本用于实现描述文本。此外,还有其他建立关系的方式,可以根据具体第一文本内容和描述文本内容进行设定。示例性的,第一文本为:拔草;描述文本为:消除欲望;第一文本和描述文本之间的对应关系为等同关系,第二文本可以为:拔草是指消除欲望。又如,第一文本为:饭圈;描述文本为:组织追星粉丝;第一文本和描述文本之间的对应关系为功能限定关系,第二文本可以为:饭圈用于组织追星粉丝。
[0081] 相应的,根据第一文本的描述文本,生成第二文本,具体可以是在描述文本包括第一文本与描述文本之间的对应关系的情况下,将描述文本确定为第二文本,或者在预先建立的语句模板中,查询与对应关系匹配的语句模板,将第一文本和描述文本添加到对应的位置处,形成第二文本;在描述文本不包括第一文本与描述文本之间的对应关系的情况下,建立描述文本与第一文本之间的对应关系,并添加第一文本和描述文本,生成第二文本。示例性的,第一文本为:拔草;描述文本为:消除欲望;描述文本不存在第一文本,也不存在第一文本与描述文本之间的对应关系,根据第一文本、描述文本和二者之间的对应关系,生成的第二文本可以为:拔草是指消除欲望。又如,描述文本为:拔草是指消除欲望;描述文本中包括第一文本,和第一文本与描述文本之间的对应关系,将描述文本确定为第二文本,具体为:拔草是指消除欲望。
[0082] 通过限定第二文本中包括第一文本和描述文本的对应关系,可以区分不同第一文本对应确定不同的第二文本,同时,第二文本中包括第一文本,可以标识初始文本中存在的第一文本,减少人工标识成本。
[0083] S304,对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本。
[0084] S305,根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0085] 可选的,所述第一文本的字面语义与所述第一文本的实际语义不同。
[0086] 字面语义是指按照第一文本包括的文字的含义确定的语义。实际语义是指第一文本的正确含义,或者是第一文本在初始文本中的语义。字面语义与实际语义不同表明,第一文本的实际语义无法直接根据第一文本包括的文字的含义确定。示例性的,“饭圈”的字面语义为:米饭圈子,实际语义为粉丝群体。又如,拔草的字面语义为:移除草;拔草的实际语义包括:移除草或消除欲望。又如,空穴来风的字面语义为:无洞穴就能来风;空穴来风的实际语义为:有了洞穴才能来风,或传闻是有根据的。
[0087] 用户可以预先收集网络中出现的词语等,以及还可以通过收集大量的词语,自动筛选出高频词,生成词库。词库为预先收集的文本。词库用于在初始文本中确定第一文本。词库可以理解为词库,将初始文本与词库进行匹配,将初始文本中与词库相同的文本,确定为第一文本。
[0088] 通过在初始文本中,确定字面语义与实际语义不同的第一文本,实现在初始文本中确定语义容易检测错误的文本,也是翻译容易错误的文本,并针对性进行修正,实现针对性翻译优化,提高翻译准确性。
[0089] 根据本公开的技术方案,通过获取第一文本的释义内容,并确定第一文本的描述文本,以及基于描述文本生成第二文本,实现第二文本准确描述第一文本,从而根据第二文本可以准确描述第一文本的语义,在基于第二文本的描述翻译文本对初始翻译文本进行更新,得到目标翻译文本,可以提高第一文本在目标翻译文本的翻译准确性,从而提高目标翻译文本的翻译准确性。
[0090] 图4是根据本公开实施例公开的另一种文本翻译方法的场景图。文本翻译方法可以包括:
[0091] S401,获取初始文本,并在所述初始文本中确定第一文本,所述第一文本的字面语义与所述第一文本的实际语义不同。
[0092] 根据预先收集的词库,在初始文本中查询是否与词库中词语相同的词语,确定为第一文本。可以在初始文本中确定至少一个第一文本。例如,初始文本为:饭圈文化毒害了青少年一代,确定的第一文本为:饭圈。
[0093] S402,获取所述第一文本的释义内容。
[0094] 可以通过问答系统,根据第一文本,查询第一文本的释义内容。如前例,释义内容为:“饭圈,网络用语中指粉丝圈子的简称,另外"粉丝"一词的英文单词为"fans",单词fans本身由fan+s构成,s一般表示多个,其中的fan可以直接音译为“饭”。粉丝群体叫“饭”,他们组成的圈子叫“饭圈”,近义词有“饭团”。
[0095] S403,根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本。
[0096] 通过问答系统,将释义内容输入到摘要生成模型中,得到摘要生成模型输出的释义内容的摘要文本,确定为第一文本的描述文本。在描述文本包括第一文本与描述文本之间的对应关系的情况下,将描述文本确定为第二文本;在描述文本不包括第一文本与描述文本之间的对应关系的情况下,建立描述文本与第一文本之间的对应关系,并添加第一文本和描述文本,生成第二文本。
[0097] 如前例,描述文本为:饭圈,网络用语中指粉丝圈子的简称。生成的第二文本为:饭圈指粉丝圈子的简称。
[0098] S404,将所述初始文本与所述第二文本进行拼接,得到拼接文本。
[0099] 将初始文本排列在首位,可以按照各第一文本在初始文本中的次序,依次排列第二文本,各文本之间采用逗号连接,形成一个完整的语句,确定为拼接文本。
[0100] 如前例,拼接文本为:饭圈文化毒害了青少年一代,饭圈指粉丝圈子的简称。
[0101] S405,对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本。
[0102] 可以通过预先训练的翻译模型对拼接文本进行翻译,得到拼接翻译文本。实际上,对拼接文本进行翻译,可以采用现有的在大规模数据集上训练的翻译模型即可,不需要重新训练。
[0103] 如前例,拼接翻译文本为:The rice circle culture has poisoned the young generation,The rice circle is short for fan circle.
[0104] S406,根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本。
[0105] 可以通过预先训练的改写模型对拼接翻译文本进行改写,具体根据描述翻译文本对初始翻译文本进行改写,得到改写后的初始翻译文本,并确定为目标翻译文本。其中,改写模型,可以采用少量单语种的训练数据进行训练,大大降低了改写模型的训练难度。
[0106] 如前例,目标翻译文本为:The fan  culture has  poisoned the young generation.
[0107] 在本公开实施例中,可以将整个文本翻译方法的实现过程,定义为一个翻译改写模型的处理过程,该翻译改写模型可以包括翻译模型和改写模型。对该翻译改写模型进行训练时,针对训练语料(x,y),如:x:饭圈文化毒害了青年一代。y:The fan culture has poisoned the younger generation.分别进行1、第一文本查找与替换(用占位符X替换“饭圈”),以及确定第二文本;2、拼接替换后的初始文本和第二文本;3、用一个预训练的翻译模型生成拼接翻译文本(X culture has poisoned the younger generation.Xis short for fan circle.);4、以此拼接翻译文本为输入,y为输出,作为训练样本训练翻译改写模型。具体的,文本翻译方法的应用场景可以参考图5。
[0108] 根据本公开的技术方案,实现知识查询和融合,大大提升了针对新词热词翻译的时效性,并节省了大量人力干预成本,通过一个翻译模型和改写模型,实现了知识的融合,并使得翻译结果具有强解释性,以及更加准确。
[0109] 根据本公开的实施例,图6是本公开实施例中的文本翻译装置的结构图,本公开实施例适用于对文本进行翻译的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
[0110] 如图6所示的一种文本翻译装置600,包括:初始文本获取模块601、描述文本获取模块602、文本翻译模块603和翻译文本更新模块604;其中,
[0111] 初始文本获取模块601,用于获取初始文本,并在所述初始文本中确定第一文本;
[0112] 描述文本获取模块602,用于根据所述第一文本,确定第二文本,所述第二文本用于描述所述第一文本;
[0113] 文本翻译模块603,用于对所述初始文本进行翻译,得到初始翻译文本,并对所述第二文本进行翻译,得到描述翻译文本;
[0114] 翻译文本更新模块604,用于根据所述描述翻译文本,对所述初始翻译文本进行更新,得到所述初始文本的目标翻译文本。
[0115] 根据本公开的技术方案,通过获取初始文本中的第一文本,并获取第一文本对应的描述文本生成的第二文本,分别对初始文本和第二文本进行翻译,并基于第二文本翻译得到的描述翻译文本,对初始文本翻译得到的初始翻译文本进行更新,得到初始文本的目标翻译文本,可以基于第一文本的描述内容,并对应得到描述翻译文本,对第一文本在初始翻译文本中的译文进行更新,以在初始翻译文本中准确确定第一文本的译文,提高第一文本的译文的准确性,从而,提高目标翻译文本的翻译准确性,并且减少人工翻译成本,提高翻译的实时性和效率。
[0116] 进一步的,所述文本翻译模块603,包括:文本拼接单元,用于将所述初始文本与所述第二文本进行拼接,得到拼接文本;拼接文本翻译单元,用于对所述拼接文本进行翻译,得到拼接翻译文本,所述拼接翻译文本包括所述初始翻译文本和所述描述翻译文本。
[0117] 进一步的,所述翻译文本更新模块604,包括:翻译文本改写单元,用于根据所述拼接翻译文本包括的所述描述翻译文本,对所述拼接翻译文本中所述初始翻译文本进行改写,得到所述初始文本的目标翻译文本。
[0118] 进一步的,所述翻译文本改写单元,包括:模型改写子单元,用于将所述拼接翻译文本输入至预先训练的改写模型中,得到所述改写模型中输出的所述初始文本的目标翻译文本。
[0119] 进一步的,所述描述文本获取模块602,包括:释义内容获取单元,用于获取所述第一文本的释义内容;描述文本确定单元,用于根据所述释义内容,确定所述第一文本的描述文本,并生成第二文本息。
[0120] 进一步的,所述第二文本包括所述第一文本与所述描述文本之间的对应关系。
[0121] 进一步的,所述第一文本的字面语义与所述第一文本的实际语义不同。
[0122] 上述文本翻译装置可执行本公开任意实施例所提供的文本翻译方法,具备执行文本翻译方法相应的功能模块和有益效果。
[0123] 本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0124] 根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0125] 图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性区域图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0126] 如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
[0127] 设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0128] 计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如文本翻译方法。例如,在一些实施例中,文本翻译方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的文本翻译方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本翻译方法。
[0129] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0130] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0131] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0132] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0133] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0134] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0135] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0136] 上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。