语种识别方法、装置、服务器及存储介质转让专利

申请号 : CN201910888663.4

文献号 : CN110633456B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李应弟张雨辰贾鹏飞阳安娜张忠恺

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请提供了一种语种识别方法、装置、服务器及存储介质,属于大数据技术领域。所述方法包括:将至少一个待识别文本的编码格式转换为万国码;根据预设的语法规则对至少一个待识别文本进行识别,确定至少一个待识别文本所属的语种,语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定未识别的待识别文本所属的语种。使得通过对共同字符较多的语种的多维度和多层次的识别,提高了识别结果的精准度,和语种识别的覆盖度,从而实现了有效的语种识别。

权利要求 :

1.一种语种识别方法,其特征在于,所述方法包括:

将至少一个待识别文本的编码格式转换为万国码;

根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;

当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定所述未识别的待识别文本所属的语种;

其中,所述根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,包括:当所述语法规则为所述语种特殊字符时,对于任一待识别文本,当所述待识别文本中包括第一目标语种的特殊字符时,根据所述特殊字符的万国码,确定所述待识别文本所属的语种为第一目标语种;

当所述语法规则为所述目标共用字符在词汇中的位置时,对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇,当任一词汇中的目标位置出现目标共用字符时,确定所述待识别文本所属的第二目标语种;

当所述语法规则为所述独有词缀时,对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇,当任一词汇的语法词缀为第三目标语种的独有词缀时,确定所述待识别文本所属的语种为所述第三目标语种。

2.根据权利要求1所述的方法,其特征在于,所述将至少一个待识别文本的编码格式转换为万国码,包括:对于所述至少一个待识别文本中的任一待识别文本,将所述待识别文本由第一字符编码转换为万国码,所述第一字符编码为所述待识别文本的原始编码格式;

根据字形编码和第二字符编码的对应关系,将所述待识别文本中的字形编码转换为对应的第二字符编码,所述第二字符编码由至少两个万国码构成。

3.根据权利要求1所述的方法,其特征在于,所述根据各语种对应的高频词汇集,确定所述未识别的待识别文本所属的语种,包括:获取各语种对应的高频词汇集,所述高频词汇集包括目标数量的高频词汇;

对于任一未识别的待识别文本,对所述待识别文本进行分词,得到多个词汇;

当所述多个词汇中包括目标高频词汇集中的词汇时,确定所述待识别文本所属的语种为所述目标高频词汇集对应的语种。

4.根据权利要求3所述的方法,其特征在于,所述各语种对应的高频词汇集的创建方法包括:对于任一语种,从包括所述语种的语种文本的第一样本文本中,清除数字、英文、空格以及所述语种文本之外的文本,得到第二样本文本;

对所述第二样本文本进行分词,统计每个词汇的词频;

将各语种共有的词汇剔除,根据每个词汇的词频从高到低获取目标数量的高频词汇;

将所述目标数量的高频词汇组成的集合,作为所述语种的高频词汇集。

5.一种语种识别装置,其特征在于,所述装置包括:

转换模块,用于将至少一个待识别文本的编码格式转换为万国码;

识别模块,用于根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;

确定模块,用于当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定所述未识别的待识别文本所属的语种;

其中,所述根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,包括:当所述语法规则为所述语种特殊字符时,对于任一待识别文本,当所述待识别文本中包括第一目标语种的特殊字符时,根据所述特殊字符的万国码,确定所述待识别文本所属的语种为第一目标语种;

当所述语法规则为所述目标共用字符在词汇中的位置时,对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇,当任一词汇中的目标位置出现目标共用字符时,确定所述待识别文本所属的第二目标语种;

当所述语法规则为所述独有词缀时,对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇,当任一词汇的语法词缀为第三目标语种的独有词缀时,确定所述待识别文本所属的语种为所述第三目标语种。

6.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器用于存储程序代码,所述程序代码由所述处理器加载并执行权利要求1至4任一权利要求所述的语种识别方法。

7.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于被处理器加载并执行权利要求1至4任一权利要求所述的语种识别方法。

说明书 :

语种识别方法、装置、服务器及存储介质

技术领域

[0001] 本申请涉及大数据技术领域,特别涉及一种语种识别方法、装置、服务器及存储介质。

背景技术

[0002] 随着互联网技术的迅速发展,各种各样的网站中存储了数量庞大的数据资料,通过大数据算法可以对上述网站中的文本数据进行大数据处理,从而得到具有较高价值的数据。由于目前存在许多使用不同语种的网站,且部分语种源于同一语系,语种间存在共同的字符,具有较高的相似性,导致无法直观的对网站中的文本所属的语种进行区分。因此,如何对不同语种的文本数据进行识别,是目前急需解决的问题。
[0003] 现有技术方案中,通常是对各语种中的独有字符进行识别,也即当文本数据中出现了某个语种的独有字符,则可以判定该文本数据所属的语种。
[0004] 上述技术方案存在的问题是,对于语种间共同字符较多,独有字符较少的语种,如维吾尔语、哈萨克语以及阿拉伯语等,无法通过语种的独有字符来进行有效的语种识别。

发明内容

[0005] 本申请实施例提供了一种语种识别方法、装置、服务器及存储介质,用于解决目前数据库同步时主数据库可能会无法接收到备数据库返回的应答,导致主数据库执行的数据库指令无法执行或者执行较慢,从而影响数据库系统的处理性能的问题。所述技术方案如下:
[0006] 一方面,提供了一种语种识别方法,包括:
[0007] 将至少一个待识别文本的编码格式转换为万国码;
[0008] 根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;
[0009] 当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定所述未识别的待识别文本所属的语种。
[0010] 另一方面,提供了一种语种识别装置,包括:
[0011] 转换模块,用于将至少一个待识别文本的编码格式转换为万国码;
[0012] 识别模块,用于根据预设的语法规则对所述至少一个待识别文本进行识别,确定所述至少一个待识别文本所属的语种,,所述语法规则包括语种独有字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;
[0013] 确定模块,用于当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定所述未识别的待识别文本所属的语种。
[0014] 在一种可能的实现方式中,所述转换模块,还用于对于所述至少一个待识别文本中的任一待识别文本,将所述待识别文本由第一字符编码转换为万国码,所述第一字符编码为所述待识别文本的原始编码格式;根据字形编码和第二字符编码的对应关系,将所述待识别文本中的字形编码转换为对应的第二字符编码,所述第二字符编码由至少两个万国码构成。
[0015] 在一种可能的实现方式中,所述识别模块,还用于对于任一待识别文本,当所述待识别文本中包括第一目标语种的特殊字符时,根据所述特殊字符的万国码,确定所述待识别文本所属的语种为所述第一目标语种。
[0016] 在一种可能的实现方式中,所述识别模块,还用于对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇;当任一词汇中的目标位置出现目标共用字符时,确定所述待识别文本所属的第二目标语种。
[0017] 在一种可能的实现方式中,所述识别模块,还用于对于任一待识别文本,对所述待识别文本进行分词,得到多个词汇;当任一词汇的语法词缀为第三目标语种的独有词缀时,确定所述待识别文本所属的语种为所述第三目标语种。
[0018] 在一种可能的实现方式中,所述确定模块,还用于获取各语种对应的高频词汇集,所述高频词汇集包括目标数量的高频词汇;对于任一未识别的待识别文本,对所述待识别文本进行分词,得到多个词汇;当所述多个词汇中包括目标高频词汇集中的词汇时,确定所述待识别文本所属的语种为所述目标高频词汇集对应的语种。
[0019] 在一种可能的实现方式中,所述各语种对应的高频词汇集的创建方法包括:
[0020] 对于任一语种,从包括所述语种文本的第一样本文本中,清除数字、英文、空格以及所述语种文本之外的文本,得到第二样本文本;对所述第二样本文本进行分词,统计每个词汇的词频;将各语种共有的词汇剔除,根据每个词汇的词频从高到低获取目标数量的高频词汇;将所述目标数量的高频词汇组成的集合,作为所述语种的高频词汇集。
[0021] 另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器用于存储程序代码,所述程序代码由所述处理器加载并执行以实现本申请实施例中的语种识别方法中所执行的操作。
[0022] 另一方面,提供了一种存储介质,所述存储介质中存储有程序代码,所述程序代码用于执行本申请实施例中的语种识别方法。
[0023] 本申请实施例提供的技术方案带来的有益效果是:
[0024] 通过将待识别文本的编码格式统一为万国码,从而可以根据语种特殊字符、目标共用字符在词汇中的位置以及独有词缀等语法规则,来对待识别文本进行多维度的识别,对于上述规则未识别的待识别文本,通过各语种对应的高频词汇集进行进一步的识别,覆盖度较高。使得通过对共同字符较多的语种的多维度和多层次的识别,提高了识别结果的精准度,和语种识别的覆盖度,从而实现了有效的语种识别。

附图说明

[0025] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026] 图1本申请实施例提供的一种的实施环境的示意图;
[0027] 图2是本申请实施例提供的一种语种识别方法的流程图;
[0028] 图3是本申请实施例提供的一种维哈阿三语的部分字符编码的对照表;
[0029] 图4是本申请实施例提供的一种维语字形编码转换表的示意图;
[0030] 图5是本申请实施例提供的一种特殊字符“海木仔”的示意图;
[0031] 图6是本申请实施例提供的一种根据共用字符的位置确定语种的示意图;
[0032] 图7是本申请实施例提供的另一种根据共用字符的位置确定语种的示意图;
[0033] 图8是本申请实施例提供的一种根据词缀确定语种的示意图;
[0034] 图9是本申请实施例提供的另一种根据词缀确定语种的示意图;
[0035] 图10是本申请实施例提供的一种系统框架图;
[0036] 图11是本申请实施例提供的一种语种识别系统处理流程图;
[0037] 图12是本申请实施例提供的一种篇章级的测试结果图;
[0038] 图13是本申请实施例提供的一种句子级的测试结果图;
[0039] 图14是本申请实施例提供的一种语种识别装置的框图;
[0040] 图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

[0041] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0042] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0043] 本申请实施例提供的方法可以应用于人工智能领域的大数据处理场景,还可以应用于翻译软件自动区分语种的场景。以本申请实施例提供的方法应用于网络语料的大数据处理末端的数据清洗环节为例,本申请实施例提供的方法可以根据文本数据所属的语种,对混杂有多个语种的文本数据进行分类,得到按照语种类型分类好的语料,语料的纯净度较高,可以应用于机器学习中。其中,网络语料来源于各网站中,包括汉语网站和其他民族语种的网站。
[0044] 语种间区别较大的语料可以直接进行区分,本申请实施例提供的方法主要用于区分相似的语种,例如维吾尔语、哈萨克语以及阿拉伯语等。维吾尔语网站、哈萨克语网站以及阿拉伯语网站数量相对较多,包含有较大量级的语料,且都使用阿拉伯字符进行书写。由于上述三个语种之间存在大量共用字符和词汇,大量的共用字符导致上述三个语种在词汇形态上的重合度较高,从而难以进行区分。
[0045] 下面介绍一下本申请实施例中语种识别的主要流程:
[0046] 首先,获取至少一个待识别文本,将该至少一个待识别文本的编码格式统一为万国码(Unicode码)。其次,根据预设的规则对该至少一个待识别文本进行识别,该预设的规则包括但不限于各语种的特殊字符、目标共用字符在各词汇的位置以及各语种的独有词缀等。最后,在存在未识别的文本时,根据各语种对应的高频词汇集来确定每个待识别文本所属的语种。
[0047] 本申请实施例主要涉及的是人工智能中的大数据处理技术的某个环节,同时通过本申请实施例提供的方法得到的语料可以作为机器学习/深度学习的训练样本。再简单介绍一下本申请实施例所在领域相关的技术:
[0048] 人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0049] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0050] 机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
[0051] 图1是本申请实施例提供的一种的实施环境的示意图,参见图1所示,该实施环境中包括多个终端110和服务器120。
[0052] 终端110可以通过无线网络或有线网络与服务器120相连。终端110可以是智能手机、摄像机、台式计算机、平板电脑、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有用于文本处理功能的应用程序。该应用程序可以是社交类应用程序、文本处理类应用程序或者新闻资讯类应用程序等。示意性的,终端110可以是用户使用的终端,终端110运行的应用程序内登录有该用户的账号。
[0053] 服务器120包括一台服务器、多台服务器和云计算平台中的至少一种。服务器120用于提供语种识别的后台服务。可选的服务器120承担主要的语种识别的工作,终端110承担次要的语种识别的工作;或者服务器120承担次要的语种识别的工作,终端110承担主要的语种识别的工作;或者,服务器120和终端110分别可以单独承担语种识别的工作。在终端110承担主要的语种识别的工作时,终端110可以从服务器120中下载并存储识别过程中需要用到的各语种的语法规则和各语种对应的高频词汇集。
[0054] 可选的,服务器120包括:接入服务器、语种识别服务器和数据库。接入服务器用于提供终端110的接入服务。语种识别服务器用于根据识别待识别文本所属的语种。语种识别服务器可以是一台或多台,当语种识别服务器是多台时,存在至少两台语种识别服务器用于提供不同的服务,和/或,存在至少两台语种识别服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务或者以主服务器和镜像服务器的方式提供同一种服务,本申请实施例对此不加以限定。数据库用于存储待识别文本、语法规则、编码格式转换关系以及高频词汇集。数据库存储的信息为用户已授权使用的信息。
[0055] 终端110可以泛指多个终端中的一个,本实施例仅以终端110来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端110可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本公开实施例对终端的数量和类型不加以限定。
[0056] 图2是本申请实施例提供的一种语种识别方法的流程图,如图2所示。该方法包括以下步骤:
[0057] 201、服务器获取至少一个待识别文本,将该至少一个待识别文本的编码格式转换为万国码。
[0058] 在本申请实施例中,服务器获取到至少一个待识别文本后,可以将每个待识别文本的编码格式由其原始编码格式转换为万国码(Unicode编码)格式。其中,该待识别文本可以为篇章级文本,也可以为段落级文本,还可以为句子级文本,本申请实施例对此不进行具体限制。
[0059] 在一种可选的实现方式中,对于上述至少一个待识别文本中的任一待识别文本,服务器可以将该待识别文本由第一字符编码转换为万国码,该第一字符编码为该待识别文本的原始编码格式的编码。对于该待识别文本中的字形编码,服务器可以根据字形编码和第二字符编码的对应关系,将该待识别文本中的字形编码转换为对应的第二字符编码,该第二字符编码可以由至少两个万国码构成。
[0060] 在一种可选的实现方式中,以上述至少一个待识别文本包括维语(维吾尔语)文本、哈语(哈萨克语)文本以及阿语(阿拉伯语)文本中的至少一个为例进行说明。由于维语文本、哈语文本以及阿语文本通常是由阿拉伯字符进行编码,因此服务器可以将上述至少一个待识别文本的编码格式由阿拉伯字符编码格式统一为万国码格式。示例性的,维语、哈语、阿语三个语种的部分字符编码可以参见图3所示,图3是本申请实施例提供的一种维哈阿三语的部分字符编码的对照表。
[0061] 在一种可选的实现方式中,由于上述三个语种的特点,上述三个语种还包括字形编码,该字形编码无法直接转换为万国码,因此,服务器可以获取上述三个语种字形编码和第二字符编码的对应关系,将三个语种中的字形编码分别转换为对应的第二字符编码,该第二字符编码可以由两个万国码构成。例如,维语中字形编码转换为第二字符编码的对应关系可以参见图4所示,图4是本申请实施例提供的一种维语字形编码转换表的示意图。
[0062] 需要说明的是,在将待识别文本的编码格式转换为万国码时,可能会出现外形相似的特殊字符,该外形相似的特殊字符在不同的语种中对应不同的万国码。对于外形相似但万国码不同的特殊字符,服务器可以通过提取大量包括该特殊字符的样本文本,对该特殊字符出现的场景进行比对,从而确定该特殊字符在各语种对应的万国码。
[0063] 例如,以维语、哈语以及阿语文本中存在的阿拉伯字符“海木仔”(音译,也可以称为“哈姆宰”等)为例进行说明。参见图5所示,图5是本申请实施例提供的一种特殊字符“海木仔”的示意图。“海木仔”在维语、哈语以及阿语文本中出现的概率接近80%,服务器通过从各语种文本中提取大量的“海木仔”进行比对,发现维语中通常使用万国码0626来表示“海木仔”,哈萨克语中通常使用万国码0624或0621来表示“海木仔”,而阿拉伯语中通常使用万国码0621来表示“海木仔”。
[0064] 202、服务器根据预设的语法规则对至少一个待识别文本进行识别,确定至少一个待识别文本所属的语种,语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种。
[0065] 在本申请实施例中,服务器在将至少一个待识别文本的编码格式转换为万国码后,可以根据预设的语法规则对上述至少一个待识别文本进行识别。服务器可以通过各语种的特殊字符来确定待识别文本所属的语种,也可以通过各语种共用字符在词汇中的位置来确定待识别文本所属的语种,还可以通过各语种独有词缀来确定待识别文本所属的语种。另外,服务器还可以通过元音、辅音规则等来确定待识别文本所属的语种,本申请实施例对此不进行具体限制。当然,服务器还可以通过两个或者两个以上的规则来同时进行识别,以确定待识别文本所属的语种,本申请实施例对此不进行具体限制。
[0066] 在一种可选的实现方式中,服务器根据各语种的特殊字符来确定待识别文本所属的语种的步骤可以为:对于至少一个待识别文本中的任一待识别文本,当服务器确定该待识别文本中包括第一目标语种的特殊字符时,服务器可以根据该特殊字符的万国码,确定待识别文本所属的语种为该第一目标语种。使得服务器可以快速的确定包括特殊字符的待识别文本所属的语种,从而提高语种识别的效率。
[0067] 例如,以步骤201中提到的“海木仔”为例,当服务器确定任一待识别文本中包括“海木仔”,且该“海木仔”的万国码为0626时,服务器可以确定该待识别文本所属的语种为维吾尔语;当该“海木仔”的万国码为0621时,服务器可以确定该待识别文本所属的语种为哈萨克语或者阿拉伯语,服务器可以通过其他语法规则进一步的确定该待识别文本所属的语种。
[0068] 在一种可选的实现方式中,服务器根据各语种共用字符在词汇中的位置来确定待识别文本所属的语种的步骤可以为:对于至少一个待识别文本中的任一待识别文本,服务器可以对该待识别文本进行分词,得到多个词汇。当任一词汇中的目标位置出现目标共用字符时,服务器可以确定该待识别文本所属的第二目标语种。使得服务器可以根据部分共用字符在词汇中的位置快速确定待识别文本所属的语种,从而共用字符也可以用于语种识别,扩展了语种识别的维度,提高了语种识别的效率。
[0069] 例如,参见图6所示,图6是本申请实施例提供的一种根据共用字符的位置确定语种的示意图。图6中以万国码为06C6的字符为例进行说明,当06C6这个字符位于词首时,服务器可以确定该词汇属于哈语;当06C6这个字符位于词首且与0626这个字符组合时,服务器可以确定该词汇属于维语。
[0070] 另外,还可以参见图7所示,图7是本申请实施例提供的另一种根据共用字符的位置确定语种的示意图。图7中以万国码为06C7的字符为例进行说明,当06C7这个字符位于词首时,服务器可以确定该词汇属于哈语;当06C7这个字符位于在词首且与0621这个字符组合时,服务器可以确定该词汇属于维语。
[0071] 需要说明的是,本申请实施例仅示例性的示出了维语、哈语以及阿语中的两个可以用于区分语种的共用字符,上述三个语种中还可以存在其他用于区分语种的共用字符,相应的其他语种中也可以存在其他用于区分语种的共用字符,本申请实施例不再一一列举。
[0072] 在一种可选的实现方式中,服务器根据各语种的独有词缀来确定待识别文本所属的语种的步骤可以为:对于至少一个待识别文本中的任一待识别文本,服务器可以对待识别文本进行分词,得到多个词汇。当任一词汇的语法词缀为第三目标语种的独有词缀时,服务器可以确定该待识别文本所属的语种为第三目标语种。使得服务器可以根据各语种的独有词缀来快速确定待识别文本所属的语种,从而将语法词缀用于语种识别,扩展了语种识别的维度,提高了语种识别的效率。
[0073] 例如,以哈语和维语为例,服务器可以根据哈语和维语的“领属格”(一种语法词缀)对哈语和维语进行区分,或者服务器还可以根据哈语和维语的“将来形动词”(一种语法词缀)对哈语和维语进行区分。可以参见图8和图9所示。图8是本申请实施例提供的一种根据词缀确定语种的示意图,图8中示出了如何根据“领属格”来区分哈语和维语。图9是本申请实施例提供的另一种根据词缀确定语种的示意图,图9中示出了如何根据“将来形动词”来区分哈语和维语。
[0074] 在一种可选的实现方式中,服务器还可以根据各语种的独有字符,来确定待识别文本所属的语种,步骤可以为:对于至少一个待识别文本中的任一待识别文本,当服务器确定该待识别文本中包括第四目标语种的独有字符时,可以确定该待识别文本所属的语种为第四目标语种。
[0075] 需要说明的是,当服务器根据上述预设的语法规则,对至少一个待识别文本进行识别后,如果不存在未识别的待识别文本,则识别完毕;当存在未识别的待识别文本时,服务器可以执行步骤203中根据各语种对应的高频词汇集,确定未识别的待识别文本所属的语种的步骤。
[0076] 203、当存在未识别的待识别文本时,服务器根据各语种对应的高频词汇集,确定未识别的待识别文本所属的语种。
[0077] 在本申请实施例中,对于无法通过预设的语法规则确定所属语种的待识别文本,服务器可以根据各语种对应的高频词汇集进行进一步的识别。
[0078] 在一种可选的实现方式中,服务器根据各语种对应的高频词汇集,确定未识别的待识别文本所属的语种的步骤可以为:服务器可以获取各语种对应的高频词汇集,该高频词汇集包括目标数量的高频词汇。对于任一未识别的待识别文本,服务器可以对该待识别文本进行分词,得到多个词汇。当服务器确定该多个词汇中包括目标高频词汇集中的词汇时,服务器可以确定该待识别文本所属的语种为该目标高频词汇集对应的语种。使得服务器可以对语法规则无法识别的待识别文本进行进一步的识别,从而能够识别更多的待识别文本,提高了语种识别的覆盖率。
[0079] 在一种可选的实现方式中,上述高频词汇集可以通过以下步骤创建:对于任一语种,服务器可以获取包括该语种文本的第一样本文本,该第一样本文本中包括不小于目标数量级的文本数据,该目标数量级可以为GB(十亿字节)、TB(万亿字节)或者PB(拍字节)。服务器可以从包括该语种文本的第一样本文本中清除数字、英文、空格、以及该语种文本之外的文本,得到第二样本文本。服务器可以对该第二样本文本进行分词,统计每个词汇的词频。服务器可以将各语种共有的词汇剔除,仅剩余该语种独有的词汇,然后根据每个词汇的词频从高到底获取目标数量的高频词汇,该目标数量可以为300、500或者800等。服务器可以将该目标数量的高频词汇组成的集合,作为该语种的高频词汇集,该高频词汇集可以存储在服务器的数据库中,与该语种建立一一对应的关系。
[0080] 需要说明的是,上述高频词汇集不仅可以用来对未识别的待识别文本进行进一步的识别,还可以对已通过语法规则识别的文本进行验证,从而提高了语种识别结果的准确性。
[0081] 还需要说明的是,上述步骤201至步骤203是本申请实施例提供的语种识别方法的优选方式,服务器还可以通过其他方式来实现语种识别,如同时通过预设的语法规则和高频词汇集对待识别文本所属的语种进行识别。
[0082] 还需要说明的是,为了使上述步骤201至步骤203所描述的步骤的框架更为清晰,可以参见图10所示,图10是本申请实施例提供的一种系统框架图。图中以对包括维语、哈语以及阿语的大量线上数据进行识别为例进行展示,通过语种字符差异、语种语法差异以及词汇验证集三个方面进行识别,对应上述三个步骤。其中对于步骤202,三个语种的共有字符可以通过共有字符的位置和语法来进行识别,而各语种的特殊字符,可以通过各语种的独有编码来识别。
[0083] 还需要说明的是,本申请实施例提供的语种识别方法,还可以应用于语种识别系统中,该语种识别系统的处理流程可以参见图11所示,图11是本申请实施例提供的一种语种识别系统处理流程图。该语种识别系统的输入为多个语种混合的语料,首先,通过统一编码对语料的编码格式进行转换,主要是针对字形编码转换为字符编码。其次,通过语法规则进行识别,以维语、哈语以及阿语为例,可以通过特殊字符、字符位置、独有词缀以及元辅音规则来进行识别。最后,通过高频词汇集进行进一步的识别和验证。该语种识别系统输出的为上述多语种语料的识别结果。图中还标识了高频词汇集的来源:各语种高频词汇集由海量的语料提取得到。
[0084] 还需要说明的是,为了验证本申请实施例提供的语种识别方法的有效性,本申请实施例还分别进行了篇章级待识别文本和句子级待识别文本的测试。测试的语种为阿语、哈语以及为维语。
[0085] 图12是本申请实施例提供的一种篇章级的测试结果图。图13是本申请实施例提供的一种句子级的测试结果图。其中,数量列指参与实验的样本的总数量,存在一个样本被识别为多个语种的情况。精准度(Precision)=正确识别为原语种的样本数量/识别为原语种的样本总数量;覆盖率(Recall)=正确识别为原语种的数量/该语种的样本总数量。
[0086] 实验表明本申请实施例提供的语种识别方法,对维语、哈语以及阿语的识别效果较好,同样的,该方法也适用于阿尔泰语系和闪含语系等语种,具有较强的扩展性,本申请实施例不再进行一一验证。
[0087] 在本申请实施例中,通过将待识别文本的编码格式统一为万国码,从而可以根据语种特殊字符、目标共用字符在词汇中的位置以及独有词缀等语法规则,来对待识别文本进行多维度的识别,对于上述规则未识别的待识别文本,通过各语种对应的高频词汇集进行进一步的识别,覆盖度较高。使得通过对共同字符较多的语种的多维度和多层次的识别,提高了识别结果的精准度,和语种识别的覆盖度,从而实现了有效的语种识别。
[0088] 图14是本申请实施例提供的一种语种识别装置的框图,参见图14所示,包括:转换模块1401、识别模块1402和确定模块1403。
[0089] 转换模块1401,用于将至少一个待识别文本的编码格式转换为万国码;
[0090] 识别模块1402,用于根据预设的语法规则对至少一个待识别文本进行识别,确定至少一个待识别文本所属的语种,,语法规则包括语种独有字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种;
[0091] 确定模块1403,用于当存在未识别的待识别文本时,根据各语种对应的高频词汇集,确定未识别的待识别文本所属的语种。
[0092] 在一种可能的实现方式中,转换模块1401,还用于对于至少一个待识别文本中的任一待识别文本,将待识别文本由第一字符编码转换为万国码,第一字符编码为待识别文本的原始编码格式;根据字形编码和第二字符编码的对应关系,将待识别文本中的字形编码转换为对应的第二字符编码,第二字符编码由至少两个万国码构成。
[0093] 在一种可能的实现方式中,识别模块1402,还用于对于任一待识别文本,当待识别文本中包括第一目标语种的特殊字符时,根据特殊字符的万国码,确定待识别文本所属的语种为第一目标语种。
[0094] 在一种可能的实现方式中,识别模块1402,还用于对于任一待识别文本,对待识别文本进行分词,得到多个词汇;当任一词汇中的目标位置出现目标共用字符时,确定待识别文本所属的第二目标语种。
[0095] 在一种可能的实现方式中,识别模块1402,还用于对于任一待识别文本,对待识别文本进行分词,得到多个词汇;当任一词汇的语法词缀为第三目标语种的独有词缀时,确定待识别文本所属的语种为第三目标语种。
[0096] 在一种可能的实现方式中,确定模块1403,还用于获取各语种对应的高频词汇集,高频词汇集包括目标数量的高频词汇;对于任一未识别的待识别文本,对待识别文本进行分词,得到多个词汇;当多个词汇中包括目标高频词汇集中的词汇时,确定待识别文本所属的语种为目标高频词汇集对应的语种。
[0097] 在一种可能的实现方式中,各语种对应的高频词汇集的创建方法包括:
[0098] 对于任一语种,从包括语种文本的第一样本文本中,清除数字、英文、空格以及语种文本之外的文本,得到第二样本文本;对第二样本文本进行分词,统计每个词汇的词频;将各语种共有的词汇剔除,根据每个词汇的词频从高到低获取目标数量的高频词汇;将目标数量的高频词汇组成的集合,作为语种的高频词汇集。
[0099] 在本申请实施例中,通过将待识别文本的编码格式统一为万国码,从而可以根据语种特殊字符、目标共用字符在词汇中的位置以及独有词缀等语法规则,来对待识别文本进行多维度的识别,对于上述规则未识别的待识别文本,通过各语种对应的高频词汇集进行进一步的识别,覆盖度较高。使得通过对共同字符较多的语种的多维度和多层次的识别,提高了识别结果的精准度,和语种识别的覆盖度,从而实现了有效的语种识别。
[0100] 图15是本发明实施例提供的一种服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1501和一个或一个以上的存储器1502,其中,存储器1502中存储有至少一条指令,至少一条指令由处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0101] 本申请实施例还提供了一种存储介质,该存储介质应用于服务器,该存储介质中存储有程序代码,该程序代码用于执行本申请实施例中的语种识别方法。
[0102] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0103] 以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。