一种语音识别方法、装置、系统以及语言交换系统转让专利

申请号 : CN201510081322.8

文献号 : CN104637482B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孔繁泽

申请人 : 孔繁泽

摘要 :

本发明涉及语音识别技术领域,提供了一种语音识别装置,包括:音素存储单元,用于存储第一语言音素特征数据;音素转换单元,用于将接收的音素信号序列通过第一语言音素特征数据转换为第一语言音素;数字编码单元,用于为第一语言音素进行唯一编码,形成第一语言音素编码序列;利用第一语言音素编码序列形成第一语言的字发音编码序列和词汇发音编码序列;字词存储单元,用于存储第一语言的字、词汇或图形及所对应的编码序列;字词转换单元,用于根据编码序列的对应关系生成第一语言的字、词汇、图形和/或其组合。本发明还公开了包括上述语音识别装置的语音识别系统和语言交换系统。通过本发明能够降低语音识别的设备成本并提高识别准确率。

权利要求 :

1.一种语音识别装置,其特征在于包括:音素存储单元(001),用于存储第一语言音素特征数据;

音素转换单元(002),用于将接收的音素信号序列通过第一语言音素特征数据转换为第一语言音素;

数字编码单元(003),用于为第一语言音素进行唯一编码,形成第一语言音素编码序列;利用第一语言音素编码序列形成第一语言的字发音编码序列和词汇发音编码序列;

字词存储单元(004),用于存储第一语言的字、词汇或图形及所对应的编码序列;

字词转换单元(005),用于根据编码序列的对应关系生成第一语言的字、词汇、图形和/或其组合;

所述第一语言音素编码序列中第一语言的字的音节编码由声母高位阶编码、声母低位阶编码、韵母高位阶编码和韵母低位阶编码组成,相应位阶编码融合形成复合编码结构。

2.根据权利要求1所述的语音识别装置,其特征在于:所述声母编码第一位为高位阶,具体为:b p m

100 110 120

d t n

200 210 220

g k h

300 310 320

j q x

400 410 420

zh ch sh

500 510 520

z c s

600 610 620

f 1 r

700 710 720

y w

800 810

3.根据权利要求2所述的语音识别装置,其特征在于:所述韵母编码第一位为高位阶,具体为:

4.一种语音识别系统,其特征在于:包括根据权利要求1至3任一所述的语音识别装置,还包括音频输入装置(103)和语义分析装置(104),其中:音频输入装置(103),用于采集人声频率范围中的声源,识别人声中的音素信号序列;

所述语音识别装置(101),用于将音素信号序列通过第一语言音素特征数据转换为第一语言音素,通过相应编码序列转换为第一语言的字、词汇、图形和/或其组合;

语义分析装置(104),用于接收第一语言的字、词汇、图形和/或其组合,进行语义判断,过滤其中的备选数据,形成与声源附带信息一致的文字形式或图形形式。

5.根据权利要求4所述的语音识别系统形成的语言交换系统,其特征在于:还包括第二语音识别装置(102),其包括:第二音素存储单元(006),用于存储一门第二语言中每一个音素的特征数据;

第二数字编码单元(007),用于为每一个所述第二语言音素进行唯一编码,形成第二语言音素编码序列;利用所述第二语言音素编码序列形成第二语言发音编码序列和词汇发音编码序列;

第二字词存储单元(008),用于存储具有相应音频发音的第二语言的字词、短语和/或图形及其编码序列;

第二字词转换单元(009),用于根据编码序列的对应关系生成第二语言的字词、短语和/或图形;

在第二数字编码单元(007)与数字编码单元(002)的数字编码规则间设置映射规则。

6.根据权利要求5所述的语言交换系统,其特征在于:还包括第二语义分析单元(105)和音频输出单元(106),其中:第二语义分析单元(105),用于接收第二语言的字词、短语和/或图形,进行语义判断,过滤其中的备选数据,形成与声源附带信息一致的第二语言的文字或图形形式;

音频输出单元(106),用于根据音素的特征数据形成语音。

7.根据权利要求1至3任一所述的语音识别装置进行语音识别的方法,包括以下步骤:建立音素特征数据并存储;

根据音素特征数据确定第一语言的字的音素数据;

根据音素特征数据确定第一语言的词汇的音素排列数据;

根据第一语言的字的音素数据的相似性,形成第一语言的字的分组;

根据第一语言的词汇的音素排列数据的相似性,形成第一语言的词汇的分组;

为音素数据建立唯一数字编码,为第一语言的字分组建立数字编码,为第一语言的词汇分组建立数字编码。

8.根据权利要求4所述的语音识别系统进行语音识别的方法,包括以下步骤:音频输入装置(103)接收第一语言输入,输出音素信号序列;

语音识别装置(101)将音素信号序列转换为第一语言的字、词汇、图形和/或其组合;

语义分析装置(104)接收第一语言的字、词汇、图形和/或其组合,进行语义判断,过滤其中的备选数据,形成与声源附带信息一致的文字形式或图形形式。

9.根据权利要求5或6所述的语言交换系统完成语音与信息交换的方法,包括语音识别装置(101)将音频输入装置(103)输出的第一语言音源中的音素信号序列转换为第一语言的字或词数据流;

语音识别装置(101)将第一语言的字或词数据流相应的编码流传递至第二语音识别装置(102);

第二语音识别装置(102)将上述编码流映射为第二语言的字词或短语编码流;

第二语音识别装置(102)将第二语言的字词或短语编码流转换为第二语言的字词或短语数据流,传送至第二语义分析装置(105);

第二语义分析装置(105)接收第二语言的字词或短语数据流,进行语义判断,过滤其中的备选数据,形成与中文声源附带信息一致的第二语言文字形式;

第二语义分析装置(105)将第二语言文字形式反馈至第二语音识别装置(102),第二语音识别装置(102)将第二语言文字转换为第二语言音素,通过音频输出装置(106)合成第二语言语音。

说明书 :

一种语音识别方法、装置、系统以及语言交换系统

技术领域

[0001] 本发明涉及语音识别技术,特别是涉及用于语音识别的方法、装置、系统以及实现从一种语言到另一种语言的语言交换的系统。

背景技术

[0002] 语音识别的研究始于20世纪50年代,1952年的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别,60年代,语音结束点的端点检测以及动态编程,使语音识别水平明显上升, 70年代在提出信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题的同时,矢量量化(VQ)和隐马尔可夫模型(HMM)理论也进入实验应用领域,80年代 HMM模型和人工神经网络(ANN)在语音识别中成功应用,通过VQ/I-IMM方法实现了高性能的非特定人、大词汇量、连续语音识别系统。进入90年代后,语音识别技术进一步成熟,IBM开发的 ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。进入21世纪,嵌入式语音处理技术发展迅速。
基于语音识别芯片的嵌入式硬件产品,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,得到广泛应用。IBM的Viavoice和Microsoft的SAPI以及开源架构HTK,都是面向非特定人、大词汇量的连续语音识别系统。
[0003] 目前各商业机构利用上述科学成果的实践过程中,语音信号识别准确率是关键指标。目前主流的语音识别技术是基于统计模式识别,一个完整的语音识别大致分为以下三个步骤:
[0004] (1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列;
[0005] (2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果;
[0006] (3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
[0007] 这其中声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。随着识别精度的提高需要呈几何级数增长的系统词汇量,系统词汇的编码长度往往要达到18至22位长度,这就必然导致语音、语义识别的反应速度受限于计算机处理能力,也会使得采用不同语音、语言特征建立的识别系统间无法交流和交换。基于现有声学模型会使得识别系统对硬件要求极高,识别准确率受底层模型影响与响应时间和制造成本呈正相关。

发明内容

[0008] 本发明的目的是提供一种语音识别装置,解决现有声学模型下,语音识别效率和准确性无法进步的技术问题。
[0009] 本发明提供了一种语音识别装置,包括:
[0010] 音素存储单元(001),用于存储第一语言音素特征数据;
[0011] 音素转换单元(002),用于将接收的音素信号序列通过第一语言音素特征数据转换为第一语言音素;
[0012] 数字编码单元(003),用于为第一语言音素进行唯一编码,形成第一语言音素编码序列;利用第一语言音素编码序列形成第一语言的字发音编码序列和词汇发音编码序列;
[0013] 字词存储单元(004),用于存储第一语言的字、词汇或图形及所对应的编码序列;
[0014] 字词转换单元(005),用于根据编码序列的对应关系生成第一语言的字、词汇、图形和/或其组合。
[0015] 本发明还提供了一种语音识别系统,包括上述的语音识别装置,还包括音频输入装置(103)和语义分析装置(104),其中:
[0016] 音频输入装置(103),用于采集人声频率范围中的声源,识别人声中的音素信号序列;
[0017] 所述语音识别装置(101),用于将音素信号序列通过第一语言音素特征数据转换为第一语言音素,通过相应编码序列转换为第一语言的字、词汇、图形和/或其组合;
[0018] 语义分析装置(104),用于接收第一语言的字、词汇、图形和/或其组合,进行语义判断,过滤其中的备选数据,形成与声源附带信息一致的文字形式或图形形式。
[0019] 本发明还提供了根据上述语音识别系统形成的语言交换系统,其中还包括第二语音识别装置(102),其包括:
[0020] 第二音素存储单元(006),用于存储一门第二语言中每一个音素的特征数据;
[0021] 第二数字编码单元(007),用于为每一个所述第二语言音素进行唯一编码,形成第二语言音素编码序列;利用所述第二语言音素编码序列形成第二语言发音编码序列和词汇发音编码序列;
[0022] 第二字词存储单元(008),用于存储具有相应音频发音的第二语言的字词、短语和/或图形及其编码序列;
[0023] 第二字词转换单元(009),用于根据编码序列的对应关系生成第二语言的字词、短语和/或图形;
[0024] 在第二数字编码单元(007)与数字编码单元(002)的数字编码规则间设置映射规则。
[0025] 上述语言交换系统还包括第二语义分析单元(105)和音频输出单元(106),其中:
[0026] 第二语义分析单元(105),用于接收第二语言的字词、短语和/或图形,进行语义判断,过滤单其中的备选数据,形成与声源附带信息一致的第二语言的文字或图形形式;
[0027] 音频输出单元(106),用于根据音素的特征数据形成语音。
[0028] 本发明还提供了根据上述的语音识别装置进行语音识别的方法,包括以下步骤:
[0029] 建立音素特征数据并存储;
[0030] 根据音素特征数据确定第一语言的字的音素数据;
[0031] 根据音素特征数据确定第一语言的词汇的音素排列数据;
[0032] 根据第一语言的字的音素数据的相似性,形成第一语言的字的分组;
[0033] 根据第一语言的词汇的音素排列数据的相似性,形成第一语言的词汇的分组;
[0034] 为音素数据建立唯一数字编码,为第一语言的字分组建立数字编码,为第一语言的词汇分组建立数字编码。
[0035] 本发明还提供了根据上述语音识别系统进行语音识别的方法,包括以下步骤:
[0036] 音频输入装置(103)接收第一语言输入,输出音素信号序列;
[0037] 语音识别装置(101)将音素信号序列转换为第一语言的字、词汇、图形和/或其组合;
[0038] 语义分析装置(104)接收第一语言的字、词汇、图形和/或其组合,进行语义判断,过滤其中的备选数据,形成与声源附带信息一致的文字形式或图形形式。
[0039] 本发明还提供了根据上述语言交换系统完成语音与信息交换的方法,包括[0040] 语音识别装置(101)将音频输入装置(103)输出的第一语言音源中的音素信号序列转换为第一语言的字或词数据流;
[0041] 语音识别装置(101)将第一语言的字或词数据流相应的编码流传递至第二语音识别装置(102);
[0042] 第二语音识别装置(102)将上述编码流映射为第二语言的字词或短语编码流;
[0043] 第二语音识别装置(102)将第二语言的字词或短语编码流转换为第二语言的字词或短语数据流,传送至第二语义分析装置(105);
[0044] 第二语义分析装置(105)接收第二语言的字词或短语数据流,进行语义判断,过滤其中的备选数据,形成与中文声源附带信息一致的第二语言文字形式;
[0045] 第二语义分析装置(105)将第二语言文字形式反馈至第二语音识别装置(102),第二语音识别装置(102)将第二语言文字转换为第二语言音素,通过音频输出装置(106)合成第二语言语音。
[0046] 优选地,以上装置和方法中,第一语言为汉语,第二语言为外语。
[0047] 本发明的语音识别装置,通过采用数字(称为音码)标注发音及其对应的字、词,使传统的“模拟语音信号”向着“数字语音信号”迈出质的变化一大步,确属于一种从新角度出发而发现的语音输入和语音识别的一种创新方法。本发明的装置和系统尤其适用于汉字,结合汉字和汉语语音的表述特点及国家规范要求,找出和10位阿拉伯数字的对应关系,利用汉音标本身采用的 “最小短段”生成和识别的方式,通过采用3位数字(称为音码)即可标注一个汉字,从而从一个响亮的中心音节生成一个汉字,由字而词,由词而句,捕捉了一个音节就捕捉了一个汉字,使汉字和语音实现了一一的准确对应,再结合语言环境和语言逻辑,就可高精准的判定其后的字音,减少了计算机使用程序和容量的需求,使识别速度和准确率明显提高。现有语音、语义识别软往往会通过18至22位数编码来实现较高的识别准确率。而当采用本发明方案来识别时,因是用三位数字表示一个汉字和这个汉字的读音,其使用的字库按国家规定无调音阶仅有395个,因此,编码数字仅有三位数(百位数),在识别过程中会很大幅度的降低计算机运算的次数,更因该识别方式是以逐个汉字的最小短段来实现,进而有助于实现随机、准确“线性时不断”同步识别的理想效果,将现有识别速度和准确率提高至一个更高水平。
[0048] 进一步地,由于本发明方案是采用世界通用的阿拉伯数字组合,所以,当我们用本发明方案把汉语的语音和汉字对应为数字,世界其他国家也编制出了其国家母语和文字的数字音码的时候,就可通过数字与数字的交换,实现汉语汉字与英语英文、法语法文、德语德文、日语日文等各种语言和文字的交换,更因为这种交换是建立在数字化基础上的,因之具备了准确可靠的基础依据,据此本发明提出的语言交换系统,通过音码的数字交换具备了可实现各国语言直译、文章直译,数字与语言互换的功能,为讲不同语言的人们广泛交流提供方便。
[0049] 下面结合附图对本发明的实施例作进一步说明。

附图说明

[0050] 图1为本发明语音识别装置的结构示意图;
[0051] 图2为本发明语音识别系统的结构示意图;
[0052] 图3为本发明语言交换系统完成信息交换的流程示意图;
[0053] 图4为本发明语音识别装置中数字编码单元形成的一组汉字及其字音编码的映射结构示意图;
[0054] 图5为利用本发明语音识别装置对于一句汉语语音识别的流程示意图。

具体实施方式

[0055] 在以下实施例中均以汉语作为第一语言进行说明。汉语的发音,根据教育部颁布的标准包括395个无调汉语音节和汉语的1332个有调音节,考虑到地方方言还包括数量相近的方言音节。汉语不同于斯拉夫语系的音素制发音,也区别于韩、日等语种的音节制发音,而是严格遵循了汉语“声母+韵母+声调= 语素音(音节音)”的发音规律。中国的语音结构中,一组音素只有一个最响亮的中心音节,而每个音节中心对应正是一个中国汉字发音,一个音节对应一个语素,一个语素对应一个汉字。需要说明的是,由于汉语的语音特点,本发明的方案用于汉语识别效果较好,但是本领域技术人员应知,本发明基于音码的数字识别方式同样可以用于其它语言的识别,也能够起到提高识别效率和降低计算成本的效果。
[0056] 如图1所示,本实施例的语音识别装置101由音素存储单元001、音素转换单元002、数字编码单元003、字词存储单元004和字词转换单元005组成,其中:
[0057] 音素存储单元001,用于存储每一个汉语音素的特征数据;
[0058] 音素转换单元002,用于将接收的音素信号序列通过汉语音素特征数据转换为汉语音素;
[0059] 数字编码单元003,用于根据汉语音素的特征数据为每一个汉语音素进行唯一编码,形成汉语音素编码序列;利用汉语音素编码序列为采用相同汉语音素的文字或图形分组,形成汉字发音编码序列;利用汉语音素编码序列对采用相同或相近汉语音素排列的词汇或图形分组,形成词汇发音编码序列;
[0060] 字词存储单元004,包括汉字存储模块0041,用于存储包括汉字、字母、符号、字符等具有相应音频发音的文字或图形;短语存储模块0042,用于存储由汉字、字母、符号、字符等组成的词、词组、成语、惯用短语、技术术语、俗语、俚语等逐渐累积的词汇。这些词汇中包括了随时间演进的词义相关属性。
[0061] 字词转换单元005,用于根据编码序列的对应关系生成汉字、词汇、图形和/或其组合。
[0062] 本实施例的语音识别装置通过汉语音素将汉字进行编码分组,使得每一个汉语音素关联一组汉字。汉语的词汇由汉字组成,每个词汇就会形成一个汉语音素排列,汉语音素排列相近的词汇关联成一组。通过大数据量的词汇采样,进而就可以形成语句的关联关系。整个编码和分组过程都是按照数字编码规律完成,音、字、词间通过数字编码可以实时完成数据转换,形成任意的信息表达形式。
[0063] 依托现有技术中已建立的汉字字库和语言数据库,形成本实施例的语音识别方法主要包括以下步骤:
[0064] 建立音素特征数据并存储;
[0065] 根据音素特征数据确定汉字的音素数据;
[0066] 根据音素特征数据确定词汇的音素排列数据;
[0067] 根据汉字的音素数据的相似性,形成汉字的分组;
[0068] 根据词汇的音素排列数据的相似性,形成词汇的分组;
[0069] 为音素数据建立唯一数字编码,为汉字分组建立数字编码,为词汇分组建立数字编码。
[0070] 本语音识别方法将汉字和词汇通过音素关联,并通过数字编码形成音频信号、音素数据与图形表现形成间的数据转换闭环,保证信息在转换过程中的准确和效率。
[0071] 如图2所示,利用本发明的语音识别装置形成的语音识别系统201,包括语音识别装置101、音频输入装置103、语义分析装置104,其中:
[0072] 音频输入装置103,用于采集人声频率范围中的声源,识别人声中的音素信号序列,包括但不限于声母和韵母,以及单韵母、复韵母、鼻韵母,以及前鼻韵母、后鼻韵母;
[0073] 语音识别装置101,用于将音素信号序列通过汉语音素特征数据转换为汉语音素,通过相应编码序列或者转换为确定的字或词或图形,或者转换为确定的相关字、相关词或相关图形的组合;
[0074] 语义分析装置104,用于接收字或词,以及图形的数据流,进行语义判断,过滤字组合、词组合中的备选数据,形成与声源附带信息一致的文字形式或图形形式。
[0075] 本发明的语音识别系统充分利用了现有语音识别中的成熟的技术方案,利用基于隐马尔科夫模型形成的语义工具完成语义判断,利用声音采集过滤系统获得清楚的人声频率范围内的音素信号。可以大大降低音频信号采集过程中对音频信号经的要求,降低语义分析时初始音频信号采集噪声带来的识别误差。通过保证音素序列、字序列、词序列间编码的相关性,保证了音频信号与音频附加信息间的可靠和高速转换,降低了语义分析时受多种模型规则约束,对语音语义分析需要18-22位信息编码保证信息完整性带来的处理效率低下的性能问题。本系统简化了隐马尔科夫模型的初始信号复杂程度,使得携带信息的音频信号交换只需要3位编码。
[0076] 如图3所示,利用本发明的语音识别装置形成的语言交换系统包括语音识别装置101和第二语音识别装置102,第二语音识别装置102用于将音素信号序列通过外语音素特征数据转换为外语音素,通过相应编码序列或者转换为确定的相似单词组合,或者转换为确定的相关单词的组合。
[0077] 第二语音识别装置102由第二音素存储单元006、第二数字编码单元007、第二字词存储单元008、第二字词转换单元009组成,
[0078] 第二音素存储单元006,用于存储一门外语中每一个音素特征数据;
[0079] 第二数字编码单元007,用于为每一个所述外语音素进行唯一编码,形成外语音素编码序列;利用所述外语音素编码序列为采用相同外语音素的图形分组,形成外语发音编码序列;利用所述外语音素编码序列对采用相同或相近外语音素排列的词汇分组,形成词汇发音编码序列;
[0080] 第二字词存储单元008,包括外语单词存储模块,用于存储包括字根、字母、符号、字符等具有相应音频发音的单词或图形;外语短语存储模块,用于存储由字根、字母、符号、字符等组成的单词、词组、成语、惯用短语、技术术语、俗语、俚语等逐渐累积的外语词汇;
[0081] 第二字词转换单元009,用于根据编码序列的对应关系生成外语单词、短语和/或图形;
[0082] 在第二数字编码单元007与数字编码单元002的数字编码规则间设置映射规则。
[0083] 语音识别装置101和第二语音识别装置102完成不同语言间的字、词、音之间的转换,对于不能一一对应的字、词、音,由相应语言的语义分析装置进行分析,形成与声源附带信息一致的文字形式。
[0084] 本实施例的语言交换系统202还包括音频输入装置103、语义分析装置104、第二语义分析装置105和音频输出装置106,其中:
[0085] 第二语义分析装置105,用于接收外语单词的数据流,进行语义判断,过滤字组合、词组合中的备选数据,形成与声源附带信息一致的外语文字或图形形式;
[0086] 音频输出装置106,用于根据音素的特征数据形成语音。
[0087] 本发明的语言交换系统202完成汉语语音识别,通过以下处理步骤:
[0088] 汉语通过音频输入装置103输入,输出汉语音源;
[0089] 语音识别装置101将汉语音源中的音素信号转换为汉语字或词的数据流;
[0090] 语义分析装置104接收字或词的数据流,进行语义判断,过滤字组合、词组合中的备选数据,形成与声源附带信息一致的文字形式;
[0091] 本发明的语言交换系统202完成汉语语音与外语信息交换,通过以下处理步骤:
[0092] 语音识别装置101将音频输入装置103输出汉语音源中的音素信号转换为汉语字或词的数据流;
[0093] 语音识别装置101将汉语字或词的数据流相应的编码流传递至第二语音识别装置102;
[0094] 第二语音识别装置102将汉语字或词数据流的编码流映射为外语的单词编码流;
[0095] 第二语音识别装置102将外语的单词编码流转换为外语单词数据流传送至第二语义分析装置105;
[0096] 第二语义分析装置105接收外语单词的数据流,进行语义判断,过滤单词组合中的备选数据,形成与中文声源附带信息一致的外语文字形式;
[0097] 第二语义分析装置105将外语文字形式反馈至第二语音识别装置102,第二语音识别装置102将外语文字转换为音素,通过音频输出装置106合成外语语音;
[0098] 本发明的语言交换系统202完成外语语音与汉语信息交换,通过以下处理步骤:
[0099] 第二语音识别装置102将音频输入装置103输出外语音源中的音素信号转换为外语单词数据流;
[0100] 第二语音识别装置102将外语单词数据流相应的编码流传递至语音识别装置101;
[0101] 语音识别装置101将外语的单词编码流映射为汉语字或词数据流的编码流;
[0102] 语音识别装置101将汉语字或词数据流的编码流转换为汉语字词数据流传送至语义分析装置104;
[0103] 语义分析装置104接收字或词的数据流,进行语义判断,过滤字组合、词组合中的备选数据,形成与外语声源附带信息一致的汉语文字形式;
[0104] 语义分析装置104将汉语文字形式反馈至语音识别装置101,语音识别装置101将汉语文字转换为音素,通过音频输出装置106合成汉语语音。
[0105] 利用本发明的语言交换系统可以实现不同语言间的信息交换,有效降低现有翻译模型对神经网络模型的依赖,大大降低对处理器性能的要求,使得在通用智能终端上就可以实现“线性时不断”同步流畅转换的识别效果。虽然在实施例中均采用汉语与外语作为示例,但是上述识别装置和系统也可应用于其它语言的语音识别中。
[0106] 为了保证语音识别效果,以上实施例中采用的应用于汉语的语音识别装置中,音素特征和因素编码规则需要优化。
[0107] 数字编码单元002包括的汉语音素编码序列结构中,包括的汉字音节编码,由声母高位阶编码、声母低位阶编码、韵母高位阶编码和韵母低位阶编码组成。在本实施例中,组成音节的音素采用以声母和韵母划分,每个声母音素包括一个低位阶编码和一个高位阶编码,每个韵母音素包括一个低位阶编码和一个高位阶编码。
[0108] 本实施例的一种声母编码形式第一位为高位阶,作为组号,如下表所示:
[0109]
[0110] 本实施例的一种韵母编码形式第一位为高位阶,编码为0,如下表所示:
[0111]
[0112] 声母高、低位阶编码与韵母高、低位阶编码对应,通过运算进行融合,形成复合编码结构,简化编码长度。运算融合过程中,各位阶不会出现进位或借位,保证了不会出现重码、漏码、错码的数字编码。
[0113] 通过单一汉字音节编码构成的汉语音素编码序列,形成相同或相似音节汉字的分组编码。通过多个汉字音节编码构成的汉语音素编码序列,形成相同或相似词语的分组编码。通过若干组分组编码构成的汉语音素编码序列,形成相似语句的编码码流。
[0114] 如图4所示,数字编码单元形成的一组汉字及其字音编码的映射结构示意图。利用汉字音节编码可以实现通过编码码流输入或读出汉字,通用键盘中的左侧数字小键盘可以用于编码输入,右侧数字键用于选定备选字。以一句诗词“白日依山尽”为例,该语句中每个汉字的编码如下:
[0115] 汉字 声母 声母编码 韵母 韵母编码 声母编码+ 韵母编码[0116] 即为该汉字编码[0117]
[0118] 由上可见,“白日依山尽”的汉字编码为111 762 842 532 448,[0119] 通用键盘中的左侧数字小键盘输入上述编码,就可以实现语句“白日依山尽”的输入。
[0120] 如果音素转换单元捕捉到“白日依山尽”,将其转换为音素信号序列,之后将音素信号序列通过汉语音素特征数据转换为汉语音素,再通过相应编码序列或者转换为确定的字或词或图形。
[0121] 如图5所示,为将音素信号序列通过汉语音素特征数据转换为汉语音素,通过相应编码序列或者转换为确定的字或词或图形,或者转换为确定的相关字、相关词或相关图形的组合的一个具体处理过程。
[0122] 语音输入最经常采用的是对一句话的输入,因为说完一句话后会有停顿,既是一句话,就会有一句话的完整语义,对于随机讲的一句话,则可以根据前面的文字来判断后面的文字,后面的文字又能修正前面的文字。例如:
[0123] 当读“我是中国人”后,系统识别的是825562516377760一串数字,且是三位数一组,每三位数构成一组特定音码,数字音码对语音进行识别的过程,实际是对讲话人所讲话的一串数字进行快速折分、分析和再组合的过程。
[0124] 825562516377760中每三位对应的汉字具体为:
[0125] 825;我卧挝涡窝蜗倭踒喔肟沃幄渥涴硪
[0126] 562;是事时使市十试师式室石实屎士诗世视史湿食始识失施氏拾示仕势尸适饰狮释逝誓什矢驶蚀侍弑噬匙嗜柿拭虱莳恃屍轼舐螫筮噬
[0127] 516;中终种重钟肿忠众仲盅冢衷柊茽舯螽舯
[0128] 377;国过锅郭果帼掴虢粿椁馃蝈膕馘漍聒蝈崞涡埚呙
[0129] 760;人认壬任仁忍荏饪葚衽妊稔刃荏稔仞讱纫韧轫牣
[0130] 当出现825时就是825对应的汉字,而出现825562时825对应的汉字就会减少很多,只局限于出现“我、卧”两个同音字范围,这时562对应的汉字是“是时使市试师实视室”等,当出现825562516时,825仍是“我、卧”,516对应的就会局限于是“中、终”较少的同音字范围,当出现825562516377时就可确定是“我是中国人”。
[0131] 对于特定的句子如:常用的诗词,短语,词组等语句的识别,根据语义进行模糊识别的方式就更快更准。如:白日依山尽黄河入海流欲穷千里目更上一层楼。对第一句“白日依山尽”按一句话识别后,其它三句按模糊识别原理,即使个别读音不正确也可以快速识别出来。
[0132] 该具体处理过程,利用本实施例汉字音节编码形成的汉字分组,通过本发明语音识别系统进一步形成古诗词语音输入时的确定的编码码流。该输入过程体现了在语音识别过程中,各分组编码自然形成了相近字、词的筛选,随着连贯输入语句的长度增加,筛选的优势会逐渐增加,由现有采用HMM模型的语义工具相配合,可以大幅度降低语义分析的处理强度,提供其准确度,在保证语音识别输入连续性的同时,保证了语义分析输出的连续性。
[0133] 以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。