语言语义的音频交换方法和音频交换系统转让专利

申请号 : CN201810264460.3

文献号 : CN108597493B

文献日 : 2019-04-12

本发明的语言语义的音频交换方法、系统和音频编码图形，以解决现有技术中语言互译时因语义复杂导致数据响应出现差错和实时性差的技术问题。方法包括利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换。利用语言构成中形成音频最小短段的最小音素作为各语言间语义转换的基本数据交换单元，利用最小音素作为数据交换的编码基础，改变了语音识别的基础结构，优化了语言中音频内容的编码复杂性和准确率，使得语言音频的编码过程中避免被耦合了语言片段中音调、音阶、音域等复合信息形成的复杂音频特征，保证了语音识别率。利用最小音素形成的语音编码与文字编码的映射结构使得语言翻译时的数据交换效率得到提高。

1.一种语言语义的音频交换方法，其特征在于，利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换；其中所述利用最小音素序列形成各语言的语音映射结构包括：序列化所有最小音素；通过所述所有最小音素的子集形成所述各语言的文字语音间映射数据；通过语言语义形成所述各语言的语音间映射数据；并且所述通过各语音映射结构完成语义的语言间转换包括：利用对应的所述语音间映射数据和所述文字语音间映射数据形成语义的语言转换；其中所述利用对应的语音间映射数据和文字语音间映射数据形成语义的语言转换包括：利用语音识别获取第一语言的音频输入片段的顺序音素集合；利用第一语言的第一基本语音编码序列确定顺序音素集合的第一基本语音编码；利用第一语言的第一语音映射结构和第一基本语音编码序列确定顺序音素集合的连续语音编码；利用对应语言间的语音初级转换结构获得第二语言的第二基本语音编码；利用对应语言间的语音高级转换结构和第二基本语音编码序列获得第二语言的连续语音编码；根据第二语言的连续语音编码形成语音发音。

2.根据权利要求1所述的语言语义的音频交换方法，其特征在于，所述序列化所有最小音素包括：通过语音识别采集各通用语言的所述最小音素；

将所述最小音素形成统一音素序列。

3.根据权利要求2所述的语言语义的音频交换方法，其特征在于，所述通过所述所有最小音素的子集形成所述各语言的文字语音间映射数据包括：利用所述统一音素序列中一部分音素形成与第一语言中单字或单词的发音对应的第一基本语音编码序列；

利用所述第一基本语音编码序列形成与第一语言中短语或语句发音对应的第一语音映射结构；

利用所述统一音素序列中另一部分音素形成第二语言中单字或单词发音的第二基本语音编码序列；

利用所述第二基本语音编码序列形成与第二语言中短语或语句发音对应的第二语音映射结构。

4.根据权利要求3所述的语言语义的音频交换方法，其特征在于，所述通过语言语义形成所述各语言的语音间映射数据包括：利用相同或相近的语义信息通过所述第一语言和所述第二语言的语音映射结构形成相应语言间的语音初级转换结构；

利用各语言的语法规则形成所述第一语言和所述第二语言的语音映射结构间的语音高级转换结构。

5.根据权利要求1所述的语言语义的音频交换方法，其特征在于，所述最小音素序列采用百位数值范围或千位数值范围的定长编码建立索引。

6.一种语言语义的音频交换系统，其特征在于，包括：存储器，用于存储如权利要求1至5任一所述的语言语义的音频交换方法的程序代码；

处理器，用于运行所述程序代码。

7.一种语言语义的音频交换系统，用于利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换，包括：序列化装置，用于序列化所有最小音素；

语言内音素映射形成装置，用于通过所有最小音素的子集形成各语言的文字语音间映射数据；

语言间音素映射形成装置，用于通过语言语义形成各语言的语音间映射数据；

语言转换装置，用于利用对应的语音间映射数据和文字语音间映射数据形成语义的语言转换；其中所述语言转换装置包括：

音素识别模块，用于利用语音识别获取第一语言的音频输入片段的顺序音素集合；

第一基本编码识别模块，用于利用第一语言的第一基本语音编码序列确定顺序音素集合的第一基本语音编码；

第一连续语音编码模块，用于利用第一语言的第一语音映射结构和第一基本语音编码序列确定顺序音素集合的连续语音编码；

第二基本编码识别模块，用于利用对应语言间的语音初级转换结构获得第二语言的第二基本语音编码；

第二连续语音编码模块，用于利用对应语言间的语音高级转换结构和第二基本语音编码序列获得第二语言的连续语音编码；

连续编码转换模块，用于根据第二语言的连续语音编码形成语音发音。

语言语义的音频交换方法和音频交换系统

技术领域

[0001] 本发明涉及信息交换领域，具体涉及一种语言语义的音频交换方法和音频交换系统。

背景技术

[0002] 目前的语言翻译主要由语音识别、语义分析和语句合成几部分组成，语音识别采用高灵敏度传感器，从初始语言的频域或时域语音信号流中提取与语句中文字相应的音频信号集合，语义分析利用隐马尔可夫模型(HMM)、自学习模型、人工神经网络(ANN)等模型对音频信号集合中的文字序列和语义含义进行识别和量化以尽可能确定表达内容，语句合成根据表达内容的识别和量化数据形成目标语言的音频信号集合或文字序列集合。在这一过程中受语义分析模型复杂度的影响需要海量的计算资源，对于移动终端的应用需要采用分布式的计算架构，利用互联网的可靠带宽接入服务端的计算资源，因此翻译的实时性和准确性受到限制。

[0003] 在专利文献CN104637482B中，公开了一种利用数字编码实现语音向文字转换的装置，其中利用音素存储单元存储第一语言音素特征数据；利用音素转换单元将接收的音素信号序列通过第一语言音素特征数据转换为第一语言音素；利用数字编码单元为第一语言音素进行唯一编码，形成第一语言音素编码序列；利用第一语言音素编码序列形成第一语言的字发音编码序列和词汇发音编码序列；利用字词存储单元存储第一语言的字、词汇或图形及所对应的编码序列；利用字词转换单元根据编码序列的对应关系生成第一语言的字、词汇、图形和/或其组合。该装置说明字词和语音间存在编码映射的基础。如何利用编码映射基础降低语言间相同语义的图文音频转换的资源消耗需要创造性改进。

发明内容

[0004] 有鉴于此，本发明实施例致力于提供一种语言语义的音频交换方法和音频交换系统，以解决现有技术中语言互译时语义复杂导致数据响应和实时性差的技术问题。

[0005] 本发明实施例的语言语义的音频交换方法，利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换。

[0006] 本发明实施例的语言语义的音频交换系统，其特征在于，包括：

[0007] 存储器，用于存储上述的语言语义的音频交换方法的程序代码；

[0008] 处理器，用于运行所述程序代码。

[0009] 本发明实施例的语言语义的音频交换系统，用于利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换。

[0010] 本发明实施例的基本语音编码图形，用于语言音素的图形化显示，包括基本框架，所述基本框架包括并列的第一适配柱、第二适配柱和适配杆，所述第一适配柱和所述第二适配柱分别设置适配位组，所述适配位组包括若干适配位，所述适配杆的两端各自连接一个适配柱的一个所述适配位。

[0011] 本发明实施例的语言语义的音频交换方法和音频交换系统、编码图形利用语言构成中形成音频最小短段的最小音素作为各语言间语义转换的基本数据交换单元，利用最小音素作为数据交换的编码基础，改变了语音识别的基础结构，简化了语言中音频内容的编码长度和编码效率，使得语言翻译时的数据交换效率得到优化，对降低远端数据实时响应时延，提高基础数据结构和基础数据在本地移动端的存储容量具有积极影响。

附图说明

[0012] 图1所示为本发明一实施例语言语义的音频交换方法的数据处理过程示意图。

[0013] 图2所示为本发明一实施例语言语义的音频交换方法的编码过程示意图。

[0014] 图3所示为本发明一实施例语言语义的音频交换方法的语音映射结构示意图。

[0015] 图4所示为本发明一实施例语言语义的音频交换方法的语音映射结构示意图。

[0016] 图5所示为本发明一实施例语言语义的音频交换方法进行语言转换的示意图。

[0017] 图6所示为本发明一实施例语言语义的音频交换系统的架构示意图。

[0018] 图7所示为本发明实施例语言语义的音频交换方法中一种基本语音编码图形的图形结构示意图。

具体实施方式

[0019] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0020] 本发明实施例的语言语义的音频交换方法，包括：

[0021] 利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换。

[0022] 语言间相同语义的表达在图文和发音上存在实质差异，语义转换是指相同语义的不同图文和发音表达形式的转换。

[0023] 地域性的通用语言表达语义的文字(作为图形符号的一种)的发音具有确定性，词汇和语句的发音规律可以归纳为音节的不同组合。而采用一组基本的最小音素构成每个音节可以利用最小音素的低信号载荷特点排除音频冗余信号和干扰信息，为复杂数据交换提供更精简的编码基础，降低编码长度。

[0024] 根据本领域技术人员对各地域性的通用语言的统计比对，作为发音基本要素的最小音素数量和其音频特征可以确定，数量小于1000个，世界7000左右种语言中共计800个左右不重复的最小音素，其中每种西方语言大约使用40个左右最小音素，汉语不超过150个左右最小音素，完全可以采用百位数值范围或千位数值范围的定长编码建立索引例如是十进制三位数或四位数，例如是二进制10位数或20位数。

[0025] 本发明实施例的语言语义的音频交换方法利用语言构成中形成音频最小短段的最小音素作为各语言间语义转换的基本数据交换单元，利用最小音素作为数据交换的编码基础，改变了语音识别的基础结构，简化了语言中音频内容的编码长度和编码效率，使得语言音频的编码过程中避免被耦合了语言片段中音调、音阶、音域等复合信息形成的复杂音频特征，保证了语音识别率，利用最小音素形成的语音编码与文字编码的映射结构使得语言翻译时的数据交换效率得到优化。对降低远端数据实时响应时延，提高基础数据结构和基础数据在本地移动端的存储容量具有积极影响。

[0026] 图1为本发明一实施例语言语义的音频交换方法的数据处理过程示意图。如图1所示，包括：

[0027] 步骤100：序列化所有最小音素。

[0028] 序列化过程可以包括对语言中音节、音素、音阶、语调的识别，对识别的音节、音素、音阶、语调的定量数学描述，如时域或频域的音频特征数据，对定量数学描述数据的结构化存储，如逐个编码形成索引。

[0029] 步骤200：通过所有最小音素的子集形成各语言的文字语音间映射数据。

[0030] 每种语言的发音基础由一个所有最小音素的子集确定，通过子集中最小音素的组合形成一种语言中文字发音的语音标识，进而利用语音标识形成文字与语音标识间对应结构的映射数据，映射数据包括存储数据的数据结构。映射数据可以包括文字与语音间的映射数据、以及语音间的映射数据。

[0031] 步骤300：通过语言语义形成各语言的语音间映射数据。

[0032] 利用语义的客观性建立语言间对应含义的语音的映射数据，映射数据包括存储数据的数据结构。也可以包括文字与语音间的映射数据。

[0033] 步骤400：利用对应的语音间映射数据和文字语音间映射数据形成语义的语言转换。

[0034] 本发明实施例的语言语义的音频交换方法通过文字语音间映射数据保证了一种语言的文字-语音转换的连贯性和正确性，语音间映射数据与文字语音间映射数据的结合使得语言间的转换多样性可以在保证语言间的转换质量的同时实现转换过程中较高的语言基础数据交互效率。同时通过语音间映射数据与文字语音间映射数据的映射变化可以形成进一步的加密效果。

[0035] 图2为本发明一实施例语言语义的音频交换方法的编码过程示意图。如图2所示，在上述实施例基础上，步骤100包括：

[0036] 步骤110：通过语音识别采集各通用语言的最小音素。

[0037] 基于人类生理特征和语言演进，语言的语音可以分解为由语句发音至词语发音至词语音节至音节构成音素的结构分解。本领域技术人员可以理解利用计算机技术进行音频采集和音频片段的时域或频域特征分析可以确定字、词、短语的音频特征，确定其中包括的最小音素特征。

[0038] 步骤120：将最小音素形成统一音素序列。

[0039] 本领域技术人员可以理解经过语音识别技术，结合必要数据量的语音分析和统计可以将各语言中采用的最小音素音频特征识别并确定。将确定的每个最小音素的音频特征统一标注编码，形成全部最小音素的统一音素序列。统一音素序列使得语言的语音可以准确地解构为由至少一个最小音素形成的确定组合，确定组合可以通过统一音素序列获得对应的编码序列。

[0040] 例如：汉语中利用声母与韵母形成音节，声母由单一最小音素或几个单一最小音素形成，韵母由一个或几个最小音素形成，相似的英语中利用元音与辅音形成音节，元音由单一最小音素或几个单一最小音素形成，辅音由一个或几个最小音素形成，形成的统一音素序列的部分可以如下表所示：

[0041]

[0042] 表中统一音素序列中的单一最小音素在统一音素序列中具有唯一编码。对于小于1000个的最小音素采用10bit(比特)长度就可以形成唯一编码。

[0043] 本发明实施例语言语义的音频交换方法形成统一音素序列作为相同或相近语义在不同语言间的文字或语音转换的基本信息载体，避免了其他类型的复合音频载体(如音节)所携带的过多冗余信息形成的信息干扰，有利于优化语音识别的准确性和识别效率。最小音素采用统一音素序列可以随着语言演进进一步对统一音素序列进行更新，保持对各语言语音的同步变化。

[0044] 如图2所示，本发明一实施例语言语义的音频交换方法中步骤200包括：

[0045] 步骤210：利用统一音素序列中一部分音素形成与第一语言中单字或单词的发音对应的第一基本语音编码序列。

[0046] 一部分音素包括一种语言发音的所有最小音素，利用这一部分音素可以形成音节进而形成该语言单字或单词的读音。基于最小音素在统一音素序列中的编码，形成第一语言中每个单字或单词的基本语音编码，进而形成所有(或主要的)单字或单词的基本语音编码序列。

[0047] 例如：在汉语中“妈”字，其拼音为“ma”，包括音素“m”和“a”，“m”在统一音素序列中的编码为120，“a”在统一音素序列中的编码为010，则“妈”字在汉语的基本语音编码序列中的编码为120010。

[0048] 在本发明一实施例中也可以采用其他编码压缩方式，例如将“妈”字包括的音素的编码进行累加，形成的编码为130。或者采用基本语音编码图形化的方式。

[0049] 本领域技术人员可以理解举例中的基本语音编码序列中的编码形式存在冗余，受最小音素编码长度影响，采用标准字节的基本语音编码序列可以利用压缩编码技术保持编码的唯一性和较小编码长度。

[0050] 本领域技术人员可以理解具有相同发音的不同单字或单词可以具有相同的基本语音编码，单字或单词的不同发音可以使同一单字或单词具有不同的基本语音编码。

[0051] 步骤220：利用第一基本语音编码序列形成与第一语言中短语或语句发音对应的第一语音映射结构。

[0052] 在单字或单词确定的基本语音编码序列基础上，短语或语句的语音映射结构可以形成基于基本语音编码序列扩展形成短语或语句的语音映射结构。

[0053] 语音映射结构可以采用具有地址特征并可寻址的数据结构，例如静态或动态的队列、数组、堆、堆栈、链表、树或图等的单一形式或组合形式，可以利用静态或动态指针可以实现不同数据结构形式的地址运算，在语音映射结构中涉及的各数据结构可以存在包含或并列。

[0054] 在本发明一实施例中，利用上述数据结构和指针可以形成具有相关语义含义的字、词、语、句间的语音和语义的映射结构，通过与语义含义建立部分语音映射结构。

[0055] 图3为本发明一实施例语言语义的音频交换方法的语音映射结构示意图。如图3所示，对于汉语，以“发”字、“明”字、“创”字、“造”字为例，每个字作为最小语义单元，利用对应发音的音素建立对应的基本语音编码，各字的基本语音编码间具有离散性。单字以链表结构(仅作为一种举例)存储可以保证高速的单字编码(即音素特征)过滤效率。以单字形成的每个具有语义含义的单词如“发明”、“创造”以另一个链表结构存储，各单词的基本语音编码利用所包含单字的基本语音编码形成，各单词的基本语音编码间具有离散性。以单字或单词形成的每个具有语义含义的短语以数组结构(仅作为一种举例)存储，可以保证快速寻址和数据结构更新变化的效率，各短语的基本语音编码间具有离散性。

[0056] 利用数据结构中的地址指针根据字、单词、短语的语义相关性形成字、单词、短语相关性的映射结构树或映射结构图，使得语音与语义间形成映射关联，这种映射关联可以是静态的或部分可动态更新的。

[0057] 在基本语音编码数据结构中，每一个字的(或者单词，或者短语的)数据单元可以扩展，例如扩展为队列，用于存储相同发音不同语义的字(或者单词，或者短语)，将语音映射结构多维化。

[0058] 本发明实施例语言语义的音频交换方法采用语音映射文字的数据存储结构使得语音映射结构的主要部分为静态结构，可以通过服务器端或云端的计算能力形成结构优化，在客户端利用较少的计算资源可以完成少量动态更新和补充。由于利用了发音中音素形成的基本语音编码序列，大大降低了针对语义的语音映射结构的复杂度和数据量，使得语音映射结构的数据存储和数据处理可以在低时延状态下在客户端和服务端完成响应。

[0059] 如图2所示，本发明一实施例语言语义的音频交换方法中步骤200还包括：

[0060] 步骤230：利用统一音素序列中另一部分音素形成第二语言中单字或单词发音的第二基本语音编码序列。

[0061] 另一部分音素与上述步骤130中一部分音素相比较，可以包括部分相同的音素，或者相同的音素以不同语言中的字或符号标识。

[0062] 例如：在英文中“and”其音标为包括音素 “n”和“d”， “n”和“d”在统一音素序列中的编码为018、220和200，则“and”单词在英语的基本语音编码序列中的编码为018220200。

[0063] 本领域技术人员可以理解举例中的基本语音编码序列中的编码形式存在冗余，可以利用压缩编码技术保持编码的唯一性和较小编码长度。

[0064] 本领域技术人员可以理解具有相同发音的不同单字或单词可以具有相同的基本语音编码，单字或单词的不同发音可以使同一单字或单词具有不同的基本语音编码。

[0065] 步骤240：利用第二基本语音编码序列形成与第二语言中短语或语句发音对应的第二语音映射结构。

[0066] 在不同的语言中相同语义的文字(或符号)具有相同发音的可能，相同语义的不同文字的相同发音随着两种语言的语音映射结构的形成而产生编码差异。

[0067] 图4为本发明一实施例语言语义的音频交换方法的语音映射结构示意图。如图4所示，对于英语，以“invention”、“creation”为例，每个单词作为最小语义单元，利用对应发音的音素建立对应的基本语音编码，各单词的基本语音编码间具有离散性。单词以数据库的表单结构(仅作为一种举例)存储可以保证高速的单词编码(即音素特征)过滤效率。以单词形成的每个具有语义含义的短语以数据库的表单结构(仅作为一种举例)存储，可以保证快速寻址和数据结构更新变化的效率，各短语的基本语音编码间具有离散性。

[0068] 利用数据结构中的地址指针根据单词、短语的语义相关性形成单词、短语相关性的映射结构树或映射结构图，使得语音与语义间形成映射关联，这种映射关联可以是静态的或部分可动态更新的。

[0069] 在基本语音编码数据结构中，每一个单词或者短语的数据单元可以扩展为队列，用于存储相同发音不同语义的单词或者短语，将语音映射结构多维化。

[0070] 本发明实施例语言语义的音频交换方法采用语音映射文字的数据存储结构使得语音映射结构的主要部分为静态结构，可以通过服务器端或云端的计算能力形成结构优化，在客户端利用较少的计算资源可以完成少量动态更新和补充。由于利用了发音中音素的基本语音编码序列，大大降低了针对语义的语音映射结构的复杂度和数据量，使得语音映射结构的数据存储和数据处理可以在低时延状态下在客户端和服务端完成响应。

[0071] 如图2所示，本发明一实施例语言语义的音频交换方法中步骤300还包括：

[0072] 步骤310：利用相同或相近的语义信息通过各第一语言和第二语言的(即第一和第二)语音映射结构形成相应语言间的语音初级转换结构。

[0073] 在需要翻译的语言间利用两种语言的语音映射结构基于相同或相近的语义信息形成相同或相近含义的单字或单词间的语音初级转换结构，存储两种语言的单字、单词、短语或语句间的基本语音编码，语音初级转换结构可以采用“键：键值”的结构存储，以响应大量并发请求的过滤效率。

[0074] 例如采用

[0075] 语义：英语基本语音编码：汉语基本语音编码

[0076] 发明创造：092072069：710169555614

[0077] 英语基本语音编码与汉语基本语音编码可以互为键与键值，用于双向翻译。

[0078] 如图2所示，本发明一实施例语言语义的音频交换方法中步骤300还包括：

[0079] 步骤320：利用第一语言和第二语言的语法规则形成相应(即第一和第二)语音映射结构间的语音高级转换结构。

[0080] 各语言的语法规则包括根据单字或单词的词根和词性建立的单字或单词间的语音高级转换结构。根据语音初级转换结构，语音高级转换结构可以采用“键：键值”的结构存储，以响应大量并发请求的过滤效率。

[0081] 例如采用

[0082] 语义：语法：英语基本语音编码

[0083] 英文“创造(名词)”0001：092072069；

[0084] 英文“创造(动词)”0002：092072069；

[0085] 英文“创造(副词)”0003：092072069；

[0086] 语义：语法：汉语基本语音编码

[0087] 中文“创造(名词)”0001：710169555614；

[0088] 中文“创造(动词)”0002：710169555614；

[0089] 中文“创造(副词)”0003：710169555614；

[0090] 将两种语言中根据不同语法形成具有相似语义的单字、单词或词汇的基本语音编码可以相对聚集，编码相关性提高，提高翻译过程中的过滤效率和计算机翻译算法效率。

[0091] 图5为本发明一实施例语言语义的音频交换方法进行语言转换的示意图。如图5所示，步骤400包括：

[0092] 步骤410：利用语音识别获取第一语言的音频输入片段的顺序音素集合；

[0093] 步骤420：利用第一语言的第一基本语音编码序列确定顺序音素集合的第一基本语音编码；

[0094] 步骤430：利用第一语言的第一语音映射结构和第一基本语音编码序列确定顺序音素集合的连续语音编码；

[0095] 步骤440：利用对应语言间的语音初级转换结构获得第二语言的第二基本语音编码；

[0096] 步骤450：利用对应语言间的语音高级转换结构和第二基本语音编码序列获得第二语言的连续语音编码；

[0097] 步骤460：根据第二语言的连续语音编码形成语音发音。

[0098] 本发明实施例语言语义的音频交换方法进行语言转换时利用形成的音素序列-基本语音编码序列-语音映射结构和语言间形成的转换结构完成两种语言间语音和文字间可逆转换，有利于语音转换准确或相对准确地获得对应的备选文字组合。数据及数据结构的存储尺寸有限，检索难度较低，适于本地存储和处理，整个过程对服务端数据请求响应的实时性和带宽要求不高。图6为本发明一实施例语言语义的音频交换系统的架构示意图。如图6所示，本发明实施例的音频交换系统，用于利用最小音素序列形成各语言的语音映射结构，通过各语音映射结构完成语义的语言间转换。

[0099] 如图6所示，本发明实施例的音频交换系统包括：

[0100] 序列化装置1100，用于序列化所有最小音素。

[0101] 语言内音素映射形成装置1200，用于通过所有最小音素的子集形成各语言的文字语音间映射数据。

[0102] 语言间音素映射形成装置1300，用于通过语言语义形成各语言的语音间映射数据。

[0103] 语言转换装置1400，用于利用对应的语音间映射数据和文字语音间映射数据形成语义的语言转换。

[0104] 如图6所示，本发明实施例的音频交换系统中序列化装置1100包括：

[0105] 音素识别模块1110，用于通过语音识别采集各通用语言的最小音素。

[0106] 音素编码模块1120，用于将最小音素形成统一音素序列。

[0107] 如图6所示，本发明实施例的音频交换系统中语言内音素映射形成装置1200包括：

[0108] 第一语音编码建立模块1210，用于利用统一音素序列中一部分音素形成与第一语言中单字或单词的发音对应的第一基本语音编码序列。

[0109] 第一语音映射建立模块1220，用于利用第一基本语音编码序列形成与第一语言中短语或语句发音对应的第一语音映射结构。

[0110] 第二语音编码建立模块1230，用于利用统一音素序列中另一部分音素形成第二语言中单字或单词发音的第二基本语音编码序列。

[0111] 第二语音映射建立模块1240，用于利用第二基本语音编码序列形成与第二语言中短语或语句发音对应的第二语音映射结构。

[0112] 如图6所示，本发明实施例的音频交换系统中语言间音素映射形成装置1300包括：

[0113] 语言结构初级转换模块1310，用于利用相同或相近的语义信息通过各第一语言和第二语言的(即第一和第二)语音映射结构形成相应语言间的语音初级转换结构。

[0114] 语言结构高级转换模块1320，用于利用第一语言和第二语言的语法规则形成相应(即第一和第二)语音映射结构间的语音高级转换结构。

[0115] 如图6所示，本发明实施例的音频交换系统中语言转换装置1400包括：

[0116] 音素识别模块1410，用于利用语音识别获取第一语言的音频输入片段的顺序音素集合；

[0117] 第一基本编码识别模块1420，用于利用第一语言的第一基本语音编码序列确定顺序音素集合的第一基本语音编码；

[0118] 第一连续语音编码模块1430，用于利用第一语言的第一语音映射结构和第一基本语音编码序列确定顺序音素集合的连续语音编码；

[0119] 第二基本编码识别模块1440，用于利用对应语言间的语音初级转换结构获得第二语言的第二基本语音编码；

[0120] 第二连续语音编码模块1450，用于利用对应语言间的语音高级转换结构和第二基本语音编码序列获得第二语言的连续语音编码；

[0121] 连续编码转换模块1460，用于根据第二语言的连续语音编码形成语音发音。

[0122] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

[0123] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0124] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0125] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0126] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0127] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

[0128] 在本发明一实施例语言语义的音频交换方法中，对于利用统一音素序列中的部分最小音素形成一种语言中单字或单词发音的基本语音编码序列，其中的基本语音编码可以形成额外的图形化符号，与相应发音的单字或单词对应。利用基本语音编码的图形化可以将音素形成的单字或单词的发音识别转换为视觉识别，有利于计算机视觉识别与计算机语音识别的沟通，使得语言间相同语义的语音转换可以具有计算机视觉识别的基础。

[0129] 图7所示为本发明实施例语言语义的音频交换方法中一种基本语音编码图形的图形结构示意图。如图7的a部分所示，图形结构包括一个H形的基本框架01，基本框架包括并列呈竖直平行的第一适配柱10(条形图案)和第二适配柱20(条形图案)，还包括一个两端分别与第一适配柱和第二适配柱连接的适配杆30(条形图案)。

[0130] 第一适配柱(图中为左侧)上设置有第一适配位组11，第二适配柱(图中为右侧)上设置有第二适配位组21，适配杆30上设置有第三适配位组31，适配杆30的端部连接在对应一侧适配柱的适配位上，适配柱的适配位组中至少包括三个适配位(附图中给出的是5个)。

[0131] 同一适配位组中相邻的适配位用于调节适配柱的长度，通过适配位重合形成适配柱的特定调整，使得相应适配柱的长度形成对应的改变，可以重合的适配位至少包括两个。适配杆30的端部可以连接在对应一侧适配柱的重合适配位上。

[0132] 在实际应用中，可以将组成单字或单词的读音音节的音素编码或音素形成的音节编码反映在第一适配柱、第二适和适配杆的连接形状变化上，利用适配位的固定位置和适配位的重合变化形成足够的排列组合反映音节的编码内容。

[0133] 如图7的b部分和c部分所示，在本发明一实施例中还可以包括与适配位连接的辅助适配符号40，辅助适配符号40包括具有矢量方向的矢量线段41和没有矢量方向的标准符号42。矢量线段41可以是线段或劣弧，标准符号42可以是圆形或环形，矢量线段可以有一个或多个，标准符号可以有一个或多个。

[0134] 在实际应用中附加的矢量线段和标准符号与适配位连接后可以将与音节相关的语调、语气等附加音频特征与音节编码结合，增加音节编码的信息载荷。

[0135] 实际应用中，例如对于汉语，如图7的b部分和c部分所示，b部分是单字“后”和“候”语音编码的对应图形，c部分是单字“口”和“寇”语音编码的对应图形，上述每个单字的发音音节的生母表现在基本框架左侧的第一适配柱的长短变化和矢量线段41的配合结构，韵母表现在基本框架右侧的第二适配柱的长短变化和矢量线段41与标准符号42的配合结构。基本框架与辅助适配符号经平滑处理既可以保持图形美观又可以保证计算机视觉识别质量。

[0136] 如图7的d部分所示，利用重合的适配位和适配杆30与适配位的连接位置，基本框架01可以从H形转换为n形，如图7的e部分所示，利用重合的适配位和适配杆30与适配位的连接位置，基本框架01可以从H形转换为U形。

[0137] 如图7的d部分所示，围绕基本框架(H形、n形或U形)的第一、第二适配柱直接标记最小音素的编码，编码数字个数与对应适配柱的适配位对应。利用一种语言音节中最小音素的直接编码显示，将语言的表音字母-音素编码-语音直接做视觉表达，使得两种语言的基本语音编码图形可以实现计算机视觉转换，在语音转换的同时，利用计算机图形识别保证语言识别的识别率。

[0138] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

语言语义的音频交换方法和音频交换系统转让专利

申请号 : CN201810264460.3

文献号 : CN108597493B

文献日 : 2019-04-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 孔繁泽

申请人 : 孔繁泽

摘要 :

权利要求 :

说明书 :