会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 计算机网络 / 知识库 / 基于声道动作知识库改进的DIVA神经网络模型发音方法

基于声道动作知识库改进的DIVA神经网络模型发音方法

阅读:1143发布:2021-02-23

IPRDB可以提供基于声道动作知识库改进的DIVA神经网络模型发音方法专利检索,专利查询,专利分析的服务。并且本发明涉及一种发音方法,尤其是基于声道动作知识库改进的DIVA神经网络模型发音方法。所述基于声道动作知识库改进的DIVA神经网络模型发音方法利用添加了声道动作知识库的改进后的DIVA神经网络模型,对于语音映射集中没有的语音,结合扰动因素得到修正后的听觉反馈信息,再利用修正后的听觉反馈信息训练神经网络,减少了模型在产生发音时的训练次数,提高发音准确性。,下面是基于声道动作知识库改进的DIVA神经网络模型发音方法专利的具体信息内容。

1.基于声道动作知识库改进的DIVA神经网络模型发音方法,其特征在于,包括如下步骤:步骤1,构建改进的DIVA神经计算学语音模型:在DIVA神经计算学语音模型中添加作用于模拟发音器官的声道动作知识库,所述声道动作知识库激活始于语音项的音素表征的激活,在处理高频音节时已经获取高频音节的规划运动,语音映射集激活规划运动,每个音节对应的声道动作产生运动神经元激活模式,神经肌肉处理导致了发音器官的运动并允许通过发音-听觉模型生成语音信号,在处理低频音节时通过语音映射集激活相似音节语音学上的规划来激活规划运动;

步骤2,采集发音单元的共振峰频率,作为DIVA神经计算学语音模型的输入量;

步骤3,将DIVA神经网络模型的输入量映射到语音映射集中,初始化语音映射集中所有的音素单元为未激活状态;

步骤4,输入任意发音单元的振峰频率,训练基于声道动作知识库改进的DIVA神经计算学语音模型:当语音映射集中存在于输入的发音单元的振峰频率相同的因素单元时,模拟发音器官直接经过前馈控制发出输入的发音单元;

否则,模拟发音器官经过反馈控制学习发出输入的发音单元。

2.根据权利要求1所述的基于声道动作知识库改进的DIVA神经网络模型发音方法,其特征在于,步骤4中所述的模拟发音器官经过反馈控制发出输入的发音单元具体实施方式如下:步骤A,对模拟发音器官施以扰动发音单元,采集DIVA模型的听觉反馈信息、体觉反馈信息,体觉误差映射集由体觉目标区域以及体觉反馈信息得到体觉反馈命令;

步骤B,将DIVA模型的听觉反馈信息、扰动发音单元映射到听觉状态映射集;

步骤C,听觉误差映射集根据所述DIVA神经网络模型的输入量以及所述模拟发音器官听觉反馈信息得到听觉反馈命令;

步骤D,发音器官速率和位置映射集根据体觉反馈命令、听觉反馈命令得到所述模拟发音器官的训练量,模拟发音器官在声道动作知识库的作用下发音。

说明书全文

基于声道动作知识库改进的DIVA神经网络模型发音方法

技术领域

[0001] 本发明涉及一种发音方法,尤其是基于声道动作知识库改进的DIVA神经网络模型发音方法。

背景技术

[0002] 神经计算学语音模型(Neuro-computational speech model)是用计算机仿真实现语音生成、感知和获取等一系列复杂过程的模型。神经计算学语音模型的组成十分复杂,至少包括一个认知部分、一个运动处理部分和一个感官处理部分:认知部分的作用是在语音生成和语音感知阶段产生神经激活(或产生音素表征);运动处理部分开始于根据产生音素表征激活规划运动,结束于特定音素项对应的发音器官运动;感官处理部分包括根据外部声音信号产生相应的听觉表征并激活相应的音素表征。
[0003] 到目前为止,对神经计算语音模型的研究已经取得了很多成果,其中DIVA(Directions Into of Articulators)模型就是一种比较先进的语音生成、感知及获取的神经计算学语音模型。
[0004] DIVA模型是波士顿大学语音实验室Frank.Guenther教授及其团队开发的。在目前真正具有生物物理学意义的神经计算语音模型中,DIVA模型的定义和测试是最彻底的,而且它还是唯一一种应用伪逆控制技术的自适应神经网络模型。DIVA模型可以描述语音获取、感知及生成过程中的相关的处理过程,并可以通过控制模拟声道生成音素、音节或单词。图1中给出了DIVA模型的组成框图。
[0005] DIVA模型的特点包括:
[0006] 模型包括前馈控制和反馈控制两个子系统;
[0007] 模型的目标区域是由基频F0、前三个共振峰频率和对应的体觉目标组成;
[0008] 模型的输入是单词、音节或音素。尽管迄今为止模型所聚焦的对象仍是短且简单的语音序列,但其对语言的影响(即韵律和韵律学结构、词法和词界等)必定涉及到更长更复杂的结构,而且这些结构已经在模型中被考虑;
[0009] 模型对协同发音以及其关联现象的解释类似于Keating的窗口模型,但在目标如何被学习的解释方面却比窗口模型更具有优势;
[0010] DIVA模型通过充分应用对感知系统的学习获得了前所未有的成功。它所依据的方法是对已经存在的听觉声音进行分类,并且不用解释如何被学习。
[0011] DIVA模型存在一些缺陷,这些缺陷主要表现在以下几点:对于模型而言,假设所有在给定点给出的状态信息都是瞬间可用的;假定模型不存在神经延迟而且系统使用瞬时反馈控制;用于控制的基准框架只能选择发音器官感觉参考框架空间或听觉空间参考框架,两者不能同时并存;关于皮层与子皮层处理过程的分割以及大脑区域成分的关联性的描述相对粗糙。

发明内容

[0012] 本发明所要解决的技术问题是针对上述背景技术的不足,提供了基于声道动作知识库改进的DIVA神经网络模型发音方法。
[0013] 本发明为实现上述发明目的采用如下技术方案:
[0014] 基于声道动作知识库改进的DIVA神经网络模型发音方法,包括如下步骤:
[0015] 步骤1,构建改进的DIVA神经计算学语音模型:在DIVA神经计算学语音模型中添加作用于模拟发音器官的声道动作知识库,
[0016] 所述声道动作知识库,激活始于语音项的音素表征的激活,在处理高频音节时已经获取高频音节的规划运动,语音映射集激活规划运动,每个音节对应的声道动作产生运动神经元激活模式,神经肌肉处理导致了发音器官的运动并允许通过发音-听觉模型生成语音信号,在处理低频音节时通过语音映射集激活相似音节语音学上的规划来激活规划运动;
[0017] 步骤2,采集发音单元的共振峰频率,作为DIVA神经计算学语音模型的输入量;
[0018] 步骤3,将DIVA神经网络模型的输入量映射到语音映射集中,初始化语音映射集中所有的音素单元为未激活状态;
[0019] 步骤4,输入任意发音单元的振峰频率,训练基于声道动作知识库改进的DIVA神经计算学语音模型:
[0020] 当语音映射集中存在于输入的发音单元的振峰频率相同的因素单元时,模拟发音器官直接经过前馈控制发出输入的发音单元;
[0021] 否则,模拟发音器官经过反馈控制学习发出输入的发音单元。
[0022] 所述基于声道动作知识库改进的DIVA神经网络模型发音方法,步骤4中所述的模拟发音器官经过反馈控制发出输入的发音单元具体实施方式如下:
[0023] 步骤A,对模拟发音器官施以扰动发音单元,采集DIVA模型的听觉反馈信息、体觉反馈信息,体觉误差映射集由体觉目标区域以及体觉反馈信息得到体觉反馈命令;
[0024] 步骤B,将DIVA模型的听觉反馈信息、扰动发音单元映射到听觉状态映射集;
[0025] 步骤C,听觉误差映射集根据所述DIVA神经网络模型的输入量以及所述模拟发音器官听觉反馈信息得到听觉反馈命令;
[0026] 步骤D,发音器官速率和位置映射集根据体觉反馈命令、听觉反馈命令得到所述模拟发音器官的训练量,模拟发音器官在声道动作知识库的作用下发音。
[0027] 本发明采用上述技术方案,具有以下有益效果:减少模型在产生发音时的训练次数,提高发音准确性。

附图说明

[0028] 图1为DIVA模型的框图。
[0029] 图2为声道振动知识库的框图。
[0030] 图3为改进的DIVA模型的框图。

具体实施方式

[0031] 下面结合附图对发明的技术方案进行详细说明:
[0032] 图2中给出了声道动作知识库模型的组成框图。声道动作知识库中包含感官运动(sensory-motor)、发音技巧(speaking skills)和可比较的心理音节(mental syllabary)。
[0033] 声道动作知识库模型的工作流程分为语音产生和分类感知两个阶段:
[0034] 语音产生阶段工作流程为:声道动作知识库模型激活始于语音项的音素表征的激活,这种言语模式是处理一个一个的音节。在处理高频音节的情况里,模型已经获取了高频音节的规划运动,首先规划运动通过语音映射集被激活,然后每个音节对应的声道动作产生运动神经元激活模式。随后的神经肌肉处理导致了发音器官的运动,并允许通过发音-听觉模型生成语音信号。前面获取的相同音节的感官状态通过语音映射集同时激活。图3中状态TS与状态ES对应,进而产生当前音节。在存在明显差异的情况下,听觉和体觉误差信号通过语音映射进行传递,用来改变一个新的或更新后的音节的规划运动。在低频音节的情况中,通过语音映射集激活相似音节语音学上的规划来激活规划运动模块进而产生规划运动。
[0035] 分类感知阶段模型工作流程为:语音感知始于外部声音信号的产生。如果旨在音素识别,必须是高频音节的信号才能实现。为了这个目的,信号在外围和下皮层区域进行预处理,把短期记忆加载到外部听觉状态。然后其神经激活模式被传递到训练状态映射集,首先导致语音映射水平上的神经元区域的共同激活,其次是音素映射集水平上的特殊神经元的共同激活;第一个表示该音节的发音,第二个表示该音节的音韵。这种神经通路通过语音映射,也称为背侧神经束的语音感知,也为高频音节共同激活一个规划运动。语音感知中的第二个神经束,比如腹侧神经束,直接联系听觉激活模式与语音处理模块。假定背侧神经束在语音获取过程中是十分重要的,而腹侧神经束在后来的成人言语感知中占主导地位。
[0036] 本发明所述的改进DIVA模型如图3所示,添加了作用于模拟发音器官的声道动作知识库模块以及扰动模块。
[0037] 模型运用不同语音到音素、感官、规划运动映射集的初始化来训练200个实例。在牙牙学语时期和模仿时期模型中每一个实例获取的“知识“存储在语音映射集到其他映射集的双向神经映射中。在语音映射集中神经元表示为:
[0038] (a)元音或元音辅音音素状态的实现;
[0039] (b)一个规划运动状态;
[0040] (c)一个听觉状态;
[0041] (d)一个体觉状态。
[0042] 训练实验包括咿呀学语阶段和模仿阶段(在DIVA模型中得到体现)。在咿呀学语阶段,模型把规划运动状态和听觉状态关联在一起。在此基础上,该模型在模仿训练阶段能够产生规划运动。
[0043] 在模仿训练阶段中,语音映射集水平上出现了音素区域。在进行了这些最初的实验后,我们继续进行了更复杂的模型语言,包括元音--,辅音元音--和辅音元音元音--音节,这是基于一个更大的辅音集。训练再次表明了一个语音映射集的严格的排序,这个排序相关于语音特性、音位排列特性和群集的辅音类型。
[0044] 为了了解改进后的DIVA过程的工作流程和发音效果,我们使用改进后的DIVA模型进行了以下的学习实验:
[0045] 1.一个五元音系统/i,e,a,o,u/
[0046] 2.一个小的辅音系统(由浊塞音/b,d,g/和之前获得的5个元音组合成的简单音节)
[0047] 3.一个小的语言模型,包括五个元音系统,浊塞音和清塞音/b,d,g,p,t,k/,鼻音/m,n/,侧音/l/和三个音节类型(V,CV,CCV)
[0048] 4.以一个6岁的孩子的测试标准测试英语中最常见的200个音节。
[0049] 步骤1,构建改进的DIVA神经计算学语音模型:在DIVA神经计算学语音模型中添加作用于模拟发音器官的声道动作知识库;
[0050] 步骤2,采集发音单元的共振峰频率,作为DIVA神经计算学语音模型的输入量;
[0051] 步骤3,将DIVA神经网络模型的输入量映射到语音映射集中,初始化语音映射集中所有的音素单元为未激活状态;
[0052] 步骤4,输入任意发音单元的振峰频率,训练基于声道动作知识库改进的DIVA神经计算学语音模型:
[0053] 当语音映射集中存在于输入的发音单元的振峰频率相同的因素单元时,模拟发音器官直接经过前馈控制发出输入的发音单元;
[0054] 否则,模拟发音器官经过反馈控制学习发出输入的发音单元。
[0055] 步骤4中,模拟发音器官经过反馈控制发出输入的发音单元具体实施方式如下:
[0056] 步骤A,对模拟发音器官施以扰动发音单元,采集DIVA模型的听觉反馈信息、体觉反馈信息,体觉误差映射集由体觉目标区域以及体觉反馈信息得到体觉反馈命令;
[0057] 步骤B,将DIVA模型的听觉反馈信息、扰动发音单元映射到听觉状态映射集;
[0058] 步骤C,听觉误差映射集根据所述DIVA神经网络模型的输入量以及所述模拟发音器官听觉反馈信息得到听觉反馈命令;
[0059] 步骤D,发音器官速率和位置映射集根据体觉反馈命令、听觉反馈命令得到所述模拟发音器官的训练量,模拟发音器官在声道动作知识库的作用下发音。
[0060] 将扰动发音单元映射到听觉状态映射集的目的在于进一步完善听觉状态映射集,声道动作知识库的加入旨在丰富模拟发音器官的动作,进而提高发音精确度,提高整个DIVA模型的学习效率。
[0061] 修改后的模型在感官运动和认知方面进行了整合。音语处理过程中语音或感觉运动模型面临的一个严峻的问题是没有对语音获取时音素映射集的发展进行建模。我们对这个问题进行了改进,引入了一个可行的解决方法:是在没有明确的引入语音映射集的语音获取开始阶段,使行为知识库和心理词汇直接耦合。这样我们修改后的DIVA模型与原有模型相比发音时延更小,准确性更高。
[0062] 本发明与现有技术相比,具有以下显著的优点:本发明以DIVA神经网络模型为基础,在神经解剖学和神经生理学层次上描述和仿真了发音的相关功能,对模型添加扰动模块,使模型能够更高效、精准的产生发音;对模型添加声道动作知识库模块丰富了DIVA模型原有的声道配置,减少模型在产生发音时的训练次数,提高发音准确性。DIVA神经网络模型最终可以通过与脑机接口(BCI)的结合,构造出符合汉语语音发声规律、具有真正生理学意义的汉语语音生成与获取的神经计算模型,从而进一步构造出具有中国人思维特征的“思想阅读器”奠定理论和实践基础。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用