一种基于二值权重卷积神经网络的声纹识别系统转让专利
申请号 : CN202110060398.8
文献号 : CN112767949B
文献日 : 2022-04-26
发明人 : 刘波 , 吴海舸 , 张轩 , 蔡浩 , 葛伟 , 杨军
申请人 : 东南大学
摘要 :
权利要求 :
1.一种基于二值权重卷积神经网络的声纹识别系统,其特征在于,包括网络控制模块、权重存储片上静态存储器、数据存储片上静态存储器单元、通用异步收发传输器接口模块、梅尔频率倒谱系数特征提取处理模块和并转串模块;
梅尔频率倒谱系数特征提取处理模块、并转串模块和数据存储片上静态存储器单元依次连接,梅尔频率倒谱系数特征提取处理模块接收外部语音数据后进行频谱处理得到神经网络运算所需的语音特征向量,并转串模块从梅尔频率倒谱系数特征提取处理模块接收语音特征向量数据,并将梅尔频率倒谱系数特征提取处理模块输出的并行格式数据转换成串行格式后存入数据存储片上静态存储器单元;
权重存储片上静态存储器与通用异步收发传输器接口模块连接,用于通过通用异步收发传输器接口模块将二值权重卷积神经网络权重参数加载并存储到权重存储片上静态存储器;
网络控制模块与权重存储片上静态存储器、数据存储片上静态存储器单元连接,用于从权重存储片上静态存储器中提取二值权重卷积神经网络权重数据、从数据存储片上静态存储器单元中提取神经网络运算所需的语音特征向量,将提取到的权重数据和语音特征向量数据进行声纹识别计算,输出识别结果,并将识别结果发送到数据存储片上静态存储器单元中进行暂存;
权重存储片上静态存储器存放的二值权重卷积神经网络权重数据的具体格式和内容用如下方式表示:
权重存储片上静态存储器第1‑14行高16位为0,低16位存放卷积核的偏置参数;
权重存储片上静态存储器第15‑28行高16位存放卷积层批标准化运算中的尺度参数,低16位存放批标准化运算中的偏移参数,其中尺度参数为预载的批标准化运算乘系数,偏移参数为批标准化运算偏置加系数;
权重存储片上静态存储器第29‑30行存放全连接层的偏置参数;
权重存储片上静态存储器第31‑32行高16位存放全连接层批标准化运算中的尺度参数,低16位存放批标准化运算中的偏移参数;其中尺度参数为预载的批标准化运算乘系数,偏移参数为批标准化运算偏置加系数;
权重存储片上静态存储器第33‑41行高16位为0,低16位存放卷积核的二值化权重参数;
权重存储片上静态存储器第42‑329行高16位存放全连接层第一个神经元二值化权重参数,低16位存放全连接层第二个神经元二值化权重参数;
权重存储片上静态存储器第330行高16位存放第一个神经元阈值参数,低16位存放第二个神经元阈值参数。
2.根据权利要求1所述的一种基于二值权重卷积神经网络的声纹识别系统,其特征在于,网络控制模块包括地址生成单元、状态机控制单元和智能运算计算单元,状态机控制单元与地址生成单元以及智能运算计算单元连接,用于控制地址生成单元以及智能运算计算单元;
地址生成单元用于跟随时钟在基址的基础上递增生成智能运算计算单元的权重数据、语音特征向量数据读写地址,保证计算时数据的提取与存储不出现偏差;
智能运算计算单元用于权重数据和语音特征向量数据的运算,实现声纹识别功能。
3.根据权利要求1所述的一种基于二值权重卷积神经网络的声纹识别系统,其特征在于,数据存储片上静态存储器单元存储梅尔频率倒谱系数特征提取处理模块传来的语音特征向量数据时按16位的格式存储,存储网络控制模块传来的识别结果数据时按1位的格式存储。
4.根据权利要求1所述的一种基于二值权重卷积神经网络的声纹识别系统,其特征在于,所述梅尔频率倒谱系数特征提取处理模块采用标准26通道梅尔频率倒谱系数特征提取计算单元,所述特征提取计算单元包括分帧模块、求能量模块和梅尔滤波器模块;
分帧模块用于对输入的语音数据进行分帧操作,将分帧后的数据送入求能量模块进行快速傅里叶变换,再通过梅尔滤波器进行梅尔滤波得到梅尔频谱,最后通过倒谱分析得到神经网络运算所需的语音特征向量。
5.根据权利要求1所述的一种基于二值权重卷积神经网络的声纹识别系统,其特征在于,并转串模块从梅尔频率倒谱系数特征提取处理模块每次接收30*16位的数据,分为30个周期输出,每个周期输出一组16位数据,所述数据送向数据存储片上静态存储器单元。
说明书 :
一种基于二值权重卷积神经网络的声纹识别系统
技术领域
背景技术
上来说,采用通用卷积神经网络的方式来处理语音识别任务能获得较高的精确度,但在目
前的情况下会导致过大的硬件开销,并在降低功耗上面临难题。本发明采用了具有高能源
效率的二值权重卷积神经网络,用很少的精确度提升获得了硬件面积和能源效率上的大幅
度提升。传统声纹识别的基础模型采用高斯混合模型,硬件计算电路比较复杂,难以实现复
用,资源利用率低,与主流的语音识别方案兼容性不好。
发明内容
于二值权重卷积神经网络的声纹识别系统,在硬件实现时,采用高度复用的设计,提高资源
利用率,与主流语音识别方法兼容性好,采用二值化的卷积神经网络,有效降低了系统延时
与功耗。
块、梅尔频率倒谱系数特征提取处理(MFCC)模块和并转串模块。
处理得到神经网络运算所需的语音特征向量数据,并转串模块从梅尔频率倒谱系数特征提
取处理模块接收语音特征向量数据,并转串模块将梅尔频率倒谱系数特征提取处理(MFCC)
模块输出的并行格式数据转换成串行格式后存入数据存储片上静态存储器单元。
重存储片上静态存储器。
态存储器中提取神经网络运算所需的语音特征向量,并将提取到的权重数据和语音特征向
量数据进行声纹识别计算,输出识别结果,并将识别结果发送到数据存储片上静态存储器
中进行暂存。
算计算单元。
计算单元用于网络权重数据与语音特征向量数据的运算,实现声纹识别功能;所述状态机
控制单元用于控制地址生成单元与智能运算计算单元,跟随时钟按系统的需要在工作模式
和空闲模式中切换,所述的工作模式是指权重数据、语音特征向量数据已经准备就绪智能
运算计算单元可以开始进行计算,智能运算计算单元中的计算过程如下:按先进行卷积计
算,再进行全连接计算,再进行阈值比较计算的顺序。所述卷积计算将语音特征向量数据和
权重数据按位进行卷积的运算,所述全连接计算将卷积计算得到的每一位结果进行连接,
所属阈值比较计算将全连接计算得到的结果和阈值进行比较得到最终结果。所述的空闲模
式是指权重数据或语音特征向量数据准备没有准备好智能运算计算单元不用进行计算处
于空闲状态。
偏移参数为批标准化运算偏置加系数;
数,偏移参数为批标准化运算加系数。
结果数据时按1位的格式存储。
滤波器模块。
分析得到神经网络运算所需的语音特征向量。
静态存储器单元。
附图说明
具体实施方式
形式的修改均落于本申请所附权利要求所限定的范围。
(uart)模块、梅尔频率倒谱系数特征提取处理(MFCC)模块和并转串模块。由前端硅麦捕捉
语音数据后送入梅尔频率倒谱系数特征提取处理(MFCC)模块进行频谱处理,并由数据存储
单元通过并转串模块接收处理结果进行存储,由通用异步收发传输器接口(uart)模块将权
重数据加载到权重存储单元,由网络控制模块从权重存储单元提取权重数据并从数据存储
单元提取语音特征向量数据结合后进行声纹识别计算,输出识别结果,并将结果送到数据
存储片上静态存储器进行暂存。
时钟应系统的需求在工作模式和空闲模式中切换,所述的工作模式是指权重数据、语音特
征向量数据已经准备就绪智能运算计算单元可以进行计算,智能运算计算单元中的计算过
程如下:按先进行卷积计算,再进行全连接计算,再进行阈值比较计算的顺序。所述卷积计
算将语音特征向量数据和权重数据按位进行卷积的运算,所述全连接计算将卷积计算得到
的每一位结果进行连接,所属阈值比较计算是将全连接计算得到的结果和阈值进行比较得
到最终结果。地址生成单元用于跟随时钟在基址的基础上递增生成智能运算计算单元所需
的权重、语音特征向量数据在读出和写入是所用的地址,保证计算时数据的提取与存储不
出现偏差,网络权重与数据的运算操作由智能运算计算单元具体实现,实现模块核心的说
话人判别功能。网络控制模块在具体运算时调用智能运算计算单元进行卷积计算、全连接
计算和阈值比较计算,对从数据存储片上静态存储器中提取的语音特征向量数据,和权重
存储片上静态存储器中存放的权重相关参数进行两次卷积计算和一次全连接计算,以在保
证运算精度的同时提高运算效率。
器的权重数据。权重存储片上静态存储器存放数据的具体格式如图2所示,并采用如下方式
表示:
偏移参数为批标准化运算偏置加系数。
数,偏移参数为批标准化运算加系数。
算完成后输出的数据。数据存储片上静态存储器单元具体存储数据的格式如下所示:存储
梅尔频率倒谱系数特征提取处理(MFCC)模块传来的语音特征向量数据时按16位的格式存
储。存储网络控制模块传来的判别结果数据时按1位的格式存储。
通用异步收发传输器接口(uart)模块调用内部的一个先入先出存储器,在接收外部传来的
数据时先按格式在该先入先出存储器内进行缓存,随后收到权重存储片上静态存储器的数
据要求后,按上述权重存储片上静态存储器格式要求将缓存的数据串行输出。
(MFCC)模块接收到从前端硅麦经过串转并模块后的并行语音数据后,先通过分帧模块对收
到的语音数据进行分帧处理,帧长为640,帧移位320,语音采样率为16k,因此系统实际工作
时,每20毫秒会有新的320点语音数据传入MFCC模块的分帧模块,MFCC模块的分帧模块模块
包括有两个单端口静态存储器,分别为第一静态存储器和第二静态存储器:第一静态存储
器大小为320*16,第二静态存储器大小为640*16,第一静态存储器用于存储分帧帧叠语音
数据,第二静态存储器用于存储完整的一帧语音数据,用于后续进行快速傅里叶变换操作。
MFCC模块输出1个帧长(640点)语音数据,当第二静态存储器的数据输入全满时,拉高存储
器存满的指示信号,表明当前帧语音数据已经准备好,并将数据送入后续MFCC模块中的求
能量模块对所需特征向量进行求值,所述求能量模块包括快速傅里叶变换模块和梅尔滤波
模块。其中快速傅里叶变换模块采用基2的512点快速傅里叶变换,实部和虚部系数以及梅
尔系数采用固化的方式。本模块中采用的梅尔滤波器的个数为26,梅尔滤波器是在梅尔频
率域上的带通滤波器。
时接收到30*16位的数据,随后分为30个周期输出,每个周期输出一组16位数据,并将数据
送向数据存储片上静态存储器单元。
存储器单元。
经网络计算。
地址生成单元生成语音特征向量数据提取地址并重复步骤103。