一种用于模切机的智能语音交互系统转让专利

申请号 : CN201911342088.4

文献号 : CN110751953B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁长国王英利冯龙申郑秀征叶振飞朱超平

申请人 : 北京中鼎高科自动化技术有限公司

摘要 :

本发明涉及一种用于模切机的智能语音交互系统,属于语音处理技术领域。该系统首先将可能发生故障的模块信息存入access Database数据库;其次语音识别单元进行采集和识别信息,并生成正确的操作指令以通信报文形式,由通信单元传输到决策单元;若设备运行正常,决策单元给出操作调整结果并传送给执行单元执行调整;如果设备运行异常,则将异常信息传递给报警单元;报警单元接收异常信息并与access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。本发明实现了对模切机的人工语音控制,提高生产效率,解放生产人员,提升故障解决速度。

权利要求 :

1.一种用于模切机的智能语音交互系统,其特征在于,包括:

步骤1:将模切机中各个可能发生故障的模块信息通过朗诵相应文本的方式录为wav格式的音频文件,并存入工控机本地的access Database数据库中;

步骤2:语音识别单元进行采集和识别人工语音,与access Database数据库中的操作信息进行对比,并生成正确的操作指令;

步骤3:将步骤2生成正确的操作指令,以通信报文形式由通信单元传递给决策单元;

步骤4:所述决策单元包括PLC和运动控制器,如果设备运行正常,决策单元给出操作调整结果并传送给执行单元,其中运动控制器算法做出决策,给出操作调整结果,PLC通过与运动控制器串口通信,获取决策结果,PLC将操作调整结果传输给执行单元;如果设备运行异常,将异常信息传递给报警单元,其中运动控制器将当前设备各部位的运行状态按照地址匹配的方式传递给PLC,PLC传递给上位机软件,上位机程序循环检测报警模块是否调用,运动控制器将异常信息传给PLC,PLC将异常信息传递给报警单元;

步骤5:执行单元接收到步骤4的调整结果,执行调整,构成闭环,完成设备的运行操作;

步骤6:报警单元接收步骤4传递的异常信息并同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。

2.根据权利要求1所述的一种用于模切机的智能语音交互系统,其特征在于,所述语音识别单元包括麦克风和语音识别软件,所述麦克风与工控机连接,所述语音识别软件安装在工控机上;

所述通信单元包括数据传输线和通信软件;

所述执行单元包括伺服系统和模切机;

所述报警单元包括上位机报警模块和扬声器。

3.根据权利要求2所述的一种用于模切机的智能语音交互系统,其特征在于:所述语音识别软件将麦克风采集的声音进行语音特征提取、解码并输出相应文字,并将文字和地址信息生成通信报文;

所述数据传输线用于连接工控机和运动控制器,所述通信软件用于将语音识别单元生成的通信报文传输到运动控制器;

所述运动控制器接收到通信单元传输过来的通信报文;

如果设备运行正常,通过运动控制器给出操作调整结果,传送给PLC,所述PLC将操作调整结果传送给伺服系统,所述伺服系统控制模切机执行调整;

如果设备运行异常,运动控制器将异常信息传给PLC,PLC通过通信单元将异常信息传递给上位机报警模块;所述上位机报警模块将通信单元传送的异常信息同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。

4.根据权利要求3所述的一种用于模切机的智能语音交互系统,其特征在于,所述语音识别软件采用梅尔频率倒谱系数算法进行语音特征提取,通过建立声学模型、语言模型和字典进行解码并输出文字。

5.根据权利要求4所述的一种用于模切机的智能语音交互系统,其特征在于,所述声学模型采用DFSMN声学模型,所述语言模型采用N-Gram语言模型。

6.根据权利要求1所述的一种用于模切机的智能语音交互系统,其特征在于,所述工控机安装有软件加密狗。

说明书 :

一种用于模切机的智能语音交互系统

技术领域

[0001] 本发明涉及一种用于模切机的智能语音交互系统,属于语音处理技术领域。

背景技术

[0002] 随着人工智能技术的不断进步,模切机正朝着智能化不断发展,人机语音交互技术也应用于越来越多的行业当中。随着当今产品精密、小巧、复杂的发展趋势,以及厂家对减少生产空间、降低设备占用面积、提高生产灵活性的需求,使得模切机不断转向集成化、小型化、精细化、复杂化,但同时也带来了操作复杂、维护困难等问题。而模切机运行时的复杂操作无疑给生产人员带来了很大的不便,也对其提出来更高的要求,使得生产人员需要投入更多的精力。现有技术中,模切机出现故障问题仅仅是报警和停止运行,生产人员需要去操作平台上查找问题来解决故障,这无疑会降低生产效率,增加生产成本。

发明内容

[0003] 针对上述技术问题,本发明提供了一种用于模切机的智能语音交互系统,其技术方案如下所述:
[0004] 一种用于模切机的智能语音交互系统,包括:
[0005] 步骤1:将模切机的模块信息通过朗诵相应文本的方式录为wav格式的音频文件,并存入工控机本地的access Database数据库中;
[0006] 步骤2:语音识别单元进行采集和识别人工语音,与access Database数据库中的操作信息进行对比,并生成正确的操作指令;
[0007] 步骤3:将步骤2生成的正确的操作指令,以通信报文形式由通信单元传递给决策单元;
[0008] 步骤4:如果设备运行正常,决策单元给出操作调整结果并传送给执行单元;如果设备运行异常,将异常信息传递给报警单元;
[0009] 步骤5:执行单元接收到步骤4的调整结果,执行调整,构成闭环,完成设备的运行操作;
[0010] 步骤6:报警单元接收步骤4传递的异常信息并同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。
[0011] 进一步的,所述语音识别单元包括麦克风和语音识别软件,所述麦克风与工控机连接,所述语音识别软件安装在工控机上;
[0012] 所述通信单元包括数据传输线和通信软件;
[0013] 所述决策单元包括PLC和运动控制器;
[0014] 所述执行单元包括伺服系统和模切机;
[0015] 所述报警单元包括上位机报警模块和扬声器。
[0016] 进一步的,所述语音识别软件将麦克风采集的声音进行语音特征提取、解码并输出相应文字,并将文字和地址信息生成通信报文;
[0017] 所述数据传输线用于连接工控机和运动控制器,所述通信软件用于将语音识别单元生成的通信报文传输到运动控制器;
[0018] 所述运动控制器接收到通信单元传输过来的通信报文;
[0019] 如果设备运行正常,通过运动控制器给出操作调整结果,传送给PLC,所述PLC将操作调整结果传送给伺服系统,所述伺服系统控制模切机执行调整;
[0020] 如果设备运行异常,运动控制器将异常信息传给PLC,PLC通过通信单元将异常信息传递给上位机报警模块;所述上位机报警模块将通信单元传送的异常信息同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。
[0021] 进一步的,所述语音识别软件采用梅尔频率倒谱系数算法进行语音特征提取,通过建立声学模型、语言模型和字典进行解码并输出文字。
[0022] 进一步的,所述声学模型采用DFSMN声学模型,所述语言模型采用N-Gram语言模型。
[0023] 进一步的,还包括,上位机程序循环检测上位机报警模块是否调用。
[0024] 进一步的,所述工控机安装有软件加密狗。
[0025] 本发明的有益效果:
[0026] 本发明公开了一种用于模切机的智能语音交互系统,以解决模切领域操作、维护不便的问题,实现生产人员和模切机之间的语音交互功能,可以很大程度的提高生产效率,解放生产人员,提升故障解决速度。同时,使生产人员和设备之间的交互更为方便快捷,提升设备的可操作性,减少故障发现时间,从而最大可能的保证生产的连续性,提高生产效率。

附图说明

[0027] 图1为一种用于模切机的智能语音交互系统原理图;
[0028] 图2为语音识别流程图;
[0029] 图3为梅尔频率倒谱系数(MFCC)算法对语音特征提取流程;
[0030] 图4为access Database数据库的信息格式;
[0031] 图5为Mel频率滤波器组。

具体实施方式

[0032] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0033] 如图1 3,实现了模切机智能语音交互系统,是模切领域语音交互场景的实际应~用。
[0034] 一种用于模切机的智能语音交互系统,包括:
[0035] 将各个可能发生故障的模块信息,通过朗诵相应文本的方式录为wav格式的音频文件,以与PLC控制器地址相似的形式进行地址命名,形成如图4所示的数据库信息格式并存入工控机本地的access Database数据库中;
[0036] 语音识别单元1包括麦克风、语音识别软件和工控机,所述语音识别软件将麦克风采集的声音进行语音特征提取、解码并输出相应文字,然后与access Database数据库中的操作信息进行对比,生成正确的操作指令;
[0037] 通信单元2的通信软件用于将语音识别单元1生成的通信报文以通信报文形式传输到决策单元3的运动控制器,通信单元2的数据传输线用于连接工控机和运动控制器;
[0038] 如果设备运行正常,通过运动控制器给出操作调整结果,传送给决策单元3的PLC,所述PLC将操作调整结果传送给执行单元4的伺服系统,所述伺服系统控制模切机执行调整;
[0039] 如果设备运行异常,运动控制器将异常信息传给PLC,PLC通过通信单元2将异常信息传递给报警单元5的上位机报警模块;所述上位机报警模块将通信单元2传送的异常信息同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。
[0040] 另外,如果模切机发生报警,预先将故障地点与以PLC控制器地址相似的形式进行地址命名并存入access Database数据库中,并把声音文件与故障地址进行匹配,运动控制器将当前设备各部位的运行状态按照地址匹配的方式传递给PLC,PLC通过通信单元以报文的形式传递给上位机软件,上位机程序循环检测报警模块是否调用,当发生故障时,上位机软件报警模块将通信报文中的故障地址与数据库中地址相比对,通过调用扬声器将与地址相匹配的声音文件播放出来。
[0041] 如图1所示,本发明实现了模切机智能语音交互系统,包括语音识别单元1,通信单元2,决策单元3,执行单元4,报警单元5。具体的:
[0042] 1、语音识别单元1包括:麦克风,语音识别软件,软件加密狗,工控机。所述麦克风与工控机连接,所述语音识别软件安装在工控机上,其中麦克风进行声音的采集;语音识别软件将麦克风采集的声音进行语音特征提取、解码输出相应文字同存储在access Database数据库(office提供)中的操作信息进行比对,将比对修改后的操作信息同地址进行绑定生成通信报文;软件加密狗安装在工控机上,保证语音识别软件版权不受侵犯。所述语音识别软件识别流程如图2所示,所述语音识别软件采用梅尔频率倒谱系数(MFCC)算法进行语音特征提取,通过采用DFSMN声学模型、N-Gram语言模型、和字典进行解码输出文字。梅尔频率倒谱系数(MFCC)是一种可以准确描述语音短时功率谱的包络的特征,其不受声音信号的性质所影响,比基于声道模型的线性预测倒谱系数(LPCC)具有更好的鲁棒性,当信噪比降低时具有较好的识别性能。DFSMN声学模型是在cFSMN声学模型的基础上,在不同层之间的记忆模块上添加了跳转链接,从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,进而可以稳定地训练深层的网络;由于在实际工作处理中,临近单元信息会有大量的冗余,借鉴扩张卷积的思路,DFSMN声学模型在记忆模块中引入了一些步幅因子,用来帮助模型适当地消除这种冗余,从而加快模型的训练。
N-Gram语言模型最常见的语言模型是通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。字典:字或者词与音素的对应,中文就是拼音和汉字的对应,英文就是音标与单词的对应。(音素,单词的发音由音素构成。对英语来说,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语直接用全部声母和韵母作为音素集)[0043] 具体的,所述梅尔频率倒谱系数(MFCC)算法具体流程如图3所示,首先对音频文件进行预处理,目的是增强语音信号中的高频部分,突出高频的共振峰,使信号的频谱变得平坦,并保持在低频到高频的整个频段中,可以使用相同的信噪比求频谱;其次将预处理的音频样本进行分帧,即按照某一个固定的时间长度分割,分割后的每一片样本,称之为一帧,先将N个采样点集合成一个观测单位,也就是分割后的帧;再次,分帧后,需要对每一帧进行加窗,以增加帧左端和右端的连续性,减少频谱泄漏;接着,对加窗后的信号进行FFT(快速傅里叶变换)得到频谱,再进行取模平方得到功率谱;然后,考虑到人类的听觉特性,先将线性频谱映射到基于听觉感知的 Mel 非线性频谱中,然后转换到倒谱上。在 Mel频域内,人对音调的感知度为线性关系;最后,采用DCT(离散余弦变换)算法计算得到音频文件每一帧的39个Mel频率倒谱系数,作为语音文件的特征数据。
[0044] 具体的,所述采用梅尔频率倒谱系数(MFCC)算法如下:
[0045] (1)预处理
[0046] 将音频文件中的语音信号通过高通滤波器:
[0047]
[0048] μ为预加重系数,值介于0.9-1.0之间,本次取值0.97
[0049] (2)分帧
[0050] 分帧是指在给定的音频样本文件中,按照某一个固定的时间长度分割,分割后的每一片样本,称之为一帧。先将N个采样点集合成一个观测单位,也就是分割后的帧。通常情况下N的值为256或512,涵盖的时间约为20 30ms左右,为了避免相邻两帧的变化过大,会让~两相邻帧之间有一段重叠区域,此重叠区域包含M个取样点,通常M的值约为N的1/2或1/3。
根据语音信号的采样频率(通常为8KHz或16KHz)和采样点的个数可以计算出相对应的时间长度。本次采样频率为16KHz,采样点N为480,故帧长为480/16 = 30ms,M为160,故帧移为
160/16 = 10ms。
[0051] (3)加窗
[0052] 本次使用Hamming窗,假设分帧后的信号为X(n),n=0,1,…,N-1,N为帧的大小,加窗处理后: , ,0≤n≤N-1,a取值0.46。
[0053] (4)FFT(快速傅里叶变换)
[0054] 信号在时域上的变换通常难以看出信号的特性,将其转换为频域上的能量分布来进行观察,不同的能量分布代表不同语音的特性。故对加窗后的信号进行FFT得到频谱,再进行取模平方得到功率谱。
[0055]
[0056]
[0057] N为FFT长度,本次取值512。
[0058] (5)Mel滤波器组
[0059] 考虑到人类的听觉特性,先将线性频谱映射到基于听觉感知的 Mel 非线性频谱中,然后转换到倒谱上。在 Mel频域内,人对音调的感知度为线性关系。从频率到Mel频率的转换公式为:
[0060] ,f为语音信号的频率,单位Hz。
[0061] 将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,…M,M通常取22-26,本次取26。如图5所示,f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
[0062] 三角滤波器的频率响应定义为:
[0063]
[0064] 上式中 。
[0065] 三角带通滤波器的主要目的是:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰(语音的主要频率成分),降低运算量。因此以MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响。
[0066] (6)DCT(离散余弦变换)
[0067] 计算出每个滤波器组输出的对数能量:
[0068]
[0069] 算出倒谱系数(MFCC):
[0070]
[0071] L为MFCC系数阶数,通常取12-16,本次取13,M是三角滤波器个数,取值26。
[0072] 上述步骤得到的梅尔频率倒谱系数(MFCC)只反映了语音参数的静态特性,将动态特性和静态特性结合起来可以提高识别的准确率,而语音的动态特性可以用静态特征的差分谱来描述。
[0073]
[0074] 上式中,dt表示第t个一阶差分;Bt表示第t个倒谱系数;L表示倒谱系数的阶数;K表示一阶倒数的时间差,可以取1或2。将上式结果再带入就可以得到二阶差分的参数。
[0075] 最终可以计算得到音频文件每一帧的39个Mel频率倒谱系数(13个MFCC + 13个一阶差分参数 + 13个二阶差分参数),作为语音文件的特征数据。
[0076] 2、通信单元2包括:数据传输线和通信软件,本通信单元可支持网口通信和串口通信两种模式,两种模式的下位机都是运动控制器。其中网口通信模式:数据传输线和通信软件分别为网线和Socket通信软件,用网线将工控机端网口同运动控制器端网口进行相连,Socket通信软件将语音识别系统1生成的通信报文通过TCP(传输控制协议)协议将通信报文传输到运动控制器;串口通信模式中数据传输线和通信软件分别为串口通信线和串口通信软件,串口通信线将工控机同运动控制器相连,串口通信软件通过Modbus/Hostlink串行通信协议将语音识别系统1生成的通信报文传输到运动控制器。
[0077] 3、决策单元3包括:PLC(可编程逻辑控制器),运动控制器,设备运行正常状态下,运动控制器接收到通信单元2传输过来的通信报文,运动控制器算法做出决策,给出操作调整结果,PLC通过与运动控制器串口通信,获取决策结果,PLC将操作调整结果传输给执行单元4。设备出现异常时,运动控制器将异常传给PLC,PLC通过通信单元2将异常信息传递给报警单元5。
[0078] 4、执行单元4包括:伺服系统、模切机。伺服系统接收到运动控制器的调整结果,执行调整,构成闭环,完成设备的运行操作。
[0079] 5、报警单元5包括:上位机软件,工控机,加密狗,扬声器。上位机软件加入循环执行的报警模块,将通信单元2传递过来的异常信息同存储在access Database数据库中的异常信息进行比对,调用与异常信息相匹配的声音文件,通过扬声器将报警信息播报出来。软件加密狗安装在工控机上,保证上位机程序软件版权不受侵犯。
[0080] 具体的,在线语音操作的具体实施过程:
[0081] 1.语音识别
[0082] 将麦克风采集的声音信息通过语音识别软件识别出相应的文字信息。
[0083] 2.校正
[0084] 将识别出来的文字信息与存储在access Database数据库中的操作信息文字进行关键字比对,校正出正确的操作指令。
[0085] 3.运行
[0086] 将操作指令以通信报文的形式由通信单元传递给运动控制器,通过运动控制器算法给出操作调整结果并传递给PLC,PLC将操作调整结果传输给伺服系统,伺服系统执行操作。
[0087] 在线故障报警的具体实施过程:
[0088] 1.录音
[0089] 将各个可能发生故障的模块信息如位置名称通过朗诵相应文本的方式录为wav格式的音频文件存入access Database数据库中。
[0090] 2.故障定位
[0091] 将各个故障地点以与PLC控制器地址相似的形式进行地址命名并存入access Database数据库中,并把声音文件与故障地址进行匹配。
[0092] 3.检测故障
[0093] 运动控制器将当前运行状态传递给PLC,PLC通过通信单元以报文的形式传递给上位机程序,上位机程序循环检测报警模块是否调用。
[0094] 4.语音播报
[0095] 发生故障时,上位机软件报警模块将通信报文中的故障地址与数据库中地址相比对,通过调用扬声器将与地址相匹配的声音文件播放出来。
[0096] 本发明公开了一种用于模切机的智能语音交互系统,以解决模切领域操作、维护不便的问题,具体如下优点:
[0097] 1)系统可存储所有的操作信息于工控机本地数据库,通过语音模块将生产人员的语音进行语音识别及语义了解,同数据库进行比对实现对模切机的人工语音控制,可大大提高生产人员的可操作性。
[0098] 2)系统可存储所有的故障信息于工控机本地数据库,发生故障时,查找数据库中相应的故障信息,并通过内置的语音库将存储于数据库中的故障所在位置播报出来,这样可以大大降低生产人员的反应时间,提升反应速度,同时使得生产人员不必一直守在操作平台旁边。
[0099] 文中出现的“access Database数据库”是office提供的以access Database格式进行存储的数据库,“PLC”、“(MFCC)”、“DFSMN声学模型”、“N-Gram语言模型”“Mel”等均为本领域常见术语。
[0100] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。