一种通过语音控制跑步机的装置转让专利

申请号 : CN201710633596.2

文献号 : CN107393533B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 韦德永

申请人 : 侨伟运动器材(南京)有限公司

摘要 :

本发明提供了一种通过语音控制跑步机的装置,包括:声音接收单元,用于通过麦克风接收用户发出的声音;文字识别单元,用于将所述声音接收单元接收的声音转换为文字;指令转换单元,用于将所述文字识别单元识别的文字转换为指令;指令执行单元,用于跑步机对应的设备接收并执行所述指令转换单元转换的指令。本发明可以使得跑步机通过用户发出的语音实现不同的功能,方便用户在跑步时使用跑步机不同的功能。

权利要求 :

1.一种通过语音控制跑步机的装置,其特征在于,所述装置包括:声音接收单元,用于通过麦克风接收用户发出的声音;

文字识别单元,用于将所述声音接收单元接收的声音转换为文字;

指令转换单元,用于将所述文字识别单元识别的文字转换为指令;

指令执行单元,用于跑步机对应的设备接收并执行所述指令转换单元转换的指令;

其中,所述文字识别单元,包括:

检测子单元,用于检测并提取接收的声音中的声音信息部分;

增强子单元,用于对声音信息部分进行增强处理,获取增强后的声音信息部分;

特征子单元,用于对增强后的声音信息部分进行特征提取,获取声音信息的特征参数;

识别子单元,用于根据所述声音信息的特征参数,获取相应的文字信息;

其中,所述增强子单元,对由检测子单元提取得到的声音信息部分进行增强处理,获取增强后的声音信息部分,具体为:对声音信息部分进行快速傅里叶变换,获取声音信息部分的幅度谱f(r),其中r表示频率;

对声音信息部分进行语音增强处理,采用的自定义的语音增强函数为:式中,fz(r)表示语音增强处理后声音信息部分的幅度谱,f(r)表示声音信息部分的幅度谱,|f(r)|2表示声音信息部分的功率谱,ω1和ω2表示可调节的增益效果调整因子,表示噪声的功率谱的估计,通过获取所述声音信息部分之前的无声部分的噪声功率谱获得,可表示为: 其中 表示对当前帧噪声功率谱的估计, 表示前面帧的噪声功率谱的估计,Zn(r)表示当前帧获得的噪声功率谱,表示当前帧噪声功率谱的权重,其中,噪声功率谱只在所述无声部分进行更新,在所述声音信息部分不进行更新;

对自定义滤波器的结果进行逆快速傅里叶变换,得到增强后的声音信息部分。

2.根据权利要求1所述的一种通过语音控制跑步机的装置,其特征在于,所述装置还包括:降噪单元,用于对接收的声音进行降噪处理。

3.根据权利要求2所述的一种通过语音控制跑步机的装置,其特征在于,所述指令转换单元,包括:对比子单元,用于将所述文字与预设的文字-指令数据库进行比对;

转换子单元,用于根据所述对比子单元的对比结果将文字转换为命令。

4.根据权利要求3所述的一种通过语音控制跑步机的装置,其特征在于,所述接收包括:通过蓝牙接收、通过串口接收、通过Zigbee接收、通过电子通信线路接收。

5.据权利要求1所述的一种通过语音控制跑步机的装置,其特征在于,所述特征子单元,对增强后的声音信息部分进行特征提取,获取声音信息的特征参数,具体为:对增强后的声音信息部分进行分帧、加窗处理;

增强后的声音信息部分每一帧进行特征参数提取,具体为:(1)依次选取声音信息部分中的每一帧进行快速傅里叶变换,获取频谱Fp(r);

(2)将频谱Fp(r)转化为梅尔频率谱Fp(r‘);

(3)采用下列自定义滤波器组获取语音指令信号的特征能量谱NL(i),具体为:式中,NL(i)表示滤波器组中第i个滤波器输出对应的特征能量谱NL(i),i=1,2,…,I,I表示滤波器组中滤波器的个数,Fp(r‘)表示转化到梅尔频率后得到的频谱,r‘表示梅尔频率, 表示滤波器组中第i个滤波器的质心参数,其中 表示中间量,HSi、HHi、HXi分别表示滤波器组中第i个滤波器的上限、中心、下限,其中HHi=HSi-1=HXi+1,

(4)对获取的特征能量谱NL(i)取对数,然后进行DCT离散余弦变换,获取DCT后的前I个系数作为本帧声音信息部分的I维语音特征参数;

重复步骤(1)至(4)直到获取增强后的声音信息部分每一帧的特征参数。

说明书 :

一种通过语音控制跑步机的装置

技术领域

[0001] 本发明涉及数据处理领域,特别是一种通过语音控制跑步机的装置。

背景技术

[0002] 跑步机是人们在健身时经常使用的道具,通过在跑步机上跑步可以达到强身健体的效果,并且通过跑步机上的按钮可以实现不同的功能,达到不同的锻炼效果,但现在的跑步机仅能通过跑步机上的按钮实现不同功能的选择,用户在跑步机上进行跑步的时候,如果要直接选择不同的功能,需要边跑动边按按钮,这样会存在安全的隐患;或者需要停止跑步机的运行再进行不同功能的切换,这样会造成使用的不方便。

发明内容

[0003] 针对上述问题,本发明旨在提供一种通过语音控制跑步机的装置。
[0004] 本发明的目的采用以下技术方案来实现:
[0005] 本发明提供了一种通过语音控制跑步机的装置,所述装置包括:
[0006] 声音接收单元,用于通过麦克风接收用户发出的声音;
[0007] 文字识别单元,用于将所述声音接收单元接收的声音转换为文字;
[0008] 指令转换单元,用于将所述文字识别单元识别的文字转换为指令;
[0009] 指令执行单元,用于跑步机对应的设备接收并执行所述指令转换单元转换的指令。
[0010] 本发明的有益效果为:跑步机通过麦克风接收用户发出的声音,通过语音识别程序将声音识别为文字,通过互动控制程序将文字转换为指令,对应的设备接收并执行指令,使得跑步机可以通过用户的发出的语音实现不同的功能,方便用户在跑步时使用跑步机不同的功能。

附图说明

[0011] 利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0012] 图1本发明通过语音控制跑步机的装置的框架结构图;
[0013] 图2是本发明文字识别单元的框架结构图。
[0014] 附图标记:
[0015] 声音接收单元1、文字识别单元2、指令转换单元3、指令执行单元4、检测子单元20、增强子单元21、特征子单元22和识别子单元23。

具体实施方式

[0016] 结合以下应用场景对本发明作进一步描述。
[0017] 参见图1,一种通过语音控制跑步机的装置,所述装置包括:
[0018] 声音接收单元1,用于通过麦克风接收用户发出的声音;
[0019] 文字识别单元2,用于将所述声音接收单元接收的声音转换为文字;
[0020] 指令转换单元3,用于将所述文字识别单元识别的文字转换为指令。;
[0021] 指令执行单元4,用于跑步机对应的设备接收并执行所述指令转换单元转换的指令。
[0022] 优选地,所述装置还包括:降噪单元,用于对接收的声音进行降噪处理。
[0023] 优选地,所述指令转换单元,包括:
[0024] 对比子单元,用于将所述文字与预设的文字-指令数据库进行比对;
[0025] 转换子单元,用于根据所述对比子单元的对比结果将文字转换为命令。
[0026] 优选地,所述接收包括:通过蓝牙接收、通过串口接收、通过Zigbee接收、通过电子通信线路接收。
[0027] 优选地,参见图2,所述文字识别单元,包括:
[0028] 检测子单元20,用于检测并提取接收的声音中的声音信息部分;
[0029] 增强子单元21,用于对声音信息部分进行增强处理,获取增强后的声音信息部分;
[0030] 特征子单元22,用于对增强后的声音信息部分进行特征提取,获取声音信息的特征参数;
[0031] 识别子单元23,用于根据所述声音信息的特征参数,获取相应的文字信息。
[0032] 本发明上述实施例,跑步机通过麦克风接收用户发出的声音,通过语音识别程序将声音识别为文字,通过互动控制程序将文字转换为指令,对应的设备接收并执行指令,使得跑步机可以通过用户的发出的语音实现不同的功能,方便用户在跑步时使用跑步机不同的功能。
[0033] 优选地,所述检测子单元20,检测并提取接收的声音中的声音信息部分,具体为:
[0034] 对接收的声音信号按帧间50%的重叠进行分帧、加窗处理,获取每一帧接收的声音信号;
[0035] 优选地,所述加帧处理选择的帧长为30ms;
[0036] 优选地,所述加窗处理采用的是汉明窗;
[0037] 对每一帧接收的声音信号进行短时傅里叶变换处理,获取每一帧接收的声音信号的能量普Fn(rk),n=1,2,…,nF,其中,rk表示频率分量,nF表示分帧的总数;
[0038] 对每一帧接收的声音信号进行动态特征提取处理,获取每一帧接收的声音信号的动态特征,采用的自定义函数为:
[0039]
[0040] 其中,
[0041]
[0042]
[0043] 式中,Qd(n)表示接收的声音信号第n帧的动态特征,kg(H(n)+α)-kgα表示接收的声音信号的第n帧的对数能量特征, 表示接收的声音信号第n帧的谱熵特征, 和 分别表示前10帧接收的声音信号的对数能量和谱熵特征的平均值,θ表示设定的动态特征因子,θ∈[9,10],H(n)表示接收的声音信号第n帧的短时能量,|sn(n)|2表示原接收的声音信号的第n帧在不同时刻的能量值,L表示所述窗的长度, 表示设定的对数能量因子,S(k,n)表示接收的声音信号第n帧频率分量为rk的概率密度,Fn(rk)表示第n帧接收的声音信号的能量普中频率分量为rk的能量强度,K表示短时傅里叶变换的窗长度,与窗长度相等,即K=L;
[0044] 根据接收的声音信号的动态特征,将每一帧接收的声音信号动态特征和设定的阈值进行比较,保留动态特征大于阈值的对应的接收的声音信号帧并记为声音信息部分作进一步处理,其余部分记为无声部分。
[0045] 本优选实施例,在所述检测子单元20中,首先采用引入了对术能量特征和谱熵特征的自定义动态特征描述函数对接收的声音信号进行准确的描述,并且根据动态特征提取出所需的声音信息部分待进一步处理;在实际应用中,采用上述的方法对接收的声音信号进行语音检测,能有效地降低因跑步机运作时发出的噪声对声音信息部分提取的干扰,为之后的声音识别提供了保障。
[0046] 优选地,所述增强子单元21,对声音信息部分进行增强处理,获取增强后的声音信息部分,具体为:
[0047] 对声音信息部分进行快速傅里叶变换,获取声音信息部分的幅度谱f(r),其中r表示频率;
[0048] 对声音信息部分进行语音增强处理,采用的自定义的语音增强函数为:
[0049]
[0050] 式中,fz(r)表示语音增强处理后声音信息部分的幅度谱,f(r)表示声音信息部分的幅度谱,|f(r)|2表示声音信息部分的功率谱,ω1和ω2表示可调节的增益效果调整因子,表示噪声的功率谱的估计,通过获取所述声音信息部分之前的所述无声部分的噪声功率谱获得,可表示为: 其中 表示对当前帧噪声功率谱的估计, 表示前面帧的噪声功率谱的估计,Zn(r)表示当前帧获得的噪声功率谱,表示当前帧噪声功率谱的权重,需注意的是噪声功率谱只在所述无声部分进行更新,在所述声音信息部分不进行更新;
[0051] 对自定义滤波器的结果进行逆快速傅里叶变换,得到增强后的声音信息部分。
[0052] 本优选实施例,在语音控制跑步机的装置中,首先采用上述方法根据接收的声音信号身的无声部分来获取所需要的噪声功率谱估计,能够有效地提取出跑步机运作时发出的噪声,然后对声音信息部分进行增强处理,有效地增加了声音信息部分的信噪比,突出了用户发出的声音,为语音控制装置之后的声音转换为文字提供了基础。
[0053] 优选地,所述特征子单元22,对增强后的声音信息部分进行特征提取,获取声音信息的特征参数,具体为:
[0054] 对增强后的声音信息部分进行分帧、加窗处理;
[0055] 优选地,所述分帧处理选择的帧长为30ms,帧间重叠为10ms;
[0056] 优选地,所述加窗处理所采用的是汉明窗;
[0057] 增强后的声音信息部分每一帧进行特征参数提取,具体为:
[0058] (1)依次选取声音信息部分中的每一帧进行快速傅里叶变换,获取频谱Fp(r);
[0059] (2)将频谱Fp(r)转化为梅尔频率谱Fp(r‘);
[0060] (3)采用下列自定义滤波器组获取语音指令信号的特征能量谱NL(i),具体为:
[0061]
[0062] 式中,NL(i)表示滤波器组中第i个滤波器输出对应的特征能量谱NL(i),i=1,2,…,I,I表示滤波器组中滤波器的个数,Fp(r‘)表示转化到梅尔频率后得到的频谱,r‘表示梅尔频率, 表示滤波器组中第i个滤波器的质心参数,HSi、HHi、HXi分别表示滤波器组中第i个滤波器的上限、中心、下限,其中HHi=HSi-1=HXi+1,[0063] 优选地,取滤波器组中滤波器数量为I=13;
[0064] 其中,所述Mel(梅尔)频率是一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度,Mel频率f‘和频率f的赫兹的关系为:
[0065] (4)对获取的特征能量谱NL(i)取对数,然后进行DCT离散余弦变换,获取DCT后的前I个系数作为本帧声音信息部分的I维语音特征参数;
[0066] 重复步骤(1)至(4)直到获取增强后的声音信息部分每一帧的特征参数。
[0067] 本优选实施例,所述特征子单元22采用上述通过使用不同频率段的滤波器组成的滤波器组进行语音特征提取,能够根据声音信息部分自身的频率特性,准确反映出其特征参数,提高了特征参数提取的鲁棒性,同时有效地克服了因跑步机运作所发出的噪声对特征参数提取造成的不良影响,为之后识别子单元23中将声音准确地为文字提供了保证。
[0068] 最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。