一种基于语音识别的故事播放系统及方法转让专利

申请号 : CN201810104033.9

文献号 : CN110035043A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱建强

申请人 : 上海华镇电子科技有限公司

摘要 :

本发明公开了一种基于语音识别的故事播放系统,包括云端服务器和故事播放机;云端服务器接收故事机发送的录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,将包含故事内容的音频流媒体文件发送给故事播放机,若未能识别出故事名,则将提示重复的流媒体音频文件发送至故事播放机;故事播放机将录音发送到云端服务器,并接收云端服务器上回传的音频流媒体文件,进行播放。本发明还公开了一种基于语音识别的故事播放方法。

权利要求 :

1.一种基于语音识别的故事播放系统,其特征在于:包括云端服务器和故事播放机;云端服务器接收故事机发送的录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,将包含故事内容的音频流媒体文件发送给故事播放机,若未能识别出故事名,则将提示重复的流媒体音频文件发送至故事播放机;故事播放机将录音发送到云端服务器,并接收云端服务器上回传的音频流媒体文件,进行播放。

2.根据权利要求1所述的基于语音识别的故事播放系统,其特征在于,所述的云端服务器包括:更新存储模块,用于更新并存储故事的音频流媒体文件;

语音识别引擎模块,用于接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;

识别分值判断模块,用于判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件,并发送至故事播放机;

条件查询模块,用于查询识别出的故事名称所对应的故事音频流媒体文件,并将该音频流媒体文件发送给故事播放机。

3.根据权利要求1所述的基于语音识别的故事播放系统,其特征在于,所述的故事播放机包括:录音模块,用于录制接收的语音,录制的语音包括用户说话的内容语音信号B和故事机播放的内容语音信号A;

前端音频处理模块,用于处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B;

Wifi模块,用于实现与云端服务器的通信,将输出的语音信号B发送至云端服务器,并接收云端服务器回传的音频流媒体文件;

流媒体播放模块,用于解码接收的音频流媒体文件,并进行播放。

4.一种基于语音识别的故事播放方法,其特征在于,包括如下过程:S100、接收录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,输出结果为包含故事内容的音频流媒体文件,若为识别出故事名称,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件;

S200、对步骤S100输出的音频流媒体文件进行解码并播放。

5.根据权利要求4所述的基于语音识别的故事播放方法,其特征在于,步骤S100具体包括如下过程:S101、更新并存储故事的音频流媒体文件;

S102、接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;

S103、判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,进入步骤S104,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的流媒体音频文件,进入步骤S203;

S104、查询识别出的故事名称所对应的故事的音频流媒体文件,进入步骤S203。

6.根据权利要求,5所述的基于语音识别的故事播放方法,其特征在于,所述的步骤S200具体包括如下过程:S201、录制语音,其中,录制的语音包括用户说话的内容语音信号B和故事机播放的内容语音信号A;

S202、处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B,进入步骤S102;

S203、对回传的音频流媒体文件进行解码并播放。

说明书 :

一种基于语音识别的故事播放系统及方法

技术领域

[0001] 本发明属于语音识别技术领域,尤其涉及一种基于语音识别的故事播放系统及方法。

背景技术

[0002] 目前传统的故事机播放故事,都是将故事的音频文件存储在故事机上,然后通过按键或者红外遥控器来控制播放,由于故事机的储存大小的限制,播放的故事音频文件数量有限,且控制播放的方式也很单一,要听某个故事,只能通过按键去选择。

发明内容

[0003] 基于此,本发明提供一种基于语音识别的故事播放系统及方法,能够完全有效解决上述技术问题。
[0004] 本发明的技术方案是:一种基于语音识别的故事播放系统,包括云端服务器和故事播放机;云端服务器接收故事机发送的录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,将包含故事内容的音频流媒体文件发送给故事播放机,若未能识别出故事名,则将提示重复的流媒体音频文件发送至故事播放机;故事播放机将录音发送到云端服务器,并接收云端服务器上回传的音频流媒体文件,进行播放。
[0005] 在优选的实施例中,所述的云端服务器包括:更新存储模块,用于更新并存储故事的音频流媒体文件;
语音识别引擎模块,用于接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;
识别分值判断模块,用于判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件,并发送至故事播放机;
条件查询模块,用于查询识别出的故事名称所对应的故事音频流媒体文件,并将该音频流媒体文件发送给故事播放机。
[0006] 在优选的实施例中,所述的故事播放机包括:录音模块,用于录制接收的语音,录制的语音包括用户说话的内容语音信号B和故事机播放的内容语音信号A;
前端音频处理模块,用于处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B;
Wifi模块,用于实现与云端服务器的通信,将输出的语音信号B发送至云端服务器,并接收云端服务器回传的音频流媒体文件;
流媒体播放模块,用于解码接收的音频流媒体文件,并进行播放。
[0007] 为解决技术问题,本发明还提供一种基于语音识别的故事播放方法,包括如下过程:S100、接收录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,输出结果为包含故事内容的音频流媒体文件,若为识别出故事名称,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件;
S200、对步骤S100输出的音频流媒体文件进行解码并播放。
[0008] 在优选的实施例中,步骤S100具体包括如下过程:S101、更新并存储故事的音频流媒体文件;
S102、接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;
S103、判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,进入步骤S104,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的流媒体音频文件,进入步骤S203;
S104、查询识别出的故事名称所对应的故事的音频流媒体文件,进入步骤S203。
[0009] 在优选的实施例中,所述的步骤S200具体包括如下过程:S201、录制语音,其中,录制的语音包括用户说话的内容语音信号B和故事机播放的内容语音信号A;
S202、处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B,进入步骤S102;
S203、对回传的音频流媒体文件进行解码并播放。
[0010] 本发明的有益效果是:本发明以wifi方式联入到互联网,实现与云端服务器的通信,云端服务器上做语音识别计算和储存故事音频文件,用户说出故事的名字,通过服务器上的语音识别,识别出故事名字,将存储在云端的故事音频流媒体文件在故事机上播放,由于是在云端服务器上储存,与传统方式相比,可以存储更多的故事,通过英语识别方式进行播放,设计智能人性化,丰富了播放方式。

附图说明

[0011] 图1是本发明实施例所述基于语音识别的故事播放系统的原理框图;图2是本发明实施例所述基于语音识别的故事播放方法的流程图;
图3是本发明实施例所述回声抑制过程的示意图。
[0012] 附图标记说明:100-云端服务器,200-故事播放机,101-更新存储模块,102-语音识别引擎模块,103-识别分值判断模块,104-条件查询模块,201-录音模块,202-前端音频处理模块,203-Wifi模块,204-流媒体播放模块。

具体实施方式

[0013] 下面对本发明进行详细说明。实施例
[0014] 如图1所示,一种基于语音识别的故事播放系统,包括云端服务器100和故事播放机200;云端服务器100接收故事机发送的录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,将包含故事内容的音频流媒体文件发送给故事播放机200,若未能识别出故事名,则将提示重复的流媒体音频文件发送至故事播放机200;故事播放机200将录音发送到云端服务器100,并接收云端服务器100上回传的音频流媒体文件,进行播放。
[0015] 上述系统中,云端服务器100上存储了海量的故事的音频文件,音频文件可以根据故事名做索引查询,故事音频文件放在服务器上可以定期更新,将最新的故事添加进去。音频文件支持流媒体传输和播放。该云端服务器100上运行语音识别引擎,此引擎为大词汇量语音识别引擎,可以支持海量的语音识别内容识别,此引擎支持多线程,支持多个故事机通过互联网同时送录音数据,同时做语音识别的计算,识别出的录音中的故事名和以及此故事名的识别分值。通过识别分值阀值的判断,如果识别的分值高于识别分值阀值,则输出故事名,将故事名作为索引,查找到故事的音频文件,然后把此音频的流媒体文件发给故事播放机200,故事播放机200上做边下载边播放;如果此识别的分值低于识别分值阀值,则判为不能识别,将结果返回给故事播放机200机,由故事机播放提示音告诉用户此次未能识别正确。
[0016] 在另一个实施例中,所述的云端服务器100包括:更新存储模块101,用于更新并存储故事的音频流媒体文件;
语音识别引擎模块102,用于接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;
识别分值判断模块103,用于判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件,并发送至故事播放机200;
条件查询模块104,用于查询识别出的故事名称所对应的故事音频流媒体文件,并将该音频流媒体文件发送给故事播放机200。
[0017] 在另一个实施例中,所述的故事播放机200包括:录音模块201,用于录制接收的语音,录制的语音包括用户说话的内容语音信号B和故事播放机200播放的内容语音信号A;
前端音频处理模块202,用于处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B;具体的,在录音时,麦克风会把喇叭播放的声音也录进去,会大幅降低语音识别率,为了能在播放时,也能够精准识别,采用了回声抑制功能,此功能用如图3表示:故事播放机
200播放的声音信号,经过喇叭播放出来,然后经过麦克风的重新采集,和用户说话的声音混合在一起,与参考信号(通过功放芯片引线接到前端音频处理上)进行“减法”(回声抑制)运算,抑制参考信号。这样经过前端音频处理后的声音就剩下用户说话的声音了,保证了故事机在喇叭播放时,语音识别同样有高识别率。
[0018] Wifi模块203,用于实现与云端服务器100的通信,将输出的语音信号B发送至云端服务器100,并接收云端服务器100回传的音频流媒体文件;流媒体播放模块204,用于解码接收的音频流媒体文件,并进行播放。
[0019] 如图2所示,为解决技术问题,本发明还提供一种基于语音识别的故事播放方法,包括如下过程:S100、接收录音并做语音识别计算,识别出录音中的故事名,查询到此故事名对应的故事的音频流媒体文件,输出结果为包含故事内容的音频流媒体文件,若为识别出故事名称,则输出结果为包含“您所说的故事名未能识别,请重复”的音频流媒体文件;
S200、对步骤S100输出的音频流媒体文件进行解码并播放。
[0020] 在另一个实施例中,步骤S100具体包括如下过程:S101、更新并存储故事的音频流媒体文件;
S102、接收录音数据,识别录音数据对应的故事名称,并给出该故事名称的识别分值;
S103、判断识别分值是否大于识别分值阈值,若是,则输出结果为故事名称,进入步骤S104,若否,则输出结果为包含“您所说的故事名未能识别,请重复”的流媒体音频文件,进入步骤S203;
S104、查询识别出的故事名称所对应的故事的音频流媒体文件,进入步骤S203。
[0021] 在另一个实施例中,所述的步骤S200具体包括如下过程:S201、录制语音,其中,录制的语音包括用户说话的内容语音信号B和故事机播放的内容语音信号A;
S202、处理录制的语音,通过回声抑制滤除语音信号A,输出语音信号B,进入步骤S102;
S203、对回传的音频流媒体文件进行解码并播放。
[0022] 上述实施例中,开始播放时,比如用户说“我想听小红帽的故事”,故事播放机200录音,由于此时还未播放故事,录音中只包含用户所说的话,把录音发送给云端服务器100,服务器上做识别计算,识别出故事名“小红帽”,到故事音频列表中查询,将“小红帽”的音频流媒体文件发送给故事播放机200,故事播放机200接收后,解码播放小红帽的音频文件,若由于用户说话声音太小或是离麦克风太远等原因导致未能识别出故事名“小红帽”,则故事播放机200的播放内容为“您所说的故事名未能识别,请重复,请重复”。
[0023] 在“小红帽”的故事正在播放的过程中,用户说“播放白雪公主”,故事播放机200的前端音频处理模块,将喇叭的声音做了回声抑制,录音中只有用户说话的声音,将录音发给云端服务器100,服务器识别后,把“白雪公主”的音频流媒体文件发给故事播放机200,故事播放机200停止“小红帽”的播放,改播“白雪公主”的音频流媒体文件。
[0024] 以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。