实现语音播报校正的方法及装置、可读存储介质转让专利

申请号 : CN201810125878.6

文献号 : CN108401209B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 崔文华张永芳王之奎

申请人 : 海信视像科技股份有限公司

摘要 :

本发明揭示了一种实现语音播报校正的方法及装置、可读存储介质。所述方法包括:由麦克风采集语音设备所处环境的环境音频数据;从环境音频数据中提取得到噪音干扰数据;根据噪音干扰数据对所述语音设备的反馈音音量进行调节;播报调节了反馈音音量的反馈音。通过由麦克风采集语音设备所处环境的环境音频数据,从环境音频数据中提取得到噪音干扰数据,根据噪音干扰数据对语音设备的反馈音音量进行调节,并播报调节了反馈音音量的反馈音。从而实现了根据语音设备所处环境的噪音对语音设备的反馈音音量进行调节,减少语音设备播报的反馈音所受到的噪音干扰,使用户得到足够清晰的反馈音,解决了现有技术中存在的语音播报不清晰的问题。

权利要求 :

1.一种实现语音播报校正的方法,其特征在于,所述方法包括:

由麦克风采集语音设备所处环境的环境音频数据;

从所述环境音频数据中提取得到噪音干扰数据,包括:在语音播报过程输出设备音频数据时,获取所述设备音频数据;根据所述设备音频数据与环境音频数据的相关性,从所述环境音频数据中消除所述设备音频数据,得到所述噪音干扰数据;

根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节,包括:计算所述噪音干扰数据的平均幅值;获取所述语音设备输出设备音频数据时的音量;根据音量与噪音干扰数据幅值的对应关系,获取与所述音量对应的噪音干扰数据幅值,将所述噪音干扰数据幅值作为所述噪音干扰数据幅值基准值;比较所述噪音干扰数据的平均幅值与噪音干扰数据幅值基准值;当所述噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,为所述反馈音设置正增益系数,并根据所述正增益系数增大所述反馈音音量;

其中,所述根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节之前,包括:计算所述设备音频数据的平均幅值;比较所述设备音频数据的平均幅值与反馈音幅值基准值;当所述设备音频数据的平均幅值大于反馈音幅值基准值时,为所述设备音频数据设置负增益系数,并根据所述负增益系数减小所述设备音频数据指示的设备输出音量;

播报调节了反馈音音量的反馈音。

2.根据权利要求1所述的方法,其特征在于,所述播报调节了反馈音音量的反馈音之后,所述方法还包括:对所述语音设备进行设备参数还原。

3.一种实现语音播报校正的装置,其特征在于,所述装置包括:

采集模块,用于由麦克风采集语音设备所处环境的环境音频数据;

提取模块,用于从所述环境音频数据中提取得到噪音干扰数据;

其中,所述提取模块还包括:数据获取单元,用于在语音播报过程输出设备音频数据时,获取所述设备音频数据;消除单元,用于根据所述设备音频数据与环境音频数据的相关性,从所述环境音频数据中消除所述设备音频数据,得到所述噪音干扰数据;

调节模块,用于根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节,包括:计算所述噪音干扰数据的平均幅值;获取所述语音设备输出设备音频数据时的音量;根据音量与噪音干扰数据幅值的对应关系,获取与所述音量对应的噪音干扰数据幅值,将所述噪音干扰数据幅值作为所述噪音干扰数据幅值基准值;比较所述噪音干扰数据的平均幅值与噪音干扰数据幅值基准值;当所述噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,为所述反馈音设置正增益系数,并根据所述正增益系数增大所述反馈音音量;

其中,所述根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节之前,所述调节模块还包括:计算所述设备音频数据的平均幅值;比较所述设备音频数据的平均幅值与反馈音幅值基准值;当所述设备音频数据的平均幅值大于反馈音幅值基准值时,为所述设备音频数据设置负增益系数,并根据所述负增益系数减小所述设备音频数据指示的设备输出音量;

播报模块,用于播报调节了反馈音音量的反馈音。

4.一种电子设备,其特征在于,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

由麦克风采集语音设备所处环境的环境音频数据;

从所述环境音频数据中提取得到噪音干扰数据,包括:在语音播报过程输出设备音频数据时,获取所述设备音频数据;根据所述设备音频数据与环境音频数据的相关性,从所述环境音频数据中消除所述设备音频数据,得到所述噪音干扰数据;

根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节,包括:计算所述噪音干扰数据的平均幅值;获取所述语音设备输出设备音频数据时的音量;根据音量与噪音干扰数据幅值的对应关系,获取与所述音量对应的噪音干扰数据幅值,将所述噪音干扰数据幅值作为所述噪音干扰数据幅值基准值;比较所述噪音干扰数据的平均幅值与噪音干扰数据幅值基准值;当所述噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,为所述反馈音设置正增益系数,并根据所述正增益系数增大所述反馈音音量;

其中,所述根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节之前,包括:计算所述设备音频数据的平均幅值;比较所述设备音频数据的平均幅值与反馈音幅值基准值;当所述设备音频数据的平均幅值大于反馈音幅值基准值时,为所述设备音频数据设置负增益系数,并根据所述负增益系数减小所述设备音频数据指示的设备输出音量;

播报调节了反馈音音量的反馈音。

5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的实现语音播报校正的方法。

说明书 :

实现语音播报校正的方法及装置、可读存储介质

技术领域

[0001] 本发明涉及智能语音技术领域,特别涉及一种实现语音播报校正的方法及装置、可读存储介质。

背景技术

[0002] 目前,设置有语音功能的语音设备正在广泛地应用于各个领域,例如智能电视,用户可以对智能电视发出语音指令,从而实现观看本地节目、搜索网络视频、操控设备内容等功能,极大的提高了用户使用语音设备时的用户体验。
[0003] 然而用户发出语音指令后,语音设备进行相应的操作或者由于识别不到用户发出的语音指令而进行语音播报时,语音设备播报的反馈音会受到其自身所处环境的噪音干扰,而导致语音播报不清晰,进而影响用户体验。

发明内容

[0004] 为了解决相关技术中存在的语音播报不清晰的问题,本发明提供了一种实现语音播报校正的方法及装置、可读存储介质。
[0005] 一种实现语音播报校正的方法,所述方法包括:
[0006] 由麦克风采集语音设备所处环境的环境音频数据;
[0007] 从所述环境音频数据中提取得到噪音干扰数据;
[0008] 根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节;
[0009] 播报调节了反馈音音量的反馈音。
[0010] 一种实现语音播报校正的装置,所述装置包括:
[0011] 采集模块,用于由麦克风采集语音设备所处环境的环境音频数据;
[0012] 提取模块,用于从所述环境音频数据中提取得到噪音干扰数据;
[0013] 调节模块,用于根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节;
[0014] 播报模块,用于播报调节了反馈音音量的反馈音。
[0015] 一种电子设备,包括:
[0016] 处理器;
[0017] 用于存储处理器可执行指令的存储器;
[0018] 其中,所述处理器被配置为:
[0019] 由麦克风采集语音设备所处环境的环境音频数据;
[0020] 从所述环境音频数据中提取得到噪音干扰数据;
[0021] 根据所述噪音干扰数据对所述语音设备的反馈音音量进行调节;
[0022] 播报调节了反馈音音量的反馈音。
[0023] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的实现语音播报校正的方法。
[0024] 本发明的实施例提供的技术方案可以包括以下有益效果:
[0025] 通过由麦克风采集语音设备所处环境的环境音频数据,从环境音频数据中提取得到噪音干扰数据,根据噪音干扰数据对语音设备的反馈音音量进行调节,并播报调节了反馈音音量的反馈音。从而实现了根据语音设备所处环境的噪音对语音设备的反馈音音量进行调节,减少语音设备播报的反馈音所受到的噪音干扰,使用户得到足够清晰的反馈音,解决了现有技术中存在的语音播报不清晰的问题。
[0026] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。

附图说明

[0027] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
[0028] 图1是根据一示例性实施例示出的一种实现语音播报校正的方法的流程图;
[0029] 图2是图1对应实施例的步骤130在一个实施例的流程图;
[0030] 图3是根据另一示例性实施例示出的一种实现语音播报校正的方法的流程图;
[0031] 图4是图1对应实施例的步骤150在一个实施例的流程图;
[0032] 图5是根据另一示例性实施例示出的一种实现语音播报校正的方法的流程图;
[0033] 图6是一种应用场景中的实现语音播报校正的方法的流程图;
[0034] 图7是根据一示例性实施例示出的一种实现语音播报校正的装置的框图;
[0035] 图8是图7对应实施例的提取模块在一个实施例的框图。

具体实施方式

[0036] 这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0037] 图1是根据一示例性实施例示出的一种实现语音播报校正的方法的流程图。如图1所示,该实现语音播报校正的方法可以包括以下步骤。
[0038] 在步骤110中,由麦克风采集语音设备所处环境的环境音频数据。
[0039] 其中,语音设备是设置有语音功能,进行语音播报的智能设备,例如可以进行语音播报的智能电视、智能音箱等。环境音频数据是语音设备所处环境的整体音频数据,环境音频数据包括语音设备输出的音频数据(例如设备音频数据)和所处环境的噪音其它音频数据(例如噪声干扰数据)。
[0040] 麦克风设置用于录制对语音设备进行语音控制的语音指令。通过麦克风对录制对语音设备进行语音控制的语音指令,使语音设备根据用户的语音指令,播报相应的反馈音。通过麦克风采集语音设备所处环境的环境音频数据。
[0041] 在一个示例性实施例的具体实现中,语音设备为进行语音播报的智能电视,智能电视配置有麦克风,麦克风可以设置在智能电视的语音遥控器上,也可以设置在智能电视上,用户通过语音遥控器上的麦克风,对智能电视进行语音控制,智能电视根据用户的语音控制欲进行反馈音的播报,此时通过麦克风采集智能电视所处环境的环境音频数据,以便于得到所处环境中的噪音。
[0042] 在步骤130中,从环境音频数据中提取得到噪音干扰数据。
[0043] 其中,噪音干扰数据用于表示语音设备所处环境中的噪音,例如语音设备旁边用户交谈所形成的音频数据等。
[0044] 本实施例中,环境音频数据包括语音设备输出的设备音频数据和噪音干扰数据。
[0045] 由于麦克风采集的环境音频数据中,包含噪音干扰数据,也可以包括语音设备输出的语音音频数据,因此,便能够由环境音频数据中提取出噪音干扰数据,以便于后续根据噪音干扰数据降低噪音对语音设备所播报的反馈音的干扰。
[0046] 在步骤150中,根据噪音干扰数据对语音设备的反馈音音量进行调节。
[0047] 其中,语音设备的反馈音为语音设备根据用户语音控制而播报的语音,语音设备的反馈音可以用来提示用户进行的语音控制已经成功执行,也可以用来提示用户进行的语音控制失败,还可以是提醒用户重新进行语音控制。
[0048] 如前所述,噪音干扰数据用于表示语音设备所处环境的噪音,因此,对语音设备的反馈音音量进行调节,目的在于减小噪音对语音设备的反馈音的干扰。
[0049] 例如,如果噪音音量太大,则增大反馈音音量,反之,如果噪音音量比较小,则可以保持反馈音音量不变。
[0050] 当然,在其他实施例中,也可以在噪音音量较小时适当降低反馈音音量,以避免语音播报时出现破音。
[0051] 在步骤170中,播报调节了反馈音音量的反馈音。
[0052] 对于用户而言,由于反馈音的反馈音音量根据噪音干扰数据进行了相应的调节,便收听到足够清晰的反馈音。
[0053] 此实施例实现了对语音设备的反馈音音量进行调节,使用户能够获取更清晰的反馈音,解决了语音播报不清晰,用户体验较差的问题。
[0054] 图2是图1对应实施例的步骤130在一个实施例的流程图。如图2所示,该步骤130可以包括以下步骤。
[0055] 在步骤131中,在语音播报过程输出设备音频数据时,获取设备音频数据。
[0056] 其中,设备音频数据为语音设备自身输出的音频数据。在一个示例性实施例的具体实现中,语音设备为进行语音控制的智能电视,设备音频数据为智能电视播放电视节目时输出的音频数据。在语音播报过程,语音设备仍进行输出设备音频数据时,语音设备获取自身输出的设备音频数据。在其它示例性实施例中,语音设备也可以先停止设备语音数据的输出,以便于用户能够不受设备音频数据的影响而听到语音设备播报的反馈音,此时不进行设备音频数据的获取。
[0057] 在步骤133中,根据设备音频数据与环境音频数据的相关性,从环境音频数据中消除设备音频数据,得到噪音干扰数据。
[0058] 其中,由于环境音频数据是语音设备所处环境的整体音频数据,因此环境音频数据中也包含语音设备输出的设备音频数据,根据设备音频数据与环境音频数据的相关性,从环境音频数据中消除设备音频数据,从而得到噪音干扰数据。本实施例通过设备音频数据与环境音频数据的强相关性,从环境音频数据中消除设备音频数据,在其它实施例的实现中也可以通过设备音频数据与环境音频数据的弱相关性,从环境音频数据中消除设备音频数据,本发明并不以此为限。
[0059] 此实施例实现了从环境音频数据中消除设备音频数据,得到噪音干扰数据。
[0060] 图3是根据另一示例性实施例示出的一种实现语音播报校正的方法的流程图。如图3所示,该实现语音播报校正的方法还可以包括以下步骤。
[0061] 在步骤210中,计算设备音频数据的平均幅值。
[0062] 其中,语音设备输出不同的设备音频数据时,由于不同的设备音频数据的音频来源不同,因此设备音频数据的幅值会产生差异。在一个示例性实施例的具体实现中,语音设备为智能电视,由于智能电视播放的电视节目片源不同,因此输出的设备音频数据的幅值会产生差异。通过计算设备音频数据的平均幅值,来增加语音播报校正的准确性。
[0063] 在步骤230中,比较设备音频数据的平均幅值与反馈音幅值基准值。
[0064] 其中,反馈音幅值基准值是语音设备播报的反馈音的幅值的标准值,即当不对语音设备播报的反馈音进行调整时,语音设备播报的反馈音的幅值。幅值在语音设备上通过音量的形式表现出来。
[0065] 通过比较设备音频数据的平均幅值与反馈音幅值基准值,来判断设备音频数据的平均幅值与反馈音幅值基准值的大小,从而根据判断结果,来调整设备音频数据,减小设备音频数据对语音设备播报的反馈音的影响。
[0066] 在步骤250中,当设备音频数据的平均幅值大于反馈音幅值基准值时,为设备音频数据设置负增益系数,并根据负增益系数减小设备音频数据指示的设备输出音量。
[0067] 其中,当设备音频数据的平均幅值大于反馈音幅值基准值时,即表示语音设备输出的设备音频的音量要大于反馈音音量,因此为设备音频数据设置用于减小设备输出音量的负增益系数,根据设置的负增益系数对设备音频数据指示的设备输出音量进行减小,从而减小语音设备输出设备音频数据时的设备输出音量。
[0068] 在一个示例性实施例的具体实现中,设备音频数据的平均幅值为M1,反馈音幅值基准值为M,则当M1大于M时,负增益系数S-设置为S-=k-×(M/M1),其中,k-可以设置为1,1/2,1/3等,通过负增益系数S-减小设备音频数据指示的设备输出音量。
[0069] 此实施例实现了当设备音频数据的平均幅值大于反馈音幅值基准值时,为设备音频数据设置负增益系数
[0070] 图4是图1对应实施例的步骤150在一个实施例的流程图。如图4所示,该步骤150可以包括以下步骤。
[0071] 在步骤151中,计算噪音干扰数据的平均幅值。
[0072] 其中,由于语音设备所处环境不同,因此根据语音设备所处的不同环境,环境音频数据会产生变化,即根据环境音频数据得到的噪音干扰数据会根据语音设备所处的不同环境产生变化。因此通过计算噪音干扰数据的平均幅值,来减小噪音干扰数据的幅值变化产生的影响。
[0073] 在步骤153中,比较噪音干扰数据的平均幅值与噪音干扰数据幅值基准值。
[0074] 其中,噪音干扰数据幅值基准值是输出的噪音干扰数据未对语音设备播报的反馈音造成影响的阈值。当噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,即输出的噪音干扰数据影响播报的反馈音。
[0075] 通过比较噪音干扰数据的平均幅值与噪音干扰数据幅值基准值,判断噪音干扰数据是否对播报的反馈音造成影响,从而根据判断结果,来调整反馈音音量,减小噪音干扰数据对语音设备播报的反馈音的影响。
[0076] 在步骤155中,当噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,为反馈音设置正增益系数,并根据正增益系数增大反馈音音量。
[0077] 其中,当噪音干扰数据的平均幅值大于噪音干扰数据幅值基准值时,即表示语音设备所处环境的噪音对播报的反馈音产生影响,此时为反馈音设置用于增强反馈音音量的正增益系数,根据正增益系数增大反馈音音量,从而减小语音设备所处环境的噪音对播报的反馈音产生的影响。
[0078] 在一个示例性实施例的具体实现中,噪音干扰数据的平均幅值为N1,噪音干扰数据幅值基准值为N,则当N1大于N时,正增益系数S+设置为S+=k+×(N1/N),k+可以设置为1,2,3等,通过正增益系数S+增大反馈音音量。
[0079] 此实施例实现了根据正增益系数增大反馈音音量。
[0080] 图5是根据另一示例性实施例示出的一种实现语音播报校正的方法的流程图。该实现语音播报校正的方法还可以包括以下步骤。
[0081] 在步骤310中,获取语音设备输出设备音频数据时的音量。
[0082] 在步骤330中,根据音量与噪音干扰数据幅值的对应关系,获取与音量对应的噪音干扰数据幅值,将噪音干扰数据幅值作为噪音干扰数据幅值基准值。
[0083] 其中,获取到语音设备输出设备音频数据时的音量,通过大量实验的实验结果,可得到音量与噪音干扰数据幅值之间存在对应的线性或者曲线关系,即语音设备的每一个音量都有对应的一个噪音干扰数据幅值,根据语音设备输出设备音频数据时的音量,获取对应的噪音干扰数据幅值,并将噪音干扰数据幅值作为噪音干扰数据幅值基准值。
[0084] 此实施例实现了获取与音量对应的噪音干扰数据幅值,将噪音干扰数据幅值作为噪音干扰数据幅值基准值。
[0085] 在一个示例性实施例中,该实现语音播报校正的方法还可以包括以下步骤。
[0086] 对语音设备进行设备参数还原。
[0087] 其中,设备参数包括根据负增益系数、正增益系数而分别调整的设备输出音量和反馈音的音量。通过还原语音设备的设备参数,使语音设备恢复至未调整设备输出音量和反馈音的反馈音音量的状态,避免影响语音设备的用户体验。
[0088] 此实施例实现了对语音设备进行设备参数还原,避免影响语音设备的用户体验。
[0089] 图6是一种应用场景中的实现语音播报校正的方法的流程图。如图6所示,语音设备为配置有进行语音播报的语音助手的电视,步骤1收集智能电视整体的环境音频数据,步骤2获取智能电视自身的电视音频数据,步骤3根据环境音频数据和电视音频数据的强相关性,从环境音频数据消除电视音频数据获取噪音干扰数据,步骤4获取预设的语音助手反馈音基准值大小,步骤5比较语音助手反馈音基准值与电视音频数据,若语音助手反馈音基准值小于电视音频数据,则执行步骤6减小电视的声音,步骤7根据电视的音量,获取与音量对应的噪音干扰数据幅值基准值,步骤8将噪音干扰数据幅值基准值与噪音干扰数据比较,若噪音干扰数据幅值基准值小于噪音干扰数据,则执行步骤9提高语音助手反馈音音量,步骤10通过语音助手进行反馈音播报,步骤11当播报结束后,还原所有增益设置。
[0090] 图7是根据一示例性实施例示出的一种实现语音播报校正的装置的框图。该装置执行图1任一所示的实现语音播报校正的方法的全部或者部分步骤。如图7所示,该装置包括但不限于:采集模块410,提取模块430,调节模块450和播报模块470。
[0091] 采集模块410用于由麦克风采集语音设备所处环境的环境音频数据。
[0092] 提取模块430用于从环境音频数据中提取得到噪音干扰数据。
[0093] 调节模块450用于根据噪音干扰数据对语音设备的反馈音音量进行调节。
[0094] 播报模块470用于播报调节了反馈音音量的反馈音。
[0095] 图8是图7对应实施例的提取模块在一个实施例的框图。如图8所示,该提取模块430包括但不限于:数据获取单元431和消除单元433。
[0096] 数据获取单元431用于在语音播报过程输出设备音频数据时,获取设备音频数据。
[0097] 消除单元433用于根据设备音频数据与环境音频数据的相关性,从环境音频数据中消除设备音频数据,得到噪音干扰数据。
[0098] 在一个示例性实施例中,本发明包括一种电子设备。该电子设备执行图1任一所示的实现语音播报校正的方法的全部或者部分步骤,该电子设备包括:
[0099] 处理器;
[0100] 用于存储处理器可执行指令的存储器;
[0101] 其中,处理器被配置为:
[0102] 由麦克风采集语音设备所处环境的环境音频数据。
[0103] 从环境音频数据中提取得到噪音干扰数据。
[0104] 根据噪音干扰数据对语音设备的反馈音音量进行调节。
[0105] 播报调节了反馈音音量的反馈音。
[0106] 在一个示例性实施例中,本发明包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现图1所示的实现语音播报校正的方法。
[0107] 上述装置中各个模块的功能和作用的实现过程详见上述实现语音播报校正的方法中对应步骤的实现过程,在此不再赘述。
[0108] 应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。