一种基于嘈杂环境的语音增强方法及系统转让专利

申请号 : CN202111547228.9

文献号 : CN114023351B

文献日 : 2022-07-08

本发明公开了一种基于嘈杂环境的语音增强方法及系统，属于语音领域，用于解决在嘈杂环境中无法对用户的语音数据进行准确性增强的问题，分贝计算模块、语音增强模块、特征提取模块和身份识别模块，所述身份识别模块用于对用户的身份进行识别，识别得到识别失败信号或记为语音增强对象，所述特征提取模块用于对语音增强对象的语音特征进行提取，提取得到语音特征包，所述分贝计算模块用于对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，所述语音增强模块用于对语音增强对象的语音进行增强，本发明方便在嘈杂环境中对用户的语音数据进行准确性增强。

1.一种基于嘈杂环境的语音增强系统，其特征在于，包括数据采集模块、用户终端、分贝计算模块、语音增强模块、特征提取模块、身份识别模块以及服务器，所述用户终端用于若干个用户输入个人信息后注册登录系统，并将个人信息发送至服务器；

所述数据采集模块用于对采集包括用户在内的若干个实时脸部信息、用户的地理位置和用户所在地理位置的分贝信息和用户的分贝信息，并将实时脸部信息、地理位置和分贝信息发送至服务器，所述服务器将实时脸部信息发送至身份识别模块，所述身份识别模块用于对用户的身份进行识别，识别得到识别失败信号或记为语音增强对象；

所述身份识别模块将语音增强对象或识别失败信号反馈至服务器，若服务器接收到识别失败信号，则服务器不进行任何操作，若服务器接收到语音增强对象，则将语音增强对象发送至特征提取模块，所述特征提取模块用于对语音增强对象的语音特征进行提取，提取得到语音特征包，所述特征提取模块将语音特征包反馈至服务器，所述服务器将语音增强对象的语音特征包发送至语音增强模块；

所述分贝计算模块用于对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块；

所述语音增强模块用于对语音增强对象的语音进行增强；

其中，所述分贝计算模块的计算过程具体如下：

步骤Q1：设定语音分贝的计算时间段，并将计算时间段内设定若干个时间点；

步骤Q2：获取在各个时间点时语音增强对象所在地理位置的分贝值；

步骤Q3：将若干个时间点时语音增强对象所在地理位置的分贝值相加求和取平均值，得到语音增强对象所在地理位置的分贝均值；

步骤Q4：获取语音增强对象的语音分贝值，将语音分贝值与分贝均值进行比对；

步骤Q5：若语音分贝值大于等于分贝均值，则生成语音正常信号；

若语音分贝值小于分贝均值，则生成语音增强信号。

2.根据权利要求1所述的一种基于嘈杂环境的语音增强系统，其特征在于，个人信息包括用户的姓名、手机号码和预设脸部信息。

3.根据权利要求1所述的一种基于嘈杂环境的语音增强系统，其特征在于，所述身份识别模块的识别过程具体如下：步骤S1：获取录入的若干个实时脸部信息，获取实时脸部信息中的实时脸部特征和预设脸部信息中的预设脸部特征；

步骤S2：将实时两耳间距与预设两耳间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

步骤S3：将实时鼻梁长度与预设鼻梁长度进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

步骤S4：将实时嘴角间距与预设嘴角间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

步骤S5：将实时两眼内外间距与预设两眼内外间距进行比对，若比对成功，则进入下一步骤，若比对失败，则生成识别失败信号；

步骤S6：获取识别成功信号对应的实时脸部信息，将该实时脸部信息记为语音增强对象。

4.根据权利要求3所述的一种基于嘈杂环境的语音增强系统，其特征在于，实时脸部特征包括实时两耳间距、实时鼻梁长度、实时嘴角间距和实时两眼内外间距，预设脸部特征包括预设两耳间距、预设鼻梁长度、预设嘴角间距和预设两眼内外间距。

5.根据权利要求4所述的一种基于嘈杂环境的语音增强系统，其特征在于，所述特征提取模块的提取过程具体如下：步骤SS1：获取语音增强对象对应的语音数据，语音数据进行文字转换得到若干段语音文字；将若干段语音文字标记为u，u=1，2，……，z；

步骤SS2：获取若干段语音文字的语音时间，并将语音时间标记为Tu；统计若干段语音文字的文字数，并将文字数标记为ZSu；

步骤SS3：结合公式YSu=ZSu/Tu计算得到若干段语音文字的语音速度YSu；

步骤SS4：统计语音文字的文字段数，若干段语音文字的语音速度相加求和除以文字段数得到语音增强对象的平均语速；

步骤SS5：从语音文字中随机选取若干个语音文字作为特征文字，而后获取语音增强对象在叙述特征文字时的特征叙述口型；

步骤SS6：将语音增强对象的平均语速和特征叙述口型整合为语音特征包。

6.根据权利要求1所述的一种基于嘈杂环境的语音增强系统，其特征在于，所述语音增强模块的增强过程具体如下：依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值。

7.一种基于嘈杂环境的语音增强方法，其特征在于，语音增强方法包括以下具体步骤：步骤S101，通过数据采集模块采集实时脸部信息、地理位置和分贝信息，实时脸部信息发送至身份识别模块；

步骤S102，身份识别模块对用户的身份进行识别，识别得到识别失败信号或语音增强对象，语音增强对象发送至特征提取模块；

步骤S103，利用特征提取模块对语音增强对象的语音特征进行提取，得到语音增强对象的语音特征包；

步骤S104，利用分贝计算模块对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值并发送至服务器；

步骤S105，语音增强模块对语音增强对象的语音进行增强，依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值，其中，所述分贝计算模块的计算过程具体如下：

步骤Q1：设定语音分贝的计算时间段，并将计算时间段内设定若干个时间点；

步骤Q2：获取在各个时间点时语音增强对象所在地理位置的分贝值；

步骤Q3：将若干个时间点时语音增强对象所在地理位置的分贝值相加求和取平均值，得到语音增强对象所在地理位置的分贝均值；

步骤Q4：获取语音增强对象的语音分贝值，将语音分贝值与分贝均值进行比对；

步骤Q5：若语音分贝值大于等于分贝均值，则生成语音正常信号；

若语音分贝值小于分贝均值，则生成语音增强信号。

8.根据权利要求7所述的一种基于嘈杂环境的语音增强方法，其特征在于，所述语音特征包括语音增强对象的平均语速和特征叙述口型。

9.根据权利要求7所述的一种基于嘈杂环境的语音增强方法，其特征在于，在步骤S104中：若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块。

一种基于嘈杂环境的语音增强方法及系统

技术领域

[0001] 本发明属于语音领域，涉及语音增强技术，具体是一种基于嘈杂环境的语音增强方法及系统。

背景技术

[0002] 语音是人类进行信息交流的最有效，最直接的工具之一。但在我们进行语音通信时，不可避免地会受到周围环境中的噪声的干扰，导致接收到的语音信号产生畸变，严重影响通信质量。对接收到的语音信号进行语音增强是改善环境噪声对信号影响的有效手段。语音增强是从接收到的信号中抑制噪声干扰，增强感兴趣的语音信号的强度。它是现代通信的核心技术之一。

[0003] 现有技术中，在嘈杂的环境中，较小分贝的语音数据容易被嘈杂的环境所淹没，语音的识别准确率将大打折扣，为此，我们提出一种基于嘈杂环境的语音增强方法及系统。

发明内容

[0004] 针对现有技术存在的不足，本发明目的是提供一种基于嘈杂环境的语音增强方法及系统。

[0005] 本发明所要解决的技术问题为：

[0006] （1）如何在嘈杂环境中对用户的语音数据进行准确性的增强。

[0007] 本发明的目的可以通过以下技术方案实现：

[0008] 一种基于嘈杂环境的语音增强系统，包括数据采集模块、用户终端、分贝计算模块、语音增强模块、特征提取模块、身份识别模块以及服务器，所述用户终端用于若干个用户输入个人信息后注册登录系统，并将个人信息发送至服务器；

[0009] 所述数据采集模块用于对采集包括用户在内的若干个实时脸部信息、用户的地理位置和用户所在地理位置的分贝信息和用户的分贝信息，并将实时脸部信、地理位置和分贝信息发送至服务器，所述服务器将实时脸部信息发送至身份识别模块，所述身份识别模块用于对用户的身份进行识别，识别得到识别失败信号或记为语音增强对象；

[0010] 所述身份识别模块将语音增强对象或识别失败信号反馈至服务器，若服务器接收到识别失败信号，则服务器不进行任何操作，若服务器接收到语音增强对象，则将语音增强对象发送至特征提取模块，所述特征提取模块用于对语音增强对象的语音特征进行提取，提取得到语音特征包，所述特征提取模块将语音特征包反馈至服务器，所述服务器将语音增强对象的语音特征包发送至语音增强模块；

[0011] 所述分贝计算模块用于对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块；

[0012] 所述语音增强模块用于对语音增强对象的语音进行增强。

[0013] 进一步地，个人信息包括用户的姓名、手机号码和预设脸部信息。

[0014] 进一步地，所述身份识别模块的识别过程具体如下：

[0015] 步骤S1：获取录入的若干个实时脸部信息，获取实时脸部信息中的实时脸部特征和预设脸部信息中的预设脸部特征；

[0016] 步骤S2：将实时两耳间距与预设两耳间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0017] 步骤S3：将实时鼻梁长度与预设鼻梁长度进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0018] 步骤S4：将实时嘴角间距与预设嘴角间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0019] 步骤S5：将实时两眼内外间距与预设两眼内外间距进行比对，若比对成功，则进入下一步骤，若比对失败，则生成识别失败信号；

[0020] 步骤S6：获取识别成功信号对应的实时脸部信息，将该实时脸部信息记为语音增强对象。

[0021] 进一步地，实时脸部特征包括实时两耳间距、实时鼻梁长度、实时嘴角间距和实时两眼内外间距，预设脸部特征包括预设两耳间距、预设鼻梁长度、预设嘴角间距和预设两眼内外间距。

[0022] 进一步地，所述特征提取模块的提取过程具体如下：

[0023] 步骤SS1：获取语音增强对象对应的语音数据，语音数据进行文字转换得到若干段语音文字；将若干段语音文字标记为u，u=1，2，……，z；

[0024] 步骤SS2：获取若干段语音文字的语音时间，并将语音时间标记为Tu；统计若干段语音文字的文字数，并将文字数标记为ZSu；

[0025] 步骤SS3：结合公式YSu=ZSu/Tu计算得到若干段语音文字的语音速度YSu；

[0026] 步骤SS4：统计语音文字的文字段数，若干段语音文字的语音速度相加求和除以文字段数得到语音增强对象的平均语速；

[0027] 步骤SS5：从语音文字中随机选取若干个语音文字作为特征文字，而后获取语音增强对象在叙述特征文字时的特征叙述口型；

[0028] 步骤SS6：将语音增强对象的平均语速和特征叙述口型整合为语音特征包。

[0029] 进一步地，所述分贝计算模块的计算过程具体如下：

[0030] 步骤Q1：设定语音分贝的计算时间段，并将计算时间段内设定若干个时间点；

[0031] 步骤Q2：获取在各个时间点时语音增强对象所在地理位置的分贝值；

[0032] 步骤Q3：将若干个时间点时语音增强对象所在地理位置的分贝值相加求和取平均值，得到语音增强对象所在地理位置的分贝均值；

[0033] 步骤Q4：获取语音增强对象的语音分贝值，将语音分贝值与分贝均值进行比对；

[0034] 步骤Q5：若语音分贝值大于等于分贝均值，则生成语音正常信号；

[0035] 若语音分贝值小于分贝均值，则生成语音增强信号。

[0036] 进一步地，所述语音增强模块的增强过程具体如下：依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值。

[0037] 一种基于嘈杂环境的语音增强方法，语音增强方法包括以下具体步骤：

[0038] 步骤S101，通过数据采集模块采集实时脸部信息、地理位置和分贝信息，实时脸部信息发送至身份识别模块；

[0039] 步骤S102，身份识别模块对用户的身份进行识别，识别得到识别失败信号或语音增强对象，语音增强对象发送至特征提取模块；

[0040] 步骤S103，利用特征提取模块对语音增强对象的语音特征进行提取，得到语音增强对象的语音特征包；

[0041] 步骤S104，利用分贝计算模块对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值并发送至服务器；

[0042] 步骤S105，语音增强模块对语音增强对象的语音进行增强，依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值。

[0043] 进一步地，所述语音特征包括语音增强对象的平均语速和特征叙述口型。

[0044] 进一步地，在步骤S104中：若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块。

[0045] 与现有技术相比，本发明的有益效果是：

[0046] 本发明通过身份识别模块对用户的身份进行识别，识别得到语音增强对象发送至特征提取模块，而后利用特征提取模块对语音增强对象的语音特征进行提取，得到语音增强对象的语音特征包，同时利用分贝计算模块对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，语音增强模块对语音增强对象的语音进行增强，依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值，本发明方便在嘈杂环境中对用户的语音数据进行准确性增强。

附图说明

[0047] 为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

[0048] 图1为本发明的整体系统框图；

[0049] 图2为本发明中数据采集模块的系统框图；

[0050] 图3为本发明的工作流程图。

具体实施方式

[0051] 下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0052] 请参阅图1和图2所示，一种基于嘈杂环境的语音增强系统，包括数据采集模块、用户终端、分贝计算模块、语音增强模块、特征提取模块、身份识别模块以及服务器；

[0053] 所述用户终端用于若干个用户输入个人信息后注册登录系统，并将个人信息发送至服务器；

[0054] 其中，个人信息包括用户的姓名、手机号码、预设脸部信息等；

[0055] 所述数据采集模块包括图像采集单元、实时定位单元和分贝采集单元，所述图像采集单元用于对采集包括用户在内的若干个实时脸部信息，并将若干个实时脸部信息发送至服务器，所述实时定位单元用于对用户的地理位置进行定位，并将地理位置发送至服务器，所述分贝采集单元用于对用户所在地理位置的分贝信息和用户的分贝信息，并将分贝信息发送至服务器；

[0056] 在具体实施时，所述数据采集模块具体为用户终端上的摄像头、GPS定位仪、分贝测试仪等，摄像头用于对包括用户在内的若干个实时脸部信息进行录入，GPS定位仪用于对用户的地理位置进行定位，分贝测试仪用于对用户所在地理位置的分贝信息和用户分的分贝信息进行测试；

[0057] 在本实施例中，用户终端为用户终端所在地理位置的自助语音识别机，语音增强系统运用在自助语音识别机；

[0058] 所述服务器将实时脸部信息发送至身份识别模块，所述身份识别模块用于对用户的身份进行识别，识别过程具体如下：

[0059] 步骤S1：获取录入的若干个实时脸部信息，获取实时脸部信息中的实时脸部特征和预设脸部信息中的预设脸部特征；

[0060] 需要具体说明的是，实时脸部特征包括实时两耳间距、实时鼻梁长度、实时嘴角间距、实时两眼内外间距等，预设脸部特征包括预设两耳间距、预设鼻梁长度、预设嘴角间距、预设两眼内外间距等；

[0061] 步骤S2：将实时两耳间距与预设两耳间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0062] 步骤S3：将实时鼻梁长度与预设鼻梁长度进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0063] 步骤S4：将实时嘴角间距与预设嘴角间距进行比对，若比对成功，则进入下一步骤，若比对失败，则继续比对直至生成识别失败信号；

[0064] 步骤S5：将实时两眼内外间距与预设两眼内外间距进行比对，若比对成功，则进入下一步骤，若比对失败，则生成识别失败信号；

[0065] 步骤S6：获取识别成功信号对应的实时脸部信息，将该实时脸部信息记为语音增强对象；

[0066] 所述身份识别模块将语音增强对象或识别失败信号反馈至服务器，若服务器接收到识别失败信号，则服务器不进行任何操作；

[0067] 若服务器接收到语音增强对象，则将语音增强对象发送至特征提取模块，所述特征提取模块用于对语音增强对象的语音特征进行提取，提取过程具体如下：

[0068] 步骤SS1：获取语音增强对象对应的语音数据，语音数据进行文字转换得到若干段语音文字；将若干段语音文字标记为u，u=1，2，……，z；

[0069] 步骤SS2：获取若干段语音文字的语音时间，并将语音时间标记为Tu；统计若干段语音文字的文字数，并将文字数标记为ZSu；

[0070] 步骤SS3：结合公式YSu=ZSu/Tu计算得到若干段语音文字的语音速度YSu；

[0071] 步骤SS4：统计语音文字的文字段数，若干段语音文字的语音速度相加求和除以文字段数得到语音增强对象的平均语速；

[0072] 步骤SS5：从语音文字中随机选取若干个语音文字作为特征文字，而后获取语音增强对象在叙述特征文字时的特征叙述口型；

[0073] 步骤SS6：将语音增强对象的平均语速和特征叙述口型整合为语音特征包；

[0074] 所述特征提取模块将语音特征包反馈至服务器，所述服务器将语音增强对象的语音特征包发送至语音增强模块；

[0075] 所述分贝计算模块用于对语音增强对象所在地理位置的语音分贝进行计算，计算过程具体如下：

[0076] 步骤Q1：设定语音分贝的计算时间段，并将计算时间段内设定若干个时间点；

[0077] 步骤Q2：获取在各个时间点时语音增强对象所在地理位置的分贝值；

[0078] 步骤Q3：将若干个时间点时语音增强对象所在地理位置的分贝值相加求和取平均值，得到语音增强对象所在地理位置的分贝均值；

[0079] 步骤Q4：获取语音增强对象的语音分贝值，将语音分贝值与分贝均值进行比对；

[0080] 步骤Q5：若语音分贝值大于等于分贝均值，则生成语音正常信号；

[0081] 若语音分贝值小于分贝均值，则生成语音增强信号；

[0082] 所述分贝计算模块将语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块；

[0083] 所述语音增强模块用于对语音增强对象的语音进行增强，增强过程具体如下：依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值。

[0084] 一种基于嘈杂环境的语音增强系统，工作时，通过数据采集模块采集实时脸部信息、地理位置和分贝信息和用户的分贝信息，并将实时脸部信息、地理位置和分贝信息和用户的分贝信息发送至服务器，服务器将实时脸部信息发送至身份识别模块；

[0085] 通过身份识别模块对用户的身份进行识别，获取录入的若干个实时脸部信息，获取实时脸部信息中的实时脸部特征和预设脸部信息中的预设脸部特征，将实时两耳间距与预设两耳间距进行比对，若比对失败，则继续比对直至生成识别失败信号，若比对成功，则将实时鼻梁长度与预设鼻梁长度进行比对，若比对失败，则继续比对直至生成识别失败信号，若比对成功，则将实时嘴角间距与预设嘴角间距进行比对，若比对失败，则继续比对直至生成识别失败信号，若比对成功，则将实时两眼内外间距与预设两眼内外间距进行比对，若比对失败，则生成识别失败信号，若比对成功，则获取识别成功信号对应的实时脸部信息，将该实时脸部信息记为语音增强对象，身份识别模块将语音增强对象或识别失败信号反馈至服务器，若服务器接收到识别失败信号，则服务器不进行任何操作，若服务器接收到语音增强对象，则将语音增强对象发送至特征提取模块；

[0086] 通过特征提取模块对语音增强对象的语音特征进行提取，获取语音增强对象对应的语音数据，语音数据进行文字转换得到若干段语音文字u，而后获取若干段语音文字的语音时间Tu和统计若干段语音文字的文字数ZSu，结合公式YSu=ZSu/Tu计算得到若干段语音文字的语音速度YSu，再统计语音文字的文字段数，若干段语音文字的语音速度相加求和除以文字段数得到语音增强对象的平均语速，同时从语音文字中随机选取若干个语音文字作为特征文字，得到语音增强对象在叙述特征文字时的特征叙述口型，将语音增强对象的平均语速和特征叙述口型整合为语音特征包，特征提取模块将语音特征包反馈至服务器，服务器将语音增强对象的语音特征包发送至语音增强模块；

[0087] 同时，通过分贝计算模块对语音增强对象所在地理位置的语音分贝进行计算，设定语音分贝的计算时间段，并将计算时间段内设定若干个时间点，而后获取在各个时间点时语音增强对象所在地理位置的分贝值，将若干个时间点时语音增强对象所在地理位置的分贝值相加求和取平均值，得到语音增强对象所在地理位置的分贝均值，再获取语音增强对象的语音分贝值，将语音分贝值与分贝均值进行比对，若语音分贝值大于等于分贝均值，则生成语音正常信号，若语音分贝值小于分贝均值，则生成语音增强信号，分贝计算模块将语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值，若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块；

[0088] 通过语音增强模块对语音增强对象的语音进行增强，依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值。

[0089] 如图3所示，基于同一发明的又一构思，一种基于嘈杂环境的语音增强方法，语音增强方法的步骤具体如下：

[0090] 步骤S101，通过数据采集模块采集实时脸部信息、地理位置和分贝信息，实时脸部信息发送至身份识别模块；

[0091] 步骤S102，身份识别模块对用户的身份进行识别，识别得到识别失败信号或语音增强对象，语音增强对象发送至特征提取模块；

[0092] 步骤S103，利用特征提取模块对语音增强对象的语音特征进行提取，得到语音增强对象的语音特征包；

[0093] 步骤S104，利用分贝计算模块对语音增强对象所在地理位置的语音分贝进行计算，得到语音增强信号以及对应的分贝均值或语音正常信号以及对应的语音分贝值并发送至服务器；

[0094] 步骤S105，语音增强模块对语音增强对象的语音进行增强，依据语音特征包得到对应的用户语音，将分贝均值或语音分贝值设定为用户语音的语音分贝值；

[0095] 其中，所述语音特征包括语音增强对象的平均语速和特征叙述口型；

[0096] 其中，在步骤S104中：若服务器接收到语音增强信号，则将分贝均值发送至语音增强模块，若服务器接收到语音正常信号，则将语音分贝值发送至语音增强模块。

[0097] 上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置，系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于系数的大小，只要不影响参数与量化后数值的比例关系即可。

[0098] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

一种基于嘈杂环境的语音增强方法及系统转让专利

申请号 : CN202111547228.9

文献号 : CN114023351B

文献日 : 2022-07-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 汪张龙 , 许东生 , 徐俊 , 许建威 , 邹月荣 , 郭清霞 , 魏述勇

申请人 : 广东讯飞启明科技发展有限公司

摘要 :

权利要求 :

说明书 :