一种话筒声音处理方法、系统、终端设备及存储介质转让专利

申请号 : CN202211618292.6

文献号 : CN115967894B

文献日 : 2023-07-25

本申请涉及音频技术领域，尤其涉及一种话筒声音处理方法、系统、终端设备及存储介质。其方法包括，获取话筒采集声音；根据预设滤声规则对话筒采集声音进行过滤，生成对应的第一声音数据；识别第一声音数据，获取对应的声纹特征；若声纹特征为多个，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征；若目标声纹特征为多个，则获取各个目标声纹特征对应的声音分贝值；若声音分贝值处于预设分贝阈值区间，则获取声音分贝值对应的声音数据为第二声音数据；根据第二声音数据驱动扬声单元发声。本申请提供的一种话筒声音处理方法、系统、终端设备及存储介质可以提升话筒声音的播放效果。

1.一种话筒声音处理方法，其特征在于，包括以下步骤：

获取话筒采集声音；

根据预设滤声规则，获取对应的人声特征标准；

获取所述话筒采集声音中符合所述人声特征标准的第一目标声音；

若所述第一目标声音为多个，则获取各个所述第一目标声音的声音分贝值；

根据所述声音分贝值，设定各个所述第一目标声音对应的识别优先级，所述声音分贝值与所述识别优先级成正比；

关联所述第一目标声音和所述第一目标声音对应的所述识别优先级，生成对应的第一声音数据；

识别所述第一声音数据，获取对应的声纹特征；

若所述声纹特征为多个，则获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征；

若所述目标声纹特征为多个，则获取各个所述目标声纹特征对应的声音分贝值；

若所述声音分贝值处于预设分贝阈值区间，则获取所述声音分贝值对应的声音数据为第二声音数据；

根据所述第二声音数据驱动扬声单元发声。

2.根据权利要求1所述的一种话筒声音处理方法，其特征在于，在所述根据所述预设滤声规则，获取对应的人声特征标准之后还包括以下步骤：获取所述话筒采集声音中不符合所述人声特征标准的第二目标声音；

识别所述第二目标声音，获取对应的声音类型；

判断所述声音类型是否符合预设滤声数据库中记录的滤声类型；

若所述声音类型不符合所述预设滤声数据库中记录的所述滤声类型，则标定并记录所述声音类型至所述预设滤声数据库，形成对应的新增滤声类型。

3.根据权利要求1所述的一种话筒声音处理方法，其特征在于，所述若所述声音分贝值处于预设分贝阈值区间，则获取所述声音分贝值对应的声音数据为第二声音数据包括以下步骤：若所述声音分贝值处于预设分贝阈值区间，则判断所述声音分贝值是否为多个；

若所述声音分贝值为多个，则判断所述声音分贝值是否符合当前播音分贝值标准；

若所述声音分贝值等于所述当前播音分贝值标准，则获取所述声音分贝值对应的所述声音数据为所述第二声音数据；

若所述声音分贝值不等于所述当前播音分贝值标准，则根据预设播音分贝值调整策略对所述声音分贝值进行调整，并生成对应的所述声音数据作为所述第二声音数据。

4.根据权利要求3所述的一种话筒声音处理方法，其特征在于，所述若所述声音分贝值不等于所述当前播音分贝值标准，则根据预设播音分贝值调整策略对所述声音分贝值进行调整，并生成对应的所述声音数据作为所述第二声音数据包括以下步骤：若所述声音分贝值小于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据；

若所述声音分贝值大于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略下调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据。

5.根据权利要求4所述的一种话筒声音处理方法，其特征在于，所述若所述声音分贝值小于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据包括以下步骤：若所述声音分贝值小于所述当前播音分贝值标准，则判断所述声音分贝值是否小于预设最低分贝值；

若所述声音分贝值小于所述预设最低分贝值，则停止识别所述声音分贝值对应的所述目标声纹特征；

若所述声音分贝值等于或大于所述预设最低分贝值，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据。

6.根据权利要求1所述的一种话筒声音处理方法，其特征在于，在所述若所述声纹特征为多个，则获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征之后还包括以下步骤：实时获取所述目标声纹特征对应主讲人员的讲话语音；

根据预设特征提取规则提取实时语音中的所述声纹特征，并记录于所述主讲人员对应的声纹特征数据库。

7.一种话筒声音处理系统，其特征在于，包括：

第一获取模块（1），用于获取话筒采集声音；

过滤模块（2），用于根据预设滤声规则，获取对应的人声特征标准，获取所述话筒采集声音中符合所述人声特征标准的第一目标声音，若所述第一目标声音为多个，则获取各个所述第一目标声音的声音分贝值，根据所述声音分贝值，设定各个所述第一目标声音对应的识别优先级，所述声音分贝值与所述识别优先级成正比，关联所述第一目标声音和所述第一目标声音对应的所述识别优先级，生成对应的第一声音数据；

识别模块（3），用于识别所述第一声音数据，获取对应的声纹特征；

第二获取模块（4），若所述声纹特征为多个，则所述第二获取模块（4）用于获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征；

第三获取模块（5），若所述目标声纹特征为多个，则所述第三获取模块（5）用于获取各个所述目标声纹特征对应的声音分贝值；

第四获取模块（6），若所述声音分贝值处于预设分贝阈值区间，则所述第四获取模块（6）用于获取所述声音分贝值对应的声音数据为第二声音数据；

发声模块（7），用于根据所述第二声音数据驱动扬声单元发声。

8.一种终端设备，包括存储器和处理器，其特征在于，所述存储器中存储有能够在所述处理器上运行的计算机指令，所述处理器加载并执行所述计算机指令时，采用了如权利要求1至6中任一项所述的一种话筒声音处理方法。

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，其特征在于，所述计算机指令被处理器加载并执行时，采用了如权利要求1至6中任一项所述的一种话筒声音处理方法。

一种话筒声音处理方法、系统、终端设备及存储介质

技术领域

[0001] 本申请涉及音频技术领域，尤其涉及一种话筒声音处理方法、系统、终端设备及存储介质。

背景技术

[0002] 话筒又称麦克风，是一种电声器材，属传声器，是声电转换的换能器，通过声波作用到电声原件上产生电压再转为电能，用于各种扩音设备中，会议话筒是在演讲、会议等场合通常使用的传声设备。

[0003] 一般情况下，话筒在拾音时，外界环境会产生干扰声音，如翻书或者非主讲人员低声说话的声音，使得对应的声音播放效果较差。

发明内容

[0004] 为了提升话筒声音的播放效果，本申请提供一种话筒声音处理方法、系统、终端设备及存储介质。

[0005] 第一方面，本申请提供一种话筒声音处理方法，包括以下步骤：

[0006] 获取话筒采集声音；

[0007] 根据预设滤声规则对所述话筒采集声音进行过滤，生成对应的第一声音数据；

[0008] 识别所述第一声音数据，获取对应的声纹特征；

[0009] 若所述声纹特征为多个，则获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征；

[0010] 若所述目标声纹特征为多个，则获取各个所述目标声纹特征对应的声音分贝值；

[0011] 若所述声音分贝值处于预设分贝阈值区间，则获取所述声音分贝值对应的声音数据为第二声音数据；

[0012] 根据所述第二声音数据驱动扬声单元发声。

[0013] 通过采用上述技术方案，根据预设滤声规则对话筒采集声音进行一级过滤除杂，进而可以滤掉话筒采集声音中非人声的干扰声音生成对应的第一人声数据，进一步识别第一人声数据获取话筒采集声音中发声者的声纹特征，若所述声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征即主讲人员的声纹特征，随即获取目标声纹特征对应声音分贝值处于预设分贝阈值区间即话筒可以接收感应到的声音分贝值区间所对应的声音数据为第二声音数据，即对目标声纹特征对应的声音进行二级人声过滤，以排除声音分贝值太小的碎语声以及减少声音分贝值太大造成音频设备受损情况的发生，最后根据第二声音数据驱动扬声单元发声，由于对话筒采集声音依次进行一级杂声过滤和二级人声筛选过滤，从而提升了话筒声音的播放效果。

[0014] 可选的，所述根据预设滤声规则对所述话筒采集声音进行过滤，生成对应的第一声音数据包括以下步骤：

[0015] 根据所述预设滤声规则，获取对应的人声特征标准；

[0016] 获取所述话筒采集声音中符合所述人声特征标准的第一目标声音；

[0017] 若所述第一目标声音为多个，则获取各个所述第一目标声音的所述声音分贝值；

[0018] 根据所述声音分贝值，设定各个所述第一目标声音对应的识别优先级，所述声音分贝值与所述识别优先级成正比；

[0019] 关联所述第一目标声音和所述第一目标声音对应的所述识别优先级，生成对应的所述第一声音数据。

[0020] 通过采用上述技术方案，若所述第一目标声音为多个，则说明当前发声人员为多个，进一步根据其声音分贝值设定各个当前发声人员对应第一目标声音的识别优先级，可优先对声音分贝值最大的当前发声人员声音进行识别分析，从而提升了对发声人员声音的识别效率。

[0021] 可选的，在所述根据所述预设滤声规则，获取对应的人声特征标准之后还包括以下步骤：

[0022] 获取所述话筒采集声音中不符合所述人声特征标准的第二目标声音；

[0023] 识别所述第二目标声音，获取对应的声音类型；

[0024] 判断所述声音类型是否符合预设滤声数据库中记录的滤声类型；

[0025] 若所述声音类型不符合所述预设滤声数据库中记录的所述滤声类型，则标定并记录所述声音类型至所述预设滤声数据库，形成对应的新增滤声类型。

[0026] 通过采用上述技术方案，预设滤声数据库中记录的滤声类型为通常情况下需要过滤杂音类型，若第二目标声音中的声音类型不符合预设滤声数据库中记录的滤声类型，则说明针对该声音类型没有相关历史记载，进一步标定并记录该声音类型至预设滤声数据库形成对应的新增滤声类型，从而可以实时对新增的声音类型进行收藏记录，提升了过滤话筒采集声音中杂声的效率。

[0027] 可选的，所述若所述声音分贝值处于预设分贝阈值区间，则获取所述声音分贝值对应的声音数据为第二声音数据包括以下步骤：

[0028] 若所述声音分贝值处于预设分贝阈值区间，则判断所述声音分贝值是否为多个；

[0029] 若所述声音分贝值为多个，则判断所述声音分贝值是否符合当前播音分贝值标准；

[0030] 若所述声音分贝值等于所述当前播音分贝值标准，则获取所述声音分贝值对应的所述声音数据为所述第二声音数据；

[0031] 若所述声音分贝值不等于所述当前播音分贝值标准，则根据预设播音分贝值调整策略对所述声音分贝值进行调整，并生成对应的所述声音数据作为所述第二声音数据。

[0032] 通过采用上述技术方案，若处于预设分贝阈值区间的声音分贝值为多个，则说明此时主讲人员为多个，进一步为了提升主讲人员的声音的播放效果，对不等于当前播音分贝值标准的声音分贝值根据预设播音分贝值调整策略对声音分贝值进行调整，进一步生成适应当前播音分贝值标准的声音数据，从而提升了的话筒声音的播放效果。

[0033] 可选的，所述若所述声音分贝值不等于所述当前播音分贝值标准，则根据预设播音分贝值调整策略对所述声音分贝值进行调整，并生成对应的所述声音数据作为所述第二声音数据包括以下步骤：

[0034] 若所述声音分贝值小于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据；

[0035] 若所述声音分贝值大于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略下调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据。

[0036] 通过采用上述技术方案，根据预设播音分贝值调整策略上调小于当前播音分贝值标准的声音分贝值至当前播音分贝值标准，以及根据预设播音分贝值调整策略下调大于当前播音分贝值标准的声音分贝值至所述当前播音分贝值标准，从而可以更好地对不等于当前播音分贝值标准的声音数据进行优化调节，提升了的话筒声音的播放效果。

[0037] 可选的，所述若所述声音分贝值小于所述当前播音分贝值标准，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据包括以下步骤：

[0038] 若所述声音分贝值小于所述当前播音分贝值标准，则判断所述声音分贝值是否小于预设最低分贝值；

[0039] 若所述声音分贝值小于所述预设最低分贝值，则停止识别所述声音分贝值对应的所述目标声纹特征；

[0040] 若所述声音分贝值等于或大于所述预设最低分贝值，则根据所述预设播音分贝值调整策略上调所述声音分贝值至所述当前播音分贝值标准，并生成对应的所述声音数据作为所述第二声音数据。

[0041] 通过采用上述技术方案，若声音分贝值小于预设最低分贝值，则说明此时主讲人员与话筒的距离已经超出了正常拾音范围，进一步停止识别该声音分贝值对应的目标声纹特征，从而更大程度上排除了非主讲人员的声音干扰，提升了对主讲人员声音的聚焦效果。

[0042] 可选的，在所述若所述声纹特征为多个，则获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征之后还包括以下步骤：

[0043] 实时获取所述目标声纹特征对应主讲人员的讲话语音；

[0044] 根据预设特征提取规则提取所述实时语音中的所述声纹特征，并记录于所述主讲人员对应的声纹特征数据库。

[0045] 通过采用上述技术方案，实时获取所述目标声纹特征对应主讲人员的实时语音，并提取记录实时语音中该主讲人员的声纹特征至声纹特征数据库，从而提升了对主讲人员声纹特征的学习辨认能力。

[0046] 第二方面，本申请提供一种话筒声音处理系统，包括：

[0047] 第一获取模块，用于获取话筒采集声音；

[0048] 过滤模块，用于根据预设滤声规则对所述话筒采集声音进行过滤，生成对应的第一声音数据；

[0049] 识别模块，用于识别所述第一声音数据，获取对应的声纹特征；

[0050] 第二获取模块，若所述声纹特征为多个，则所述第二获取模块用于获取多个所述声纹特征中符合预设声纹特征标准的所述声纹特征为目标声纹特征；

[0051] 第三获取模块，若所述目标声纹特征为多个，则所述第三获取模块用于获取各个所述目标声纹特征对应的声音分贝值；

[0052] 第四获取模块，若所述声音分贝值处于预设分贝阈值区间，则所述第四获取模块用于获取所述声音分贝值对应的声音数据为第二声音数据；

[0053] 发声模块，用于根据所述第二声音数据驱动扬声单元发声。

[0054] 通过采用上述技术方案，根据预设滤声规则并通过过滤模块对话筒采集声音进行一级过滤除杂，进而可以滤掉话筒采集声音中非人声的干扰声音生成对应的第一人声数据，进一步通过识别模块识别第一人声数据获取话筒采集声音中发声者的声纹特征，若所述声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音，则通过第二获取模块获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征即主讲人员的声纹特征，随即通过第四获取模块获取目标声纹特征对应声音分贝值处于预设分贝阈值区间即话筒可以接收感应到的声音分贝值区间所对应的声音数据为第二声音数据，即对目标声纹特征对应的声音进行二级人声过滤，以排除声音分贝值太小的碎语声以及减少声音分贝值太大造成音频设备受损情况的发生，最后通过发声模块根据第二声音数据驱动扬声单元发声，由于对话筒采集声音依次进行一级杂声过滤和二级人声筛选过滤，从而提升了话筒声音的播放效果。

[0055] 第三方面，本申请提供一种终端设备，采用如下的技术方案：

[0056] 一种终端设备，包括存储器和处理器，所述存储器中存储有能够在处理器上运行的计算机指令，所述处理器加载并执行计算机指令时，采用了上述的一种话筒声音处理方法。

[0057] 通过采用上述技术方案，通过将上述的一种话筒声音处理方法生成计算机指令，并存储于存储器中，以被处理器加载并执行，从而，根据存储器及处理器制作终端设备，方便使用。

[0058] 第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

[0059] 一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器加载并执行时，采用了上述的一种话筒声音处理方法。

[0060] 通过采用上述技术方案，通过将上述的一种话筒声音处理方法生成计算机指令，并存储于计算机可读存储介质中，以被处理器加载并执行，通过计算机可读存储介质，方便计算机指令的可读及存储。

[0061] 综上所述，本申请包括以下至少一种有益技术效果：根据预设滤声规则对话筒采集声音进行一级过滤除杂，进而可以滤掉话筒采集声音中非人声的干扰声音生成对应的第一人声数据，进一步识别第一人声数据获取话筒采集声音中发声者的声纹特征，若所述声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征即主讲人员的声纹特征，随即获取目标声纹特征对应声音分贝值处于预设分贝阈值区间即话筒可以接收感应到的声音分贝值区间所对应的声音数据为第二声音数据，即对目标声纹特征对应的声音进行二级人声过滤，以排除声音分贝值太小的碎语声以及减少声音分贝值太大造成音频设备受损情况的发生，最后根据第二声音数据驱动扬声单元发声，由于对话筒采集声音依次进行一级杂声过滤和二级人声筛选过滤，从而提升了话筒声音的播放效果。

附图说明

[0062] 图1是本申请一种话筒声音处理方法中步骤S101至步骤S107的流程示意图。

[0063] 图2是本申请一种话筒声音处理方法中步骤S201至步骤S205的流程示意图。

[0064] 图3是本申请一种话筒声音处理方法中步骤S301至步骤S304的流程示意图。

[0065] 图4是本申请一种话筒声音处理方法中步骤S401至步骤S404的流程示意图。

[0066] 图5是本申请一种话筒声音处理方法中步骤S501至步骤S502的流程示意图。

[0067] 图6是本申请一种话筒声音处理方法中步骤S601至步骤S603的流程示意图。

[0068] 图7是本申请一种话筒声音处理方法中步骤S701至步骤S702的流程示意图。

[0069] 图8是本申请一种话筒声音处理系统的模块示意图。

[0070] 附图标记说明：

[0071] 1、第一获取模块；2、过滤模块；3、识别模块；4、第二获取模块；5、第三获取模块；6、第四获取模块；7、发声模块。

具体实施方式

[0072] 以下结合附图1‑8对本申请作进一步详细说明。

[0073] 本申请实施例公开一种话筒声音处理方法，如图1所示，包括：

[0074] S101.获取话筒采集声音；

[0075] S102.根据预设滤声规则对话筒采集声音进行过滤，生成对应的第一声音数据；

[0076] S103.识别第一声音数据，获取对应的声纹特征；

[0077] S104.若声纹特征为多个，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征；

[0078] S105.若目标声纹特征为多个，则获取各个目标声纹特征对应的声音分贝值；

[0079] S106.若声音分贝值处于预设分贝阈值区间，则获取声音分贝值对应的声音数据为第二声音数据；

[0080] S107.根据第二声音数据驱动扬声单元发声。

[0081] 在实际运用中，为了便于对本方案进行说明，以话筒在会议使用场景为例展开阐述。

[0082] 步骤S101中的话筒采集声音是指话筒当前采集的声音，其中，话筒里面有一层碳膜，非常薄而且十分敏感，声音是一种纵波，会压缩空气也会压缩这层碳膜，碳膜在受到挤压时也会发出振动，在碳膜的下方设置有电极，碳膜在振动的时候会接触电极，接触时间的长短和频率与声波的振动幅度和频率有关，这样就完成了声音信号到电信号的转换，之后再经过放大电路处理，就可以对话筒采集的声音实施采样量化处理。

[0083] 进一步，为了对话筒采集声音中的杂声进行过滤，根据预设滤声规则对话筒采集声音进行过滤，生成对应的第一声音数据，其中，预设滤声规则是指通过话筒里面设置的滤声器件对话筒采集声音进行除杂的规则，预设滤声规则包括杂声的认定标准。以会议室杂声为例，会议室杂声包括翻书、挪动桌椅等物体摩擦或者碰撞发出的声音，音频处理数据库中记录有上述杂声的认定标准，通过该认定标准可对话筒采集声音中的杂声进行识别过滤，第一声音数据中只包括人发出的声音数据。

[0084] 具体地，声音是一种具有一定振荡频率的电磁波，而标准的电磁波波形是正弦波，电磁波有振荡、频率、振幅、波形等物理参数或特性，正是这些不同参数和特性，才使得声音有了各种不同的听觉效果，其中，音色是由电磁波的波形所决定的，人的声音、各种物体摩擦碰撞的声音以及自然界中各种不同的声音，其波形往往是一种较为复杂的形状，正是由于这些不同形状的波形，才决定了不同声音的音色，由此预设滤声规则也是根据话筒采集声音中声音的波形不同将人的声音和非人的声音进行划分，形成各类非人的声音对应的波形标准。

[0085] 进一步，识别第一声音数据，获取对应的声纹特征，声纹是一种携带言语信息的声波频谱，人在讲话时使用的发声器官：舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面都有着很大的差异，所以两个人的声纹图谱是有差异的，所以每个人发生的声音都有着对应的声纹特征。

[0086] 其中，若声纹特征为多个，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征，若声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音数据，则以预设声纹特征标准获取多个声纹特征中对应的目标声纹特征，预设声纹特征标准是指预先设置的声纹特征识别标准，该声纹特征识别标准包括了主讲人员的声纹特征数据，包括主讲人员的鼻音、音色、语言习惯等特征数据，通过预设声纹特征标准可将主讲人员和其他人的声音区分开来。

[0087] 具体地，当话筒内的音频处理器件识别获取多个声纹特征后，选取多个声纹特征中与预设声纹特征标准匹配的目标声纹特征，该目标声纹特征是指主讲人员的声纹特征，其中，预设声纹特征标准可通过预先录制目标人员的声音，进而通过音频系统分析提取该目标人员声音对应的声纹特征，形成相应的声纹特征数据，并可存储于相应的声纹特征数据库中，在获取多个声纹特征后调取该声纹特征数据库中的声纹特征数据进行比对分析。

[0088] 进一步，若获取的目标声纹特征为多个，则说明此时主讲人员为多个，为了提升主讲人员声音的播放效果，则获取各个目标声纹特征对应的声音分贝值，若声音分贝值处于预设分贝阈值区间，则获取声音分贝值对应的声音数据为第二声音数据，其中，预设分贝阈值区间是指预先设置的话筒音频系统可以获取识别的声音分贝阈值区间，若目标声纹特征对应的声音分贝值超出该预设分贝阈值区间，则话筒音频系统就将停止识别目标声纹特征，目的是聚焦主讲人员声音的播放效果，减少不必要人声的干扰。

[0089] 例如，目标声纹特征为多个，经系统识别后分别是A和B主讲人员，此时A主讲人员对应的声音分贝值处于预设分贝阈值区间，B主讲人员对应的声音分贝值未处于预设分贝阈值区间，也就是A主讲人员离话筒的距离比B主讲人员更近，即A主讲人员为当前主要的讲话人，为了提升A主讲人员的声音播放效果，则获取A主讲人员对应声音数据为第二声音数据，并根据该第二声音数据驱动扬声单元发声。

[0090] 本实施例提供的话筒声音处理方法，根据预设滤声规则对话筒采集声音进行一级过滤除杂，进而可以滤掉话筒采集声音中非人声的干扰声音生成对应的第一人声数据，进一步识别第一人声数据获取话筒采集声音中发声者的声纹特征，若声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征即主讲人员的声纹特征，随即获取目标声纹特征对应声音分贝值处于预设分贝阈值区间即话筒可以接收感应到的声音分贝值区间所对应的声音数据为第二声音数据，即对目标声纹特征对应的声音进行二级人声过滤，以排除声音分贝值太小的碎语声以及减少声音分贝值太大造成音频设备受损情况的发生，最后根据第二声音数据驱动扬声单元发声，由于对话筒采集声音依次进行一级杂声过滤和二级人声筛选过滤，从而提升了话筒声音的播放效果。

[0091] 在本实施例的其中一种实施方式中，如图2所示，步骤S102即根据预设滤声规则对话筒采集声音进行过滤，生成对应的第一声音数据包括以下步骤：

[0092] S201.根据预设滤声规则，获取对应的人声特征标准；

[0093] S202.获取话筒采集声音中符合人声特征标准的第一目标声音；

[0094] S203.若第一目标声音为多个，则获取各个第一目标声音的声音分贝值；

[0095] S204.根据声音分贝值，设定各个第一目标声音对应的识别优先级，声音分贝值与识别优先级成正比；

[0096] S205.关联第一目标声音和第一目标声音对应的识别优先级，生成对应的第一声音数据。

[0097] 在实际运用中，步骤S201中的人声特征标准是指音频处理数据库中记录的人声认定标准，通过该人声特征标准抓取话筒采集声音中对应的第一目标声音，第一目标声音是指话筒采集声音中人发出的声音。

[0098] 进一步，若第一目标声音为多个，则说明此时讲话人员为多个，为了便于筛选确定多个讲话人员中的主讲人员对应的声纹特征，则获取各个第一目标声音的声音分贝值，随即根据声音分贝值设定各个第一目标声音对应的识别优先级，声音分贝值与识别优先级成正比，也就是第一目标声音对应的声音分贝值越大，相应的识别优先级就越高。

[0099] 再者，关联上述获取的第一目标声音和第一目标声音对应的识别优先级，生成对应的第一声音数据，通过识别优先级可优先对声音分贝值较大的第一目标声音进行分析处理，减少因音频系统延迟或者故障造成主讲人员声音识别效率不高导致相应播音效果较差情况的发生。

[0100] 本实施方式提供的话筒声音处理方法，若第一目标声音为多个，则说明当前发声人员为多个，进一步根据其声音分贝值设定各个当前发声人员对应第一目标声音的识别优先级，可优先对声音分贝值最大的当前发声人员声音进行识别分析，从而提升了对发声人员声音的识别效率。

[0101] 在本实施例的其中一种实施方式中，如图3所示，在步骤S201即根据预设滤声规则，获取对应的人声特征标准之后还包括以下步骤：

[0102] S301.获取话筒采集声音中不符合人声特征标准的第二目标声音；

[0103] S302.识别第二目标声音，获取对应的声音类型；

[0104] S303.判断声音类型是否符合预设滤声数据库中记录的滤声类型；

[0105] S304.若声音类型不符合预设滤声数据库中记录的滤声类型，则标定并记录声音类型至预设滤声数据库，形成对应的新增滤声类型。

[0106] 在实际运用中，获取话筒采集声音中不符合人声特征标准的第二目标声音，此处的第二目标声音为话筒采集声音中的杂声，为了更好地对话筒采集声音中的杂声进行识别过滤，则识别该第二目标声音，获取对应的声音类型，声音类型是指杂声的种类属性，例如会议中的翻书声音、挪动桌椅的摩擦声、玻璃杯的碰撞声以及门窗的敲击声等非杂声。

[0107] 进一步，判断上述获取的声音类型是否符合预设滤声数据库中记录的滤声类型，预设滤声数据库中记录的滤声类型是指预先设置的杂声识别数据库，通过预设滤声数据库中记录的滤声类型便于对话筒采集声音中的杂声进行及时识别并过滤。

[0108] 再者，若第二目标声音对应的声音类型不符合上述预设滤声数据库中记录的滤声类型，则说明该杂声未被预设滤声数据库记录，为了提升杂声识别和认定的范围，则标定并记录该声音类型至预设滤声数据库，形成对应的新增滤声类型，从而可在每次获取话筒采集声音中将未被记录的杂声进行收录，丰富了预设滤声数据库的滤声类型。

[0109] 本实施方式提供的话筒声音处理方法，预设滤声数据库中记录的滤声类型为通常情况下需要过滤杂音类型，若第二目标声音中的声音类型不符合预设滤声数据库中记录的滤声类型，则说明针对该声音类型没有相关历史记载，进一步标定并记录该声音类型至预设滤声数据库形成对应的新增滤声类型，从而可以实时对新增的声音类型进行收藏记录，提升了过滤话筒采集声音中杂声的效率。

[0110] 在本实施例的其中一种实施方式中，如图4所示，步骤S106即若声音分贝值处于预设分贝阈值区间，则获取声音分贝值对应的声音数据为第二声音数据包括以下步骤：

[0111] S401.若声音分贝值处于预设分贝阈值区间，则判断声音分贝值是否为多个；

[0112] S402.若声音分贝值为多个，则判断声音分贝值是否符合当前播音分贝值标准；

[0113] S403.若声音分贝值等于当前播音分贝值标准，则获取声音分贝值对应的声音数据为第二声音数据；

[0114] S404.若声音分贝值不等于当前播音分贝值标准，则根据预设播音分贝值调整策略对声音分贝值进行调整，并生成对应的声音数据作为第二声音数据。

[0115] 在实际运用中，为了提升对主讲人员声音进行播放效果，则判断处于预设分贝阈值区间的声音分贝值是否为多个，若声音分贝值为多个，则说明当前有多个主讲人员。

[0116] 此外，话筒一般设置有声音的播放音量等级，例如，话筒播放音量等级分为3级，其中在同等讲话语音分贝值的基础上，3级播放音量等级比2级播放音量等级播出的声音音量要大，2级播放音量等级比1级播放音量等级播出的声音音量要大。

[0117] 其中，为了减少主讲人员在讲话时语音过高而导致破音以及语音过低导致音频系统识别不出情况的发生，话筒的每一级播放音量等级都设定有对应的播音分贝值标准即当前播音分贝值标准，若主讲人员的声音分贝值等于当前播音分贝值标准，则说明主讲人员的讲话语音符合当前播放音量等级对应的播音分贝值标准，随即获取该声音分贝值对应的声音数据为第二声音数据。

[0118] 再者，若声音分贝值不等于当前播音分贝值标准，则说明主讲人员的讲话语音不符合当前播放音量等级对应的播音分贝值标准，存在音量过小或者过大的情况，则根据预设播音分贝值调整策略对声音分贝值进行调整，并生成对应的声音数据作为第二声音数据，预设播音分贝值调整策略是指预先设置的当声音分贝值不等于当前播音分贝值标准时所对应的音量分贝修正策略。

[0119] 本实施方式提供的话筒声音处理方法，若处于预设分贝阈值区间的声音分贝值为多个，则说明此时主讲人员为多个，进一步为了提升主讲人员的声音的播放效果，对不等于当前播音分贝值标准的声音分贝值根据预设播音分贝值调整策略对声音分贝值进行调整，进一步生成适应当前播音分贝值标准的声音数据，从而提升了的话筒声音的播放效果。

[0120] 在本实施例的其中一种实施方式中，如图5所示，步骤S404即若声音分贝值不等于当前播音分贝值标准，则根据预设播音分贝值调整策略对声音分贝值进行调整，并生成对应的声音数据作为第二声音数据包括以下步骤：

[0121] S501.若声音分贝值小于当前播音分贝值标准，则根据预设播音分贝值调整策略上调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据；

[0122] S502.若声音分贝值大于当前播音分贝值标准，则根据预设播音分贝值调整策略下调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据。

[0123] 在实际运用中，为了更好地对话筒主讲人员的声音进行修正调整，结合当前主讲人员的讲话声音情况进行分析判断，若声音分贝值小于当前播音分贝值标准，则说明当前主讲人员讲话的语音过小，对应扬声设备发出的音量效果不那么明显，进而根据预设播音分贝值调整策略上调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据。

[0124] 再者，若声音分贝值大于当前播音分贝值标准，则说明当前主讲人员的讲话声音过于高，可能造成破音情况的发生，随即根据预设播音分贝值调整策略下调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据。

[0125] 本实施方式提供的话筒声音处理方法，根据预设播音分贝值调整策略上调小于当前播音分贝值标准的声音分贝值至当前播音分贝值标准，以及根据预设播音分贝值调整策略下调大于当前播音分贝值标准的声音分贝值至当前播音分贝值标准，从而可以更好地对不等于当前播音分贝值标准的声音数据进行优化调节，提升了的话筒声音的播放效果。

[0126] 在本实施例的其中一种实施方式中，如图6所示，步骤S501即若声音分贝值小于当前播音分贝值标准，则根据预设播音分贝值调整策略上调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据包括以下步骤：

[0127] S601.若声音分贝值小于当前播音分贝值标准，则判断声音分贝值是否小于预设最低分贝值；

[0128] S602.若声音分贝值小于预设最低分贝值，则停止识别声音分贝值对应的目标声纹特征；

[0129] S603.若声音分贝值等于或大于预设最低分贝值，则根据预设播音分贝值调整策略上调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据。

[0130] 在实际运用中，若为了进一步提升主讲人员讲话声音的播放效果，若主讲人员的声音分贝值小于预设最低分贝值，则停止识别该声音分贝值对应的目标声纹特征，预设最低分贝值是指话筒音频设备预先设置的最低识别语音分贝值，若主讲人员的声音分贝值小于上述预设最低分贝值，则音频系统不再通过预设播音分贝值调整策略上调该主讲人员讲话的声音分贝值，扬声设备也不再对该主讲人员的声音进行识别播放。

[0131] 再者，若声音分贝值等于或大于预设最低分贝值，则说明该主讲人员讲话声音有待过大加强，则根据预设播音分贝值调整策略上调声音分贝值至当前播音分贝值标准，并生成对应的声音数据作为第二声音数据。

[0132] 本实施方式提供的话筒声音处理方法，若声音分贝值小于预设最低分贝值，则说明此时主讲人员与话筒的距离已经超出了正常拾音范围，进一步停止识别该声音分贝值对应的目标声纹特征，从而更大程度上排除了非主讲人员的声音干扰，提升了对主讲人员声音的聚焦效果。

[0133] 在本实施例的其中一种实施方式中，如图7所示，在步骤S104即若声纹特征为多个，则获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征之后还包括以下步骤：

[0134] S701.实时获取目标声纹特征对应主讲人员的讲话语音；

[0135] S702.根据预设特征提取规则提取实时语音中的声纹特征，并记录于主讲人员对应的声纹特征数据库。

[0136] 在实际运用中，为了提升对主讲人员声纹特征的识别学习能力，则实时获取目标声纹特征对应主讲人员的讲话语音，进一步根据预设特征提取规则提取实时语音中的声纹特征，并记录于主讲人员对应的声纹特征数据库。

[0137] 其中，预设特征提取规则是指当前主讲人员讲话语音中的实时声纹特征对应的提取规则，预设特征提取规则为若提取的声纹特征在当前主讲人员对应的声纹特征数据库中没有相关记录，则将该声纹特征记录于对应的声纹特征数据库中。

[0138] 本实施方式提供的话筒声音处理方法，实时获取目标声纹特征对应主讲人员的实时语音，并提取记录实时语音中该主讲人员的声纹特征至声纹特征数据库，从而提升了对主讲人员声纹特征的学习辨认能力。

[0139] 本申请实施例公开一种话筒声音处理系统，如图8所示，包括：

[0140] 第一获取模块1，用于获取话筒采集声音；

[0141] 过滤模块2，用于根据预设滤声规则对话筒采集声音进行过滤，生成对应的第一声音数据；

[0142] 识别模块3，用于识别第一声音数据，获取对应的声纹特征；

[0143] 第二获取模块4，若声纹特征为多个，则第二获取模块4用于获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征；

[0144] 第三获取模块5，若目标声纹特征为多个，则第三获取模块5用于获取各个目标声纹特征对应的声音分贝值；

[0145] 第四获取模块6，若声音分贝值处于预设分贝阈值区间，则第四获取模块6用于获取声音分贝值对应的声音数据为第二声音数据；

[0146] 发声模块7，用于根据第二声音数据驱动扬声单元发声。

[0147] 本实施例提供的话筒声音处理系统，根据预设滤声规则并通过过滤模块2对话筒采集声音进行一级过滤除杂，进而可以滤掉话筒采集声音中非人声的干扰声音生成对应的第一人声数据，进一步通过识别模块3识别第一人声数据获取话筒采集声音中发声者的声纹特征，若声纹特征为多个则说明话筒采集了多个人的声音，为了进一步筛选出主讲人员的声音，则通过第二获取模块4获取多个声纹特征中符合预设声纹特征标准的声纹特征为目标声纹特征即主讲人员的声纹特征，随即通过第四获取模块6获取目标声纹特征对应声音分贝值处于预设分贝阈值区间即话筒可以接收感应到的声音分贝值区间所对应的声音数据为第二声音数据，即对目标声纹特征对应的声音进行二级人声过滤，以排除声音分贝值太小的碎语声以及减少声音分贝值太大造成音频设备受损情况的发生，最后通过发声模块7根据第二声音数据驱动扬声单元发声，由于对话筒采集声音依次进行一级杂声过滤和二级人声筛选过滤，从而提升了话筒声音的播放效果。

[0148] 需要说明的是，本申请实施例所提供的一种话筒声音处理系统，还包括与上述任一一种话筒声音处理方法的逻辑功能或逻辑步骤所对应的各个模块和/或对应的子模块，实现与各个逻辑功能或者逻辑步骤相同的效果，具体在此不再累述。

[0149] 本申请实施例还公开一种终端设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机指令，其中，处理器执行计算机指令时，采用了上述实施例中的任意一种话筒声音处理方法。

[0150] 其中，终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备，并且，终端设备包括但不限于处理器以及存储器，例如，终端设备还可以包括输入输出设备、网络接入设备以及总线等。

[0151] 其中，处理器可以采用中央处理单元（CPU），当然，根据实际的使用情况，也可以采用其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以采用微处理器或者任何常规的处理器等，本申请对此不做限制。

[0152] 其中，存储器可以为终端设备的内部存储单元，例如，终端设备的硬盘或者内存，也可以为终端设备的外部存储设备，例如，终端设备上配备的插接式硬盘、智能存储卡（SMC）、安全数字卡（SD）或者闪存卡（FC）等，并且，存储器还可以为终端设备的内部存储单元与外部存储设备的组合，存储器用于存储计算机指令以及终端设备所需的其他指令和数据，存储器还可以用于暂时地存储已经输出或者将要输出的数据，本申请对此不做限制。

[0153] 其中，通过本终端设备，将上述实施例中的任意一种话筒声音处理方法存储于终端设备的存储器中，并且，被加载并执行于终端设备的处理器上，方便使用。

[0154] 本申请实施例还公开一种计算机可读存储介质，并且，计算机可读存储介质存储有计算机指令，其中，计算机指令被处理器执行时，采用了上述实施例中的任意一种话筒声音处理方法。

[0155] 其中，计算机指令可以存储于计算机可读介质中，计算机指令包括计算机指令代码，计算机指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等，计算机可读介质包括能够携带计算机指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM）、随机存取存储器（RAM）、电载波信号、电信信号以及软件分发介质等，需要说明的是，计算机可读介质包括但不限于上述元器件。

[0156] 其中，通过本计算机可读存储介质，将上述实施例中的任意一种话筒声音处理方法存储于计算机可读存储介质中，并且，被加载并执行于处理器上，以方便上述方法的存储及应用。

[0157] 以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

一种话筒声音处理方法、系统、终端设备及存储介质转让专利

申请号 : CN202211618292.6

文献号 : CN115967894B

文献日 : 2023-07-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 叶经绍 , 郑舜浩 , 吴扬东 , 尹强

申请人 : 广州迅控电子科技有限公司

摘要 :

权利要求 :

说明书 :