基于双LSTM神经网络的回声消除方法转让专利

申请号 : CN202011455735.5

文献号 : CN112614502B

文献日 : 2022-01-28

本发明涉及音频信号处理领域，本发明旨在解决现有的回声消除效果较差的问题，提出一种基于双LSTM神经网络的回声消除方法，包括：获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号，并提取第一声源信号的第一频谱特征和第二声源信号的第二频谱特征；根据第一频谱特征和第二频谱特征并基于第一LSTM神经网络模型得到回声估计信号和噪声估计信号；提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征；根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二LSTM神经网络模型得到纯净的语音信号；将所述纯净的语音信号输入至扬声器。本发明能够有效的对语音信号中的回声信号进行消除，适用于智能电视。

1.基于双LSTM神经网络的回声消除方法，其特征在于，包括以下步骤：步骤1、获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号，并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征；

步骤2、根据所述第一频谱特征和第二频谱特征并基于第一LSTM神经网络模型得到回声估计信号和噪声估计信号，所述第一LSTM神经网络模型是根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到的；

步骤3、提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征；

步骤4、根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二LSTM神经网络模型得到纯净的语音信号，所述第二LSTM神经网络模型是根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的；

步骤5、将所述纯净的语音信号输入至扬声器。

2.如权利要求1所述的基于双LSTM神经网络的回声消除方法，其特征在于，所述第一LSTM神经网络模型包括回声估计模型和噪声估计模型，所述回声估计模型是根据第一样本声源信号、第二样本声源信号和样本回声信号训练得到的，所述噪声估计模型是根据第一样本声源信号、第二样本声源信号和样本噪声信号训练得到的。

基于双LSTM神经网络的回声消除方法

技术领域

[0001] 本发明涉及音频信号处理领域，具体来说涉及一种回声消除方法。

背景技术

[0002] 随着人工智能时代的到来，语音技术是人机交互的重要接口。随着物联网技术的不断发展，人们希望在更远的距离和更加复杂的环境中使用语音控制智能设备，所以传统
的近场语音交互已经不能满足人们的需求，麦克风阵列技术成为远场交互的核心。

[0003] 针对目前复杂的应用场景，基于麦克风阵列发展了一系列可以有效提高语音识别率的关键技术，主要包括：语音增强、声源定位、混响消除、回声消除、噪声抑制。针对有扬声
器和麦克风的设备(如智能音响，智能电视)，要消除设备自身的播放声音，得到有效的说话
人声音，传统的回声消除算法主要利用自适应信号处理等手段来消除背景音的干扰。但在
日常场景中存在各种各样的噪声，因此在回声消除中噪声是不可忽略的影响因素。当无噪
声时，效果较好，当环境噪音存在时，回声消除算法的性能降低，尤其是有非平稳噪声存在
时，回声消除效果不理想。

发明内容

[0004] 本发明旨在解决现有的回声消除效果较差的问题，提出一种基于双LSTM神经网络的回声消除方法。

[0005] 本发明解决上述技术问题所采用的技术方案是：基于双LSTM神经网络的回声消除方法，其特征在于，包括以下步骤：

[0006] 步骤1、获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号，并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征；

[0007] 步骤2、根据所述第一频谱特征和第二频谱特征并基于第一LSTM神经网络模型得到回声估计信号和噪声估计信号，所述第一LSTM神经网络模型是根据第一样本声源信号、
第二样本声源信号、样本回声信号和样本噪声信号训练得到的；

[0008] 步骤3、提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征；

[0009] 步骤4、根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二LSTM神经网络模型得到纯净的语音信号，所述第二LSTM神经网络模型是根据第二样本声源信号、
样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的；

[0010] 步骤5、将所述纯净的语音信号输入至扬声器。

[0011] 进一步的，所述第一LSTM神经网络模型包括回声估计模型和噪声估计模型，所述回声估计模型是根据第一样本声源信号、第二样本声源信号和样本回声信号训练得到的，
所述噪声估计模型是根据第一样本声源信号、第二样本声源信号和样本噪声信号训练得到
的。

[0012] 本发明的有益效果是：本发明所述的基于双LSTM神经网络的回声消除方法，基于LSTM神经网络模型对带有噪声的回声信号进行消除，消除了噪声对回声消除的影响，能够
有效的对语音信号中的回声信号进行消除。

附图说明

[0013] 图1为本发明实施例所述的基于双LSTM神经网络的回声消除方法的一种流程示意图；

[0014] 图2为传统的回声消除的结构示意图；

[0015] 图3为本发明实施例所述的基于双LSTM神经网络的回声消除方法的另一种流程示意图。

具体实施方式

[0016] 下面将结合附图对本发明的实施方式进行详细描述。

[0017] 本发明旨在解决现有的回声消除效果较差的问题，提出一种基于双LSTM神经网络的回声消除方法，其主要的技术构思为：获取待输入至扬声器的第一声源信号以及麦克风
输入的第二声源信号，并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频
谱特征；根据所述第一频谱特征和第二频谱特征并基于第一LSTM神经网络模型得到回声估
计信号和噪声估计信号，所述第一LSTM神经网络模型是根据第一样本声源信号、第二样本
声源信号、样本回声信号和样本噪声信号训练得到的；提取所述回声估计信号的第三频谱
特征和噪声估计信号的第四频谱特征；根据所述第二频谱特征、第三频谱特征和第四频谱
特征并基于第二LSTM神经网络模型得到纯净的语音信号，所述第二LSTM神经网络模型是根
据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的；将
所述纯净的语音信号输入至扬声器。

[0018] 在实施之前，首先需要预先训练得到第一LSTM神经网络模型和第二LSTM神经网络模型，其中，第一LSTM神经网络模型可以根据第一样本声源信号、第二样本声源信号、样本
回声信号和样本噪声信号训练得到，第二LSTM神经网络模型可以根据第一样本声源信号、
样本回声信号、样本噪声信号和纯净的样本语音信号训练得到；在具体使用时，获取待输入
至扬声器的第一声源信号以及麦克风输入的第二声源信号，其中，第一声源信号为回声通
道中待输入至麦克风的远端信号，第二声源信号为麦克风收集的声源信号，其中包括：语音
信号、噪声信号和回声信号，首先将第一声源信号的第一频谱特征和第二声源信号的第二
频谱特征输入至第一LSTM神经网络模型即可得到当前环境所对应的回声估计信号和噪声
估计信号，然后再将第二声源信号的第二频谱特征、回声估计信号的第三频谱特征和噪声
估计信号的第四频谱特征输入至第二LSTM神经网络模型中，即可得到纯净的语音信号，最
后将纯净的语音信号输入至扬声器，即可实现声源信号的回声消除。

[0019] 实施例

[0020] 本发明实施例所述的基于双LSTM神经网络的回声消除方法，如图1所示，包括以下步骤：

[0021] 步骤S1、获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号，并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征；

[0022] 传统的回声消除结构如图2所示，其通过自适应滤波器对待输入至扬声器的远端信号进行回声消除，本实施例在此基础上，获取该远端信号，即待输入至扬声器的第一声源
信号，并获取麦克风输入的第二声源信号，即麦克风采集的声源信号。

[0023] 在获取第一声源信号和第二声源信号后，通过特征提取方法提取第一声源信号对应的第一频谱特征以及第二声源信号的第二频谱特征。

[0024] 步骤S2、根据所述第一频谱特征和第二频谱特征并基于第一LSTM神经网络模型得到回声估计信号和噪声估计信号，所述第一LSTM神经网络模型是根据第一样本声源信号、
第二样本声源信号、样本回声信号和样本噪声信号训练得到的；

[0025] 长短时记忆(Long Short‑Term Memory，LSTM)神经网络是循环神经网络(RNN)的一种变体，可以解决传统RNN梯度消失和爆炸的缺陷，它通过在记忆单元中引入门控机制，
进而可以选择性地保留上下文的记忆数量，减少网络深度和缓解梯度消失现象。

[0026] 具体而言，第一LSTM神经网络模型是在具体使用之前预设训练好的，其根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到，具体的，可以
采集不同环境下的噪声信号作为样本噪声信号，采集扬声器不同音量、不同扬声器与麦克
风距离下的回声信号作为样本回声信号，以及采集在上述条件下对应的第一样本声源信号
和第二样本声源信号，并通过第一样本声源信号、第二样本声源信号、样本回声信号和样本
噪声信号对建立的初步LSTM神经网络模型进行训练，进而得到第一LSTM神经网络模型。

[0027] 在具体使用时，将当前获取的第一声源信号的第一频谱特征和第二声源信号的第二频谱特征输入至第一LSTM神经网络模型即可得到当前环境所对应的回声估计信号和噪
声估计信号。

[0028] 本实施例中，第一LSTM神经网络模型可以包括回声估计模型和噪声估计模型，所述回声估计模型用于回声估计信号的计算，其可以根据第一样本声源信号、第二样本声源
信号和样本回声信号训练得到的，所述噪声估计模型用于噪声估计信号的计算，其可以根
据第一样本声源信号、第二样本声源信号和样本噪声信号训练得到的。

[0029] 步骤S3、提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征；

[0030] 具体的，与步骤S1中对应，均可以使用现有的特征提取方法对第一LSTM神经网络模型输出的回声估计信号和噪声估计信号进行特征提取，得到回声估计信号的第三频谱特
征和噪声估计信号的第四频谱特征。

[0031] 步骤S4、根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二LSTM神经网络模型得到纯净的语音信号，所述第二LSTM神经网络模型是根据第二样本声源信
号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的；

[0032] 具体而言，第二LSTM神经网络模型也是在具体使用之前预设训练好的，其可以根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到，具体
的，可以采集不同环境下的噪声信号作为样本噪声信号，采集扬声器不同音量、不同扬声器
与麦克风距离下的回声信号作为样本回声信号，以及采集在上述条件下对应的第二样本声
源信号，以及不同用户的纯净语音信号，并通过第二样本声源信号、样本回声信号、样本噪
声信号和纯净的样本语音信号对建立的初步LSTM神经网络模型进行训练，进而得到第二
LSTM神经网络模型。

[0033] 在具体使用时，将第二声源信号的第二频谱特征、回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征输入至第二LSTM神经网络模型中，即可得到纯净的语音信
号。

[0034] 步骤S5、将所述纯净的语音信号输入至扬声器。

[0035] 最终将第二LSTM神经网络模型输出的纯净语音信号输入至扬声器，即可实现对声源信号的回声消除。

[0036] 综上所述，如图3所示，本实施中，通过将第一声源信号和第二声源信号输入至第一LSTM神经网络模型，得到回声估计信号和噪声估计信号，然后提取回声估计信号和噪声
估计信号的频谱特征，然后将回声估计信号、噪声估计信号和第二声源信号的频谱特征输
入第二LSTM神经网络模型，得到目标信号。其能够保留上下文的记忆数量，减少网络深度和
缓解梯度消失现象，该方法对带有噪声的回声信号有明显抑制作用的回声消除方法。

基于双LSTM神经网络的回声消除方法转让专利

申请号 : CN202011455735.5

文献号 : CN112614502B

文献日 : 2022-01-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王前慧 , 邓小红 , 胡涛 , 李俊潇

申请人 : 四川长虹电器股份有限公司

摘要 :

权利要求 :

说明书 :