会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~

具有声源定向功能的音频编解码装置、方法及系统

申请号 CN202311762358.3 申请日 2023-12-19 公开(公告)号 CN117912474A 公开(公告)日 2024-04-19
申请人 瑶芯微电子科技(上海)有限公司; 发明人 杜亮;
摘要 本 申请 提供具有声源定向功能的音频编解码装置、方法及系统,通过将声源定向功能设置于音频编解码内部,以及在声源定向模 块 中基于实时音频进行自动化权重分配及声源定向计算的方式,提升了声源定向的 精度 ,摆脱了 采样 率的限制。使得声源定向工作在保持高 稳定性 的同时,提供了灵活的时延调整,以更好的适用于实时音频领域。降低了 算法 设计的复杂度,且可以根据实际场景自动地进行时延控制。此外还显著减轻了主处理器的计算负担,提高整体系统的效率和响应速度。
权利要求

1.一种具有声源定向功能的音频编解码装置,其特征在于,包括:
信号采集单元,用于通过一对或多对音频采集设备采集近端音频模拟信号;每个音频采集设备采集其中一路近端音频模拟信号;
模数转换单元,与所述信号采集单元电性连接;所述模数转换单元用于对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作,以生成对应的近端音频数字信号,并将所述近端音频数字信号输出至声源定向单元;
声源定向单元,与所述模数转换单元电性连接;所述声源定向单元包括两个输入端和一个输出端,两个输入端分别输入近端音频数字信号和由控制接口发送的一对或多对音频采集设备的位置信息,输出端用于将声源定向单元得到的声源定向结果输出至控制接口;
数模转换单元,用于接收数据接口发送的远端音频数字信号,对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。
2.根据权利要求1所述的具有声源定向功能的音频编解码装置,其特征在于,所述声源定向单元包括:
语音活动检测模:其中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与综合信噪比计算模块相连;所述语音活动检测模块对接收到的近端音频数字信号进行语音活动检测,以生成语音活动判决结果,并将所述语音活动判决结果发送至综合信噪比计算模块;
综合信噪比计算模块:其中包括两个输入端和一个输出端;两个输入端分别与所述模数转换单元和所述语音活动检测模块相连,输出端与定向判断模块相连;所述综合信噪比计算模块基于接收到的近端音频数字信号和所述语音活动判决结果计算综合信噪比,并将所述综合信噪比发送至所述定向判断模块;
时延估计模块:其中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与定向判断模块相连;所述时延估计模块基于接收到的近端音频数字信号进行时延估计操作,以生成时延估计结果,并将所述时延估计结果发送至定向判断模块;
定向判断模块:其中包括三个输入端和一个输出端;三个输入端分别与所述综合信噪比计算模块、时延估计模块以及控制接口相连;所述定向判断模块基于接收到每对音频采集设备对应的所述综合信噪比、时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作,以生成声源定向结果,并将所述声源定向结果发送至控制接口。
3.根据权利要求2所述的具有声源定向功能的音频编解码装置,其特征在于,所述语音活动检测模块执行语音活动检测的过程包括:
接收近端音频数字信号,并采用窗口函数对所述近端音频数字信号进行分段处理,以获得预设时间段内连续时间点的幅值集;
基于预设时间段内连续时间点的幅值集计算接收到近端音频模拟信号的短时能量
若当前的短时能量高于阈值,则将当前时间点标记为检测到语音活动,并输出对应的语音活动判决结果;否则,将当前时间点标记为未检测到语音活动,并输出对应的语音活动判决结果;
将所述语音活动判决结果发送至综合信噪比计算模块。
4.根据权利要求2所述的具有声源定向功能的音频编解码装置,其特征在于,所述综合信噪比计算模块执行综合信噪比计算的过程包括:
基于接收到的语音活动判决结果和近端音频数字信号,计算每个通道的平均信号功率和平均噪声功率;
基于每个通道的平均信号功率和平均噪声功率计算每个通道的信噪比;
基于每个通道的信噪比计算近端音频模拟信号的综合信噪比,并将所述综合信噪比发送至所述定向判断模块。
5.根据权利要求3所述的具有声源定向功能的音频编解码装置,其特征在于,所述定向判断模块对每对音频采集设备所采集到的近端音频模拟信号执行声源定向的过程包括:
基于每对近端音频模拟信号的时延估计结果和每对音频采集设备的位置信息差值进行空间度估计,以生成每对音频采集设备的预估角度;
根据每对近端音频模拟信号的综合信噪比设置其所对应的权重;
基于每对音频采集设备的预估角度和以及其所对应的权重,通过加权平均的方式计算近端音频模拟信号的声源方向,以生成声源定向结果并将所述声源定向结果发送至控制接口。
6.根据权利要求2所述的具有声源定向功能的音频编解码装置,其特征在于,所述时延估计模块执行时延估计的过程包括:接收近端音频数字信号,将每对音频采集设备所采集到的数字信号输入至互相关函数中,以根据近端音频模拟信号到达每对音频采集设备的时间差对近端音频模拟信号进行时延估计,以生成时延估计结果并将所述时延估计结果发送至定向判断模块。
7.根据权利要求1所述的具有声源定向功能的音频编解码装置,其特征在于,所述数模转换单元包括:
数模转换模块:用于将接收到的所述远端音频数字信号转换为远端音频信号的模拟信号;
混音模块:用于将远端音频信号的数字信号与其他远端音频流的数字信号或者本地存储的数字音频流进行混音叠加操作,以生成数模中间信号;
数据匹配模块:将所述数模中间信号以预设格式进行格式转换操作,以生成格式转换后的数模中间信号;
数据缓存模块:将格式转换后的数模中间信号执行延时匹配及数据缓存操作。
8.一种具有声源定向功能的音频编解码方法,应用于音频编解码器,其特征在于,包括:
通过一对或多对音频采集设备采集近端音频模拟信号;每个音频采集设备采集其中一路近端音频模拟信号;
对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作,以生成对应的近端音频数字信号;
接收一对或多对音频采集设备的位置信息,基于所述位置信息对近端音频数字信号执行声源定向操作,以生成声源定向结果,并将所述声源定向结果和所述近端音频数字信号发送至主芯片;
接收数据接口发送的远端音频数字信号,对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。
9.根据权利要求8所述的具有声源定向功能的音频编解码方法,其特征在于,对近端音频数字信号执行声源定向操作的过程包括:
对近端音频数字信号执行语音活动检测以生成语音活动判决结果;
基于所述近端音频数字信号和所述语音活动判决结果计算综合信噪比;
对近端音频数字信号执行时延估计操作以生成时延估计结果;
基于所述综合信噪比、所述综合信噪比、所述时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作以生成声源定向结果。
10.一种具有声源定向功能的音频编解码系统,其特征在于,包括:主处理器以及如权利要求1至7中任一项所述具有声源定向功能的音频编解码装置。

说明书全文

具有声源定向功能的音频编解码装置、方法及系统

技术领域

[0001] 本申请涉及音频编解码领域,特别是涉及一种具有声源定向功能的音频编解码装置、方法及系统。

背景技术

[0002] 音频编解码系统是数字音频的核心,负责将模拟信号转换成数字信号以及进行数据压缩和解压,该系统对音质、数据量和处理效率具有重要影响,其主要过程包括模数转换(ADC)和数模转换(DAC)。在模数转换的过程中,模拟信号采样、量化成数字信号,其采样率和量化深度决定音频质量。为了方便存储和传输,数字信号会被压缩,尽管技术发展减少了对压缩的需求,但在资源受限时仍然重要。在播放时,数模转换将数字信号还原为模拟信号,其性能如线性度、动态范围和信噪比直接关系到音质。高性能数模转换用于确保高保真转换,提供优质听感。音频编解码技术不仅应用于各类电子产品,还支持VR、AR等新技术提供沉浸式体验。
[0003] 声源定向技术利用复杂声学模型和高级信号处理算法分析音频信号,精确识别声源的空间位置,以实现真实世界声音环境的听觉再现。在VR、AR和环境声音处理等应用中,声源定向技术有效地增强了音频的真实性和沉浸感,提升了音频内容的表现和功能性。然而声源定向技术在实际应用中仍面临着若干挑战,这些挑战主要集中在声源定向精度、算法设计的复杂性和稳定性,以及时延控制方面。首先,声源的采样率越高,其定向的精度越高。然而受到现有的嵌入式设备的麦克尺寸的限制,其采样率同样受到限制,从而影响声源定位的精度。其次,声源定向技术需要准确知道每个麦克风的坐标信息,不同的麦克风阵列排布要求设计不同的处理算法。由于目前声源定向的精度较低,每次应用于新的阵列配置时,都需要重新设计和调整算法。这不仅增加了工程应用的成本,也影响了系统的稳定性和可靠性。最后,声源定向处理的时延设置的过大,则会降低声源定向的精度,若设置的过小,则导致系统稳定性差。因此时延控制在系统稳定性、声源定位精度、算法匹配度之间的难以进行有效地平衡。
发明内容
[0004] 鉴于以上所述现有技术的缺点,本申请的目的在于提供具有声源定向功能的音频编解码装置、方法及系统,用于解决声源定向技术中精度不高、算法复杂度高以及时延控制难以平衡的问题。
[0005] 为实现上述目的及其他相关目的,本申请的第一方面提供一种具有声源定向功能的音频编解码装置,包括:信号采集单元,用于通过一对或多对音频采集设备采集近端音频模拟信号;每个音频采集设备采集其中一路近端音频模拟信号;模数转换单元,与所述信号采集单元电性连接;所述模数转换单元用于对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作,以生成对应的近端音频数字信号,并将所述近端音频数字信号输出至声源定向单元;声源定向单元,与所述模数转换单元电性连接;所述声源定向单元包括两个输入端和一个输出端,两个输入端分别输入近端音频数字信号和由控制接口发送的一对或多对音频采集设备的位置信息,输出端用于将声源定向单元得到的声源定向结果输出至控制接口;数模转换单元,用于接收数据接口发送的远端音频数字信号,对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。
[0006] 于本申请的第一方面的一些实施例中,所述声源定向单元包括:语音活动检测模:其中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与综合信噪比计算模块相连;所述语音活动检测模块对接收到的近端音频数字信号进行语音活动检测,以生成语音活动判决结果,并将所述语音活动判决结果发送至综合信噪比计算模块;综合信噪比计算模块:其中包括两个输入端和一个输出端;两个输入端分别与所述模数转换单元和所述语音活动检测模块相连,输出端与定向判断模块相连;所述综合信噪比计算模块基于接收到的近端音频数字信号和所述语音活动判决结果计算综合信噪比,并将所述综合信噪比发送至所述定向判断模块;时延估计模块:其中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与定向判断模块相连;所述时延估计模块基于接收到的近端音频数字信号进行时延估计操作,以生成时延估计结果,并将所述时延估计结果发送至定向判断模块;定向判断模块:其中包括三个输入端和一个输出端;三个输入端分别与所述综合信噪比计算模块、时延估计模块以及控制接口相连;所述定向判断模块基于接收到每对音频采集设备对应的所述综合信噪比、时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作,以生成声源定向结果,并将所述声源定向结果发送至控制接口。
[0007] 于本申请的第一方面的一些实施例中,所述语音活动检测模块执行语音活动检测的过程包括:接收近端音频数字信号,并采用窗口函数对所述近端音频数字信号进行分段处理,以获得预设时间段内连续时间点的幅值集;基于预设时间段内连续时间点的幅值集计算接收到近端音频模拟信号的短时能量;若当前的短时能量高于阈值,则将当前时间点标记为检测到语音活动,并输出对应的语音活动判决结果;否则,将当前时间点标记为未检测到语音活动,并输出对应的语音活动判决结果;将所述语音活动判决结果发送至综合信噪比计算模块。
[0008] 于本申请的第一方面的一些实施例中,所述综合信噪比计算模块执行综合信噪比计算的过程包括:基于接收到的语音活动判决结果和近端音频数字信号,计算每个通道的平均信号功率和平均噪声功率;基于每个通道的平均信号功率和平均噪声功率计算每个通道的信噪比;基于每个通道的信噪比计算近端音频模拟信号的综合信噪比,并将所述综合信噪比发送至所述定向判断模块。
[0009] 于本申请的第一方面的一些实施例中,所述定向判断模块对每对音频采集设备所采集到的近端音频模拟信号执行声源定向的过程包括:基于每对近端音频模拟信号的时延估计结果和每对音频采集设备的位置信息差值进行空间度估计,以生成每对音频采集设备的预估角度;根据每对近端音频模拟信号的综合信噪比设置其所对应的权重;基于每对音频采集设备的预估角度和以及其所对应的权重,通过加权平均的方式计算近端音频模拟信号的声源方向,以生成声源定向结果并将所述声源定向结果发送至控制接口。
[0010] 于本申请的第一方面的一些实施例中,所述时延估计模块执行时延估计的过程包括:接收近端音频数字信号,将每对音频采集设备所采集到的数字信号输入至互相关函数中,以根据近端音频模拟信号到达每对音频采集设备的时间差对近端音频模拟信号进行时延估计,以生成时延估计结果并将所述时延估计结果发送至定向判断模块。
[0011] 于本申请的第一方面的一些实施例中,所述数模转换单元包括:数模转换模块:用于将接收到的所述远端音频数字信号转换为远端音频信号的模拟信号;混音模块:用于将远端音频信号的数字信号与其他远端音频流的数字信号或者本地存储的数字音频流进行混音叠加操作,以生成数模中间信号;数据匹配模块:将所述数模中间信号以预设格式进行格式转换操作,以生成格式转换后的数模中间信号;数据缓存模块:将格式转换后的数模中间信号执行延时匹配及数据缓存操作。
[0012] 为实现上述目的及其他相关目的,本申请的第二方面提供一种具有声源定向功能的音频编解码方法,应用于音频编解码器,包括:通过一对或多对音频采集设备采集近端音频模拟信号;每个音频采集设备采集其中一路近端音频模拟信号;对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作,以生成对应的近端音频数字信号;接收一对或多对音频采集设备的位置信息,基于所述位置信息对近端音频数字信号执行声源定向操作,以生成声源定向结果,并将所述声源定向结果和所述近端音频数字信号发送至主芯片;接收数据接口发送的远端音频数字信号,对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。
[0013] 于本申请的第二方面的一些实施例中,对近端音频数字信号执行声源定向操作的过程包括:对近端音频数字信号执行语音活动检测以生成语音活动判决结果;基于所述近端音频数字信号和所述语音活动判决结果计算综合信噪比;对近端音频数字信号执行时延估计操作以生成时延估计结果;基于所述综合信噪比、所述综合信噪比、所述时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作以生成声源定向结果。
[0014] 为实现上述目的及其他相关目的,本申请的第三方面提供一种具有声源定向功能的音频编解码系统,包括:主处理器以及所述具有声源定向功能的音频编解码装置。
[0015] 如上所述,本申请的音频编解码领域的一种具有声源定向功能的音频编解码装置、方法及系统,具有以下有益效果:通过将声源定向功能设置于音频编解码内部,以及在声源定向模块中基于实时音频进行自动化权重分配及声源定向计算的方式,有效提高了声源定向精度、降低算法设计和应用成本、优化时延和稳定性、释放主处理器的算力压力的效果。
[0016] 首先,本发明提供的声源定向功能的音频编解码装置为设置于音频编解码器内部,使得能够有效地对高采样频率音频进行利用,从而摆脱传统声源定向受到低采样率的限制而导致精度不佳的问题。本系统能够处理高达96kHz或192kHz的音频信号,大幅提高声源定向的精度。与传统的16kHz或48kHz采样率相比,这一显著的提升使得声源定向在复杂环境中的定位更为精确,误差率降低。在实际应用中,这意味着声音定位的精度能够达到更高标准,特别是在需要精确音源定位的场合(如专业音频制作、VR/AR应用等),本发明能提供更为真实和准确的音频体验。其次,本发明有效降低了算法设计的复杂度,也减少了工程实施的成本。这种自适应算法不仅减少了人力资源的投入,也降低了对专业知识的依赖。最后,本发明优化了时延控制的稳定性,本发明能够根据实际需求优化声源定向处理的响应时间。相比传统解决方案,这种优化能显著提升用户体验,降低声音延迟和失真的风险。附图说明
[0017] 图1显示了本申请具有声源定向功能的音频编解码装置一实施例的外部连接的结构示意图。
[0018] 图2显示了本申请具有声源定向功能的音频编解码装置一实施例的内部连接的结构示意图。
[0019] 图3显示了本申请具有声源定向功能的音频编解码装置一实施例中模数转换单元的结构示意图
[0020] 图4显示了本申请具有声源定向功能的音频编解码装置一实施例中声源定向单元的结构示意图。
[0021] 图5显示了本申请具有声源定向功能的音频编解码装置一实施例中数模转换单元的结构示意图。
[0022] 图6显示了本申请具有声源定向功能的音频编解码方法一实施例的流程示意图。
[0023] 图7显示了本申请具有声源定向功能的音频编解码系统一实施例的交互流程示意图。

具体实施方式

[0024] 以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0025] 需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
[0026] 在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
[0027] 再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
[0028] 为解决上述背景技术中的问题,本发明提供一种具有声源定向功能的音频编解码装置、方法及系统,旨在解决声源定向技术中精度不高、算法复杂度高以及时延控制难以平衡的问题。与此同时,为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
[0029] 在对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
[0030] <1>音频编解码:音频编解码用于为音频数据进行编码/解码操作,通过将音频数据以一种格式转换成另一种格式,以降低数据计算、传输和存储成本。
[0031] <2>声源定向:声源定向是指通过声音信号的处理,以确定声音的来源方向。这个过程通常涉及到声音信号的波形分析和处理,以确定声音的来源方向。
[0032] <3>声电转换器件:声电转换器件是指能够将声音信号转换成电信号或者将电信号转换成声音信号的设备或器件。这些设备通常包括麦克风、扬声器、机等。
[0033] <4>音频的短时能量:音频的短时能量是指在一段时间内,音频信号的能量大小。通常通过对音频信号进行短时傅里叶变换来计算短时能量。
[0034] <5>互相关函数:互相关函数是指两个信号之间的相关性函数。用于衡量两个信号之间的相似性和相关性。
[0035] <6>信噪比:信噪比是指信号与噪声之间的比值。用于衡量信号的清晰度和质量,以及噪声的干扰程度。
[0036] 本发明实施例提供具有声源定向功能的音频编解码装置、具有声源定向功能的音频编解码方法的方法、以及用于实现具有声源定向功能的音频编解码方法的电子终端。就具有声源定向功能的音频编解码装置的实施而言,本发明实施例将对具有声源定向功能的音频编解码的示例性实施场景进行说明。
[0037] 如图1所示,展示了本发明实施例中的一种具有声源定向功能的音频编解码装置的外部结构示意图。所述具有声源定向功能的音频编解码装置设置于音频编解码器内部,且其内部设置有用于与外部进行数据传输的控制接口和数据接口。下文将对具有声源定向功能的音频编解码装置的外部连接结构进行解释说明。
[0038] 在本发明一实施例中,所述音频编解码器用于为音频数据进行编码/解码操作,通过将音频数据以一种格式转换成另一种格式,以降低数据计算、传输和存储成本。所述音频编解码器的基本结构包括三部分,第一部分为上行(录音)通路,上行通路包括模数转换模块,数据格式转换模块,数据缓存模块,数据接口;第二部分为下行(播放)通路,下行通路包括数据缓存模块,数据格式转换模块,混音模块(用于混合多个音频流),数模转换单元;第三部分为控制接口。本发明所涉及的音频编解码器内部设置有DOA(波达方向估计或声源定向)处理单元,用于在音视频的编解码环节进行实时的声源定向,提高了声源定向的精度、降低了设计复杂度、提高了稳定性且优化了时延性能。
[0039] 在本发明一实施例中,输入音频指的是从外部获取音频流的音频采集器件,其中音频采集器件包括但不限于数字麦克风、模拟麦克风、传感器,或者其他形式的声电转换器件。音频采集器件通过将声信号转换成电信号的功能将输入的声波信号转化为电压信号。值得说明的是,本发明的目的为在音视频的编解码环节进行实时的声源定向,因此本发明的音频输入为多通道信号,以执行声源定向检测。
[0040] 在本发明一实施例中,音频输出指的是音频编解码器将音频流输出给外部的声音播放器件,播放器的类型包括但不限于听筒、喇叭或者耳机,或者以上一种或多种的组合,单个声音播放器件所采集到的音频可以是单通道也可以是多通道,音频输出还负责将电信号转换成声信号。其输入是电压信号,输出是声波信号。
[0041] 在本发明一实施例中,图1中的控制接口为主处理器为音频编解码器下发指令的通道,同时音频编解码器也可通过控制接口向主处理器反馈实时状态。其中控制接口可以采用的接口协议包括但不限于I2C协议、Soundwire协议、Slimbus协议、HDA协议等等。用户可以通过控制接口向音频编解码器进行控制指令的下发和音频编解码器的状态收集。特别地,本发明在进行声源定向操作时,用户通过控制接口下发控制指令的方式将当前音频采集设备的位置信息发送至音频编解码器中,以供音频编解码器执行声源定向操作。同时音频编解码器还通过控制接口将生成的声源定向结果发送至主处理器,以供用户基于声源定向结果执行后续操作。
[0042] 在本发明一实施例中,图1中的数据接口用于为主处理器与音频编解码器之间提供音频数据交互通道。示例性地,原始音频流通过数据接口送到主处理器,主处理器将远端音频信号或者本地音乐信号通过数据接口传输给音频编解码器。数据接口所采用的通信接口协议包括但不限于I2S/PCM/TDM协议、Soundwire协议、Slimbus协议、HDA协议等接口协议。
[0043] 在本发明一实施例中,图1中的主处理器指SOC(System On Chip)处理芯片。主处理器用于负责设备的功能主控,接收并处理音频编解码上行的音频数据,或者将音频数据传输给音频编解码器下行通道以进行进一步处理。同时,还可通过控制接口对音频编解码器的运行状态进行实时监控,并向音频编解码器下发用于声源定向计算的参数配置。
[0044] 上文结合图1对本发明的具有声源定向功能的音频编解码装置的外部连接结构及功能进行了详细说明,下文中将结合图2对本发明具有声源定向功能的音频编解码装置进行详细说明。
[0045] 如图2所示,展示了本发明实施例中的一种具有声源定向功能的音频编解码装置的结构示意图。本实施例中,具有声源定向功能的音频编解码装置包括:信号采集单元、模数转换单元、声源定向单元以及数模转换单元。
[0046] 信号采集单元:用于通过一对或多对音频采集设备采集近端音频模拟信号;每个音频采集设备采集其中一路近端音频模拟信号。
[0047] 在本发明一实施例中,一对或多对音频采集设备采集的类型包括但不限于数字麦克风、模拟麦克风、传感器,或者其他形式的声电转换器件。信号采集单元将输入设备的声信号转换成电信号,将声波信号转换为电压信号。值得说明的是,本发明的目的为在音视频的编解码环节进行实时的声源定向,因此本发明的音频输入为多通道信号,以执行声源定向检测。
[0048] 模数转换单元,与所述信号采集单元电性连接;所述模数转换单元用于对所述近端音频模拟信号执行模数转换操作、数据匹配操作以及数据缓存操作,以生成对应的近端音频数字信号,并将所述近端音频数字信号输出至声源定向单元。
[0049] 在本发明一实施例中,模数转换单元用于将外部的音频输入信号转化为符合当前系统处理需求的数字信号。如图3所示,展示了本发明一实施例中模数转换单元的结构示意图。模数转换单元中包括模数转换模块、数据匹配模块、数据缓存模块。模数转换单元的输入信号为音频输入信号,即模拟音频信号;其输出为符合当前音频编解码处理需求的数字信号。模数转换单元的输入信号为多通道信号,输出信号的通道数与输入信号一致。
[0050] 在本发明一实施例中,模数转换模块将输入的模拟音频流,经过采样、量化,转换成数字音频流,以便后续处理均基于数字离散信号。
[0051] x(n)=x(nT),‑∞
[0052] xq(n)=Q[x(n)]                 (公式2)
[0053] 其中,公式1表示模数转换模块的采样过程,其首先将输入模拟连续信号x(t)按采样周期T进行离散时间采样并输出x(n)。公式2展示了对离散时间信号执行量化操作的过程,将采样过程的输出x(n)经量化函数Q将幅度进行离散,输出xq(n)。经过上述两个过程,实现将模拟连续信号转换成输出的数字离散信号,并输入数字信号格式的模拟中间信号,以待执行数据匹配操作。
[0054] 在本发明一实施例中,数据匹配模块将转换后的数字音频流进行格式转换操作,其中包括但不限于采样率匹配,信号位宽匹配等操作。
[0055]
[0056]
[0057] 其中,公式3表示对模拟中间信号进行滤波操作和采样率变换操作。其中,x(n)为模数转换模块的输出,M为降采样变化因子,I为升采样变化因子,h(k)是单位冲击响应函数,输出yd(n)或yu(n)。公式4表示信号位宽匹配的过程,根据移位位宽B的正负性,决定位宽匹配是左移放大还是右移缩小。该单元的输入信号是模数中间信号,输出是符合当前系统处理需求的数字信号。
[0058] 在本发明一实施例中,数据缓存模块用于在音频接口缓存一定量的数据,以避免因接口两侧系统始终设计缺陷而在音频信号中引入抖动,即音频数据被重复采样或丢失。通过数据缓存模块,音频编解码系统可对声源定向单元和系统的主控同时输出两种不同采样率的多通道音频信号。该单元的输入为数字信号,没有输出的数据流。
[0059] 声源定向单元,与所述模数转换单元电性连接;所述声源定向单元包括两个输入端和一个输出端,两个输入端分别输入近端音频数字信号和由控制接口发送的一对或多对音频采集设备的位置信息,输出端用于将声源定向单元得到的声源定向结果输出至控制接口。
[0060] 在本发明一实施例中,如图4所示,所述声源定向单元包括:语音活动检测模块、综合信噪比计算模块、时延估计模块以及定向判断模块。声源定向单元结合了时延估计(Time Difference of Arrival,TDOA)、声音活动检测(Voice Activity Detection,VAD)和信噪比分析(Signal‑to‑Noise Ratio,SNR)等技术,通过精确测量声音到达不同麦克风的时间差异并有效区分信号和噪声,从而提供准确的声源方向估计。其核心思想在于,将每对声音采集设备的信噪比用于表示每对信号的权重,并通过加权平均的方法合成最终的声源方向。
[0061] 在本发明一实施例中,所用到的成对的音频采集装置为麦克风,将N个麦克风在同一平面上的位置坐标定义为m1,m2,…,mN,具体的,每个坐标mi=(xi,yi)代表第i个麦克风的位置。Si(t)代表在时间点t上,第i个麦克风接收到的信号的幅值。
[0062] 在本实施例中,语音活动检测模块中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与综合信噪比计算模块相连;所述语音活动检测模块对接收到的近端音频数字信号进行语音活动检测,以生成语音活动判决结果,并将所述语音活动判决结果发送至综合信噪比计算模块。
[0063] 进一步地,所述语音活动检测模块执行语音活动检测的过程包括:接收近端音频数字信号,并采用窗口函数对所述近端音频数字信号进行分段处理,以获得预设时间段内连续时间点的幅值集;基于预设时间段内连续时间点的幅值集计算接收到近端音频模拟信号的短时能量;若当前的短时能量高于阈值,则将当前时间点标记为检测到语音活动,并输出对应的语音活动判决结果;否则,将当前时间点标记为未检测到语音活动,并输出对应的语音活动判决结果;将所述语音活动判决结果发送至综合信噪比计算模块。
[0064] 在本发明一实施例中,语音活动检测模块基于音频能量阈值实现对语音活动的检测,使用基于能量阈值的语音活动监测来区分信号部分和噪声部分。具体地,采用短时能量计算进行声音活动的判断。
[0065]
[0066] 其中,E(t)表示当前窗口w所采集到的短时能量。若E(t)>Θ,则认为时间点t存在语音活动,Θ表示短时能量的阈值。
[0067] 在本实施例中,时延估计模块中包括一个输入端和一个输出端;输入端与所述模数转换单元相连,输出端与定向判断模块相连;所述时延估计模块基于接收到的近端音频数字信号进行时延估计操作,以生成时延估计结果,并将所述时延估计结果发送至定向判断模块。
[0068] 进一步地,所述时延估计模块执行时延估计的过程包括:接收近端音频数字信号,将每对音频采集设备所采集到的数字信号输入至互相关函数中,以根据近端音频模拟信号到达每对音频采集设备的时间差对近端音频模拟信号进行时延估计,以生成时延估计结果并将所述时延估计结果发送至定向判断模块。
[0069] 在本发明一实施例中,采用互相关函数测量声音到达麦克风对i和j的时延估计Δtij,并采用如下计算方法。
[0070]
[0071] 在本实施例中,综合信噪比计算模块中包括两个输入端和一个输出端;两个输入端分别与所述模数转换模块和所述语音活动检测模块相连,输出端与定向判断模块相连;所述综合信噪比计算模块基于接收到的近端音频数字信号和所述语音活动判决结果计算综合信噪比,并将所述综合信噪比发送至所述定向判断模块。
[0072] 进一步地,所述综合信噪比计算模块执行综合信噪比计算的过程包括:基于接收到的语音活动判决结果和近端音频数字信号,计算每个通道的平均信号功率和平均噪声功率;基于每个通道的平均信号功率和平均噪声功率计算每个通道的信噪比;基于每个通道的信噪比计算近端音频模拟信号的综合信噪比,并将所述综合信噪比发送至所述定向判断模块。
[0073] 更进一步地,所述定向判断模块对每对音频采集设备所采集到的近端音频模拟信号执行声源定向的过程包括:基于每对近端音频模拟信号的时延估计结果和每对音频采集设备的位置信息差值进行空间角度估计,以生成每对音频采集设备的预估角度;根据每对近端音频模拟信号的综合信噪比设置其所对应的权重;基于每对音频采集设备的预估角度和以及其所对应的权重,通过加权平均的方式计算近端音频模拟信号的声源方向,以生成声源定向结果并将所述声源定向结果发送至控制接口。
[0074] 在本发明一实施例中,综合信噪比计算模块首先计算在检测到语音活动时间段内的平均功率,即信号功率。
[0075]
[0076] 随后,在计算未检测到语音活动时间段内的平均功率,即噪声功率。
[0077]
[0078] 随后基于信号功率和噪声功率计算信噪比。
[0079]
[0080] 对于每对麦克风对i和j的综合信噪比为:
[0081]
[0082] 基于每对麦克风对i和j的综合信噪比定义每一对麦克风i和j的权重,将其权重wij设为信噪比SNRij,以供进行声源方向的角度估计。
[0083] 在本实施例中,定向判断模块中包括三个输入端和一个输出端;三个输入端分别与所述综合信噪比计算模块、时延估计模块以及控制接口相连;所述定向判断模块基于接收到每对音频采集设备对应的所述综合信噪比、时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作,以生成声源定向结果,并将所述声源定向结果发送至控制接口。
[0084] 进一步地,所述定向判断模块对每对音频采集设备所采集到的近端音频模拟信号执行声源定向的过程包括:基于每对近端音频模拟信号的时延估计结果和每对音频采集设备的位置信息差值进行空间角度估计,以生成每对音频采集设备的预估角度;根据每对近端音频模拟信号的综合信噪比设置其所对应的权重;基于每对音频采集设备的预估角度和以及其所对应的权重,通过加权平均的方式计算近端音频模拟信号的声源方向,以生成声源定向结果并将所述声源定向结果发送至控制接口。
[0085] 在本发明一实施例中,采用公式11进行声源方向的角度估计。
[0086]
[0087] 其中,c表示声速,通常取值为343米/秒。T表示声音传播的时间延迟,单位为ms。D表示从控制接口所接收到的两个接收器之间的距离差异,单位为m。
[0088] 随后,采用加权平均的方式进行声源方向的合成,以生成声源定向结果。
[0089]
[0090] 数模转换单元24:用于接收数据接口发送的远端音频数字信号,对远端音频数字信号执行数据缓存操作、数据匹配操作、混音操作以及数模转换操作。
[0091] 在本发明一实施例中,数模转换单元用于将数字信号转化为音频输出信号(通常为模拟信号)。如图5所示,数模转换单元包括模数转换模块、混音模块、数据匹配模块以及数据缓存模块。该单元的输入信号为数字信号,输出信号为模拟信号。该模块的输入信号可以是单通道信号也可以是多通道信号,输出信号也可以是单通道或多通道。输入信号和输出信号的通道数并不是必须保持相同。输入的通道数和输出的通道数可通过对混音模块进行相应的设置。
[0092] 进一步地,所述数据缓存模块用于缓存音频数据,以避免因为接口两侧系统时钟设计缺陷引入的抖动,而导致音频数据被重复采样或者丢失;数据匹配模块用于将音频流进行格式转换以匹配外部的声音播放器件,播放器件的类型包括但不限于听筒、喇叭或者耳机,或者以上一种或多种的组合,单个声音播放器件所采集到的音频可以是单通道也可以是多通道。
[0093] 在本实施例中,所述混音模块用于将远端音频信号的数字信号与其他远端音频流的数字信号或者本地存储的数字音频流进行混音叠加操作,以生成数模中间信号。
[0094]
[0095] 其中,公式13表示有M个输入音频流x(n),将他们累加后,得到输出混音后的音频流y(n)。
[0096] 在本实施例中,数模转换模块将编解码器处理完成的数字音频流转换成模拟音频流。
[0097]
[0098] v=ky(t)(公式15)
[0099] 其中,公式14是通过插值过程将采样率升到模拟处理采样率,并且数字样点之间插值拟合。公式15是数字信号转成模拟信号过程,输入数字离散信号y(n),乘以比例因子k,得到输出模拟电压信号v(t),实现离散数字信号转成连续模拟信号的功能。
[0100] 如图6所示,展示了本发明实施例中的一种具有声源定向功能的音频编解码方法的流程示意图。本实施例中的具有声源定向功能的音频编解码方法主要包括如下各步骤:
[0101] 步骤S61:对近端音频数字信号执行语音活动检测以生成语音活动判决结果。
[0102] 步骤S62:基于所述近端音频数字信号和所述语音活动判决结果计算综合信噪比。
[0103] 步骤S63:对近端音频数字信号执行时延估计操作以生成时延估计结果。
[0104] 步骤S64:基于所述综合信噪比、所述综合信噪比、所述时延估计结果以及一对或多对音频采集设备的位置信息,进行声源定向操作以生成声源定向结果。
[0105] 需要说明的是,上述实施例提供的具有声源定向功能的音频编解码方法与具有声源定向功能的音频编解码装置实施例属于同一构思,其具体实现过程详见装置实施例,这里不再赘述。
[0106] 如图7所示,展示了本发明一实施例中具有声源定向功能的音频编解码系统的交互流程示意图。其中,包括主处理器以及上文中所描述的具有声源定向功能的音频编解码装置。主处理器通过控制接口向音频编解码装置发送控制指令并接收声源定向结果,通过数据接口向音频编解码装置发送并接收音频数据。音频编解码装置除与主处理器相连的控制接口与数据接口外,还包括有音频输入通道与音频输出通道,以进行音频信号的采集及播放。
[0107] 在本实施例中的具有声源定向功能的音频编解码系统在进行声源定向时,包括如下交互过程:首先主处理器通过数据接口向音频编解码装置发送下行音频,并通过与音频编解码装置相连接播放设备向空间中进行音频播放,布设于空间中的一对或多对音频采集设备在接收到播放的音频后通过音频编解码装置的上行通路进行分析,其分析过程是基于主处理器通过控制接口发送的音频采集设备的位置信息进行声源的定向估计,并将声源定向结果通过控制接口发送至主处理器,以供主处理器基于声源定向结果执行后续操作。同时音频编解码装置还通过数据接口将采集到的上行通路中的上行音频信号的数字信号发送至主处理器。
[0108] 需要说明的是,上述实施例提供的具有声源定向功能的音频编解码系统与具有声源定向功能的音频编解码装置实施例属于同一构思,其具体实现过程详见装置实施例,这里不再赘述。
[0109] 综上所述,本申请提供具有声源定向功能的音频编解码装置、方法及系统,本发明提供了一种提高具有声源定向功能的音频编解码效率的方法,通过将声源定向功能设置于音频编解码内部,以及在声源定向模块中基于实时音频进行自动化权重分配及声源定向计算的方式,提升了声源定向的精度,摆脱了采样率的限制。使得声源定向工作在保持高稳定性的同时,提供了灵活的时延调整,以更好的适用于实时音频领域。降低了算法设计的复杂度,且可以根据实际场景自动地进行时延控制。此外还显著减轻了主处理器的计算负担,提高整体系统的效率和响应速度。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0110] 上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。