一种音频处理方法、装置、计算机设备以及存储介质转让专利
申请号 : CN202010236419.2
文献号 : CN111444382B
文献日 : 2021-08-17
发明人 : 缪畅宇
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种音频处理方法,其特征在于,包括:获取样本音频数据的样本频率时间序列;所述样本频率时间序列是对所述样本音频数据进行频谱分析后得到,所述样本频率时间序列包括第一频率特征和第二频率特征;所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同;所述第一音频时间段和所述第二音频时间段相邻,且所述第二音频时间段位于所述第一音频时间段之后;
调用样本特征提取模型对所述第一频率特征编码处理,得到所述第一频率特征的样本时序特征;
调用样本特征预测模型对所述样本时序特征解码处理,得到处于所述第二音频时间段上的预测频率特征;
确定所述预测频率特征和所述第二频率特征之间的特征误差,根据所述特征误差调整所述样本特征提取模型的模型参数以及所述样本特征预测模型的模型参数;
当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时,将调整后的样本特征提取模型作为特征提取模型,所述特征提取模型用于识别目标音频数据的音频时序特征。
2.根据权利要求1所述的方法,其特征在于,所述获取样本音频数据的样本频率时间序列,包括:
将所述样本音频数据转换为时域信号,将所述时域信号划分为多个单位时域信号;
根据时间采样间隔对单位时域信号采样得到离散单位时域信号,将所述离散单位时域信号频谱分析得到单位频域信号,根据频率采样间隔对所述单位频域信号采样得到样本频率特征;
将多个样本频率特征组合为所述样本频率时间序列。
3.根据权利要求2所述的方法,其特征在于,所述样本特征提取模型是循环神经网络模型,所述第一频率特征包括第一单位频率特征和第二单位频率特征,所述第一单位频率特征所属的音频时间段和所述第二单位频率特征所属的音频时间段相邻;
所述调用样本特征提取模型对所述第一频率特征编码处理,得到所述第一频率特征的样本时序特征,包括:
基于所述循环神经网络模型的隐藏层权重矩阵和所述循环神经网络模型的原始编码向量,对所述第一单位频率特征编码处理,得到辅助编码向量;
基于所述隐藏层权重矩阵和所述辅助编码向量对所述第二单位频率特征编码处理,得到所述第一频率特征的所述样本时序特征。
4.根据权利要求1所述的方法,其特征在于,所述样本特征预测模型是卷积神经网络模型;
所述调用样本特征预测模型对所述样本时序特征解码处理,得到处于所述第二音频时间段上的预测频率特征,包括:
基于所述卷积神经网络模型的卷积层权重矩阵对所述样本时序特征卷积处理,得到卷积特征;
对所述卷积特征池化处理,得到处于所述第二音频时间段上的所述预测频率特征。
5.一种音频处理方法,其特征在于,包括:获取目标音频数据的频率时间序列;所述频率时间序列是对所述目标音频数据进行频谱分析后得到;所述频率时间序列包括至少两组单位频率时间序列;
调用特征提取模型分别提取每组单位频率时间序列的单位时序特征;样本音频数据的样本频率时间序列包括第一频率特征和第二频率特征;所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同;所述第一音频时间段和所述第二音频时间段相邻,且所述第二音频时间段位于所述第一音频时间段之后;所述第一频率特征的样本时序特征是通过样本特征提取模型对所述第一频率特征编码处理后得到;第二音频时间段上的预测频率特征是通过样本特征预测模型对所述样本时序特征解码处理后得到;调整后的样本特征提取模型以及调整后的样本特征预测模型是根据所述预测频率特征和所述第二频率特征之间的特征误差进行调整得到;所述特征提取模型是指当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时的所述调整后的样本特征提取模型;
将每个单位时序特征分别池化处理,将每个单位时序特征的池化处理结果组合为所述目标音频数据的音频时序特征;
输出所述目标音频数据的音频时序特征。
6.根据权利要求5所述的方法,其特征在于,还包括:响应于音频时序特征获取请求,获取音频区块链;所述音频区块链包括第一业务区块,所述第一业务区块用于存储所述目标音频数据;
从所述音频区块链中的所述第一业务区块中读取所述目标音频数据;
则所述输出所述目标音频数据的音频时序特征,包括:根据所述目标音频数据的音频时序特征生成第二业务区块,将所述第二业务区块添加至所述音频区块链。
7.根据权利要求5所述的方法,其特征在于,还包括:响应于音频推荐请求,获取查询音频数据,确定所述查询音频数据的音频时序特征;
确定所述查询音频数据的音频时序特征和所述目标音频数据的音频时序特征之间的特征相似度;
若所述特征相似度大于相似度阈值,则将所述目标音频数据作为推荐音频数据。
8.一种音频处理装置,其特征在于,包括:第一获取模块,用于获取样本音频数据的样本频率时间序列;所述样本频率时间序列是对所述样本音频数据进行频谱分析后得到,所述样本频率时间序列包括第一频率特征和第二频率特征;所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同;所述第一音频时间段和所述第二音频时间段相邻,且所述第二音频时间段位于所述第一音频时间段之后;
第一调用模块,用于调用样本特征提取模型对所述第一频率特征编码处理,得到所述第一频率特征的样本时序特征;
第二调用模块,用于调用样本特征预测模型对所述样本时序特征解码处理,得到处于所述第二音频时间段上的预测频率特征;
训练模块,用于确定所述预测频率特征和所述第二频率特征之间的特征误差,根据所述特征误差调整所述样本特征提取模型的模型参数以及所述样本特征预测模型的模型参数,当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时,将调整后的样本特征提取模型作为特征提取模型,所述特征提取模型用于识别目标音频数据的音频时序特征。
9.一种音频处理装置,其特征在于,包括:第二获取模块,用于获取目标音频数据的频率时间序列;所述频率时间序列是对所述目标音频数据进行频谱分析后得到;所述频率时间序列包括至少两组单位频率时间序列;
编码模块,用于调用特征提取模型分别提取每组单位频率时间序列的单位时序特征,将每个单位时序特征分别池化处理,将每个单位时序特征的池化处理结果组合为所述目标音频数据的音频时序特征;样本音频数据的样本频率时间序列包括第一频率特征和第二频率特征;所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同;所述第一音频时间段和所述第二音频时间段相邻,且所述第二音频时间段位于所述第一音频时间段之后;所述第一频率特征的样本时序特征是通过样本特征提取模型对所述第一频率特征编码处理后得到;第二音频时间段上的预测频率特征是通过样本特征预测模型对所述样本时序特征解码处理后得到;调整后的样本特征提取模型以及调整后的样本特征预测模型是根据所述预测频率特征和所述第二频率特征之间的特征误差进行调整得到;所述特征提取模型是指当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时的所述调整后的样本特征提取模型;
输出模块,用于输出所述目标音频数据的音频时序特征。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1‑7中任一项所述方法的步骤。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1‑7任一项所述的方法。
说明书 :
一种音频处理方法、装置、计算机设备以及存储介质
技术领域
背景技术
首先需要将音频表示为一个向量或者一个矩阵,这个向量或者这个矩阵可以称为音频特
征,音频特征越具有辨识度和区分性,在后续的检索中就越容易检索出满足业务要求的目
标音频。
签。人工为样本音频设置分类标签效率低下,造成携带分类标签的样本音频数量较少,由少
量样本音频训练得到的音频分类模型不能准确提取出音频的深层次特征,会降低后续音频
分类模型基于音频特征对音频进行识别的识别精度。
发明内容
所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同;
特征;第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相
同;
后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时,将调整后
的样本特征提取模型作为特征提取模型。
离散单位时域信号频谱分析得到单位频域信号,根据频率采样间隔对单位频域信号采样得
到样本频率特征,将多个样本频率特征组合为样本频率时间序列。
的音频时间段相邻;
重矩阵和辅助编码向量对第二单位频率特征编码处理,得到第一频率特征的样本时序特
征。
特征。
音频数据的音频时序特征;
的特征相似度,若特征相似度大于相似度阈值,则将目标音频数据作为推荐音频数据。
法。
处于第二音频时间段上的预测频率特征,将处于第二音频时间段上真实的第二频率特征以
及处于第二音频时间段上的预测频率特征训练样本特征提取模型。可见,根据音频自身构
造用于特征提取模型训练的训练数据,无需为音频数据手动设置分类标签,可以扩大训练
数据的数量,基于大量训练数据所训练的特征提取模型可以准确提取出音频的深层次特
征,进而提高基于深层次音频特征对音频识别的识别准确率;同时,无需设置分类标签可以
提高模型训练效率,降低人力成本;进一步地,通过训练可以捕捉音频时序关系的特征提取
模型,还可以提升特征提取模型对音频的时序特征表达能力,时序特征在后续的序列任务
上具有明显优势。
附图说明
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
特征,该时序特征可以表达音频数据的前后时序关系,时序特征可以应用于分词,词性标
注,命名实体识别,关键词抽取等序列任务。
Networks)。
端设备10c等。
属的第二音频时间段属于两个不同的时间段。调用样本特征提取模型,对第一频率特征编
码以得到第一频率特征的样本时序特征,调用样本特征预测模型对样本时序特征解码,以
得到处于第二音频时间段的预测频率特征,根据预测频率特征、第二频率特征以及样本特
征预测模型训练样本特征提取模型,以得到特征提取模型,该特征提取模型可以提取音频
数据的音频时序特征。
频数据转换为一个向量或者一个矩阵,该时序特征可以用于后续的音频检索、精准排序以
及其他时序任务等。
等。
时序特征为例进行具体说明。
数据20a在不同时间下的振幅强度。后台服务器10d将时域信号划分为多个单位时域信号,
将每个单位时域信号进行频谱分析,以将单位时域信号转换为单位频域信号,单位频域信
号是指处于某个时间段内的单位音频数据在不同频率下的振幅强度,音频数据20a可以包
括多个单位音频数据。后台服务器10d为对每个单位频域信号采样,将采样得到的振幅强度
进行组合即可得到每个单位频域信号分别对应的频率特征。
频率特征20c属于第二时间段,频率特征20d属于第三时间段;在时间轴上第一时间段、第二
时间段和第三时间段相邻,且第一时间段在前,第二时间段居中,第三时间段最后。
络模型20e,循环神经网络模型20e基于隐藏向量H1对频率特征20c编码,输出隐藏向量H2。
此时的隐藏向量H2即是频率特征20b以及频率特征20c的时序特征,该时序特征记忆了频率
特征20b和频率特征20c的时序关系。为了确定特征误差,还需要对时序特征(即隐藏向量
H2)进行深度建模,可以采用卷积神经网络模型20f对上述时序特征进行深度建模,即是将
上述隐藏向量H2输入卷积神经网络模型20f,以对隐藏向量H2进行卷积和池化,输出处于第
三时间段的预测特征20f。后台服务器10d采用预设的损失函数确定预测特征20f以及处于
第三时间段的真实的频率特征20d之间的误差,通过反向传播将该误差传播回卷积神经网
络模型20f和循环神经网络模型20e,以调整卷积神经网络模型20f的模型参数和循环神经
网络模型20e的模型参数。
说,本申请对输入模型的音频特征的数量没有限定。
经网络模型20f和循环神经网络模型20e。
音频数据的时序特征,音频数据的时序特征在时序任务中具有明显优势。
位时域信号,将每个单位时域信号进行频谱分析,以将单位时域信号转换为单位频域信号。
后台服务器10d为对每个单位频域信号采样,即可得到每个单位频域信号分别对应的频率
特征。此处,从音频数据30a中提取出频率特征和前述图2a所描述的从频数据30a中提取出
频率特征的过程相同。如图2b所示,假设后台服务器10d从音频数据30a中提取出频率特征
30b、频率特征30c以及频率特征30d。
藏向量H1以及频率特征30c输入循环神经网络模型20e,循环神经网络模型20e基于上述隐
藏向量H1对频率特征30c编码,输出隐藏向量H2。此时的隐藏向量H2即是频率特征30b以及
频率特征30c的时序特征。
模型20e,循环神经网络模型20e基于上述隐藏向量H1对频率特征30d编码,输出隐藏向量
H2。此时的隐藏向量H2即是频率特征30c以及频率特征30d的时序特征。
时序特征池化为一个数值,以及将频率特征30c和频率特征30d的时序特征池化为一个数
值。将上述2个数值组合为音频数据30a的时序特征30e,此时的时序特征30e就是一个向量。
时,后台服务器10d可以采用相同的方式提取不同歌曲的时序特征,将歌曲的时序特征以及
歌曲的标识关联存储至数据库。当进行音频检索时,可以直接从数据库中查找满足检索条
件的歌曲。检索过程如下:
户输入的音频数据40a,基于循环神经网络模型提取音频数据40a的时序特征40e,提取音频
数据40a的时序特征40e的过程和前述图2b所示描述的提取音频数据30a的时序特征30e的
过程相同。
向用户返回查找到的推荐歌曲。
循环神经网络模型20e)对第一频率特征编码以得到样本时序特征,调用样本特征预测模型
对样本时序特征解码以得到预测频率特征(如上述实施例中的预测特征20f)的具体过程可
以参见下述图3‑图6对应的实施例。
一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同。
频数据进行频谱分析得到该样本音频数据对应的样本频率时间序列,频谱分析是指找出音
频数据在不同频率下的振幅(功率、强度或相位等)。样本频率时间序列包括多个样本频率
特征,每个样本频率特征都对应一个音频时间段,各样本频率特征对应的音频时间段各不
相同。
强度或相位等)。服务器将时域信号划分为多个单位时域信号,划分的原则是多个单位时域
信号分别对应的时长尽可能的相同。下述以一个单位时域信号为例进行说明:获取时间采
样间隔(时间采样间隔可以是0.1秒),根据时间采样间隔对单位时域信号采样,得到离散单
位时域信号。服务器将离散单位时域信号进行频谱分析得到单位频域信号,服务器获取频
率采样间隔,根据频率采样间隔对单位频域信号采样,将采样得到的振幅(功率、强度或相
位等)组合为样本频率特征。其中,将离散单位时域信号进行频谱分析以得到单位频域信号
可以采用快速傅里叶变换(Fast Fourier Transform,FFT)、梅尔倒谱系数(Mel‑
scaleFrequency Cepstral Coefficients,MFCC)、离散傅里叶变换(Discrete Fourier
Transform,DFT)等等。
位等)组合为离散单位时域信号。对离散单位时域信号进行频谱分析,得到单位频域信号,
单位频域信号的横坐标是频率f,纵坐标是振幅(功率、强度或相位等)。若单位频域信号的
频率的上下限是0‑F,且频率采用间隔是10hz,那么从该单位频域信号中可以采用出F/10个
振幅(功率、强度或相位等),将采样出的F/10个振幅(功率、强度或相位等)组合为样本频率
特征。对应到音乐上,音乐的某些部分低音很重,那这些部分的样本频率特征的低频值就很
大,有些部分高音很高,那这些部分的样本频率特征的高频值很大。
同一个位置的数值表示在不同音频时间段,但相同频率下的振幅(功率、强度或相位等)。
个单位时域信号对应的频率是竖轴,频率的上下限为110hz~3520hz,颜色深浅代表不同频
率对应的振幅(功率、强度或相位等)的大小。
和第二频率特征(如上述图2a‑图2c对应实施例中的频率特征20d)为例进行说明,当然第一
频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段不同,且第一频率
特征所属的第一音频时间段和第二频率特征所属的第二音频时间段在时间轴上相邻。
本时序特征)。样本特征提取模型可以是语言模型,语言模型本质上是在回答一个问题:出
现的语句是否合理。在历史的发展中,语言模型经历了专家语法规则模型,统计语言模型,
神经网络语言模型。假设有一个文本序列{我爱中国},语言模型的目的,就是要最大化P
(我)*P(爱|我)*P(中|我,爱)*P(国|我,爱,中)的概率,也就是当出现“我”的时候,希望下
一个词是“爱”,当出现“我爱”的时候,希望下一个字词“中”。也就是说,语言模型希望能预
测出当前文本序列的下一个词,即P(xi|x1,x2,...xi‑1)。目前语言模型应用最广泛的是
RNN(Recurrent Neural Network,循环神经神经网络模型),RNN结构可以参见图5。
类层输出一个向量,该向量的每一个分量表示每个已知字/词的置信度,将置信度最大的
字/词作为预测输入序列的下一个字/词。如图5所示,置信度最大的字/词是“国”,说明预测
输入序列“我爱中”的下一个字/词是“国”。
出的隐藏向量h进行重建,具体过程如下:
入层对应一个样本频率特征。若第一频率特征所包含的样本频率特征的数量为1(即循环神
经网络模型的输入层的数量为1),那么直接将第一频率特征输入循环神经网络模型,循环
神经网络模型的输出即是第一频率特征的样本时序特征。
位频率特征所属的音频时间段和第二单位频率特征所属的音频时间段在时间轴上相邻。
辅助编码向量,这个过程可以用下述公式(1)表示:
本时序特征,这个过程可以用下述公式(2)表示:
向量的取值是无穷无尽的,不存在说从有限的几个向量里预测出某一个),所以我们需要对
样本特征提取模型输出的样本时序特征进行深度建模,具体过程如下:
的预测频率特征。样本特征预测模型可以是卷积神经网络模型,也可以是Auto‑Encoding自
动编码器。卷积神经网络模型可以包括卷积层和池化层。
特征进行池化处理,以得到处于第二音频时间段上的预测频率特征,预测频率特征可以是
一个向量,且预测频率特征的向量维度与第二频率特征的向量维度相同。
的隐藏层权重矩阵U,W)以及调整样本特征预测模型的模型参数,其中误差函数还可以是计
算余弦相似度的函数,此处的误差函数可以是余弦相似度。
取模型。举例来说,样本频率时间序列包括样本频率特征1、样本频率特征2、样本频率特征3
以及样本频率特征4,服务器可以首先将样本频率特征1和样本频率特征2作为第一频率特
征,将样本频率特征3作为第二频率特征,基于这一组第一频率特征和第二频率特征对样本
特征提取模型进行一次训练;下一次可以将样本频率特征2和样本频率特征3作为新的第一
频率特征,将样本频率特征4作为新的第二频率特征,基于这一组第一频率特征和第二频率
特征对样本特征提取模型再进行一次训练。不断循环,不断调样本特征提取模型的模型参
数。
测模型满足模型收敛条件。当样本特征提取模型和样本特征预测模型均满足模型收敛条件
时,将此时的样本特征提取模型作为特征提取模型,特征提取模型可以用于提取目标音频
数据的音频时序特征。
本特征预测模型。G3,G4以及G5可以对应本申请中第一频率特征,G6可以对应本申请中第二
频率特征。将G3,G4以及G5依次输出循环神经网络模型,循环神经网络模型输出G3,G4以及
G5的时序特征h,将时序特征h输入卷积神经网络模型,卷积神经网络模型对时序特征h解
码,得到与G6处于相同音频时间段的预测频率特征G6’。我们希望G6’向G6靠拢(理想情况下
G6’和G6完全相同),于是可以用G6’和G6的余弦相似度来衡量他俩的差异性。所以模型在训
练时,就需要最大化余弦相似度,从而使得循环神经网络模型和+卷积神经网络模型能够根
据G3 G4 G5预测出下一个是G6。
是处理对象由样本音频数据变为了目标音频数据,频率时间序列包括多个目标频率特征。
获取特征提取模型的输入层的数量,以及根据输入层数量和滑动步长将频率时间序列中的
多个目标频率特征划分为多组单位频率时间序列,每组单位频率时间序列中所包含的目标
频率特征的数量等于输入层的数量。服务器调用特征提取模型对每个单位频率时间序列分
别进行编码处理,以提取每个单位频率时间序列的单位时序特征。服务器可以将多个单位
时序特征组合为隐藏特征,直接将隐藏特征作为目标音频数据的音频时序特征;服务器也
可以对每个单位时序特征进行池化处理,得到每个单位时序特征的池化处理结果,服务器
将所有的池化处理结果组合为目标音频数据的音频时序特征。
提取出音频的深层次特征,进而提高基于深层次音频特征对音频识别的识别准确率;同时,
无需设置分类标签可以提高模型训练效率,降低人力成本;进一步地,通过训练可以捕捉音
频时序关系的特征提取模型,还可以提升特征提取模型对音频的时序特征表达能力,时序
特征在后续的序列任务(例如,分词,词性标注,命名实体识别,关键词抽取)上具有明显优
势。
征提取模型可以是前述中的服务器下发至终端设备的。需要说明的是,在样本特征提取模
型的训练阶段有样本特征预测模型的参与,但后续提取音频数据的音频时序特征时样本特
征预测模型就不再参与。
号的横轴表示时间,纵轴表示振幅(功率、强度或相位等)。终端设备将目标时域信号划分为
多个目标单位时域信号,根据预设的时间采样间隔对每个目标单位时域信号采样,得到多
个目标离散时域信号,对每个目标离散时域信号分别进行频谱分析得到目标单位频域信
号,目标单位频域信号的横轴表示频率,纵轴表示振幅(功率、强度或相位等)。根据预设的
频率采样间隔对每个目标单位频域信号采样,得到多个目标频率特征,目标频率特征的数
量和目标单位时域信号的数量相同,且每个目标频率特征所属的音频时间段都各不相同。
终端设备将所有的目标频率特征组合为频率时间序列(如上述图2a‑图2c对应实施例中的
频率特征30b、频率特征30c以及频率特征30e)。
含的目标频率特征的数量等于输入层的数量,频率时间序列包括至少2组单位频率时间序
列。
特征5,且滑动步长为1。终端设备可以将目标频率特征1、目标频率特征2、目标频率特征3组
合为单位频率时间序列1;将目标频率特征2、目标频率特征3、目标频率特征4组合为单位频
率时间序列2;将目标频率特征3、目标频率特征4以及目标频率特征5组合为单位频率时间
序列3。
数据的音频时序特征。
率特征的样本时序特征的过程相同,只是处理对象由第一频率特征变为了单位频率时间序
列。
果。此处的池化处理可以是最大池化处理,也可以是平均池化处理,其中最大池化处理是指
在单位时序特征中找出最大的数值作为该单位时序特征的池化处理结果;平均池化处理是
指将单位时序特征的平均值作为该单位时序特征的池化处理结果。
序特征的池化处理结果为:(1+3+5+2)/4=2.75。
间段。调用样本特征提取模型对第一频率特征编码,得到第一频率特征的样本时序特征,调
用样本特征预测模型对样本时序特征解码,得到处于第二音频时间段的预测频率特征,根
据第二音频时间段上的真实的第二频率特征和预测频率特征训练样本特征预测模型和样
本特征提取模型。当训练后的样本特征预测模型和样本特征提取模型均满足模型收敛条件
时,将此时的样本特征提取模型作为特征提取模型。样本特征提取模型的具体训练过程可
以参见上述图3对应实施例中的步骤S101‑步骤S104。
于向量表示或者矩阵表示进行检索,下面对音频时序特征在音频检索过程中的应用进行说
明:
荐请求,对查询音频数据进行频谱分析得到查询音频数据的查询频率时间序列,其中确定
查询频率时间序列,与前述中确定频率时间序列以及确定样本频率时间序列的方式相同,
只是将目标音频数据(或者样本音频数据)调整为查询音频数据即可。
相似度,其中可以采用余弦相似度来度量两个音频时序特征之间的特征相似度。
记忆性,时序特征在后续的序列任务(例如,分词,词性标注,命名实体识别,关键词抽取)上
具有明显优势;同时,音频时序是通过对单位时序特征池化处理后生成的,由于池化处理可
以降低数据维度,在保证音频时序特征具有辨识度和区分性的前提下,减少音频时序特征
所占用的存储空间,节约存储资源。
点传输(P2P,Peer To Peer)、共识机制、加密算法等计算机技术的新型应用模式。区块链本
质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据
块中包含了一个或多个交易信息,用于验证其信息的有效性(防伪)和生成下一个区块。
为区块链系统,每个节点都包括硬件层、中间层、操作系统层和应用层。从图8中可以看出,
区块链系统的中的每个节点所存储的区块链数据都相同。可以知道,上述节点可以包括计
算机设备。下述实施例以目标区块链节点为执行主体进行描述,目标区块链节点是区块链
系统中多个节点中的任一节点,目标区块链节点可以对应前述中的终端设备:
链上的。该音频时序特征获取请求携带区块高度,目标区块链节点在音频区块链中,将该区
块高度所对应的区块作为第一业务区块,第一业务区块是用于存储目标音频数据。
数据的音频时序特征。
块链节点将音频时序特征的默克尔根、当前音频区块链的最后一个业务区块的哈希值以及
当前时间戳存储至区块头,目标区块链节点将该区块头以及存储了音频时序特征的区块体
组合为第二业务区块,并将第二业务区块添加至目标区块链节点所存储的音频区块链,以
及向其余的节点广播第二业务区块,以使其余的节点将第二业务区块添加至各自维护的音
频区块链,使得各节点所维护的音频区块链达到同步。
征进行音频检索。
特征也是可信任的,可以保证对音频时序特征的提取过程的安全性。
置1可以包括:第一获取模块11、第一调用模块12、第二调用模块13以及训练模块14。
率特征;第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不
相同;
征。
整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时,将调整
后的样本特征提取模型作为特征提取模型。
散单位时域信号频谱分析得到单位频域信号,根据频率采样间隔对单位频域信号采样得到
样本频率特征,将多个样本频率特征组合为样本频率时间序列。
时间段相邻;
权重矩阵和辅助编码向量对第二单位频率特征编码处理,得到第一频率特征的样本时序特
征。
率特征。
对应实施例中的目标区块链节点,音频处理装置2可以包括:第二获取模块21、编码模块22
以及输出模块23。
标音频数据的音频时序特征;
间的特征相似度,若特征相似度大于相似度阈值,则将目标音频数据作为推荐音频数据。
以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经
由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接
收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004
被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性
存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编
程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设
置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包
括:键盘1018和显示器1020。
所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同;
描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
序指令,当处理器执行程序指令时,能够执行前文图3到图6所对应实施例中对音频处理方
法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行
赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方
法实施例的描述。
2000,如图13所示,电子设备2000可以包括:用户接口2002、处理器2004、编码器2006以及存
储器2008。信号接收器2016用于经由蜂窝接口2010、WIFI接口2012、...、或NFC接口2014接
收或者发送数据。编码器2006将接收到的数据编码为计算机处理的数据格式。存储器2008
中存储有计算机程序,处理器2004被设置为通过计算机程序执行上述任一项方法实施例中
的步骤。存储器2008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非
易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器2008可进一
步包括相对于处理器2004远程设置的存储器,这些远程存储器可以通过网络连接至电子设
备2000。用户接口2002可以包括:键盘2018和显示器2020。
述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
序指令,当处理器执行程序指令时,能够执行前文图7到图9所对应实施例中对音频处理方
法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行
赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方
法实施例的描述。
该程序在执行时,可包括如上述各方法的实施例的流程。其中,该存储介质可为磁碟、光盘、
只读存储记忆体(Read‑Only Memory,ROM)或随机存储记忆体(Random Access Memory,
RAM)等。