一种压缩音频数据的编辑装置及方法转让专利

申请号 : CN200510080510.5

文献号 : CN100590713C

文献日 : 2010-02-17

本发明公开一种压缩音频数据的编辑装置，包括：音频数据存储单元，用于存储压缩后的音频数据；解压缩单元，用于对该音频数据存储单元存储的压缩数据进行解压缩；用户操作单元，用于实现用户对该编辑装置进行操作的信息输入；显示单元，输出参数控制界面，用于动态显示该压缩数据包含的参数以及用户的操作信息；处理单元，用于根据用户通过该用户操作单元针对该参数控制界面输入的操作信息所对应的控制命令编辑该压缩后的音频数据。本发明还公开一种压缩音频数据的编辑方法。本发明可以对压缩音频数据进行可视化的编辑，简化操作过程、难度并且能够降低操作时间。

1.一种压缩音频数据的编辑装置，包括：

音频数据存储单元，用于存储压缩后的音频数据；

解压缩单元，用于对该音频数据存储单元存储的压缩数据进行解压缩；

用户操作单元，用于实现用户对该编辑装置进行操作的信息输入；

其特征在于，还包括：

显示单元，输出参数控制界面，用于动态显示该压缩数据包含的参数以及用户的操作信息；

处理单元，用于根据用户通过该用户操作单元针对该参数控制界面输入的操作信息所对应的控制命令编辑该压缩后的音频数据。

2.如权利要求1所述的压缩音频数据的编辑装置，其特征在于，所述显示单元在输出参数控制界面时还根据解压缩后的音频数据输出音频波形。

3.如权利要求1所述的压缩音频数据的编辑装置，其特征在于，还包括播放单元，用于播放该解压缩单元解压缩后的音频数据。

4.如权利要求1至3任一项所述的压缩音频数据的编辑装置，其特征在于，所述参数控制界面包括参数列表、包络曲线和/或参数控制按键。

5.如权利要求4所述的压缩音频数据的编辑装置，其特征在于，所述参数控制界面还包括压缩比率控制部分，复制、剪切、粘贴控制部分，静音控制部分，音高阈值设置部分，撤销控制部分和/或恢复控制部分；所述参数控制按键包括微调控制块、比例调整控制块、自动调整控制块。

6.如权利要求1所述的压缩音频数据的编辑装置，其特征在于，还包括压缩单元，用于压缩外部输入的音频数据并将压缩后的音频数据存入该音频数据存储单元；下载单元，用于下载该音频数据存储单元中的音频数据。

7.一种压缩音频数据的编辑方法，其特征在于，包括步骤：

1)显示存储的压缩后的音频数据的参数；

2)接收用户针对该显示的参数输入的操作信息；

3)根据前述操作信息，自动生成与此对应的控制命令；

4)根据所述控制命令，编辑所述存储的压缩后的音频数据；

5)显示编辑后的音频数据的参数。

8.如权利要求7所述的压缩音频数据的编辑方法，其特征在于，还包括：解压缩该音频数据；动态输出所述解压缩后的数据。

9.如权利要求8所述的压缩音频数据的编辑方法，其特征在于，所述动态输出包括显示音频数据的波形和/或播放该音频数据。

10.如权利要求7至9所述的压缩音频数据的编辑方法，其特征在于，所述步骤1)的显示是生成并输出参数列表、包络曲线和/或参数控制按键。

11.如权利要求10所述的压缩音频数据的编辑方法，其特征在于，所述步骤2)的接收操作信息具体是接收用户针对参数列表中的参数值的修改、针对包络曲线中的节点的拖动和/或针对参数控制按键的点击操作。

12.如权利要求11所述的压缩音频数据的编辑方法，其特征在于，还包括显示压缩比率控制部分，复制、剪切、粘贴控制部分，静音控制部分，音高阈值设置部分，撤销控制部分和/或恢复控制部分；并接收和响应用户的相应操作。

技术领域

本发明涉及音频数据的处理技术，特别是涉及一种压缩音频数据的编辑装置及方法。

背景技术

众所周知，多个领域都需要进行语音数据(声音)的编辑，目前，通过计算机技术来完成语音数据的编辑已经在多个领域得到广泛的应用。
现有技术中，美国专利第US 5,204,969号公开了一种编辑声音的方法及其装置，其可以实时显示编辑后的声音，可以实现交互式的声音编辑。但是，该专利只适用于对wave文件数据的直接修改编辑，并不能实现对压缩后的数据的修改；且该专利对波形中各种数据的修改方法和显示方法都显得比较单一。
随着语音压缩技术的发展，现有技术中语音压缩的方式主要采取图1所示的方法：输入的原始语音经过预处理单元110进行预处理后进入LPC分析器 120，其中的LPC系数经转化器130进行LSF转化得到LSF系数，进而将LSF 系数传输给量化器140；LPC分析后预测残差并经搜索器150进行音调(Pitch) 搜索，经判决器160进行UV(语气)判断，得到音调和UV信息并将其输送给量化器140；量化器140根据LSF系数和音调系数及UV信息合成输出压缩码流。
解压缩的方式则采取图2所示的方法，其过程与图1相反。压缩码流经过反量化器210得到LSF系数和音调系数及UV信息，LSF系数经第二转化器 220转化成LPC系数，音调系数及UV信息经激励信号合成器230合成激励信号，LPC系数和激励信号经过LPC合成器240合成，并经后处理器250后处理，输出解码语音。
请参阅图3，是现有技术中压缩语音的编辑装置的框图。该编辑装置包括压缩单元310、存储单元320、解压缩单元330和处理单元340、用户操作单元350。
若输入的声音文件为wav格式，则wav格式的声音文件传输到压缩单元 310并进行语音压缩，压缩单元310压缩后的bin格式声音文件发送到存储单元320；若输入的声音文件为bin格式，则bin格式的声音文件直接发送到存储单元320。
编辑过程中，用户通过用户操作单元350输入各种复杂的Dos档命令，处理单元340根据该Dos档命令的内容对存储单元320中的压缩语音的各个参数信息进行修改。
编辑完成后，所述存储单元320可以将其中的压缩语音传送到解压缩单元 330进行解压缩，得到解码语音。用户可以播放所述解压语音以获悉编辑的效果。
也就是说，该现有技术对压缩语音的编辑方式具体为Dos档命令行方式，输入各种Dos档命令来完成对压缩的语音的编辑。此种编辑方法及装置的缺点在于编辑的过程复杂繁琐，而且其测试修改效果步骤繁琐，修改所耗费的时间长；而且编辑的过程不够直观，用户需要记忆各种Dos档命令，增加编辑的难度。

发明内容

本发明解决的技术问题在于提供一种压缩音频数据的编辑装置及方法，可以对压缩音频数据进行可视化的编辑，简化操作过程、难度并且能够降低操作时间。
为此，本发明解决技术问题的技术方案是：提供一种压缩音频数据的编辑装置，包括：
音频数据存储单元，用于存储压缩后的音频数据；
解压缩单元，用于对该音频数据存储单元存储的压缩数据进行解压缩；
用户操作单元，用于实现用户对该编辑装置进行操作的信息输入；
显示单元，输出参数控制界面，用于动态显示该压缩数据包含的参数以及用户的操作信息；
处理单元，用于根据用户通过该用户操作单元针对该参数控制界面输入的操作信息所对应的控制命令编辑该压缩后的音频数据。
优选地，所述显示单元在输出参数控制界面时还根据解压缩后的音频数据输出音频波形。
优选地，还包括播放单元，用于播放该解压缩单元解压缩后的音频数据。
优选地，所述参数控制界面包括参数列表、包络曲线和/或参数控制按键。
优选地，所述参数控制界面还包括压缩比率控制部分，复制、剪切、粘贴控制部分，静音控制部分，音高阈值设置部分，撤销控制部分和/或恢复控制部分；所述参数控制按键包括微调控制块、比例调整控制块、自动调整控制块。
优选地，还包括压缩单元，用于压缩外部输入的音频数据并将压缩后的音频数据存入该音频数据存储单元；下载单元，用于下载该音频数据存储单元中的音频数据。
本发明还提供一种压缩音频数据的编辑方法，包括步骤：
1)显示存储的压缩后的音频数据的参数；
2)接收用户针对该显示的参数输入的操作信息；
3)根据前述操作信息，自动生成与此对应的控制命令；
4)根据所述控制命令，编辑所述存储的压缩后的音频数据；
5)显示编辑后的音频数据的参数。
优选地，还包括：解压缩该音频数据；动态输出所述解压缩后的数据。
优选地，所述动态输出包括显示音频数据的波形和/或播放该音频数据。
优选地，所述步骤1)的显示是生成并输出参数列表、包络曲线和/或参数控制按键。
优选地，所述步骤2)的接收操作信息具体是接收用户针对参数列表中的参数值的修改、针对包络曲线中的节点的拖动和/或针对参数控制按键的点击操作。
优选地，还包括显示压缩比率控制部分，复制、剪切、粘贴控制部分，静音控制部分，音高阈值设置部分，撤销控制部分和/或恢复控制部分；并接收和响应用户的相应操作。
相对于现有技术，本发明的有益效果是：由于本发明的编辑和方法可以动态显示压缩数据包含的参数，在用户针对所述参数进行可视化操作时，可以将用户的操作信息转换为对应的控制命令，并根据该控制命令编辑该压缩后的音频数据，因此，可以对压缩音频数据进行可视化的编辑，用户无需记忆复杂的操作命令，从而简化操作过程、难度并且能够降低操作时间。
在本发明的优选方案中，由于可以实时动态对编辑后的音频数据进行解压缩，并且显示音频数据的波形或者播放该音频数据，从而做到随修改随试听效果，进一步节省操作步骤、难度及时间。
在发明的优选方案中，参数的显示采用参数列表、包络曲线和/或参数控制按键的形式，用户的操作较为简单。
在本发明的优选方案中，进一步提供压缩比率控制部分，复制、剪切、粘贴控制部分，静音控制部分，音高阈值设置部分，撤销控制部分和/或恢复控制部分，可以做到更为良好的效果。此外，还提供下载单元。

附图说明

图1是语音数据压缩的过程示意图。
图2是压缩语音数据解压缩的过程示意图。
图3是现有技术中一种压缩语音的编辑装置的框图。
图4是本发明压缩音频数据的编辑装置的框图。
图5是本发明中显示单元输出的用户界面视图。
图6是本发明中显示单元输出的用户界面示意图。

具体实施方式

请参阅图4，本发明编辑装置包括音频数据存储单元410、用户操作单元 420、处理单元430、解压缩单元440、显示单元450、播放单元460、压缩单元470和下载单元480。
该音频数据存储单元410用于存储压缩后的语音数据。其中，若输入的声音文件是未经压缩的(例如，wav格式的声音文件)，则先传送到压缩单元470 进行语音压缩；若输入的声音文件是压缩后的(例如，bin格式的声音文件)，则直接传送到该音频数据存储单元410。
用户操作单元420提供用户操作该编辑装置的接口，通过用户操作单元 420，用户可以发送各种控制命令给处理单元430进行编辑或者控制显示单元 440的输出显示，或者控制播放单元460的输出播放。该用户操作单元420可以是键盘、鼠标、触摸屏等具有信息输入功能的器件与设备，此不赘述。
处理单元430用于接收用户的输入信息，将用户的操作转化成控制命令。
解压缩单元440用于对音频数据存储单元410中存储的压缩数据进行解压缩，解压缩后的数据可以经由显示单元450进行显示和/或经由播放单元460 进行播放。
请一并参阅图5，显示单元450用于输出解压缩单元440解压缩后的声音波形图800；并且，显示单元450还显示根据压缩数据的参数生成的参数控制界面。
在本发明的一个实施例中，该参数控制界面包括三种形式：参数列表910、包络曲线920、参数控制按键930。
该实施例中，所谓包络是指以声音数据的采样点(Sample)及音调(Pitch)高低为横纵坐标画出的点及其间相连的线段。当然，横纵坐标也可以由其他意义的单位值做替换。
通过参数控制界面，用户可以直观地看到对压缩数据的参数的编辑处理结果，并且，用户通过用户操作单元420进行操作时，参数控制界面的显示数字或者曲线会实时变化，达到可视化的交互，使得用户无需记忆复杂的命令格式。
播放单元460用于播放解压缩单元440解压缩后的声音数据，用户可以根据播放单元460的输出声音，进行再次修改以达到预期的编辑效果，实现交互式编辑。
此外，本发明的编辑装置进一步包括的下载单元480用于下载音频数据存储单元420中的声音文件进行播放，该下载单元480可以是EMU板。
请一并参阅图5与图6，下面对参数控制界面进行详细的描述。
参数控制界面包括参数列表910，该参数列表通过显示单元450同波形800 一同显示，用户可以用户操作单元420直接修改参数列表910中的各个参数值，处理单元430根据修改后的参数对应的控制命令来编辑音频数据存储单元410 中的压缩数据。
其中，参数列表910中包含的参数有音调(pitch)参数、音量(gain)参数、语气(UV)参数和(LSF)参数。处理单元430根据参数列表910中的参数变化编辑修改压缩的声音文件，显示单元450实时输出编辑修改后的声音波形和修改后的参数列表，播放单元460可以实时播放声音文件，用户可以根据显示和播放的声音文件重新修改编辑声音文件。
参数控制界面包括包络曲线920，包络曲线920以音调(pitch)包络曲线的形式通过显示单元450同波形800一同显示，用户可以直接点击节点拖动包络曲线920，改变包络曲线920的音调(pitch)值。
当然，在拖动编辑上也可采用画笔画线的方式连续替换多个结点的数值。
处理单元430根据修改后的音调(pitch)值对应的控制命令编辑修改压缩声音文件，显示单元450实时输出编辑修改后的声音波形和修改后的包络曲线，播放单元460可以实时播放声音文件，用户可以根据显示和播放的声音文件重新修改编辑声音文件。
当然，包络曲线920还可以是音量(Gain)和语气(UV)包络曲线，其通过显示单元450同输出波形800一同显示，且可以通过点击节点托动包络曲线以改变包络曲线的音量(Gain)和语气(UV)并以控制命令的形式发送给处理单元430，处理单元430根据修改后的相应的音量(Gain)值和语气(UV) 值编辑修改压缩音频数据。
参数控制界面还包括参数控制按键930，参数控制按键930通过显示单元 450同波形800一同显示，用户可以直接点击参数控制按键930，输入放大缩小倍数或者改变值。处理单元430根据点击操作对应的控制命令编辑修改压缩声音文件。
其中，参数控制按键930中的可调参数包括音调(pitch)参数、音量(gain) 参数、语气(UV)参数。
参数控制按键930还包括微调控制块、比例调整控制块、自动调整控制块，其中微调控制块具有向上向下调整箭头，可以对一帧或者多帧声音文件进行简单加减的微小调整。其中比例调整控制块可以选择多帧，输入放大缩小倍数，点击按键，实现多帧的整体调整。其中，自动调整控制块可以选择多帧，以选取区域的起点和终点值作端点，线性计算并修改中间帧的相对应值。
处理单元430根据修改值编辑修改压缩声音文件，显示单元450实时输出编辑修改后的声音波形，播放单元460可以实时播放声音文件，用户可以根据显示和播放的声音文件重新修改编辑声音文件。
参数控制界面还包括压缩比率控制部分940，用户通过用户操作单元420 针对压缩比率控制部分940输入更改后的压缩比率，压缩单元470接收到新的压缩比率后重新对声音文件进行压缩。
参数控制界面还包括复制、剪切、粘贴控制部分950，用户通过用户操作单元420针对复制、剪切、粘贴控制部分950输入复制、剪切、粘贴控制命令经过处理单元430对压缩后的声音数据进行操作。处理单元430编辑处理后的声音数据经解压缩单元440解压缩，解压缩后的声音数据发送到存储单元410，所述存储单元410将解压缩后的数据发送到显示单元450和播放单元460进行输出。
参数控制界面还包括静音控制部分960，用户通过用户操作单元420针对静音控制部分960输入静音命令给处理单元430，处理单元430根据静音命令在压缩后的数据中加入N段静音。处理单元430编辑处理后的声音数据经解压缩单元440解压缩，解压缩后的声音数据发送到存储单元410，所述存储单元410将解压缩后的数据发送到显示单元450和播放单元460进行输出。
参数控制界面还包括音高阈值设置部分970，用户通过用户操作单元420 针对音高阈值设置部分970设置音高的阈值，处理单元430根据设置的阈值重新计算音高，防止对音高的计算错误。
参数控制界面还包括撤销(UNDO)控制部分980、恢复(REDO)控制部分990，用户通过用户操作单元420针对撤销控制部分980来撤销当前操作，当撤销控制部分输入撤销控制命令给显示单元450时，显示单元450根据撤销控制命令控制显示单元450还原存储单元410中存储的当前操作之前的声音波形数据。用户通过用户操作单元420针对恢复控制部分990输入恢复控制命令给显示单元450，显示单元450根据恢复控制命令恢复撤销操作之前的声音数据。
此外，显示单元450还显示输出控制部分810，用户通过用户操作单元420 针对输出控制部分810发送输出控制信息给显示单元450，显示单元450根据控制信息选择马上输出存储单元410中的声音波形，还是接收到输出控制部分 810发送的进一步命令再输出声音波形。
显示单元450还显示缩放控制部分820，用户通过用户操作单元420针对缩放控制部分820发送缩放命令给显示单元450，显示单元450根据缩放命令对存储单元410中的声音波形进行缩放处理并显示。
综上所述，本发明涉及语音压缩领域，尤其涉及一种可对压缩语音进行可视化编辑的方法及其装置。该方法主要应用在带有语音输出的玩具及电子字典上。
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

一种压缩音频数据的编辑装置及方法转让专利

申请号 : CN200510080510.5

文献号 : CN100590713C

文献日 : 2010-02-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 廖栋才 , 李琳

申请人 : 凌阳科技股份有限公司 , 北京北阳电子技术有限公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式