一种音频处理方法、装置、电子设备及存储介质转让专利

申请号 : CN201910106169.8

文献号 : CN109840052B

文献日 : 2022-03-18

本发明涉及一种音频处理方法、装置、电子设备及存储介质，属于语音识别技术领域。该音频处理方法，包括：获取待处理音频文件；将所述待处理音频文件至少分割成第一音频文件和第二音频文件；依次将所述第一音频文件和所述第二音频文件加载到处理区域中。通过对待处理音频文件进行分割，将其分割成至少两段子音频，并依次对分割后的子音频进行分时处理，使得同时间段被加载到内存中的音频文件相对较少，显著降低了内存的占用率，在出现大量服务请求时，由于每次读入音频数据相对较少，从而支持更大数量的服务请求量，且单位处理占用的内存大小是固定的，解决了现有技术内存不可控带来的缺陷，从而带来更优的服务效率和服务质量。

1.一种音频处理方法，其特征在于，包括：获取待处理音频文件；根据所述待处理音频文件的时长或大小和对应的预设分割比例，将所述待处理音频文件至少分割成第一音频文件和第二音频文件，其中，所述预设分割比例为根据当前时刻用于请求对音频文件进行处理的服务请求量确定，且与所述服务请求量呈负相关；

依次将所述第一音频文件和所述第二音频文件加载到处理区域中。

2.根据权利要求1所述的方法，其特征在于，在根据所述待处理音频文件的时长或大小和对应的预设分割比例将所述待处理音频文件至少分割成第一音频文件和第二音频文件之前，还包括：

确定所述预设分割比例。

3.根据权利要求2所述的方法，其特征在于，确定所述预设分割比例，包括：获取当前时刻用于请求对音频文件进行处理的服务请求量；

根据所述服务请求量确定所述预设分割比例。

4.根据权利要求1所述的方法，其特征在于，获取待处理音频文件，包括：在语音获取的过程中，判断当前获取的音频文件是否包含有用于表征特定应用环境的预设的标识信息；

在为是时，将所述当前获取的音频文件作为所述待处理音频文件。

5.根据权利要求1所述的方法，其特征在于，还包括：对加载到所述处理区域中的所述第一音频文件和所述第二音频文件进行语音识别，得到所述第一音频文件对应的第一识别结果和所述第二音频文件对应的第二识别结果；

基于所述第一识别结果和所述第二识别结果得到目标文本。

6.一种音频处理装置，其特征在于，包括：获取模块，用于获取待处理音频文件；

分割模块，用于根据所述待处理音频文件的时长或大小和对应的预设分割比例，将所述待处理音频文件至少分割成第一音频文件和第二音频文件，其中，所述预设分割比例为根据当前时刻用于请求对音频文件进行处理的服务请求量确定，且与所述服务请求量呈负相关；

加载模块，用于依次将所述第一音频文件和所述第二音频文件加载到处理区域中。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器用于调用存储于所述存储器中的程序以执行如权利要求1‑5中任一项所述的方法。

8.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1‑5中任一项所述的方法。

一种音频处理方法、装置、电子设备及存储介质

技术领域

[0001] 本发明属于语音识别技术领域，具体涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

[0002] 随着人工智能研究的逐渐深入，语音识别作为人机交互的重要桥梁，其研究越来越受人们重视，而机器学习的引入，让语音识别能力得到了极大的提升，识别准确率也获得
了长足的进步，各个领域通过对语音识别的应用吸引了大量的用户。在语言学习领域，语音
识别的应用较为普遍，在进行语音翻译、口语练习等场景中起着举足轻重的作用，而随着用
户量的与日俱增和大体量音频处理需求量的增加，为保证语音识别的服务效率和服务质
量，如何在有限的硬件资源条件下，提供更加优秀的内存使用方案，以带来更优的服务效率
和服务质量变得尤为关键。

发明内容

[0003] 鉴于此，本申请实施例在于提供一种音频处理方法、装置、电子设备及存储介质，以有效地改善现有语音识别过程中，内存占用不可控的缺陷，从而带来更优的服务效率和
服务质量。

[0004] 本发明的实施例是这样实现的：

[0005] 第一方面，本发明实施例提供了一种音频处理方法，包括：获取待处理音频文件；将所述待处理音频文件至少分割成第一音频文件和第二音频文件；依次将所述第一音频文
件和所述第二音频文件加载到处理区域中。本申请实施例中，通过对待处理音频文件进行
分割，将其分割成至少两段子音频，并依次对分割后的子音频进行分时处理，使得同时间段
被加载到内存中的音频文件相对较少，显著降低了内存的占用率，在出现大量服务请求时，
由于每次读入音频数据相对较少，从而支持更大数量的服务请求量，且单位处理占用的内
存大小是固定的，解决了现有技术内存不可控带来的缺陷，从而带来更优的服务效率和服
务质量。

[0006] 结合第一方面实施例提供的一种可能的实施方式，将所述待处理音频文件至少分割成第一音频文件和第二音频文件，包括：根据所述待处理音频文件的时长或大小和对应
的预设分割比例将所述待处理音频文件至少分割成第一音频文件和第二音频文件。本申请
实施例中，根据待处理音频文件的时长或大小和对应的预设分割比例对待处理音频文件进
行分割，使得分割后的子音频的长度不是固定的，能适用不同的应用需求，灵活性高，适用
性更好。

[0007] 结合第一方面实施例提供的一种可能的实施方式，在根据所述待处理音频文件的时长或大小和对应的预设分割比例将所述待处理音频文件至少分割成第一音频文件和第
二音频文件之前，还包括：确定所述预设分割比例。本申请实施例中，可以根据不同的应用
场景来确定匹配度更好的分割比例，能带来更优的服务效率和服务质量。

[0008] 结合第一方面实施例提供的一种可能的实施方式，确定所述预设分割比例，包括：获取当前时刻用于请求对音频文件进行处理的服务请求量；根据所述服务请求量确定所述
预设分割比例。本申请实施例中，在确定分割比例时，通过当前时刻的服务请求量来确定分
割比例，也即根据服务请求量来调整预设分割比例，能在有限的硬件资源条件下，提供更加
优秀的内存使用方案，从而带来更优的服务效率和服务质量。

[0009] 结合第一方面实施例提供的一种可能的实施方式，确定所述预设分割比例，包括：根据所述待处理音频文件的时长或大小确定所述预设分割比例。本申请实施例中，根据所
述待处理音频文件的时长或大小确定所述预设分割比例，也即根据待处理音频文件的时长
或大小来调整预设分割比例，能在有限的硬件资源条件下，提供更加优秀的内存使用方案，
从而带来更优的服务效率和服务质量。

[0010] 结合第一方面实施例提供的一种可能的实施方式，获取待处理音频文件，包括：在语音获取的过程中，判断当前获取的音频文件是否包含有用于表征特定应用环境的预设的
标识信息；在为是时，将所述当前获取的音频文件作为所述待处理音频文件。本申请实施例
中，通过识别当前获取的音频文件是否包含有用于表征特定应用环境的预设的标识信息，
只有在为是时，才进行后续的分割分时处理，通过提供一种有针对性、有区别的处理方式来
优化内存使用方案，从而带来更优的服务效率和服务质量。

[0011] 结合第一方面实施例提供的一种可能的实施方式，还包括：对加载到所述处理区域中的所述第一音频文件和所述第二音频文件进行语音识别，得到所述第一音频文件对应
的第一识别结果和所述第二音频文件对应的第二识别结果；基于所述第一识别结果和所述
第二识别结果得到目标文本。本申请实施例中，通过对加载到内存区域中的各个子音频文
件依次进行语音识别，得到各自的识别结果，最终将各自的识别结果拼接起来即可得到最
终的目标文本，该方式能够在改善内存不可控的前提下，保证方案的完整性和可行性。

[0012] 第二方面，本申请实施例还提供了一种音频处理装置，包括：获取模块、分割模块以及加载模块；获取模块，用于获取待处理音频文件；分割模块，用于将所述待处理音频文
件至少分割成第一音频文件和第二音频文件；加载模块，用于依次将所述第一音频文件和
所述第二音频文件加载到处理区域中。

[0013] 结合第二方面实施例提供的一种可能的实施方式，所述分割模块，还用于根据所述待处理音频文件的时长或大小和对应的预设分割比例将所述待处理音频文件至少分割
成第一音频文件和第二音频文件。

[0014] 结合第二方面实施例提供的一种可能的实施方式，还包括：确定模块，用于确定所述预设分割比例。

[0015] 结合第二方面实施例提供的一种可能的实施方式，所述确定模块，还用于获取当前时刻用于请求对音频文件进行处理的服务请求量；以及还用于根据所述服务请求量确定
所述预设分割比例。

[0016] 结合第二方面实施例提供的一种可能的实施方式，所述确定模块，还用于根据所述待处理音频文件的时长或大小确定所述预设分割比例。

[0017] 结合第二方面实施例提供的一种可能的实施方式，所述获取模块，还用于在语音获取的过程中，判断当前获取的音频文件是否包含有用于表征特定应用环境的预设的标识
信息；以及还用于在为是时，将所述当前获取的音频文件作为所述待处理音频文件。

[0018] 结合第二方面实施例提供的一种可能的实施方式，还包括：识别模块和拼接模块；

[0019] 所述识别模块，用于对加载到所述处理区域中的所述第一音频文件和所述第二音频文件进行语音识别，得到所述第一音频文件对应的第一识别结果和所述第二音频文件对
应的第二识别结果；

[0020] 所述拼接模块，用于基于所述第一识别结果和所述第二识别结果得到目标文本。

[0021] 第三方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器用于调用存储于所述存储器
中的程序以执行上述第一方面实施例和/或结合第一方面实施例下的任一种可能的实施方
式提供的方法。

[0022] 第四方面，本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例下的任一种
可能的实施方式提供的方法。

[0023] 本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的
说明书以及附图中所特别指出的结构来实现和获得。

附图说明

[0024] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施
例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获
得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部
附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点
在于示出本发明的主旨。

[0025] 图1示出了本发明实施例提供的一种电子设备的结构示意图。

[0026] 图2示出了本发明实施例提供的一种音频处理方法的流程图。

[0027] 图3示出了本发明实施例提供的又一种音频处理方法的流程图。

[0028] 图4示出了本发明实施例提供的一种音频处理装置的模块示意图。

具体实施方式

[0029] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

[0030] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

[0031] 在本发明的描述中，需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。再者，本申请中术语“和/或”，仅仅是一种描述关联对象
的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，
单独存在B这三种情况。

[0032] 如图1所示，图1示出了本发明实施例提供的一种电子设备100的结构框图。所述电子设备100包括：音频处理装置110、存储器120、存储控制器130和处理器140。

[0033] 所述存储器120、存储控制器130、处理器140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号
线实现电性连接。所述音频处理装置110包括至少一个可以软件或固件(firmware)的形式
存储于所述存储器120中或固化在所述电子设备100的操作系统(operating system，OS)中
的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块，例如所述音频
处理装置110包括的软件功能模块或计算机程序。

[0034] 其中，存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(ReadOnly Memory，ROM)，可编程只读存储器(Programmable Read－Only
Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)，
电可擦除只读存储器(Electric Erasable Programmable Read－Only Memory，EEPROM)
等。其中，存储器120用于存储程序，所述处理器140在接收到执行指令后，执行所述程序，后
述本发明实施例任一实施例揭示的流程定义的电子设备100所执行的方法可以应用于处理
器140中，或者由处理器140实现。

[0035] 处理器140可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network
Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵
列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现
或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器
或者该处理器也可以是任何常规的处理器等。

[0036] 其中，上述的电子设备100可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、个人数字助理
(Personal Digital Assistant，PDA)等设备。

[0037] 请参阅图2，为本发明实施例提供的一种应用于上述电子设备100的音频处理方法，下面将结合图2对其所包含的步骤进行说明。

[0038] 步骤S101：获取待处理音频文件。

[0039] 作为一种实施方式，针对用户发送的用于请求对其输入的音频文件进行处理的服务请求，获取用户输入的音频文件，并将其作为待处理音频文件，例如，当用户在用户终端
一侧输入语音时，用户终端便将获取到的音频文件发送至对应的服务器进行后续处理，此
时，服务器便获取用户终端发送的音频文件，作为待处理音频文件。此时，服务器即为上述
的电子设备。当然可以理解的是，获取音频文件与处理音频文件也可以在同一侧完成，也即
用户终端获取到用户输入的语音后，直接在本地进行后续处理，而不用将其发送至服务器。
其中，用户终端包括但不限于手机、平板等设备。其中，用户终端中安装有可以用于语音输
入的应用程序(APP)以便于服务器进行数据交互。

[0040] 此外，作为一种可选的实施方式，在语音获取的过程中，服务器可以通过判断当前获取的音频文件是否包含有用于表征特定应用环境的预设的标识信息；在为是时，才将所
述当前获取的音频文件作为所述待处理音频文件。也即，该种实施方式下，只对包含有预设
的标识信息的音频文件才采用本申请实施例所示的音频处理方法对其进行处理。其中，上
述的特定应用环境可以是语音翻译、口语练习、在线阅读等涉及到的音频文件的时长或大
小比较大的一些场景，如用户与他人进行聊天的场景。在涉及到这样的场景时，用户终端在
将获取到的用户输入的音频文件发送给服务器的过程中，可以先在音频文件中加入事先约
定的标识信息，如在文件头(head)中加入特定的标识符，然后再发送。或者，用户终端在获
取用户输入的音频文件的过程中，在特定的位置加入特定的标识符。像上述示例的语音翻
译、口语练习、在线阅读等特定应用环境下，通过涉及到的音频文件都比较长，容易带来较
大的服务器内存负载，在高峰时期，可能产生部分用户提交语音识别请求后，需要等待服务
器释放足够内存来处理该用户的请求的现象，使得单位时间内支持的服务请求容量相对较
少。同时，因为无法控制用户请求时发送的音频文件大小，导致无法有效控制和管理内存的
使用，从而带来一系列制约和缺陷。

[0041] 步骤S102：将所述待处理音频文件至少分割成第一音频文件和第二音频文件。

[0042] 在获取到待处理音频文件后，为了有效地改善现有语音识别过程中，内存占用不可控的缺陷，本实施例中，将所述待处理音频文件至少分割成第一音频文件和第二音频文
件。作为一种可选的实施方式，可以是按照预设标准大小(如1KB)或者预设标准时长(如1
秒)将所述待处理音频文件分割成至少包含第一音频文件和第二音频文件。也即，在分割
时，可以是按照预设标准大小将所述待处理音频文件分割成至少包含第一音频文件和第二
音频文件；或者，也可以是按照预设标准时长将所述待处理音频文件分割成至少包含第一
音频文件和第二音频文件。其中，预设标准大小以及预设标准时长均为事先设置，其可以根
据请求量来设定，例如，高峰时期，可能有千上万个用户在同一时刻请求语音识别，此时，可
以将预设标准大小以及预设标准时长设置相对小一点。当然也可以是根据特定应用场景来
设置，不同的应用场景，设置的将预设标准大小以及预设标准时长不同。

[0043] 作为另一种可选的实施方式，在对待处理音频文件进行分割时，可以是根据所述待处理音频文件的时长或大小和对应的预设分割比例将所述待处理音频文件至少分割成
第一音频文件和第二音频文件。也即，根据所述待处理音频文件的时长和对应的预设分割
比例将所述待处理音频文件至少分割成第一音频文件和第二音频文件，或者，也可以是根
据所述待处理音频文件的大小和对应的预设分割比例将所述待处理音频文件至少分割成
第一音频文件和第二音频文件。这种分割方式相对于按照预设标准大小或者预设标准时长
来说，灵活性更好，一旦预设标准大小或者预设标准时长设置好之后，分割时就相对固定；
而根据待处理音频文件的时长或大小和对应的预设分割比例这种方式，即使分割比例是固
定的，但是还与时长或大小相关。例如，假设比例为10％，若时长为60s，则可以确定分割后
的子音频为6s，若时长为30s，则可以确定分割后的子音频为3s，根据待处理音频文件的大
小和对应的预设分割比例的分割方式与之类似，不再累赘。

[0044] 其中，需要说明的是，上述的预设分割比例，可以是根据需要或者经验事先自定义，也可以是在获取待处理音频之后，分割之前确定的，此时，该方法还包括，确定该预设分
割比例。可以通过以下的方式确定该预设分割比例，作为一种实施方式，可以是获取当前时
刻用于请求对音频文件进行处理的服务请求量；根据所述服务请求量确定所述预设分割比
例。在当前时刻请求对音频文件进行处理的服务请求量越大(高峰期)，表明需要处理的音
频文件就越多，需要占用的服务器内存资源就越大，因此，此时可以将预设分割比例设置相
对小一点，如5％；在非高峰期时，服务请求量相对较小，此时可以将预设分割比例设置相对
大一点，如20％、30％等。可以按照这种设置思路，事先制定一个关于服务请求量与预设分
割比例的关系表，这样在对待处理音频文件进行分割时，直接，根据待处理音频文件的同一
时刻的服务请求量来查表即可确定本次分割的分割比例。

[0045] 作为另一种实施方式，也可以是根据所述待处理音频文件的时长或大小确定所述预设分割比例。该实施方式下，是根据待处理音频文件的时长或大小来确定该预设分割比
例，例如待处理音频文件的时长越长或大小越大，则该预设分割比例可以相对设置大一点，
若待处理音频文件的时长越短或大小越小，则该预设分割比例可以相对设置小一点。可以
按照这种设置思路，事先制定一个关于时长或大小与预设分割比例的关系表，这样在对待
处理音频文件进行分割时，直接，根据待处理音频文件的大小或时长来查表即可确定本次
分割的分割比例。

[0046] 此外，还可以考虑其他的因素来确定预设分割比例，确定的因素并不限于此，例如，可以是同时考虑待处理音频文件的时长、大小以及当前时刻的服务请求量来确定该预
设分割比例。

[0047] 其中，需要说明的是，按照上述分割方式对所述待处理音频文件进行分割时，并不限于将其只分割为两段，即分割成第一音频文件和第二音频文件，例如，按照6s的预设分割
时长将一段60s长的音频文件进行分割，则可以分割成10段子音频文件。

[0048] 其中，需要说明的是，在分割的过程中，为了避免选择的分割点存在有效音频，因此，在分割时，相邻两段子音频之间会有部分重叠区，以上述的例子为例，假设有0.5秒的重
叠去，则[0－6s]、[5.5－11.5]、[11－17]、[16.5－22.5]...以此类推。

[0049] 步骤S103：依次将所述第一音频文件和所述第二音频文件加载到处理区域中。

[0050] 按照上述分割方式将所述待处理音频文件至少分割成第一音频文件和第二音频文件后，依次将所述第一音频文件和所述第二音频文件加载到处理区域(也即内存)中。为
了便于理解加载的具体过程，此外，仅以将待处理音频文件分割成第一音频文件和第二音
频文件为例进行说明，其余分割成多个子音频文件的加载情况与之类似。作为一种实施方
式，可以是先加载第一音频文件，并对记载到处理区域中的第一音频文件进行后续处理，如
语音识别，在确定所述第一音频文件处理完成时，才将所述第二音频文件加载到所述处理
区域中。也即该实施方式下，音频文件是分段处理的，一段处理完了才处理下一段。

[0051] 作为另一种实施方式，可以是先加载第一音频文件，并对记载到处理区域中的第一音频文件进行后续处理，如语音识别，在所述第一音频文件的处理过程中，将所述第二音
频文件加载到所述处理区域中。该实施方式下，是在处理某段音频文件的过程中，紧接着就
可以对其下一段音频文件进行加载。

[0052] 综上所述，本申请实施例提供了一种音频处理方法，包括：获取待处理音频文件，将所述待处理音频文件至少分割成第一音频文件和第二音频文件，依次将所述第一音频文
件和所述第二音频文件加载到处理区域中。通过对待处理音频文件进行分割，将其分割成
至少两段子音频，并依次对分割后的子音频进行分时处理，使得同时间段被加载到内存中
的音频文件相对较少，显著降低了内存的占用率，在出现大量服务请求时，由于每次读入音
频数据相对较少，从而支持更大数量的服务请求量，且单位处理占用的内存大小是固定的，
解决了现有技术内存不可控带来的缺陷。

[0053] 作为一种实施方式，请参阅图3，为本发明实施例提供的另一种应用于上述电子设备100的音频处理方法，下面将结合图3对其所包含的步骤进行说明。

[0054] 步骤S201：获取待处理音频文件。

[0055] 该步骤与步骤S101相同，具体过程请参阅步骤S101。

[0056] 步骤S202：将所述待处理音频文件至少分割成第一音频文件和第二音频文件。

[0057] 该步骤与步骤S102相同，具体过程请参阅步骤S102。

[0058] 步骤S203：依次将所述第一音频文件和所述第二音频文件加载到处理区域中。

[0059] 该步骤与步骤S103相同，具体过程请参阅步骤S103。

[0060] 步骤S204：对加载到所述处理区域中的所述第一音频文件和所述第二音频文件进行语音识别，得到所述第一音频文件对应的第一识别结果和所述第二音频文件对应的第二
识别结果。

[0061] 为了便于理解，下面将对语音识别的过程进行说明，该过程大致包括以下步骤：选取与所述待处理音频文件对应的解码算法对分割得到的各段音频文件(至少包括第一音频
文件和第二音频文件)进行解码，得到对应的待识别音频波形；对每段所述待识别音频波形
进行分帧，得到对应的数据帧集；对每个所述数据帧集中的每一帧波形数据进行声学特征
提取，得到对应的特征向量序列；根据事先训练的声学模型、语音模型以及字典对每个所述
特征向量序列进行语音识别。

[0062] 下面将围绕这几个步骤进行说明，若识别是在服务器一侧来完成的，也即用户在用户终端一侧输入语音，用户终端将其发送给服务器来进行后续处理时，由于音频文件在
传输的时候需要压缩，因此该实施方式下，在对音频文件进行处理时，需要根据文件类型选
择相应的解码方法进行解码，得到对应的待识别音频波形(Pulse Code Modulation，PCM)，
然后再进行后续的识别匹配，最终输出语音识别结果；若对用户输入的语音的处理过程是
在本地侧完成，则不需要选取与所述待处理音频文件对应的解码算法对分割得到的各段音
频文件进行解码这一操作，也即在该实施方式下，音频文件即为音频波形，可直接进行后续
的识别匹配，最终输出语音识别结果。由于对每段子音频文件的识别过程是一样，下面仅以
对其中的某段音频文件如第一音频文件进行说明，先对第一音频文件先进性分帧，得到对
应的数据帧集，如以帧长20ms，帧移10ms为标准进行，帧移10ms即在帧与帧之间保留10ms的
重叠，以避免在分帧时选择的切点位置存在有效音频，同时确保帧与帧之间的状态变化不
会过大，如第一音频文件的音频波形数据共有100ms，按上述标准进行分帧操作，可以得到
的波形数据帧有：[0ms－20ms]，[10ms－30ms]，[20ms－40ms]，[30ms－50ms]，[40ms－
60ms]…等共计9个数据帧。

[0063] 在得到第一音频文件的数据帧集后，需要将其转换为计算机能够识别处理的信息格式并保证计算机的处理效率，需要对第一音频文件的数据帧集中的每一帧波形数据进行
声学特征提取，得到对应的特征向量序列，其中，声学特征提取，包括数据降维与数据量化，
即识别获取该帧内有价值的声学信息并将之量化为较低维度数据。作为一种实施方式，可
以利用梅尔频率倒谱系数(Mel－Frequency Cepstrum Coefficien，MFCC)获得每一帧的特
征向量。在获得每一帧的特征向量后，需要对其进行匹配，从而得到帧与状态的匹配度和拥
有最大匹配概率状态序列，进而得到最终的识别结果，而匹配所需要的参考信息就来自声
学模型、词典和语言模型。也即，根据事先训练的声学模型、语音模型以及字典对每个所述
特征向量序列进行语音识别，即可得到最终的识别结果。进一步地，根据所述声学模型对每
个所述特征向量序列进行处理，获得对应的因素信息；再根据所述字典中的音素与词或字
的映射关系获取与每个所述因素信息相对应的词或字；最后，再根据所述语音模型中的单
个词或字相互关联的概率将每个所述因素信息相对应的词或字识别成对应的文本。

[0064] 其中，在对下一段子音频文件进行语音识别的过程中，会在前一段子音频文件的识别结果的基础上继续进行识别匹配，同时动态调整前一段子音频文件的识别结果，组成
一个这两段子音频文件的最优匹配序列，并组合成为新的识别结果，以提高识别的准确性。

[0065] 其中，在匹配阶段，根据帧数量与状态，穷举出所有可能的状态序列，通过声学模型信息，对每一组合的匹配概率进行计算和比较，筛选得到一个最优状态序列，并组合成为
若干音素，然后根据得到的音素，结合词典和语言模型，综合考虑单词转移概率，进而计算
得到总体上拥有最大匹配概率的那个单词序列，亦即我们识别得到的最终句子文本。其中，
声学模型包含帧与状态之间匹配概率(即每一状态对应各种特征向量的概率)、状态间的转
移概率以及状态与音素之间的映射关系(音素由若干状态组成)。词典反映音素和单词或字
(单词或字由若干个音素组成)的对应关系。语言模型包含根据语义语法定义，一个单词或
字连接到下一个单词或字的概率大小(如单词We到单词are的概率很大，而单词We到单词me
的概率极低)。

[0066] 其中需要说明的是，上述的语言模型以及声学模型需要事先训练，而训练的过程已经很普遍了，在此不作过多说明。其中，声学模型可以是HMM－GMM声学模型，也即隐马尔
可夫－高斯混合模型，也可以是HMM－DNN声学模型，即隐马尔可夫－深度神经网络模型。其
中，语言模型可以是N－gram语言模型。

[0067] 步骤S205：基于所述第一识别结果和所述第二识别结果得到目标文本。

[0068] 在得到各段子音频文件对应的识别结果后，基于各段音频文件对应的识别结果得到目标文本，例如，得到第一音频文件对应的第一识别结果和所述第二音频文件对应的第
二识别结果后，将第一识别结果和第二识别结果进行拼接，即可得到最终的目标文本。本实
施例中，仅示出了基于第一识别结果和第二识别结果得到最终的目标文本的情形，对于基
于多个识别结果得到最终目标文本的情形与之类型，在此不再累赘。

[0069] 其中，可以是得到最终目标文本后在返回给用户，也可以是在对每一段子音频进行语音识别的过程中，得到对应的识别结果是，就将其返回给用户，如在得到第一识别结果
后，就将其返回给用户，在得到第二识别结果后，也将其返回给用户，这样第一识别结果+第
二识别结果就是一个完整的最终结果。

[0070] 本申请实施例，还提供了一种音频处理装置110，如图4所示。该音频处理装置110包括：获取模块111、分割模块112以及加载模块113。

[0071] 获取模块111，用于获取待处理音频文件。可选地，所述获取模块111，还用于在语音获取的过程中，判断当前获取的音频文件是否包含有用于表征特定应用环境的预设的标
识信息；以及还用于在为是时，将所述当前获取的音频文件作为所述待处理音频文件。

[0072] 分割模块112，用于将所述待处理音频文件至少分割成第一音频文件和第二音频文件。可选地，所述分割模块112，还用于根据所述待处理音频文件的时长或大小和对应的
预设分割比例将所述待处理音频文件至少分割成第一音频文件和第二音频文件。

[0073] 加载模块113，用于依次将所述第一音频文件和所述第二音频文件加载到处理区域中。

[0074] 可选地，所述音频处理装置110还包括：确定模块，用于确定所述预设分割比例。可选地，所述确定模块，还用于获取当前时刻用于请求对音频文件进行处理的服务请求量；以
及还用于根据所述服务请求量确定所述预设分割比例。可选地，所述确定模块，还用于根据
所述待处理音频文件的时长或大小确定所述预设分割比例。

[0075] 可选地，所述音频处理装置110还包括：还包括：识别模块和拼接模块。其中，所述识别模块，用于对加载到所述处理区域中的所述第一音频文件和所述第二音频文件进行语
音识别，得到所述第一音频文件对应的第一识别结果和所述第二音频文件对应的第二识别
结果。所述拼接模块，用于基于所述第一识别结果和所述第二识别结果得到目标文本。

[0076] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0077] 本发明实施例所提供的音频处理装置110，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应
内容。

[0078] 本申请实施例还提供了一种计算机可读取非易失性存储介质，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述所述的音频处理方法。

[0079] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图
显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、
功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一
部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执
行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于
附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也
可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每
个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基
于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0080] 另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

[0081] 所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计
算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个
人计算机，笔记本电脑，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部
或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only
Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一
个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之
间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在
涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些
要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除
在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0082] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修
改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种音频处理方法、装置、电子设备及存储介质转让专利

申请号 : CN201910106169.8

文献号 : CN109840052B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 林子盛 , 雷杰 , 王波

申请人 : 成都超有爱科技有限公司

摘要 :

权利要求 :

说明书 :