基于语音翻译的音频分析方法及装置转让专利

申请号 : CN202310615745.8

文献号 : CN116343751B

文献日 : 2023-08-11

本发明涉及人工智能领域，公开了一种基于语音翻译的音频分析方法及装置，用于提高语音翻译的准确率。方法包括：将第一语音数据输入第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据人声特征分析结果对第一语音数据进行语音特征数据提取，得到说话人语音特征数据；将说话人语音特征数据输入第二语音分析模型进行语言种类分析，得到语言种类信息；生成目标特征矩阵，并将目标特征矩阵和每个目标用户的语音翻译需求输入语音翻译模型进行语音翻译，得到第二语音数据；根据第一语音通道对第二语音数据进行语音分发和音频传输。

1.一种基于语音翻译的音频分析方法，其特征在于，所述基于语音翻译的音频分析方法包括：基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征向量进行矩阵融合，得到目标特征矩阵；

将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据，具体包括：将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型，其中，所述语音翻译模型包括：N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络；通过所述第一编码网络以及所述第一解码网络，对所述目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换，得到多个特征编码序列；通过所述第二编码网络以及所述第二解码网络分别对所述多个特征编码序列进行语音编译，得到每个目标用户对应的第二语音数据；

根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

2.根据权利要求1所述的基于语音翻译的音频分析方法，其特征在于，所述基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道，包括：基于预置的语音智能翻译机中的多个语音采集器对N个目标用户进行语音采集，得到第一语音数据；

分别获取每个目标用户的目标需求信息，并对所述目标需求信息进行需求解析，得到每个目标用户的语音翻译需求；

根据所述多个语音采集器，对每个目标用户的目标需求信息进行语音通道配置，得到每个目标用户的第一语音通道。

3.根据权利要求1所述的基于语音翻译的音频分析方法，其特征在于，所述将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据，包括：将所述第一语音数据输入预置的第一语音分析模型，其中，所述第一语音分析模型包括：多个声学特征提取模块；

通过所述多个声学特征提取模块，对所述第一语音数据进行人声特征分析，得到人声特征分析结果，其中，所述人声特征分析结果包括每个目标用户的人声特征；

对所述第一语音数据进行语音特征数据提取，得到初始语音特征数据；

根据所述人声特征分析结果，对所述初始语音特征数据进行说话人分类提取，得到每个目标用户对应的说话人语音特征数据。

4.根据权利要求1所述的基于语音翻译的音频分析方法，其特征在于，所述将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息，包括：将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型，其中，所述第二语音分析模型包括：输入层、隐藏层以及输出层；

通过所述第二语音分析模型对每个目标用户对应的说话人语音特征数据进行语音属性分类，得到每个目标用户对应的语音属性预测值；

根据所述语音属性预测值从预置的语言种类映射模型中匹配每个说话人语音数据对应的语言种类信息。

5.根据权利要求1所述的基于语音翻译的音频分析方法，其特征在于，所述根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征向量进行矩阵融合，得到目标特征矩阵，包括：对所述说话人语音特征数据进行特征指标转换，得到第一指标集合；

对所述语言种类信息进行种类指标转换，得到第二指标集合；

对所述第一指标集合和所述第二指标集合进行向量化重组，生成每个目标用户对应的特征向量；

对每个目标用户对应的特征向量进行矩阵融合，得到目标特征矩阵。

6.根据权利要求1所述的基于语音翻译的音频分析方法，其特征在于，所述根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输，包括：根据所述语音翻译需求，从所述第一语音通道中匹配所述第二语音数据的语音通道，得到每个第二语音数据对应的至少一个第二语音通道；

构建所述至少一个第二语音通道的需求标识以及传输标识；

根据所述需求标识以及所述传输标识，通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

7.一种基于语音翻译的音频分析装置，其特征在于，所述基于语音翻译的音频分析装置包括：采集模块，用于基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

提取模块，用于将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

分析模块，用于将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

融合模块，用于根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征向量进行矩阵融合，得到目标特征矩阵；

翻译模块，用于将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据，具体包括：将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型，其中，所述语音翻译模型包括：N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络；通过所述第一编码网络以及所述第一解码网络，对所述目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换，得到多个特征编码序列；通过所述第二编码网络以及所述第二解码网络分别对所述多个特征编码序列进行语音编译，得到每个目标用户对应的第二语音数据；

传输模块，用于根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

8.一种基于语音翻译的音频分析设备，其特征在于，所述基于语音翻译的音频分析设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音翻译的音频分析设备执行如权利要求1‑6中任一项所述的基于语音翻译的音频分析方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1‑6中任一项所述的基于语音翻译的音频分析方法。

基于语音翻译的音频分析方法及装置

技术领域

[0001] 本发明涉及人工智能领域，尤其涉及一种基于语音翻译的音频分析方法及装置。

背景技术

[0002] 语音智能翻译机是一种集成了语音识别、机器翻译和语音合成等技术的智能设备，能够将一种语言翻译成另一种语言，并输出对应的语音或文字结果。用户可以使用该设备通过说话或手写输入的方式输入原始文本，然后设备会自动进行语音识别并转换为文本形式，接着利用机器翻译算法将其翻译成所需的目标语言，最后再通过语音合成技术将翻译结果转化为语音输出。

[0003] 但是现有方案的翻译效果不佳，并且现有方案不能根据用户需求选择对应的语音进行翻译，进而导致语音翻译的准确率较低。

发明内容

[0004] 本发明提供了一种基于语音翻译的音频分析方法及装置，用于提高语音翻译的准确率。

[0005] 本发明第一方面提供了一种基于语音翻译的音频分析方法，所述基于语音翻译的音频分析方法包括：

[0006] 基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

[0007] 将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

[0008] 将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

[0009] 根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵；

[0010] 将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据；

[0011] 根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

[0012] 结合第一方面，在本发明第一方面的第一实施方式中，所述基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道，包括：

[0013] 基于预置的语音智能翻译机中的多个语音采集器对N个目标用户进行语音采集，得到第一语音数据；

[0014] 分别获取每个目标用户的目标需求信息，并对所述目标需求信息进行需求解析，得到每个目标用户的语音翻译需求；

[0015] 根据所述多个语音采集器，对每个目标用户的目标需求信息进行语音通道配置，得到每个目标用户的第一语音通道。

[0016] 结合第一方面，在本发明第一方面的第二实施方式中，所述将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据，包括：

[0017] 将所述第一语音数据输入预置的第一语音分析模型，其中，所述第一语音分析模型包括：多个声学特征提取模块；

[0018] 通过所述多个声学特征提取模块，对所述第一语音数据进行人声特征分析，得到人声特征分析结果，其中，所述人声特征分析结果包括每个目标用户的人声特征；

[0019] 对所述第一语音数据进行语音特征数据提取，得到初始语音特征数据；

[0020] 根据所述人声特征分析结果，对所述初始语音特征数据进行说话人分类提取，得到每个目标用户对应的说话人语音特征数据。

[0021] 结合第一方面，在本发明第一方面的第三实施方式中，所述将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息，包括：

[0022] 将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型，其中，所述第二语音分析模型包括：输入层、隐藏层以及输出层；

[0023] 通过所述第二语音分析模型对每个目标用户对应的说话人语音特征数据进行语音属性分类，得到每个目标用户对应的语音属性预测值；

[0024] 根据所述语音属性预测值从预置的语言种类映射模型中匹配每个说话人语音数据对应的语言种类信息。

[0025] 结合第一方面，在本发明第一方面的第四实施方式中，所述根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵，包括：

[0026] 对所述说话人语音特征数据进行特征指标转换，得到第一指标集合；

[0027] 对所述语言种类信息进行种类指标转换，得到第二指标集合；

[0028] 对所述第一指标集合和所述第二指标集合进行向量化重组，生成每个目标用户对应的特征向量；

[0029] 对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵。

[0030] 结合第一方面，在本发明第一方面的第五实施方式中，所述将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据，包括：

[0031] 将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型，其中，所述语音翻译模型包括：N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络；

[0032] 通过所述第一编码网络以及所述第一解码网络，对所述目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换，得到多个特征编码序列；

[0033] 通过所述第二编码网络以及所述第二解码网络分别对所述多个特征编码序列进行语音编译，得到每个目标用户对应的第二语音数据。

[0034] 结合第一方面，在本发明第一方面的第六实施方式中，所述根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输，包括：

[0035] 根据所述语音翻译需求，从所述第一语音通道中匹配所述第二语音数据的语音通道，得到每个第二语音数据对应的至少一个第二语音通道；

[0036] 构建所述至少一个第二语音通道的需求标识以及传输标识；

[0037] 根据所述需求标识以及所述传输标识，通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

[0038] 本发明第二方面提供了一种基于语音翻译的音频分析装置，所述基于语音翻译的音频分析装置包括：

[0039] 采集模块，用于基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

[0040] 提取模块，用于将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

[0041] 分析模块，用于将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

[0042] 融合模块，用于根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵；

[0043] 翻译模块，用于将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据；

[0044] 传输模块，用于根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

[0045] 本发明第三方面提供了一种基于语音翻译的音频分析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音翻译的音频分析设备执行上述的基于语音翻译的音频分析方法。

[0046] 本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于语音翻译的音频分析方法。

[0047] 本发明提供的技术方案中，将第一语音数据输入第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据人声特征分析结果对第一语音数据进行语音特征数据提取，得到说话人语音特征数据；将说话人语音特征数据输入第二语音分析模型进行语言种类分析，得到语言种类信息；生成目标特征矩阵，并将目标特征矩阵和每个目标用户的语音翻译需求输入语音翻译模型进行语音翻译，得到第二语音数据；根据第一语音通道对第二语音数据进行语音分发和音频传输，本发明通过对语音数据按照说话人的语音特征，分类提取出来之后再通过预先构建的语音翻译模型进行语音翻译，最后根据不同目标用户的语音翻译需求，将翻译后的语音数据分发至对应的目标用户，本发明实现了智能语音翻译，并提高了语音翻译的准确率。

附图说明

[0048] 图1为本发明实施例中基于语音翻译的音频分析方法的一个实施例示意图；

[0049] 图2为本发明实施例中人声特征分析的流程图；

[0050] 图3为本发明实施例中语言种类分析的流程图；

[0051] 图4为本发明实施例中矩阵融合的流程图；

[0052] 图5为本发明实施例中基于语音翻译的音频分析装置的一个实施例示意图；

[0053] 图6为本发明实施例中基于语音翻译的音频分析设备的一个实施例示意图。

具体实施方式

[0054] 本发明实施例提供了一种基于语音翻译的音频分析方法及装置，用于提高语音翻译的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0055] 为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于语音翻译的音频分析方法的一个实施例包括：

[0056] S101、基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

[0057] 可以理解的是，本发明的执行主体可以为基于语音翻译的音频分析装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

[0058] 具体的，服务器获取语音智能翻译机，选择并部署所需语言的语音智能翻译机，连接与多个目标用户相关联的多个语音采集器，为每个目标用户提供一个语音采集器，例如一个麦克风，让每个目标用户说出一些常见的话语或句子，并将语音信号记录下来，这些语音信号即为原始语音数据，然后服务器进行数据处理：对原始语音数据进行处理和分析，包括去除噪声、增强语音质量、提取语音特征等操作，得到第一语音数据。通过向多个目标用户提供调查问卷或与多个目标用户的沟通反馈信息进行需求信息解析，得到每个目标用户的语音翻译需求。服务器为每个目标用户创建一个对应的第一语音通道，并将第一语音通道与预置的语音智能翻译机进行连接，以确保它们能够按照目标用户的翻译需求进行翻译传输。

[0059] S102、将第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据人声特征分析结果对第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

[0060] 具体的，服务器将第一语音数据输入预置的第一语音分析模型，该第一语音分析模型中包括多个声学特征提取模块，多个声学特征提取模块能够从第一语音数据中提取出与多个目标用户相关的特征，使用多个声学特征提取模块对第一语音数据进行人声特征分析，得到人声特征分析结果。其中，人声特征分析结果包括每个目标用户的人声特征，人声特征是第一语音数据中的语音属性，例如目标用户的性别、口音以及语速特征信息。服务器对第一语音数据进行语音特征提取，得到初始的语音特征数据，然后服务器根据人声特征分析结果，将初始语音特征数据进行说话人分类提取，得到每个目标用户对应的说话人语音特征数据。其中，说话人分类是提供高斯混合模型(GMM)将第一语音数据中每个目标用户所说的语音提取出来，说话人分类的过程是将训练数据集分成两部分：一部分用于训练分类器，另一部分用于测试和验证。在训练过程中，分类器可以通过对语音信号进行建模和学习，来识别每个目标用户的语音特征，并将其与其他人的语音特征区分开来，进而实现从第一语音数据中将每个目标用户对应的说话人语音特征数据提取出来。

[0061] S103、将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

[0062] 需要说明的是，预置的第二语音分析模型包括输入层、隐藏层和输出层。输入层接收每个目标用户对应的说话人语音特征数据，然后通过隐藏层的非线性变换，将这些说话人语音特征数据映射到高维空间，输出层根据所学习的模型参数，输出每个目标用户对应的语音属性预测值。服务器通过第二语音分析模型对每个目标用户对应的说话人语音特征数据进行语音属性分类。语音属性是指目标用户的语言类型信息。在第二语音分析模型的训练过程中，使用已知的语音属性信息作为监督信号，来训练模型，当第二语音分析模型训练完成后，生成每个目标用户对应的语音属性预测值。然后通过预置的语言种类映射模型将语音属性预测值映射为语言种类信息。其中，该语言种类映射模型中包括多个语音属性预测值以及对应的语言种类信息，例如：将英语的语音属性预测值设置为1，英语即为语音属性预测值为1时的语言种类信息。服务器根据语音属性预测值从预置的语言种类映射模型中匹配每个说话人语音数据对应的语言种类信息。通过将语音属性预测值输入映射模型，可以得到每个目标用户使用的语言种类信息。根据语言种类信息，本申请能够提供对应的翻译服务，对输入语音信号进行翻译和解释。

[0063] S104、根据说话人语音特征数据和语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵；

[0064] 具体的，服务器对每个目标用户对应的说话人语音特征数据，通过特征指标转换操作，将说话人语音特征数据和语言种类信息转换为一个多维特征向量，表示其在不同特征指标下的取值情况，这些特征指标可以包括基本声学特征（如能量、过零率、频谱形状等）、高级声学特征（如MFCC、梅尔倒谱等）以及其他与语音信号相关的特征。其中，服务器对每个目标用户对应的语言种类信息，可以将其转换为一个one‑hot编码表示的向量，其中每个元素表示一种语言类型。通过使用已知的语言列表或其他方法来确定所需要的语言类别。服务器将第一指标集合和第二指标集合进行向量化重组，生成每个目标用户对应的特征向量。通过线性代数或机器学习算法将两个向量拼接或叠加成一个更大的向量，从而表示所需的特征信息。服务器对每个目标用户对应的特征向量，将每个目标用户对应的特征向量组合成一个特征矩阵。本实施例根据说话人语音特征数据和语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，是将说话人语音特征数据转换为计算机能够处理的数值向量，并将不同目标用户的信息整合在一起，从而实现更加准确、高效的语音翻译服务。

[0065] S105、将目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据；

[0066] 需要说明的是，预置的语音翻译模型包括N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络。其中，第一编码网络用于将输入的目标特征矩阵和语音翻译需求转化为一个高维特征向量；第一解码网络用于将这个特征向量转化为多个特征编码序列；第二编码网络用于将多个特征编码序列转化为语音信号的低维表示；第二解码网络用于将低维表示的语音信号转化为目标用户需要的第二语音数据。服务器将目标特征矩阵和每个目标用户的语音翻译需求输入到第一编码网络以及第一解码网络中，进行特征编码转换。服务器使用自动编码器或其他深度学习模型来提取输入特征的隐藏表示，从而得到多个特征编码序列。服务器对第二编码网络和第二解码网络，基于自回归模型、卷积神经网络等来实现语音编译功能。在训练过程中，使用已知的语音数据集和翻译数据集作为监督信号，来学习模型参数并优化模型性能。当模型训练完成后，就可以根据输入的特征编码序列，生成目标用户需要的第二语音数据。服务器针对不同目标用户的语音翻译需求，采用多路复用技术将多个输入流同时传输到语音翻译模型中进行处理。进而实现将语音信号转换为目标语言文本，并进一步转换为相应翻译后的第二语音数据。

[0067] S106、根据第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过至少一个第二语音通道对第二语音数据进行语音分发和音频传输。

[0068] 具体的，服务器对每个目标用户对应的第二语音数据，在第一语音通道中匹配相应的语音通道。服务器通过预先设定的通道映射表确定每个第二语音数据对应的至少一个第二语音通道。服务器构建至少一个第二语音通道的需求标识和传输标识，其中，需求标识主要表示语音翻译需求的相关信息，例如目标语言、翻译模型等；传输标识则表示数据传输过程中的相关参数，例如码率、帧长、采样率等。服务器根据需求标识以及传输标识，通过至少一个第二语音通道对第二语音数据进行语音分发和音频传输。将音频数据转换为数字信号，并使用已知的网络协议或其他数据传输协议来实现音频数据在不同设备之间的传递和处理。服务器使用数据压缩、重传机制提高传输效率和可靠性。

[0069] 本发明实施例中，将第一语音数据输入第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据人声特征分析结果对第一语音数据进行语音特征数据提取，得到说话人语音特征数据；将说话人语音特征数据输入第二语音分析模型进行语言种类分析，得到语言种类信息；生成目标特征矩阵，并将目标特征矩阵和每个目标用户的语音翻译需求输入语音翻译模型进行语音翻译，得到第二语音数据；根据第一语音通道对第二语音数据进行语音分发和音频传输，本发明通过对语音数据按照说话人的语音特征，分类提取出来之后再通过预先构建的语音翻译模型进行语音翻译，最后根据不同目标用户的语音翻译需求，将翻译后的语音数据分发至对应的目标用户，本发明实现了智能语音翻译，并提高了语音翻译的准确率。

[0070] 在一具体实施例中，执行步骤S101的过程可以具体包括如下步骤：

[0071] （1）基于预置的语音智能翻译机中的多个语音采集器对N个目标用户进行语音采集，得到第一语音数据；

[0072] （2）分别获取每个目标用户的目标需求信息，并对目标需求信息进行需求解析，得到每个目标用户的语音翻译需求；

[0073] （3）根据多个语音采集器，对每个目标用户的目标需求信息进行语音通道配置，得到每个目标用户的第一语音通道。

[0074] 具体的，服务器在多用户场景下，通过预置的语音智能翻译机中的多个语音采集器对N个目标用户进行语音采集，可以得到第一语音数据。这种方式可以帮助在一个群体中收集各个个体的语音信息，以便更好地满足他们的需求。分别获取每个目标用户的目标需求信息，并对目标需求信息进行需求解析，以得到每个目标用户的语音翻译需求。这些语音翻译需求可能包括诸如语言、方言、口音、发音等方面的要求。为此，可以通过与用户的沟通或者其他形式的交互来获取这些信息。如果用户能够理解英语，那么也可以通过英语来与他们交流。如果用户无法理解英语，那么通过翻译其他语言来进行处理。在获取目标需求信息时，目标用户还可以根据自己的需求反馈信息，定制其语音翻译需求。服务器根据多个语音采集器，对每个目标用户的目标需求信息进行语音通道配置，以得到每个目标用户的第一语音通道。语音通道配置是指设置合适的采样率、编码方式和传输协议等参数，以确保语音数据能够被准确地采集、传输和识别。服务器根据目标用户的语言、口音、发音等特点，选择对应的采样率、编码方式和传输协议参数。例如，对于一些口音比较重的用户，可以采用更高的采样率和更复杂的编码方式，以提高语音数据的识别率。需要说明的是，本实施例采用的标准采样率是44.1kHz，采样器每秒对声音信号进行44100次采样，获取的数字化音频信号用于后续的语言处理和存储。根据目标用户的语言、口音、发音等特点，选择不同的采样率，如8kHz、16kHz等。编码方式有MP3、AAC、ALAC、FLAC、WAV等。不同的编码方式会带来不同的压缩质量和文件大小，本实施例在采集用户语音信号时，需要高保真度的语音数据，因此选择较高的采样率和相对无损的编码方式，比如44.1kHz的采样率和WAV编码格式，能够保证声音信号的相对准确，在一些口音比较重的用户的场景下，则需要采用较低的采样率和压缩编码方式，例如8kHz采样率和MP3编码，能降低文件尺寸并减少存储、传输的时间成本，但由于压缩破坏了部分语音数据，因此在后续处理中可能存在较大的失真风险。本实施例根据实际情况和用户需求确定合适的采样率和编码方式，以达到最优的处理效果。

[0075] 在一具体实施例中，如图2所示，执行步骤S102的过程可以具体包括如下步骤：

[0076] S201、将第一语音数据输入预置的第一语音分析模型，其中，第一语音分析模型包括：多个声学特征提取模块；

[0077] S202、通过多个声学特征提取模块，对第一语音数据进行人声特征分析，得到人声特征分析结果，其中，人声特征分析结果包括每个目标用户的人声特征；

[0078] S203、对第一语音数据进行语音特征数据提取，得到初始语音特征数据；

[0079] S204、根据人声特征分析结果，对初始语音特征数据进行说话人分类提取，得到每个目标用户对应的说话人语音特征数据。

[0080] 具体的，第一语音分析模型包括多个声学特征提取模块。多个声学特征提取模块运用不同的算法来处理语音信号，获取不同层次的语音特征，如频率、时域、能量等都可以提取。服务器通过多个声学特征提取模块，第一语音数据进行人声特征分析。服务器将从第一语音数据中提取出不同的特征，用于描述声音的一些属性如音调，基频等。服务器识别出每个说话人的声纹不同，所以根据人声特征分析结果区分每个目标用户。服务器在得到了人声特征分析结果后，初步语音数据会进一步提取出语音特征数据。采用提取MFCC（Mel频率倒谱系数）的方法，在人声分离特性模型基础上充分分离海量普通环境下的目标语音并隔离其他干扰信号和背景环境声，实现该语音特征提取功能。服务器对于提取出的说话人语音特征数据，则可以根据对应的人声特征分析结果进行分类提取。通过对语音信号进行识别分析，根据分析结果将其同目标用户的特征进行匹配，从而获得目标用户对应的说话人语音特征数据。其中，声学特征提取模块包含多个网络层级：声学前处理层，对语音信号进行基本的音频信号处理，例如降噪和预加重；原始特征提取层，通过摩尔滤波器组提取出不同频段的能量，同时使用快速傅里叶变换将时间域的信号转化为频域；前向特征处理层，将原始声音特征进一步预处理，采用卷积神经网络（CNN）将特征转化为一系列更高级别的表示；状态建模层，对前向特征进行更复杂的建模，使用隐马尔可夫模型（HMM）或毫秒度的上下文独立模型等模型方法；后续特征处理层，对状态建模层输出的特征进行加权、修正或花式增强，使其更加适合特定的应用场景。能够获得最具代表性的真实环境情况，实现用户语音的下传或离线存储等功能。

[0081] 在一具体实施例中，如图3所示，执行步骤S103的过程可以具体包括如下步骤：

[0082] S301、将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型，其中，第二语音分析模型包括：输入层、隐藏层以及输出层；

[0083] S302、通过第二语音分析模型对每个目标用户对应的说话人语音特征数据进行语音属性分类，得到每个目标用户对应的语音属性预测值；

[0084] S303、根据语音属性预测值从预置的语言种类映射模型中匹配每个说话人语音数据对应的语言种类信息。

[0085] 具体的，服务器针对每个目标用户对应的说话人语音特征数据，使用预置的第二语音分析模型进行语音属性分类。第二语音分析模型包括输入层、隐藏层和输出层，并利用深度学习等技术进行设计和优化。在第二语音分析模型中，输入层接收的是针对目标用户的特定语音特征输入，通过隐藏层多次加工信息，输出数据特征的评估结果集到输出层将不同级别的特征融合在一起进行语音属性分类，得到每个目标用户对应的语音属性预测值。其中，语音属性是指发音、速度、语调等方面的信息。例如，某些目标用户的语音偏慢，说话音调平稳；而其他目标用户则可能说得快而有力，语音拖长或短，因此是针对用户个人的声学特征。最后，服务器将这些语音属性的预测值映射到预置的语言种类映射模型中以确立有效的信息汇聚。该语言种类映射模型包含不同的声学特征和语言特征，可以将预测结果映射到合适的语言类型。根据模型返回结果，在数据模板集合中，可以同时统一分类和匹配所有记录的样本数据语言类别，匹配得到每个说话人语音数据对应的语言种类信息。

[0086] 在一具体实施例中，如图4所示，执行步骤S104的过程可以具体包括如下步骤：

[0087] S401、对说话人语音特征数据进行特征指标转换，得到第一指标集合；

[0088] S402、对语言种类信息进行种类指标转换，得到第二指标集合；

[0089] S403、对第一指标集合和第二指标集合进行向量化重组，生成每个目标用户对应的特征向量；

[0090] S404、对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵。

[0091] 具体的，服务器对说话人语音特征数据进行特征指标转换，是指将原始的语音特征数据转换成适合特定算法处理的形式。在进行特征指标转换之前需要对说话人语音特征进行预处理，预处理能最大程度保留语音信号的信息并消除不稳定和噪声影响维数的影响，从而提取更独特的意义。服务器对于语言种类信息进行种类指标转换，是指将语言的符号类型结构代表映射到模型计算的数学模型中。例如，如果想要在中文、英语等多个语言种类中进行推理建模操作，将每一个类别映射为不同的向量或矩阵。根据这些输入的信息会soxproduce各自的示例语音,进而更具可比性地测试分析应用样本数据，服务器对第一指标集合和第二指标集合进行向量化重组，以便进行后续的预测或分析工作。服务器生成特定编码方案，完成不均一音频归一化的分类融合处理和多种语料含义转换迁移识别和提取特征过程。在得到每个目标用户对应的特征向量以及向量组后，则需要将特征向量进行矩阵融合处理。这是为了将不同特征向量之间产生的复杂关系进行有效地捕捉或压缩，并为高规模训练做出响应作答。矩阵融合方法包括联合映射（JM）、矩阵补全（MC）、或特征树（FT）等。

[0092] 在一具体实施例中，执行步骤S105的过程可以具体包括如下步骤：

[0093] （1）将目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型，其中，语音翻译模型包括：N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络；

[0094] （2）通过第一编码网络以及第一解码网络，对目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换，得到多个特征编码序列；

[0095] （3）通过第二编码网络以及第二解码网络分别对多个特征编码序列进行语音编译，得到每个目标用户对应的第二语音数据。

[0096] 具体的，服务器基于目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换和语音编译的翻译模型流程。该语音翻译模型包含N个第一编码网络、N个第一解码网络、N个第二编码网络以及N个第二解码网络，同时也可以应用到多个语音翻译场景中。服务器将目标特征矩阵和每个目标用户的语音翻译需求输入到预置的语音翻译模型中。其中，目标特征矩阵主要是由一些语音处理技术所提取出的语音特征序列组成。然后，在翻译模型中通过N个第一编码网络以及第一解码网络，对目标特征矩阵和每个目标用户的语音翻译需求进行特征编码转换，得到多个特征编码序列。在这个过程中，目标特征矩阵经过第一编码网络的处理，转换成数字化的信息，并传入到第一解码网络当中，得到相应的特征编码序列。同时，每个目标用户的语音翻译需求也会作为另外一个输入参数输入进来，然后经过第一编码网络与第一解码网络的处理，得到对应的特征编码序列。接下来，在该语音翻译模型中通过N个第二编码网络以及N个第二解码网络分别对多个特征编码序列进行语音编译，这样就可以得到每个目标用户对应的第二语音数据。在这个阶段中，每个目标用户的翻译需求都会与其对应的特征编码序列融合，然后通过第二编码网络生成语音编码序列，并经过第二解码网络解码进行语音编译，得到每个目标用户对应的第二语音数据。

[0097] 在一具体实施例中，执行步骤S106的过程可以具体包括如下步骤：

[0098] （1）根据语音翻译需求，从第一语音通道中匹配第二语音数据的语音通道，得到每个第二语音数据对应的至少一个第二语音通道；

[0099] （2）构建至少一个第二语音通道的需求标识以及传输标识；

[0100] （3）根据需求标识以及传输标识，通过至少一个第二语音通道对第二语音数据进行语音分发和音频传输。

[0101] 具体的，服务器通过至少一个第二语音通道对第二语音数据进行语音分发和音频传输。从第一语音通道中匹配第二语音数据对应的语音通道。这个过程中，服务器利用声纹识别等技术来判断每个第二语音数据对应的语音通道，由于不同的人具有不同的嗓音特征，所以可以通过声学分析和建模等方式来进行声纹识别。服务器构建至少一个第二语音通道的需求标识以及传输标识。服务器确定用户需要的翻译内容和输出语音的形式。服务器根据需求标识以及传输标识，通过至少一个第二语音通道对第二语音数据进行语音分发和音频传输。服务器将解析后的语音翻译结果发送给用户，并确保传输的稳定性和实时性等因素。同时还需要考虑如何支持多种不同的输出方式，比如在网络环境较差的情况下可以选择压缩传输等方式来提高传输效率。

[0102] 上面对本发明实施例中基于语音翻译的音频分析方法进行了描述，下面对本发明实施例中基于语音翻译的音频分析装置进行描述，请参阅图5，本发明实施例中基于语音翻译的音频分析装置一个实施例包括：

[0103] 采集模块501，用于基于预置的语音智能翻译机对N个目标用户进行语音采集，得到第一语音数据，并获取每个目标用户的语音翻译需求以及第一语音通道；

[0104] 提取模块502，用于将所述第一语音数据输入预置的第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据所述人声特征分析结果对所述第一语音数据进行语音特征数据提取，得到每个目标用户对应的说话人语音特征数据；

[0105] 分析模块503，用于将每个目标用户对应的说话人语音特征数据输入预置的第二语音分析模型进行语言种类分析，得到每个说话人语音数据对应的语言种类信息；

[0106] 融合模块504，用于根据所述说话人语音特征数据和所述语言种类信息生成每个目标用户对应的特征向量，并对每个目标用户对应的特征矩阵进行矩阵融合，得到目标特征矩阵；

[0107] 翻译模块505，用于将所述目标特征矩阵和每个目标用户的语音翻译需求输入预置的语音翻译模型进行语音翻译，得到每个目标用户对应的第二语音数据；

[0108] 传输模块506，用于根据所述第一语音通道对每个目标用户对应的第二语音数据进行传输通道分配，得到每个第二语音数据对应的至少一个第二语音通道，并通过所述至少一个第二语音通道对所述第二语音数据进行语音分发和音频传输。

[0109] 通过上述各个组成部分的协同合作，将第一语音数据输入第一语音分析模型进行人声特征分析，得到人声特征分析结果，并根据人声特征分析结果对第一语音数据进行语音特征数据提取，得到说话人语音特征数据；将说话人语音特征数据输入第二语音分析模型进行语言种类分析，得到语言种类信息；生成目标特征矩阵，并将目标特征矩阵和每个目标用户的语音翻译需求输入语音翻译模型进行语音翻译，得到第二语音数据；根据第一语音通道对第二语音数据进行语音分发和音频传输，本发明通过对语音数据按照说话人的语音特征，分类提取出来之后再通过预先构建的语音翻译模型进行语音翻译，最后根据不同目标用户的语音翻译需求，将翻译后的语音数据分发至对应的目标用户，本发明实现了智能语音翻译，并提高了语音翻译的准确率。

[0110] 上面图5从模块化功能实体的角度对本发明实施例中的基于语音翻译的音频分析装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于语音翻译的音频分析设备进行详细描述。

[0111] 图6是本发明实施例提供的一种基于语音翻译的音频分析设备的结构示意图，该基于语音翻译的音频分析设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于语音翻译的音频分析设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于语音翻译的音频分析设备600上执行存储介质630中的一系列指令操作。

[0112] 基于语音翻译的音频分析设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，MacOS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于语音翻译的音频分析设备结构并不构成对基于语音翻译的音频分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

[0113] 本发明还提供一种基于语音翻译的音频分析设备，所述基于语音翻译的音频分析设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于语音翻译的音频分析方法的步骤。

[0114] 本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于语音翻译的音频分析方法的步骤。

[0115] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0116] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read‑only memory， ROM）、随机存取存储器（randomacceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

[0117] 以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

基于语音翻译的音频分析方法及装置转让专利

申请号 : CN202310615745.8

文献号 : CN116343751B

文献日 : 2023-08-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 许宁涛 , 邝毅勋 , 许歆怡 , 邝隽涵

申请人 : 深圳市泰为软件开发有限公司

摘要 :

权利要求 :

说明书 :