数字人界面控制的优化方法转让专利

申请号 : CN202311436484.X

文献号 : CN117152317B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘松国范诗扬

申请人 : 之江实验室科技控股有限公司

摘要 :

本申请涉及智能控制技术领域,其具体地公开了一种数字人界面控制的优化方法,其利用深度学习技术从唇语识别图像集中提取出唇形参考特征,以及从输入的音频数据中提取出音频语义特征,同时建立音频语义特征和唇形参考特征的关联关系,并基于二者的关联特征生成对应于输入音频的唇形动作视频。这样,能够实现更加精准的口型驱动,使虚拟数字人的口型表现更加逼真,提供更加自然、流畅的虚拟人机交互体验。(56)对比文件任玉强;田国栋;周祥东;吕江靖;周曦.高安全性人脸识别系统中的唇语识别算法研究.计算机应用研究.2017,(04),全文.

权利要求 :

1.一种数字人界面控制的优化方法,其特征在于,包括:

获取唇语识别图像集和音频数据;

将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;

将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;

提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;

将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;

对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;

对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;

将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频;

其中,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵,包括:对所述关联特征矩阵进行特征矩阵切分以得到关联局部特征矩阵的序列;

将所述关联局部特征矩阵的序列通过基于Softmax函数的秩序性权重生成器以得到秩序权重值的序列;

基于所述秩序权重值的序列,对所述关联局部特征矩阵的序列进行排序以得到重排关联局部特征矩阵的序列;

对所述重排关联局部特征矩阵的序列进行特征展平化以得到重排关联局部特征向量的序列;

将所述重排关联局部特征向量的序列通过基于转换器的上下文编码器以得到上下文重排关联局部特征向量的序列;

对所述秩序权重值的序列进行基于最大值的归一化处理以得到归一化秩序权重值的序列;

以所述归一化秩序权重值的序列中各个位置的归一化秩序权重值作为权重,分别对所述上下文重排关联局部特征向量的序列进行加权以得到优化上下文重排关联局部特征向量的序列;

对所述优化上下文重排关联局部特征向量的序列进行维度重构以得到所述优化关联特征矩阵。

2.根据权利要求1所述的数字人界面控制的优化方法,其特征在于,所述多尺度唇语图像特征提取器包括第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的级联层,其中,所述第一卷积层使用具有第一尺度的二维卷积核,所述第二卷积层使用具有第二尺度的二维卷积核。

3.根据权利要求2所述的数字人界面控制的优化方法,其特征在于,将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量,包括:使用所述多尺度唇语图像特征提取器的第一卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第一尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第一尺度唇语动作特征向量;

使用所述多尺度唇语图像特征提取器的第二卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第二尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第二尺度唇语动作特征向量;

融合所述第一尺度唇语动作特征向量和所述第二尺度唇语动作特征向量以得到所述多尺度唇语动作特征向量。

4.根据权利要求3所述的数字人界面控制的优化方法,其特征在于,将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量,包括:使用所述卷积神经网络的各层在层的正向传递中对输入数据分别进行:基于三维卷积核对所述输入数据进行卷积处理以得到卷积特征图;

对所述卷积特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量;

计算所述通道特征向量中各个位置的特征值相对于所述通道特征向量的所有位置的特征值的加权和的比值以得到通道加权特征向量;

以所述通道加权特征向量中各个位置的特征值作为权重对所述卷积特征图的沿通道维度的特征矩阵进行加权以得到通道注意力特征图;

对所述通道注意力特征图进行沿通道维度的各个特征矩阵的全局池化处理以得到池化特征图;

对所述池化特征图进行激活处理以生成激活特征图;

其中,所述卷积神经网络的最后一层的输出为所述音频特征向量,所述卷积神经网络的第一层的输入为所述多通道声音谱图。

5.根据权利要求4所述的数字人界面控制的优化方法,其特征在于,对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵,包括:以如下关联公式对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到所述关联特征矩阵;

其中,所述关联公式为: 其中 表示所述唇形参考数据特征向量, 表示所述唇形参考数据特征向量的转置向量, 表示所述音频特征向量, 表示所述关联特征矩阵, 表示向量相乘。

6.根据权利要求5所述的数字人界面控制的优化方法,其特征在于,所述基于对抗生成网络的视频生成器包含鉴别器和生成器,其中,所述生成器用于生成视频,所述鉴别器用于计算生成视频和参考视频之间的差异,并通过梯度下降的方向传播算法来更新所述生成器的网络参数以得到具有生成准确的唇形动作视频功能的生成器;进而,再将所述优化关联特征矩阵输入所述基于对抗生成网络的视频生成器的生成器以得到所述对应于输入音频的唇形动作视频。

7.一种数字人界面控制的优化系统,其特征在于,包括:

数据采集模块,用于获取唇语识别图像集和音频数据;

唇形动作特征提取模块,用于将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;

唇形动作前后向关联特征提取模块,用于将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;

音频谱图提取模块,用于提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;

音频特征提取模块,用于将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;

关联模块,用于对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;

优化模块,用于对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;

唇形控制结果生成模块,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频;

其中,所述优化模块,包括:

对所述关联特征矩阵进行特征矩阵切分以得到关联局部特征矩阵的序列;

将所述关联局部特征矩阵的序列通过基于Softmax函数的秩序性权重生成器以得到秩序权重值的序列;

基于所述秩序权重值的序列,对所述关联局部特征矩阵的序列进行排序以得到重排关联局部特征矩阵的序列;

对所述重排关联局部特征矩阵的序列进行特征展平化以得到重排关联局部特征向量的序列;

将所述重排关联局部特征向量的序列通过基于转换器的上下文编码器以得到上下文重排关联局部特征向量的序列;

对所述秩序权重值的序列进行基于最大值的归一化处理以得到归一化秩序权重值的序列;

以所述归一化秩序权重值的序列中各个位置的归一化秩序权重值作为权重,分别对所述上下文重排关联局部特征向量的序列进行加权以得到优化上下文重排关联局部特征向量的序列;

对所述优化上下文重排关联局部特征向量的序列进行维度重构以得到所述优化关联特征矩阵。

8.根据权利要求7所述的数字人界面控制的优化系统,其特征在于,所述多尺度唇语图像特征提取器包括第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的级联层,其中,所述第一卷积层使用具有第一尺度的二维卷积核,所述第二卷积层使用具有第二尺度的二维卷积核。

9.根据权利要求8所述的数字人界面控制的优化系统,其特征在于,所述唇形动作特征提取模块,包括:第一尺度特征提取单元,用于使用所述多尺度唇语图像特征提取器的第一卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第一尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第一尺度唇语动作特征向量;

第二尺度特征提取单元,用于使用所述多尺度唇语图像特征提取器的第二卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第二尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第二尺度唇语动作特征向量;

多尺度特征融合单元,用于融合所述第一尺度唇语动作特征向量和所述第二尺度唇语动作特征向量以得到所述多尺度唇语动作特征向量。

说明书 :

数字人界面控制的优化方法

技术领域

[0001] 本申请涉及智能控制技术领域,且更为具体地,涉及一种数字人界面控制的优化方法。

背景技术

[0002] 数字人是指利用计算机技术生成的虚拟人物形象,数字人具备人类的外观和行为模式,其本体存在于计算设备中(比如电脑、手机)中,通过显示设备呈现出来,让人类能通过眼睛看见。在平常的观感上,数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。
[0003] 在数字人界面控制领域中,虚拟形象语音动画合成技术可以根据输入语音,通过某种规则或者深度学习算法生成对应的3D虚拟形象人脸表情系数,从而完成3D虚拟形象的口型的精准驱动,实现虚拟数字人在新闻播报、虚拟客服等领域的应用。唇形驱动控制直接影响数字人的逼真程度,但现有的唇形驱动控制技术,在虚拟数字人的语音交互的过程中,唇形与语音的匹配效果不佳。
[0004] 因此,期待一种数字人界面控制的优化方法。

发明内容

[0005] 为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数字人界面控制的优化方法,其利用深度学习技术从唇语识别图像集中提取出唇形参考特征,以及从输入的音频数据中提取出音频语义特征,同时建立音频语义特征和唇形参考特征的关联关系,并基于二者的关联特征生成对应于输入音频的唇形动作视频。这样,能够实现更加精准的口型驱动,使虚拟数字人的口型表现更加逼真,提供更加自然、流畅的虚拟人机交互体验。
[0006] 相应地,根据本申请的一个方面,提供了一种数字人界面控制的优化方法,其包括:
[0007] 获取唇语识别图像集和音频数据;
[0008] 将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;
[0009] 将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;
[0010] 提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;
[0011] 将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;
[0012] 对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;
[0013] 对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;
[0014] 将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。
[0015] 在上述数字人界面控制的优化方法中,所述多尺度唇语图像特征提取器包括第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的级联层,其中,所述第一卷积层使用具有第一尺度的二维卷积核,所述第二卷积层使用具有第二尺度的二维卷积核。
[0016] 在上述数字人界面控制的优化方法中,将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量,包括:使用所述多尺度唇语图像特征提取器的第一卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第一尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第一尺度唇语动作特征向量;使用所述多尺度唇语图像特征提取器的第二卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第二尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第二尺度唇语动作特征向量;融合所述第一尺度唇语动作特征向量和所述第二尺度唇语动作特征向量以得到所述多尺度唇语动作特征向量。
[0017] 在上述数字人界面控制的优化方法中,将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量,包括:使用所述卷积神经网络的各层在层的正向传递中对输入数据分别进行:基于三维卷积核对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量;计算所述通道特征向量中各个位置的特征值相对于所述通道特征向量的所有位置的特征值的加权和的比值以得到通道加权特征向量;以所述通道加权特征向量中各个位置的特征值作为权重对所述卷积特征图的沿通道维度的特征矩阵进行加权以得到通道注意力特征图;对所述通道注意力特征图进行沿通道维度的各个特征矩阵的全局池化处理以得到池化特征图;对所述池化特征图进行激活处理以生成激活特征图;其中,所述卷积神经网络的最后一层的输出为所述音频特征向量,所述卷积神经网络的第一层的输入为所述多通道声音谱图。
[0018] 在上述数字人界面控制的优化方法中,对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵,包括:以如下关联公式对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到所述关联特征矩阵;
[0019] 其中,所述关联公式为:
[0020]
[0021] 其中 表示所述唇形参考数据特征向量, 表示所述唇形参考数据特征向量的转置向量,表示所述音频特征向量,表示所述关联特征矩阵,表示向量相乘。
[0022] 在上述数字人界面控制的优化方法中,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵,包括:对所述关联特征矩阵进行特征矩阵切分以得到关联局部特征矩阵的序列;将所述关联局部特征矩阵的序列通过基于Softmax函数的秩序性权重生成器以得到秩序权重值的序列;基于所述秩序权重值的序列,对所述关联局部特征矩阵的序列进行排序以得到重排关联局部特征矩阵的序列;对所述重排关联局部特征矩阵的序列进行特征展平化以得到重排关联局部特征向量的序列;将所述重排关联局部特征向量的序列通过基于转换器的上下文编码器以得到上下文重排关联局部特征向量的序列;对所述秩序权重值的序列进行基于最大值的归一化处理以得到归一化秩序权重值的序列;以所述归一化秩序权重值的序列中各个位置的归一化秩序权重值作为权重,分别对所述上下文重排关联局部特征向量的序列进行加权以得到优化上下文重排关联局部特征向量的序列;对所述优化上下文重排关联局部特征向量的序列进行维度重构以得到所述优化关联特征矩阵。
[0023] 在上述数字人界面控制的优化方法中,所述基于对抗生成网络的视频生成器包含鉴别器和生成器,其中,所述生成器用于生成视频,所述鉴别器用于计算生成视频和参考视频之间的差异,并通过梯度下降的方向传播算法来更新所述生成器的网络参数以得到具有生成准确的唇形动作视频功能的生成器;进而,再将所述优化关联特征矩阵输入所述基于对抗生成网络的视频生成器的生成器以得到所述对应于输入音频的唇形动作视频。
[0024] 根据本申请的另一个方面,提供了一种数字人界面控制的优化系统,其包括:
[0025] 数据采集模块,用于获取唇语识别图像集和音频数据;
[0026] 唇形动作特征提取模块,用于将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;
[0027] 唇形动作前后向关联特征提取模块,用于将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;
[0028] 音频谱图提取模块,用于提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;
[0029] 音频特征提取模块,用于将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;
[0030] 关联模块,用于对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;
[0031] 优化模块,用于对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;
[0032] 唇形控制结果生成模块,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。
[0033] 在上述数字人界面控制的优化系统中,所述多尺度唇语图像特征提取器包括第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的级联层,其中,所述第一卷积层使用具有第一尺度的二维卷积核,所述第二卷积层使用具有第二尺度的二维卷积核。
[0034] 在上述数字人界面控制的优化系统中,所述唇形动作特征提取模块,包括:第一尺度特征提取单元,用于使用所述多尺度唇语图像特征提取器的第一卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第一尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第一尺度唇语动作特征向量;第二尺度特征提取单元,用于使用所述多尺度唇语图像特征提取器的第二卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第二尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第二尺度唇语动作特征向量;多尺度特征融合单元,用于融合所述第一尺度唇语动作特征向量和所述第二尺度唇语动作特征向量以得到所述多尺度唇语动作特征向量。
[0035] 与现有技术相比,本申请提供的数字人界面控制的优化方法,其利用深度学习技术从唇语识别图像集中提取出唇形参考特征,以及从输入的音频数据中提取出音频语义特征,同时建立音频语义特征和唇形参考特征的关联关系,并基于二者的关联特征生成对应于输入音频的唇形动作视频。这样,能够实现更加精准的口型驱动,使虚拟数字人的口型表现更加逼真,提供更加自然、流畅的虚拟人机交互体验。

附图说明

[0036] 通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0037] 图1为根据本申请实施例的数字人界面控制的优化方法的流程图。
[0038] 图2为根据本申请实施例的数字人界面控制的优化方法的架构示意图。
[0039] 图3为根据本申请实施例的数字人界面控制的优化方法中将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量的流程图。
[0040] 图4为根据本申请实施例的数字人界面控制的优化系统的框图。

具体实施方式

[0041] 下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
[0042] 图1为根据本申请实施例的数字人界面控制的优化方法的流程图。如图1所示,根据本申请实施例的数字人界面控制的优化方法,包括步骤:S110,获取唇语识别图像集和音频数据;S120,将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;S130,将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;S140,提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;S150,将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;S160,对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;S170,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;S180,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。
[0043] 图2为根据本申请实施例的数字人界面控制的优化方法的架构示意图。如图2所示,首先,获取唇语识别图像集和音频数据。然后,将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量。接着,将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量。同时,提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图。其次,将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量。继而,对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵。接着,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵。最后,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。
[0044] 在上述数字人界面控制的优化方法中,所述步骤S110,获取唇语识别图像集和音频数据。相应地,为了提高数字人唇形与语音的匹配程度,可以通过获取唇语识别图像集来提供唇形参考数据,所述唇语识别图像集是包含了不同说话人、不同发音和不同表情的唇部形状和运动信息的数据集,可以用于训练虚拟数字人的口型和嘴唇运动,以生成和输入音频相匹配的口型运动。因此,在本申请的技术方案中,利用深度学习技术从唇语识别图像集中提取出唇形参考特征,以及从输入的音频数据中提取出音频语义特征,同时建立音频语义特征和唇形参考特征的关联关系,并基于二者的关联特征生成对应于输入音频的唇形动作视频。这样,能够实现更加精准的口型驱动,使虚拟数字人的口型表现更加逼真,提供更加自然、流畅的虚拟人机交互体验。具体地,在本申请的技术方案中,首先,获取唇语识别图像集和音频数据。
[0045] 在上述数字人界面控制的优化方法中,所述步骤S120,将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量。考虑到唇语是通过观察嘴唇的形状和运动来理解和解释语言的一种方式,不同的唇语动作图像在高维特征空间上具有不同尺度的特征。为了捕捉不同尺度下的唇语动作信息,进一步使用多尺度唇语图像特征提取器分别对所述唇语识别图像集中的各个唇语识别图像进行特征挖掘。应可以理解,所述多尺度唇语图像特征提取器通过使用不同尺度的卷积核在唇语识别图像上进行卷积操作,来捕捉唇部运动的细节和整体特征。例如,较小尺度的卷积核能够更好地捕捉到嘴唇的细微运动,而较大尺度的卷积核能够更好地捕捉到嘴唇的整体形状变化。通过提取多个多尺度唇语动作特征向量,可以综合利用不同尺度下的信息,从而更全面地描述唇语动作。这样,从所述唇语识别图像集中提取出对应于各个唇语识别图像的多尺度唇语动作特征向量,以提高唇语特征的表达能力,从而增强后续唇形驱动控制的准确性。
[0046] 相应地,在一个具体示例中,所述多尺度唇语图像特征提取器包括第一卷积层、与所述第一卷积层并行的第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的级联层,其中,所述第一卷积层使用具有第一尺度的二维卷积核,所述第二卷积层使用具有第二尺度的二维卷积核。
[0047] 图3为根据本申请实施例的数字人界面控制的优化方法中将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量的流程图。如图3所示,所述步骤S120,包括:S210,使用所述多尺度唇语图像特征提取器的第一卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第一尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第一尺度唇语动作特征向量;S220,使用所述多尺度唇语图像特征提取器的第二卷积层的各层在层的正向传递中分别对输入数据进行:基于所述具有第二尺度的二维卷积核对所述输入数据进行卷积处理、全局均值池化处理和非线性激活处理以得到第二尺度唇语动作特征向量;S230,融合所述第一尺度唇语动作特征向量和所述第二尺度唇语动作特征向量以得到所述多尺度唇语动作特征向量。
[0048] 在上述数字人界面控制的优化方法中,所述步骤S130,将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量。考虑到唇语动作是一个随时间变化的序列,其中每个时间步都包含了唇部的动作信息。为了更好地理解和表示唇语动作,需要考虑动作序列中的时序关系。因此,进一步使用双向长短期记忆神经网络模型( ,Long Short‑Term Memory)对所述多个多尺度唇语动作特征向量进行处理,以捕捉唇语动作的时序信息和上下文关系。应可以理解,所述双向长短期记忆神经网络模型通过增加输入门、输出门和遗忘门,使得神经网络的权重能够自我更新,在网络模型参数固定的情况下,不同通道的权重尺度可以动态改变,从而能够避免梯度消失或者梯度膨胀的问题。特别地,所述双向长短期记忆神经网络模型是由前向LSTM与后向LSTM组合而成,可以在正向和反向两个方向上对唇语动作特征进行建模,因此,通过所述双向长短期记忆神经网络模型获得的所述唇形参考数据特征向量通过双向传递的结合学习到了更全面的动作上下文语义理解信息,有助于更准确地建模唇语动作的时序特征。
[0049] 在上述数字人界面控制的优化方法中,所述步骤S140,提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图。应可以理解,所述音频数据中包含了语音信号的频率和能量信息,为了有效地捕捉音频信号的频谱特征表示,进一步提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图。应可以理解,对数梅尔谱图是通过将音频信号转换为梅尔刻度上的频谱表示,并取对数得到的谱图,在人类听觉感知中更符合非线性的频率感知特性。耳蜗谱图是模拟人耳内蜗壳的频率分布特性,通过将音频信号转换为耳蜗刻度上的频谱表示,能够更好地模拟人耳对音频信号的感知。而恒定Q变换谱图是一种在不同频率范围内使用不同的频率分辨率的频谱表示方法。它在低频范围具有较高的频率分辨率,在高频范围具有较低的频率分辨率。这种特性使得恒定Q变换谱图能够更好地捕捉音频信号的细节和整体特征。接着,将这些频谱特征排列为多通道声音谱图,以此将不同特征表示组合在一起,从而更好地表达音频信号的频谱特征,为后续的关联编码提供更多信息,提高唇形与语音的匹配效果。
[0050] 在上述数字人界面控制的优化方法中,所述步骤S150,将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量。考虑到在音频处理中,不同频谱特征的重要性不同,因此,为了对不同频谱特征的重要性进行自适应学习和加权,进一步使用包含通道注意力机制的卷积神经网络模型对所述多通道声音谱图进行处理。应可以理解,通道注意力机制是一种注意力机制的变体,用于在多通道输入数据中自动学习每个通道的重要性权重。它通过学习通道注意力权重来动态地调整每个通道的贡献,使得网络能够更加关注对当前任务更有帮助的通道,而滤除无关信息和噪声的干扰。这样,通过在卷积神经网络模型中引入通道注意力机制,对多通道声音谱图进行特征提取和建模,自动学习每个频谱特征通道的权重,以得到更准确和有表现力的音频特征向量,从而提高对音频信息的建模效果。
[0051] 相应地,在一个具体示例中,所述步骤S150,包括:使用所述卷积神经网络的各层在层的正向传递中对输入数据分别进行:基于三维卷积核对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量;计算所述通道特征向量中各个位置的特征值相对于所述通道特征向量的所有位置的特征值的加权和的比值以得到通道加权特征向量;以所述通道加权特征向量中各个位置的特征值作为权重对所述卷积特征图的沿通道维度的特征矩阵进行加权以得到通道注意力特征图;对所述通道注意力特征图进行沿通道维度的各个特征矩阵的全局池化处理以得到池化特征图;对所述池化特征图进行激活处理以生成激活特征图;其中,所述卷积神经网络的最后一层的输出为所述音频特征向量,所述卷积神经网络的第一层的输入为所述多通道声音谱图。
[0052] 在上述数字人界面控制的优化方法中,所述步骤S160,对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵。应可以理解,通过将所述唇形参考数据特征向量和所述音频特征向量进行关联编码,以此将唇部形状和运动信息与语音特征相结合,以捕捉到唇部形状和运动与语音之间的相关性和一致性,从而更准确地模拟说话人的口型和嘴唇运动。并且,所述关联特征矩阵提供了一个综合特征表示,其中每个元素都包含了唇部形状、运动和音频特征的相关信息,用于后续的模型训练和生成过程,以实现更自然、逼真的虚拟数字人的口型和嘴唇运动的生成。
[0053] 相应地,在一个具体示例中,所述步骤S160,包括:以如下关联公式对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到所述关联特征矩阵;
[0054] 其中,所述关联公式为:
[0055]
[0056] 其中 表示所述唇形参考数据特征向量, 表示所述唇形参考数据特征向量的转置向量,表示所述音频特征向量,表示所述关联特征矩阵,表示向量相乘。
[0057] 在上述数字人界面控制的优化方法中,所述步骤S170,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵。考虑到所述关联特征矩阵存在特征冗余和噪声,且所述关联特征矩阵的各个局部特征之间存在关系和顺序,即,所述关联特征矩阵的各个局部特征之间存在秩序性,因此,如果能够利用所述关联特征矩阵中隐含的秩序信息和局部特征之间的上下文关联,在可以对所述关联特征矩阵进行有序化建模以提高所述关联特征矩阵的特征表达的稀疏性和确定性。基于此,对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵。
[0058] 具体地,首先基于所述关联特征矩阵的局部特征分布对其进行特征矩阵切分以得到关联局部特征矩阵的序列。接着,将所述关联局部特征矩阵的序列通过基于Softmax函数的秩序性权重生成器以得到秩序权重值的序列,所述秩序权重值用于表示各个关联局部特征矩阵在类概率域对于关联结果的贡献度,相应地,所述秩序权重值的序列则构成了所述关联局部特征矩阵的序列的序列信息,即,各个关联局部特征矩阵在类概率域的影响力排名。接着,基于所述秩序权重值的序列,对所述关联局部特征矩阵的序列进行排序以得到重排关联局部特征矩阵的序列,也就是,基于所述秩序权重值的序列所提供的秩序信息,将所述关联局部特征矩阵的序列按照从小到大或从大到小的顺序排列,以增强所述关联局部特征矩阵中各个局部特征的秩序性信息,同时减少区间内的信息损失。接着,对所述重排关联局部特征矩阵的序列进行特征展平化以得到重排关联局部特征向量的序列,病将所述重排关联局部特征向量的序列通过基于转换器的上下文编码器以得到上下文重排关联局部特征向量的序列。也就是,基于转换器机制(Transformer机制)来捕捉所述关联特征矩阵中各个局部特征之间的上下文关联信息。进一步的,对所述秩序权重值的序列进行基于最大值的归一化处理以得到归一化秩序权重值的序列,并以所述归一化秩序权重值的序列中各个位置的归一化秩序权重值作为权重,分别对所述上下文重排关联局部特征向量的序列进行加权以得到优化上下文重排关联局部特征向量的序列。也就是,将隐形秩序信息和上下文信息在高维特征空间中进行融合和叠置。最终,对所述优化上下文重排关联局部特征向量的序列进行维度重构以得到所述优化关联特征矩阵。
[0059] 这样,对所述关联特征矩阵进行基于特征工程的秩序性参数化,以利用所述关联特征矩阵中各个局部特征之间的关联信息以及各个局部特征在类概率域的秩序信息,从而减少维度和噪声,增加信息量和可解释性,并且,还可以提高模型的准确度和泛化能力,因为参数化后的特征可以更好地反映数据的真实结构和规律。
[0060] 相应地,在一个具体示例中,所述步骤S170,包括:对所述关联特征矩阵进行特征矩阵切分以得到关联局部特征矩阵的序列;将所述关联局部特征矩阵的序列通过基于Softmax函数的秩序性权重生成器以得到秩序权重值的序列;基于所述秩序权重值的序列,对所述关联局部特征矩阵的序列进行排序以得到重排关联局部特征矩阵的序列;对所述重排关联局部特征矩阵的序列进行特征展平化以得到重排关联局部特征向量的序列;将所述重排关联局部特征向量的序列通过基于转换器的上下文编码器以得到上下文重排关联局部特征向量的序列;对所述秩序权重值的序列进行基于最大值的归一化处理以得到归一化秩序权重值的序列;以所述归一化秩序权重值的序列中各个位置的归一化秩序权重值作为权重,分别对所述上下文重排关联局部特征向量的序列进行加权以得到优化上下文重排关联局部特征向量的序列;对所述优化上下文重排关联局部特征向量的序列进行维度重构以得到所述优化关联特征矩阵。
[0061] 在上述数字人界面控制的优化方法中,所述步骤S180,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。应可以理解,所述对抗生成网络(GAN)是一种由生成器和鉴别器组成的框架,通过对抗训练生成器和鉴别器来生成逼真的数据。生成器根据输入特征尝试生成与输入音频相匹配的唇形动作序列。鉴别器则用于评估生成器生成的唇形动作视频的真实性,从而提供反馈信号用于生成器的训练。最终,将所述优化关联特征矩阵输入训练完成的生成器,以生成与输入音频相匹配的唇形动作视频,以实现虚拟数字人的口型和嘴唇运动的模拟。
[0062] 相应地,在一个具体示例中,所述基于对抗生成网络的视频生成器包含鉴别器和生成器,其中,所述生成器用于生成视频,所述鉴别器用于计算生成视频和参考视频之间的差异,并通过梯度下降的方向传播算法来更新所述生成器的网络参数以得到具有生成准确的唇形动作视频功能的生成器;进而,再将所述优化关联特征矩阵输入所述基于对抗生成网络的视频生成器的生成器以得到所述对应于输入音频的唇形动作视频。
[0063] 在上述数字人界面控制的优化方法中,数字人界面采用图像编码压缩技术,可减少描述图像的数据量,节省图像传输、处理时间和存储器容量。在数字人界面中,图像编码压缩可以用于存储和传输唇语识别图像集、唇形参考数据和其他与口型和嘴唇运动相关的图像数据。通过使用编码压缩算法,根据图像的统计特性和冗余信息将图像数据压缩为较小的文件大小,从而减少存储和传输所需的空间和带宽,可以降低数据传输的延迟和成本,以实现高效的图像数据压缩和解压缩,从而在保持图像质量的同时减小图像数据的存储空间和传输带宽,以支持实时应用和网络传输。
[0064] 综上,根据本申请实施例的数字人界面控制的优化方法被阐明,其利用深度学习技术从唇语识别图像集中提取出唇形参考特征,以及从输入的音频数据中提取出音频语义特征,同时建立音频语义特征和唇形参考特征的关联关系,并基于二者的关联特征生成对应于输入音频的唇形动作视频。这样,能够实现更加精准的口型驱动,使虚拟数字人的口型表现更加逼真,提供更加自然、流畅的虚拟人机交互体验。
[0065] 图4为根据本申请实施例的数字人界面控制的优化系统的框图。如图4所示,根据本申请实施例的数字人界面控制的优化系统100,包括:数据采集模块110,用于获取唇语识别图像集和音频数据;唇形动作特征提取模块120,用于将所述唇语识别图像集中的各个唇语识别图像分别通过多尺度唇语图像特征提取器以得到多个多尺度唇语动作特征向量;唇形动作前后向关联特征提取模块130,用于将所述多个多尺度唇语动作特征向量通过双向长短期记忆神经网络模型以得到唇形参考数据特征向量;音频谱图提取模块140,用于提取所述音频数据的对数梅尔谱图、耳蜗谱图和恒定Q变换谱图,并将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图;音频特征提取模块150,用于将所述多通道声音谱图通过使用通道注意力机制的卷积神经网络模型以得到音频特征向量;关联模块160,用于对所述唇形参考数据特征向量和所述音频特征向量进行关联编码以得到关联特征矩阵;优化模块170,用于对所述关联特征矩阵进行基于特征工程的秩序性参数化以得到优化关联特征矩阵;唇形控制结果生成模块180,将所述优化关联特征矩阵通过基于对抗生成网络的视频生成器以得到对应于输入音频的唇形动作视频。
[0066] 这里,本领域技术人员可以理解,上述数字人界面控制的优化系统中的各个步骤的具体操作已经在上面参考图1到图3的数字人界面控制的优化方法的描述中得到了详细介绍,并因此,将省略其重复描述。
[0067] 以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
[0068] 本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0069] 还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
[0070] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0071] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。