一种基于辐射场和生成对抗网络的数据生成方法及装置转让专利

申请号 : CN202310111709.8

文献号 : CN115983352B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马惠敏于淏辰公维熙胡天宇

申请人 : 北京科技大学

摘要 :

本发明涉及图像处理技术领域,特别是指一种基于辐射场和生成对抗网络的数据生成方法及装置,一种基于辐射场和生成对抗网络的数据生成方法包括:对车辆事故场景进行数据采集,获得训练数据集;基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;根据训练数据集、数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;输入随机五种噪声,通过数据生成模型,获得自动驾驶测试图片。本发明提供了一种具备三维一致性的可控高质量数据的生成方法。

权利要求 :

1.一种基于辐射场和生成对抗网络的数据生成方法,其特征在于,所述方法包括:对车辆事故场景进行数据采集,获得训练数据集;

基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;

其中,所述数据生成训练模型包括生成器和两种判别器;

其中,所述生成器由神经辐射场模块和生成器模块构成;所述神经辐射场模块对物体进行隐式建模,合成数据的特征图;所述生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;所述风格调制模块对生成数据进行风格化卷积;所述生成上采样模块对生成数据进行分辨率增强;所述RGB转换模块将生成数据的特征图转换为RGB图像;

其中,所述两种判别器包括第一种判别器以及第二种判别器;所述第一种判别器由判别器模块构成;所述判别器模块包含第一卷积模块和判别下采样模块;所述第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;所述两种判别器根据输入判别器的数据尺寸,选择所述两种判别器的其中一种判别器进行使用;所述两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整;

根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;

其中,所述根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型,包括:根据所述训练数据集和所述数据生成训练模型进行风格抑制训练和渐进式训练,获得三维性质的训练模型;

根据所述训练数据集、所述三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;

所述风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;

所述渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式;

输入随机五种噪声,通过所述数据生成模型,获得自动驾驶测试图片。

2.根据权利要求1所述的一种基于辐射场和生成对抗网络的数据生成方法,其特征在于,所述对车辆事故场景进行数据采集,获得训练数据集,包括:通过人工采集的方式,采集1000张车辆事故场景构建事故数据集;

建立训练集数据模型;

根据所述事故数据集对所述训练集数据模型进行训练,获得可以生成真实的事故场景边角案例的事故数据训练集模型;

输入随机五种噪声,通过所述事故数据训练集模型,获得训练数据集。

3.根据权利要求1所述的一种基于辐射场和生成对抗网络的数据生成方法,其特征在于,所述基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型,包括:基于公开的生成对抗网络结构和公开的辐射场网络结构,建立数据生成训练模型;根据所述数据生成训练模型对模型的输入数据的前后景进行合成。

4.根据权利要求3所述的一种基于辐射场和生成对抗网络的数据生成方法,其特征在于,所述根据所述数据生成训练模型对模型的输入数据的前后景进行合成,包括:基于所述数据生成训练模型的神经辐射场隐空间的隐式特征,对模型的输入数据的前后景进行合成;其中,所述神经辐射场隐空间基于原始的MLP低频网络通过傅里叶编码构建得到。

5.根据权利要求1所述的一种基于辐射场和生成对抗网络的数据生成方法,其特征在于,所述方法还包括:根据所述数据生成模型开发配套的Web数据集生成系统;

通过所述Web数据集生成系统上传训练数据集生成训练脚本,并根据所述训练脚本通过所述Web数据集生成系统生成自动驾驶测试图片。

6.一种基于辐射场和生成对抗网络的数据生成装置,其特征在于,所述装置包括:训练集采集模块,用于对车辆事故场景进行数据采集,获得训练数据集;

训练模型建立模块,用于基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;

其中,所述数据生成训练模型包括生成器和两种判别器;

其中,所述生成器由神经辐射场模块和生成器模块构成;所述神经辐射场模块对物体进行隐式建模,合成数据的特征图;所述生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;所述风格调制模块对生成数据进行风格化卷积;所述生成上采样模块对生成数据进行分辨率增强;所述RGB转换模块将生成数据的特征图转换为RGB图像;

其中,所述两种判别器包括第一种判别器以及第二种判别器;所述第一种判别器由判别器模块构成;所述判别器模块包含第一卷积模块和判别下采样模块;所述第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;所述两种判别器根据输入判别器的数据尺寸,选择所述两种判别器的其中一种判别器进行使用;所述两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整;

生成模型训练模块,用于根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;

其中,所述根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型,包括:根据所述训练数据集和所述数据生成训练模型进行风格抑制训练和渐进式训练,获得三维性质的训练模型;

根据所述训练数据集、所述三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;

所述风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;

所述渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式;

测试图片获取模块,用于输入随机五种噪声,通过所述数据生成模型,获得自动驾驶测试图片。

说明书 :

一种基于辐射场和生成对抗网络的数据生成方法及装置

技术领域

[0001] 本发明涉及图像处理技术领域,特别是指一种基于辐射场和生成对抗网络的数据生成方法及装置。

背景技术

[0002] 随着汽车智能化和高级辅助驾驶技术的快速发展,自动驾驶作为辅助驾驶技术的高级阶段,俨然成为未来解决交通出行的重要方式,已成为全球范围内的一个新的技术研究热点。而由于实地场景路测要求极高且可能开销与风险大,对于自动驾驶的算法训练与验证,常常需要通过采用仿真环境以及虚拟生成的数据来检验自动驾驶算法和系统的功能鲁棒性和泛化性。
[0003] 自动驾驶技术主要依靠三维空间中获取到的雷达、点云信息作为决策依据,而目前学术界更成熟的技术是二维图像的生成,即通过GAN或者VAE等方法生成更逼真细节更好的图像。受益于自然语言处理大模型的发展,输入文字生成二维图像的程式流程也日趋成熟。不过对于具有三维感知能力的图像生成,自2020年NeRF的工作以来才逐渐发展起来,到目前为止在三维感知生成的质量上已有了极大的提升。然而目前的三维感知图像数据生成的相关工作与技术仍未能达到成熟可用的阶段,仍存在着如生成不可控、不可解释、无法生成具有三维一致性的图像序列、生成质量无法满足要求的问题。
[0004] 在数据标注方面,国内外大部分的数据集与数据标注工作仍然依赖于大量高成本的人工标注方法,而通过仿真引擎(例如CARLA)构建数据集的方法真实性较差,难以跨越虚拟到真实之间的鸿沟。利用可控的三维感知生成对抗网络生成数据集,一方面可以生成肉眼难以分辨的极具真实感的数据,另一方面构建数据集时,相关参数获取较为容易,因此利用GAN生成带标注的数据集已经逐渐成为人工智能领域可行的数据生成方法之一。而在自动驾驶场景尤其对于罕见小样本边角样例生成方向,尚未有有效工作提出以填补这方面空缺。
[0005] 生成对抗网络GAN,是经典的生成范式之一,可以用于合成高质量的RGB图像。但是大多数经典的图像合成工作都是基于2D GAN(例如GAN、CGAN、WGAN、StyleGAN2,StyleGAN2‑ADA),它们普遍缺乏对三维场景的理解,因而难以对图像生成在三维空间中进行控制。条件GAN虽然在一定程度上可以合成离散的结果(例如离散的旋转角度),但是其需要额外的标注监督,并且无法根据插值合成连续的三维变换图像。HoloGAN是较早的三维感知GAN工作,为后续工作开创了基础,其利用特征在三维空间中的变换和投影完成了三维可控的工作,但是其仅能输入单一的相机视角,并且未能获得高质量以及高三维一致性的结果。
[0006] 近些年,神经辐射场NeRF为GAN带来了新的活力。神经辐射场NeRF将三维空间中点的坐标以及相机视角作为输入,利用MLP网络,输出对应坐标下的颜色与体积密度,再利用体渲染合成RGB图像。NeRF被广泛用于三位重建的工作之中,具有非常良好的重建效果,但是其本身不具有生成能力,对于不同场景需要建模并训练不同的NeRF网络。基于NeRF设计的三维感知GAN拥有巨大的发展潜力。GRAF就是采用将NeRF和GAN巧妙的结合,利用NeRF直接合成RGB图像,但是这样存在巨大的弊端,即NeRF本身高昂的算力开销不适合直接合成高分辨率的图像,尽管后续存在许多对NeRF的改进(例如NeRF++,Plenoxels,Plenoctrees,instant‑ngp),但是它们因为存在泛用性差、不可微分、非深度学习结构等限制,难以将它们直接应用于生成任务。
[0007] 所以,在现有技术中缺乏一种同时具备较好三维一致性和高质量的可控的数据的生成方法。

发明内容

[0008] 本发明实施例提供了一种基于辐射场和生成对抗网络的数据生成方法及装置。所述技术方案如下:
[0009] 一方面,提供了一种基于辐射场和生成对抗网络的数据生成方法,该方法由电子设备实现,该方法包括:
[0010] 对车辆事故场景进行数据采集,获得训练数据集;
[0011] 基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;
[0012] 根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;
[0013] 输入随机五种噪声,通过所述数据生成模型,获得自动驾驶测试图片。
[0014] 可选地,所述对车辆事故场景进行数据采集,获得训练数据集,包括:
[0015] 通过人工采集的方式,采集1000张车辆事故场景构建事故数据集;
[0016] 建立训练集数据模型;
[0017] 根据所述事故数据集对所述训练集数据模型进行训练,获得可以生成真实的事故场景边角案例的事故数据训练集模型;
[0018] 输入随机五种噪声,通过所述事故数据训练集模型,获得训练数据集。
[0019] 其中,所述数据生成训练模型包括生成器和两种判别器。
[0020] 其中,所述生成器由神经辐射场模块和生成器模块构成;所述神经辐射场模块对物体进行隐式建模,合成数据的特征图;所述生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;所述风格调制模块对生成数据进行风格化卷积;所述生成上采样模块对生成数据进行分辨率增强;所述RGB转换模块将生成数据的特征图转换为RGB图像。
[0021] 其中,所述两种判别器包括第一种判别器以及第二种判别器;所述第一种判别器由判别器模块构成;所述判别器模块包含第一卷积模块和判别下采样模块;所述第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;所述两种判别器根据输入判别器的数据尺寸,选择所述两种判别器的其中一种判别器进行使用;所述两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整。
[0022] 可选地,所述基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型,包括:
[0023] 基于公开的生成对抗网络结构和公开的辐射场网络结构,建立数据生成训练模型;根据所述数据生成训练模型对模型的输入数据的前后景进行合成。
[0024] 可选地所述根据所述数据生成训练模型对模型的输入数据的前后景进行合成,包括:
[0025] 基于所述数据生成训练模型的神经辐射场隐空间的隐式特征,对模型的输入数据的前后景进行合成;其中,所述神经辐射场隐空间基于原始的MLP低频网络通过傅里叶编码构建得到。
[0026] 可选地,所述根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型,包括:
[0027] 根据所述训练数据集和所述数据生成训练模型进行噪声抑制训练和渐进式训练,获得三维性质的训练模型;
[0028] 根据所述训练数据集、所述三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;
[0029] 所述风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;
[0030] 所述渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式。
[0031] 可选地,所述方法还包括:
[0032] 根据所述数据生成模型开发配套的Web数据集生成系统;
[0033] 通过所述Web数据集生成系统上传训练数据集生成训练脚本,并根据所述训练脚本通过所述Web数据集生成系统生成自动驾驶测试图片。
[0034] 另一方面,提供了一种基于辐射场和生成对抗网络的数据生成装置,该装置应用于一种基于辐射场和生成对抗网络的数据生成方法,该装置包括:
[0035] 训练集采集模块,用于对车辆事故场景进行数据采集,获得训练数据集;
[0036] 训练模型建立模块,用于基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;
[0037] 生成模型训练模块,用于根据所述训练数据集、所述数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;
[0038] 测试图片获取模块,用于输入随机五种噪声,通过所述数据生成模型,获得自动驾驶测试图片。
[0039] 可选地,所述训练集采集模块,进一步用于:
[0040] 通过人工采集的方式,采集1000张车辆事故场景构建事故数据集;
[0041] 建立训练集数据模型;
[0042] 根据所述事故数据集对所述训练集数据模型进行训练,获得可以生成真实的事故场景边角案例的事故数据训练集模型;
[0043] 输入随机五种噪声,通过所述事故数据训练集模型,获得训练数据集。
[0044] 其中,所述数据生成训练模型包括生成器和两种判别器。
[0045] 其中,所述生成器由神经辐射场模块和生成器模块构成;所述神经辐射场模块对物体进行隐式建模,合成数据的特征图;所述生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;所述风格调制模块对生成数据进行风格化卷积;所述生成上采样模块对生成数据进行分辨率增强;所述RGB转换模块将生成数据的特征图转换为RGB图像。
[0046] 其中,所述两种判别器包括第一种判别器以及第二种判别器;所述第一种判别器由判别器模块构成;所述判别器模块包含第一卷积模块和判别下采样模块;所述第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;所述两种判别器根据输入判别器的数据尺寸,选择所述两种判别器的其中一种判别器进行使用;所述两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整。
[0047] 可选地,所述训练模型建立模块,进一步用于:
[0048] 基于公开的生成对抗网络结构和公开的辐射场网络结构,建立数据生成训练模型;根据所述数据生成训练模型对模型的输入数据的前后景进行合成。
[0049] 可选地,所述训练模型建立模块,进一步用于:
[0050] 基于所述数据生成训练模型的神经辐射场隐空间的隐式特征,对模型的输入数据的前后景进行合成;其中,所述神经辐射场隐空间基于原始的MLP低频网络通过傅里叶编码构建得到。
[0051] 可选地,所述生成模型训练模块,进一步用于:
[0052] 根据所述训练数据集和所述数据生成训练模型进行噪声抑制训练和渐进式训练,获得三维性质的训练模型;
[0053] 根据所述训练数据集、所述三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;
[0054] 所述风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;
[0055] 所述渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式。
[0056] 可选地,所述装置还用于:
[0057] 根据所述数据生成模型开发配套的Web数据集生成系统;
[0058] 通过所述Web数据集生成系统上传训练数据集生成训练脚本,并根据所述训练脚本通过所述Web数据集生成系统生成自动驾驶测试图片。
[0059] 另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于辐射场和生成对抗网络的数据生成方法。
[0060] 另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于辐射场和生成对抗网络的数据生成方法。
[0061] 本发明实施例提供的技术方案带来的有益效果至少包括:
[0062] 本发明提出一种基于辐射场和生成对抗网络的数据生成方法,采用车辆事故场景构建训练数据集,可以生成的高质量的事故场景图像;结合生成对抗网络和辐射场网络建立数据生成模型,根据数据生成模型生成数据具备可控性、多样性和三维一致性;根据生成模型降低数据集采集成本,可有效生成各类数据。本发明提供了一种具备三维一致性的可控高质量数据的生成方法。

附图说明

[0063] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0064] 图1是本发明实施例提供的一种基于辐射场和生成对抗网络的数据生成方法流程图;
[0065] 图2是本发明实施例提供的一种生成场景效果示意图;
[0066] 图3是本发明实施例提供的一种生成事故场景示意图;
[0067] 图4是本发明实施例提供的一种基于辐射场和生成对抗网络的数据生成装置框图;
[0068] 图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0069] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0070] 本发明实施例提供了一种基于辐射场和生成对抗网络的数据生成方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的一种基于辐射场和生成对抗网络的数据生成方法流程图,该方法的处理流程可以包括如下的步骤:
[0071] S1、对车辆事故场景进行数据采集,获得训练数据集。
[0072] 可选地,对车辆事故场景进行数据采集,获得训练数据集,包括:
[0073] 通过人工采集的方式,采集1000张车辆事故场景构建事故数据集;
[0074] 建立训练集数据模型;
[0075] 根据事故数据集对训练集数据模型进行训练,获得可以生成真实的事故场景边角案例的事故数据训练集模型;
[0076] 输入随机五种噪声,通过事故数据训练集模型,获得训练数据集。
[0077] 一种可行的实施方式中,本发明首先通过人工采集的方式构建了由1000张车辆事故场景构成的数据集Incident1K,并进行训练,得到了可以生成真实的事故场景边角案例的模型。
[0078] 为了筛选出合理的事故场景图像,在包含各类事故和自然灾害的Incident1M数据集的基础上进行了过滤,删除了背景过于杂乱的图像,保留场景中主要物体只有一个的图像,并确保物体可以在中心裁剪中被保留下来。为了便于操作,本发明同样配套了相应的数据集过滤系统。通过人工筛选的方式,获得1000张合理高质量的事故现场图像。数据集过滤系统基于Streamlit开发,用户可以选择要过滤的子数据集和相应的json文件,也可以选择要输出的json文件名。通过点击valid和invalid按钮来给图片标定是否可用,并支持撤回操作。
[0079] S2、基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型。
[0080] 其中,数据生成训练模型包括生成器和两种判别器。
[0081] 一种可行的实施方式中,为了解决自动驾驶中的基于仿真软件的生成数据在真实性上较差的问题,本发明提出了一种基于辐射场和生成对抗网络的数据生成方法。通过引入高稳定性的StyleGAN2生成器模块和判别器,增强训练稳定性,同时实现逐层添加纹理细节的效果,可以合成足以欺骗人眼的极具真实感的图像,解决了仿真数据不真实的问题。
[0082] 数据生成训练模型包含生成器、判别器、以及ADA数据增强模块。生成器输入噪声并输出图像给判别器,判别器输入真实数据图像。本发明中,设置6个生成器模块,其分辨率分别为32,64,128,256,512,1024,可以根据需要选择需要输出的分辨率,同时设置最大通道数为512,并计算每个生成器模块对应的通道数。
[0083] 其中,生成器由神经辐射场模块和生成器模块构成;神经辐射场模块对物体进行隐式建模,合成数据的特征图;生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;风格调制模块对生成数据进行风格化卷积;生成上采样模块对生成数据进行分辨率增强;RGB转换模块将生成数据的特征图转换为RGB图像。
[0084] 一种可行的实施方式中,生成器模块由若干个StyleGAN2生成器模块组成,可以写作复合函数的形式,生成器数学表达式如下式(1)所示:
[0085] ......(1)
[0086] 其中,  表示处于r分辨率下的生成器模块,  表示分辨率为r的特征图, 表示对应的生成器模块的可学习参数,  表示对应模块输出的特征图和真实图像, 表示映射网络, 负责将噪声 映射到  空间。
[0087] 生成器模块除了接受特征图  和RGB图  ,还接受  空间中的噪声并通过线性层映射为风格编码以控制合成图像的风格,共包含两个风格调制模块用于风格化卷积权重,还包含一个上采样模块和RGB转换模块,前者用于提升RGB图像的分辨率,后者用于将特征图转换为RGB图像。与已有技术不同,本发明的第一层生成器模块仅输入来自于神经辐射场建模渲染出的特征图,而不输入转换为RGB后的图像。
[0088] 其中,两种判别器包括第一种判别器以及第二种判别器;第一种判别器由判别器模块构成;判别器模块包含第一卷积模块和判别下采样模块;第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;两种判别器根据输入判别器的数据尺寸,选择两种判别器的其中一种判别器进行使用;两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整。
[0089] 一种可行的实施方式中,与生成器对应,判别器同样采用多个判别器模块组合的形式,为了解决现有数据标注方法成本过高以及质量低的问题,本发明同时引入了生成对抗网络的多尺度判别器,加强小尺寸数据集的生成性能。多尺度判别器通过预训练的复合缩放神经网络(Efficient Neural Network,EfficientNet)提取图像特征,然后通过两个卷积模块和一个上采样模块将各个尺度的特征整合为相同尺寸,并逐级加和传入不同尺度的判别器中,最后取平均分数来衡量样本真实性。根据数据集尺寸的不同,可以选择不同的判别器,让生成器能适应更多地数据集,提高本发明的通用性。判别器数学表达式如下式(2)所示:
[0090]   ……(2)
[0091] 其中,  表示对应分辨率的判别器模块,  表示对应模块输出的特征图, 表示输入判别器D 的RGB图像,  表示判别器的可学习参数。判别器采用类似残差神经网络(Residual Network,ResNet)的跳连接架构。
[0092] 可选地,基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型,包括:
[0093] 基于公开的生成对抗网络结构和公开的辐射场网络结构,建立数据生成训练模型;根据数据生成训练模型对模型的输入数据的前后景进行合成。
[0094] 一种可行的实施方式中,为了解决现有的基于GAN的方法生成不可控、不可解释的问题,利用神经辐射场NeRF,为生成模型带来三维可控的能力。将三维空间中的点  以及观察方向  作为输入,输出对应空间坐标位置  的特征f和体积密度  ,数学表达式如下式(3)所示。
[0095] ……(3)
[0096] 可选地,根据数据生成训练模型对模型的输入数据的前后景进行合成,包括:
[0097] 基于数据生成训练模型的神经辐射场隐空间的隐式特征,对模型的输入数据的前后景进行合成;其中,神经辐射场隐空间基于原始的MLP低频网络通过傅里叶编码构建得到。
[0098] 一种可行的实施方式中,将场景物体的隐式特征建模存储在神经辐射场(Neural Radiance Fields,NeRF)的隐空间内,并对像素平面的每个像素建立光线并采样若干坐标点,通过位置编码将空间域信息转换为傅里叶形式的频域信息,通过多层感知器(Multilayer Perceptron,MLP)网络对傅里叶项的系数进行调制,位置编码的数学表达式如下式(4)所示。
[0099]  ……(4)
[0100] 其中,  表示空间坐标位置,  表示位置编码函数,L表示位置编码的长度。
[0101] 用场景合成算子合成隐空间不同物体对应位置的特征和体积密度,并通过体渲染技术积分一条光线上的特征,最终获得低分辨率的特征图,数学表达式如下式(5)所示。
[0102]   ……(5)
[0103] 其中,r表示采样的光线,d代表光线的方向向量,  和  表示近平面和远平面。
[0104] 本发明与现有技术的不同点在于,前后景的合成不依赖于显式的图像,而是依赖于隐空间中的隐式特征。并且傅里叶编码不再被风格化卷积所调制,而是使用原始的MLP网络,减少风格引入的高频信息,构建了更加低频稳定的神经辐射场隐空间。
[0105] S3、根据训练数据集、数据生成训练模型和随机五种噪声进行训练,获得数据生成模型。
[0106] 可选地,根据训练数据集、数据生成训练模型和随机五种噪声进行训练,获得数据生成模型,包括:
[0107] 根据训练数据集和数据生成训练模型进行噪声抑制训练和渐进式训练,获得三维性质的训练模型;
[0108] 根据训练数据集、三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;
[0109] 风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;
[0110] 渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式。
[0111] 一种可行的实施方式中,为了解决现有的基于对抗生成网络(Generative Adversarial Network,GAN)的方法生成具有三维一致性的图像序列难以兼顾质量的问题。本发明的采用如下的训练方式,对场景中的每个物体建模神经辐射场,同时为每个物体采样两种随机噪声作为输入,以控制其纹理和形状。如下式(6)所示:
[0112]  ……(6)
[0113] 其中  是物体i的形状噪声,  是物体i的纹理噪声,  是物体i对应的仿射变换,G是生成器,g代表生成器模块组合成的复合函数,  是第k条光线上的第j个采样点, 代表第k条光线的方向向量,   代表第i个物体的全连接网络,   代表体渲染过程。
[0114] 对于场景中的N个物体(含背景),共传入2N+1个噪声(前景和背景的纹理噪声和形状噪声、风格噪声)和N个对应的仿射变换,  是随机采样的相机姿态,与现有技术相比,神经辐射场部分不再引入风格噪声,而仅仅在生成器模块引入风格。通过随机的各种旋转和相机位姿,本发明可以在神经辐射场的隐空间中合理建模物体的隐表示,并通过引入的随机噪声保证多样性,使之在指定仿射变换和相机位置的条件下,都可以合成高逼真、高清晰度且较为符合人类对物体的三维性质认知的图像。
[0115] 为了增强模型的通用性和解耦能力,本发明提出了风格抑制训练方法,通过在训练前期抑制风格噪声对网络的影响(前期输入零向量),达到网络前期倾向于学习三维性质,后期倾向于学习纹理颜色的效果,实现三维控制和纹理更好的解耦效果。
[0116] 考虑到生成样本的三维一致性,本发明使用渐进式训练策略,首先训练低分辨率的生成器模块,再逐级提高分辨率,有助于多级模块之间的特征对齐,保证最终的生成图像高度符合神经辐射场特征图的三维性质,生成图片效果如图2、图3所示。
[0117] S4、输入随机五种噪声,通过数据生成模型,获得自动驾驶测试图片。
[0118] 可选地,方法还包括:
[0119] 根据数据生成模型开发配套的Web数据集生成系统;
[0120] 通过Web数据集生成系统上传训练数据集生成训练脚本,并根据训练脚本通过Web数据集生成系统生成自动驾驶测试图片。
[0121] 一种可行的实施方式中,为了让用户使用更加方便,本发明同样开发了配套的Web数据集生成系统,本系统与发明中生成图片一致。本系统仍使用Streamlit部署前端,支持选择模型,设置分辨率,设置随机种子,改变五种噪声以及仿射变换等操作。并且用户还可以上传数据集生成脚本,并通过本系统执行,生成的图像将会保存到指定的位置。
[0122] 本发明提出一种基于辐射场和生成对抗网络的数据生成方法,采用车辆事故场景构建训练数据集,可以生成的高质量的事故场景图像;结合生成对抗网络和辐射场网络建立数据生成模型,根据数据生成模型生成数据具备可控性、多样性和三维一致性;根据生成模型降低数据集采集成本,可有效生成各类数据。本发明提供了一种具备三维一致性的可控高质量数据的生成方法。
[0123] 图4是根据一示例性实施例示出的一种基于辐射场和生成对抗网络的数据生成装置框图。参照图4,该装置包括:
[0124] 训练集采集模块410,用于对车辆事故场景进行数据采集,获得训练数据集;
[0125] 训练模型建立模块420,用于基于生成对抗网络和辐射场网络建立模型,获得数据生成训练模型;
[0126] 生成模型训练模块430,用于根据训练数据集、数据生成训练模型和随机五种噪声进行训练,获得数据生成模型;
[0127] 测试图片获取模块440,用于输入随机五种噪声,通过数据生成模型,获得自动驾驶测试图片。
[0128] 可选地,训练集采集模块410,进一步用于:
[0129] 通过人工采集的方式,采集1000张车辆事故场景构建事故数据集;
[0130] 建立训练集数据模型;
[0131] 根据事故数据集对训练集数据模型进行训练,获得可以生成真实的事故场景边角案例的事故数据训练集模型;
[0132] 输入随机五种噪声,通过事故数据训练集模型,获得训练数据集。
[0133] 其中,数据生成训练模型包括生成器和两种判别器。
[0134] 其中,生成器由神经辐射场模块和生成器模块构成;神经辐射场模块对物体进行隐式建模,合成数据的特征图;生成器模块包含风格调制模块、生成上采样模块和RGB转换模块;风格调制模块对生成数据进行风格化卷积;生成上采样模块对生成数据进行分辨率增强;RGB转换模块将生成数据的特征图转换为RGB图像。
[0135] 其中,两种判别器包括第一种判别器以及第二种判别器;第一种判别器由判别器模块构成;判别器模块包含第一卷积模块和判别下采样模块;第二种判别器基于第二卷积模块和判别上采样模块,将各个尺度的图像特征整合为相同尺寸的图像特征;两种判别器根据输入判别器的数据尺寸,选择两种判别器的其中一种判别器进行使用;两种判别器根据输入判别器的数据尺寸进行适应性的尺度调整。
[0136] 可选地,训练模型建立模块420,进一步用于:
[0137] 基于公开的生成对抗网络结构和公开的辐射场网络结构,建立数据生成训练模型;根据数据生成训练模型对模型的输入数据的前后景进行合成。
[0138] 可选地,训练模型建立模块420,进一步用于:
[0139] 基于数据生成训练模型的神经辐射场隐空间的隐式特征,对模型的输入数据的前后景进行合成;其中,神经辐射场隐空间基于原始的MLP低频网络通过傅里叶编码构建得到。
[0140] 可选地,生成模型训练模块430,进一步用于:
[0141] 根据训练数据集和数据生成训练模型进行噪声抑制训练和渐进式训练,获得三维性质的训练模型;
[0142] 根据训练数据集、三维性质的训练模型和随机五种噪声进行迭代训练,获得数据生成模型;
[0143] 风格抑制训练,指的是在生成器模块中,通过使用零向量替代风格噪声作为输入的训练方式;
[0144] 渐进式训练,指的是在生成器模块中,从低分辨率的生成器模块开始训练,再逐级对高分辨率的生成器模块训练的训练方式。
[0145] 可选地,装置还用于:
[0146] 根据数据生成模型开发配套的Web数据集生成系统;
[0147] 通过Web数据集生成系统上传训练数据集生成训练脚本,并根据训练脚本通过Web数据集生成系统生成自动驾驶测试图片。
[0148] 本发明提出一种基于辐射场和生成对抗网络的数据生成方法,采用车辆事故场景构建训练数据集,可以生成的高质量的事故场景图像;结合生成对抗网络和辐射场网络建立数据生成模型,根据数据生成模型生成数据具备可控性、多样性和三维一致性;根据生成模型降低数据集采集成本,可有效生成各类数据。本发明提供了一种具备三维一致性的可控高质量数据的生成方法。
[0149] 图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述一种基于辐射场和生成对抗网络的数据生成方法的步骤。
[0150] 在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述一种基于辐射场和生成对抗网络的数据生成方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。
[0151] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0152] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。