新抗原异质数据整合方法及装置、设备、存储介质转让专利

申请号 : CN202410017821.X

文献号 : CN117524318B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 万季叶一林沈一鸣汪健赵钊潘有东王弈

申请人 : 深圳新合睿恩生物医疗科技有限公司北京新合睿恩生物医疗科技有限公司深圳市新合生物医疗科技有限公司

摘要 :

本发明属于生物信息学技术领域,公开了一种新抗原异质数据整合方法及装置、设备、存储介质,通过获取完整特征的样本数据预处理,并随机删除部分特征值,以及标记各个特征是否缺失特征值的真实标签,对生成对抗网络进行训练获得特征填充模型;在应用中,将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,生成目标掩码向量,输入特征填充模型进行填充,从而可以充分考虑样本特征数据中缺失特征与该样本其它完整特征的内部关联,基于生成对抗网络进行相互对抗训练以学习特征数值分布,实现对特征值缺失的样本进行填充使其成为完整的真实样本,提高样本数据量,使得填充后的样本更加真实,提升数据集整体可用的真实数据量。

权利要求 :

1.新抗原异质数据整合方法,其特征在于,包括:

获取完整特征的原始样本数据进行预处理以获得第一特征向量;

随机删除所述第一特征向量中部分特征值,获得第二特征向量;

标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;

根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;

获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;

将全部新抗原异质数据所包括的特征进行合并去重,获得多个预设特征;

将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;

将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量;

其中,根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型,包括:将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;

将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;

根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。

2.如权利要求1所述的新抗原异质数据整合方法,其特征在于,标记所述第二特征向量中各个特征的真实标签,包括:将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。

3.如权利要求1所述的新抗原异质数据整合方法,其特征在于,所述生成器包括编码器、解码器和还原模块,所述编码器用于将所述第二特征向量映射至低维空间获得低维特征向量,所述解码器用于将低维空间的所述低维特征向量逐层还原回原始空间获得第三特征向量,所述还原模块用于根据所述真实标签将所述第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。

4.如权利要求1所述的新抗原异质数据整合方法,其特征在于,所述判别器包括多个线性层和一个一维卷积模块,多个所述线性层用于对所述填充特征向量的维度进行非线性转换,所述一维卷积模块用于生成所述填充特征向量中各个特征的真实度评分,根据所述真实度评分映射得到所述填充特征向量中各个特征的预测标签。

5.新抗原异质数据整合装置,其特征在于,包括:

预处理单元,用于获取完整特征的原始样本数据进行预处理以获得第一特征向量;

删除单元,用于随机删除所述第一特征向量中部分特征值,获得第二特征向量;

标记单元,用于标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;

训练单元,用于根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;

获取单元,用于获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;

掩码生成单元,用于将全部新抗原异质数据所包括的特征进行合并去重,获得多个预设特征;将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;

填充单元,用于将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量;

其中,所述训练单元包括以下子单元:

生成子单元,用于将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;

判别子单元,用于将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;

优化子单元,用于根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。

6.如权利要求5所述的新抗原异质数据整合装置,其特征在于,所述标记单元,具体用于将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。

7.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至4任一项所述的新抗原异质数据整合方法。

8.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至4任一项所述的新抗原异质数据整合方法。

说明书 :

新抗原异质数据整合方法及装置、设备、存储介质

技术领域

[0001] 本发明属于生物信息学技术领域,具体涉及一种基于人工智能的新抗原异质数据整合方法及装置、设备、存储介质。

背景技术

[0002] 新抗原疫苗通过增强癌症特异性细胞毒性T细胞而成为一种有前景的癌症免疫疗法。新抗原疫苗的开发通常是通过肿瘤新抗原(Neoantigen)的计算预测来启动的,其准确性极大地影响疫苗的功效。肿瘤新抗原作为免疫治疗的理想靶标,是由肿瘤细胞突变基因编码的新生抗原,主要由基因点突变、删除突变、基因融合等产生的与正常细胞表达的蛋白不一样的新的异常蛋白。这些蛋白经过酶解之后形成的多肽片段,作为抗原递呈给T细胞,可促使T细胞变为特异性地识别肿瘤新抗原的成熟活化T细胞,并使这些活化的T细胞数量增殖。
[0003] 基于机器学习的新抗原预测计算模型的瓶颈之一在于候选新抗原的实验验证免疫原性结果的可用性,目前新抗原免疫原性验证数据相对稀缺,只有数百种新抗原已被各种独立研究验证为具有免疫原性。此外,不同研究机构和公司使用的特征存在很大程度的不一致,合并不同数据集进行新抗原预测模型训练时,会出现大量的特征缺失值。例如,由于无法获得原始测序数据,许多生物学特征(例如VAF和基因表达)的值无法获得。而对于特征值缺失的样本,通常舍弃不用,因此导致新抗原预测模型的训练数据量较少。
[0004] 传统方式中直接产生“人工”假样本从而丰富数据集、提升数据量,但是该现有方法通过生成假样本以丰富数据集,没有考虑到样本的多个特征值之间的内部关联,因此生成的样本真实性不够,导致数据集整体可用的真实数据量较少。

发明内容

[0005] 本发明的目的在于提供一种新抗原异质数据整合方法及装置、设备、存储介质,可以对特征值缺失的样本进行特征值填充使其成为完整的真实样本,从而提高样本数据量,同时使得填充后的样本更加真实,可以提升数据集整体可用的真实数据量。
[0006] 本发明第一方面公开一种新抗原异质数据整合方法,包括:
[0007] 获取完整特征的原始样本数据进行预处理以获得第一特征向量;
[0008] 随机删除所述第一特征向量中部分特征值,获得第二特征向量;
[0009] 标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;
[0010] 根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;
[0011] 获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;
[0012] 将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;
[0013] 将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量。
[0014] 在一些实施例中,标记所述第二特征向量中各个特征的真实标签,包括:
[0015] 将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。
[0016] 在一些实施例中,根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型,包括:
[0017] 将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;
[0018] 将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;
[0019] 根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。
[0020] 在一些实施例中,所述生成器包括编码器、解码器和还原模块,所述编码器用于将所述第二特征向量映射至低维空间获得低维特征向量,所述解码器用于将低维空间的所述低维特征向量逐层还原回原始空间获得第三特征向量,所述还原模块用于根据所述真实标签将所述第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。
[0021] 在一些实施例中,所述判别器包括多个线性层和一个一维卷积模块,多个所述线性层用于对所述填充特征向量的维度进行非线性转换,所述一维卷积模块用于生成所述填充特征向量中各个特征的真实度评分,根据所述真实度评分映射得到所述填充特征向量中各个特征的预测标签。
[0022] 本发明第二方面公开一种新抗原异质数据整合装置,包括:
[0023] 预处理单元,用于获取完整特征的原始样本数据进行预处理以获得第一特征向量;
[0024] 删除单元,用于随机删除所述第一特征向量中部分特征值,获得第二特征向量;
[0025] 标记单元,用于标记所述第二特征向量中各个特征的真实标签,所述真实标签用于表示特征是否缺失特征值;
[0026] 训练单元,用于根据所述第二特征向量和所述真实标签,对生成对抗网络进行训练获得特征填充模型;
[0027] 获取单元,用于获取多个新抗原异质数据,对所述新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;
[0028] 掩码生成单元,用于将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;
[0029] 填充单元,用于将待处理数据的初始特征向量和目标掩码向量输入所述特征填充模型,以获得待处理数据的目标特征向量。
[0030] 在一些实施例中,所述标记单元,具体用于将所述第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得所述第二特征向量中各个特征的真实标签。
[0031] 在一些实施例中,所述训练单元包括:
[0032] 生成子单元,用于将所述第二特征向量输入生成对抗网络的生成器,以使所述生成器根据所述真实标签对所述第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;
[0033] 判别子单元,用于将所述填充特征向量输入生成对抗网络的判别器,以使所述判别器预测所述填充特征向量中各个特征的预测标签;所述预测标签用于表示特征值是已知的特征值还是填充值;
[0034] 优化子单元,用于根据所述预测标签和所述真实标签,对所述生成器和所述判别器进行交替训练,获得特征填充模型。
[0035] 本发明第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的新抗原异质数据整合方法。
[0036] 本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的新抗原异质数据整合方法。
[0037] 本发明的有益效果在于,通过获取完整特征的原始样本数据进行预处理以获得第一特征向量,随机删除第一特征向量中部分特征值获得第二特征向量,标记第二特征向量中各个特征的真实标签,真实标签用于表示特征是否缺失特征值;然后,根据第二特征向量和真实标签,对生成对抗网络进行训练获得特征填充模型;在实际应用中,获取多个新抗原异质数据,对新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;其次,将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;最后,将待处理数据的初始特征向量和目标掩码向量输入特征填充模型,以获得待处理数据的目标特征向量,从而可以充分考虑样本特征数据中缺失特征值与该样本其它完整特征值的内部关联,基于生成对抗网络中两个独立深度神经网络进行相互对抗训练以学习特征数值分布,进而可以对特征值缺失的样本进行特征值填充使其成为完整的真实样本,从而提高样本数据量,同时使得填充后的样本更加真实,可以提升数据集整体可用的真实数据量。

附图说明

[0038] 此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
[0039] 除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
[0040] 图1是本发明实施例公开的一种新抗原异质数据整合方法的流程图;
[0041] 图2是本发明实施例公开的基于生成对抗网络训练特征填充模型的算法实现示意图;
[0042] 图3是本发明实施例公开的一种新抗原异质数据整合装置的结构示意图;
[0043] 图4是本发明实施例公开的一种电子设备的结构示意图。
[0044] 附图标记说明:
[0045] 301、预处理单元;302、删除单元;303、标记单元;304、训练单元;305、获取单元;306、掩码生成单元;307、填充单元;401、存储器;402、处理器。

具体实施方式

[0046] 除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0047] 需要说明的是,当元件被认为“固定于”另一个元件,它可以是直接固定在另一个元件上,也可以是存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件,也可以是同时存在居中元件;当一个元件被认为是“安装在”另一个元件,它可以是直接安装在另一个元件,也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件,它可以是直接设在另一个元件,也可以是同时存在居中元件。
[0048] 除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。此外,本文所使用的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0049] 本发明实施例公开一种新抗原异质数据整合方法,该方法可以通过计算机编程实现。该方法的执行主体可为如计算机电脑、笔记本电脑、平板电脑等电子设备,或内嵌于电子设备中的新抗原异质数据整合装置,本发明对此不作限定。为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
[0050] 如图1至图2所示,该方法包括以下步骤110 190:~
[0051] 110、获取完整特征的原始样本数据进行预处理以获得第一特征向量。
[0052] 由于样本填充过程高度依赖于样本特征的数据分布情况,因此首要的任务是对原始样本数据集进行清洗。首先,对于原始样本数据集中特征不完整的原始样本数据,需要进行清除以避免这些残缺样本影响网络学习的准确性。具体的,对原始样本数据集进行清洗,以去除不完整特征的原始样本数据,保留完整特征的原始样本数据,以提高模型训练的可靠性。
[0053] 其次,由于各特征之间没有统一的量纲,并且数值范围过于宽泛。因此需要采用标准化方法消除数据之间的量纲差异,使其转化为量纲与值域统一的分值。具体的,对保留下来的完整特征的原始样本数据包括的各个原始特征值进行规范化,获得第一特征向量,第一特征向量包括多个特征的特征值。例如,第一特征向量为“0.1, ‑0.3, 0.4, 0.2, ‑0.8, 0.9, 0.3”。
[0054] 可选的,可以基于Z‑Score标准化的方法对各特征值进行规范化,具体公式如下:
[0055]
[0056]
[0057] 其中, 与 分别为规范化前后的特征值,n为样本数量, 表示均值,i为索引,为数据集中的特征。通过上述数据清洗和规范化处理,可以使得数据集具备更好的适应性与稳定性,为后续的网络训练过程提供有利条件。
[0058] 120、随机删除第一特征向量中部分特征值,获得第二特征向量。
[0059] 为了使模型能够适应实际的特征缺失状况,需要在各原始样本数据的第一特征向量的多个特征值中随机删除一部分特征值。这种方式能模拟特征缺失的多样性,包括不同类型、不同数量以及不同组合的特征缺失情况。
[0060] 130、标记第二特征向量中各个特征的真实标签,真实标签用于表示特征是否缺失特征值。
[0061] 当第一特征向量中的特征值经过随机的移除之后,需要标记出第二特征向量中需填充的特征区域。为此,本发明实施例通过创建了一个新的掩码向量,记为mask,这个向量由0和1构成,其中,0代表对应位置的特征值已经缺失,而1则代表该位置的特征值仍然存在。也即,可以将第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得第二特征向量中各个特征的真实标签。其中,负例特征的真实标签为“0”,正例特征的真实标签为“1”。
[0062] 示例性的,mask为掩码向量,指示第二特征向量中哪些特征(正例)具有特征值以及哪些特征(负例)缺失特征值;data为数据矩阵,负责存放各样本的特征数据。例如上述样本的第一特征向量被随机删除形成“0.1, 0, 0, 0.2, ‑0.8, 0.9, 0”的第二特征向量,则其对应的掩码向量为“1, 0, 0, 1, 1,1, 0”。
[0063] 140、根据第二特征向量和真实标签,对生成对抗网络进行训练获得特征填充模型。
[0064] 具体的,步骤140可以包括以下未图示的步骤1401 1403:~
[0065] 1401、将第二特征向量输入生成对抗网络的生成器,以使生成器根据真实标签对第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量。
[0066] 在本发明实施例中,通过构建生成对抗网络进行训练,该生成对抗网络包括生成器和判别器,生成器用于接收第二特征向量并对负例特征进行填充,判别器用于接收生成器填充的填充特征向量,并对填充特征向量中各特征的真实度进行评估。其中,生成器通过接收含有缺失特征的原始数据,然后通过维度缩放和恢复的方式,尽可能地将输出逼近原始完整特征的数值。生成器的优化目标是使得填充的特征与原有特征在数值上尽可能一致。完成初步特征填充之后,这些数据被送入判别器。生成器不仅需要从数学角度对缺失数据进行预测,还需要综合考虑样本的已知特征,以生成更合理的填充值来干扰判别器的判断。
[0067] 进一步可选的,生成器包括编码器、解码器和还原模块,编码器用于将第二特征向量映射至低维空间获得低维特征向量,解码器用于将低维空间的低维特征向量逐层还原回原始空间获得第三特征向量,还原模块用于根据掩码向量中真实标签的指示,将第三特征向量中正例特征对应的填充值还原为已知的特征值,获得填充特征向量。其中,编码器包括两个线性层,其目标是将第二特征向量逐层映射至低维空间。解码器的结构与编码器相似,其也包括两个线性层,但其目标是将低维空间的低维特征向量逐层还原回原始空间的维度。
[0068] 优选的,每个线性层后面都跟随一个tanh()函数,以增加网络的非线性表达能力。低维空间相比原始空间,去冗余且更接近客观真理,在编码与解码的这个过程中,特征向量会从数值上得到填充,生成了各个特征(包括负例特征和正例特征)的填充值,得到第三特征向量。最后,还需要还原模块通过掩码向量中真实标签的指示,将正例特征对应的填充值还原为已知的特征值,获得填充特征向量。即:当特征为正例时便使用已知的特征值;当特征为负例时便使用填充值。
[0069] 例如,将第二特征向量“0.1, 0, 0, 0.2, ‑0.8, 0.9, 0”输入编码器,由解码器从低维空间还原后的第三特征向量为“0.3, 0.1, ‑0.2, 0.4, ‑0.5, 0.6, ‑0.3”,根据其掩码向量“1, 0, 0, 1, 1, 1, 0”的指示,最终通过生成器得到的填充特征向量为“0.1, 0.1, ‑0.2, 0.2, ‑0.8, 0.9, ‑0.3”。
[0070] 1402、将填充特征向量输入生成对抗网络的判别器,以使判别器预测填充特征向量中各个特征的预测标签;预测标签用于表示特征值是已知的特征值还是填充值。
[0071] 判别器的任务是判断当前输入的填充特征向量中,哪些特征是真实的,哪些是生成器填充的。也就是说,判别器的优化目标是让其输出结果尽可能接近之前提到的掩码向量。优选的,判别器的结构与生成器相似,其前半部分也包括多个线性层,这些线性层对填充特征向量的维度进行非线性转换。然而,判别器在后半部分新增了一个一维卷积模块,这个模块从每个特征的角度独立地生成其真实度评分,以此来判断当前特征是否真实而不会被其它特征干扰。具体的,判别器包括多个线性层和一个一维卷积模块,多个线性层用于对填充特征向量的维度进行非线性转换,一维卷积模块用于生成填充特征向量中各个特征的真实度评分,根据真实度评分映射得到填充特征向量中各个特征的预测标签。优选的,每个线性层后面都跟随一个tanh()函数,以增加网络的非线性表达能力。
[0072] 1403、根据预测标签和真实标签,对生成器和判别器进行交替训练,获得特征填充模型。
[0073] 在训练过程中,除了需要训练生成器——用于特征填充之外,还需训练判别器——用于判别特征是否可信并反馈给生成器进行进一步的优化更新。当判别器无法准确区分真实特征数据与填充特征数据时,表示生成器已经可以对样本进行逼真的特征填充。通过生成器与判别器的相互对抗,可以逐步优化生成器的性能,使其不仅在数值上追求填充的准确性,更追求填充值与该样本其它已知特征的内部关联,从而使得填充后的样本更加真实。
[0074] 由于生成器与判别器的工作具有相互对抗的特性,因此可将其视为两个既独立又关联的网络。为了使两个网络公平的“对抗”,需要分别单独优化;然而生成器需要不断的尝试欺骗判别器,判别器也要不断更新判断的规则,因此在训练的过程中这两个网络又是紧密联系在一起的。为了达成这个目的,优选的,分别为生成器与判别器使用不同的损失函数,如下所示:
[0075]
[0076]
[0077] 其中, 和 分别是生成器与判别器的损失函数, 和 分别是填充前后的特征值,j为掩码向量的取值,分别为0或1。
[0078] 在训练时首先训练判别器:通过生成器生成填充特征向量,随后固定生成器的参数,将掩码向量视为特征的标签训练判别器。
[0079] 然后训练生成器:固定判别器的参数,通过生成器生成填充特征向量,随后将特征的标签全部设置成1,并通过判别器生成特征真实度评分。同时利用生成器的损失与判别器的损失训练生成器。为增强生成器的训练效率,该步骤可适当重复。
[0080] 随后重新训练判别器,循环该过程,直至判别器的损失函数 保持在指定数值范围内且维持指定时长,则判定训练完成。
[0081] 在循环交替训练过程中,可以预见网络的训练过程会经历以下几个阶段:
[0082] 在网络刚开始训练时,由于生成器的填充能力较差,生成器的损失 始逐渐降低。而判别器的判别能力还在提升,所以 也会较高。
[0083] 在网络刚开始训练时,由于生成器的填充能力较差,生成器的损失 会较高。此时,判别器的判别能力也较差,因此其损失 也会较高。
[0084] 当网络训练到一定程度时,生成器开始掌握数据特征的规律,此时 开始逐渐降低。而判别器的判别能力还在提升,所以 仍然保持较高。
[0085] 随着生成器逐渐稳定, 保持较低,这意味着从数值上看,当前填充的特征与原始的完整特征非常接近。此时,由于判别器持续接收到相对稳定的特征输入,其开始能够区分真实特征与填充特征,因此 开始逐渐降低。
[0086] 当判别器能够较准确地判断特征的真伪时,生成器为了欺骗判别器会开始新的学习。同样,判别器也会开始学习新的判断标准。在这个阶段, 与 会出现反复波动的情况,表明这两个模块正在互相对抗。
[0087] 最后,当 基本不变时,这意味着无论判别器如何训练,它都无法区分哪些特征是由生成器生成的,哪些特征是样本原来的真实特征。此时,可以认为网络的整体训练已经结束。
[0088] 本发明中,能够利用大量无标签数据对特征填充模型进行训练,从而提升模型的准确性和泛化性能。由于与实际任务无关,因此具有很强的通用性。只要数据种类一致,便可进行准确快速的特征填充而无需重新训练网络。
[0089] 假设当前的特征向量都需要遵循一些潜在的通用规则。也就是说,所有的特征都在从不同的角度描述某些潜在的客观事实,因此特征之间必然存在冗余和关联。通过基于两个独立深度神经网络进行相互对抗训练以学习特征数值分布,最终得到特征填充模型,可以充分考虑到样本特征数据中缺失特征值与该样本其它完整特征值的内部关联,在提高样本数据量的同时使得填充后的样本更加真实。该特征填充模型用于实际应用中对特征值缺失的样本进行特征值填充使其成为完整的真实样本。具体的,实际应用中,由于新抗原异质数据的来源不统一,因此各个数据所具备的特征数量与值域范围并不统一。因此非常需要自动填充特征,并对特征作规范化处理。具体的,可以执行以下步骤150 170:~
[0090] 150、获取多个新抗原异质数据,对新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量,该初始特征向量包括多个特征的特征值;其中,各个新抗原异质数据所包括的特征不完全相同。
[0091] 160、将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量。
[0092] 其中,预设特征可以由开发人员预先设定,也可以根据多个新抗原异质数据进行实时确定,示例性的,当需要处理来自不同研究机构或公司的多个新抗原异质数据时,可以从特征不统一的多个新抗原异质数据中确定出多个预设特征。具体的,可以将全部新抗原异质数据所包括的特征进行合并去重,从而获得多个预设特征。需要说明的是,本发明中对多个新抗原异质数据进行整合的目的是使每个新抗原异质数据均具有对应于每个预设特征的特征值。因此,可以将未包括有全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据。比如,样本数据1为{31,10.34,0.368},其中三个特征值分别对应的特征是RNA‑seq数据中变异等位基因(alternate allele)的读数、每百万转录本数(Transcripts Per Million)、变异等位基因频率(Variant Allele Frequency),样本数据2为{37,0.67},其中两个特征值分别对应的特征是RNA‑seq数据中变异等位基因(alternate allele)的读数、变异等位基因频率(Variant Allele Frequency),那么合并去重后的预设特征应当包括RNA‑seq数据中变异等位基因(alternate allele)的读数、每百万转录本数(Transcripts Per Million)、变异等位基因频率(Variant Allele Frequency),样本数据2由于缺少每百万转录本数(Transcripts Per Million)这一特征的值,被识别为特征值缺失的待处理数据。
[0093] 其中,目标掩码向量包括与全部预设特征一一对应的标签值,该标签值用于表征待处理数据是否缺失相应的特征值。例如上述样本数据2的目标掩码向量为{1,0,1}。
[0094] 170、将待处理数据的初始特征向量和目标掩码向量输入特征填充模型,以获得待处理数据的目标特征向量。
[0095] 当网络训练完成后,便可用于样本缺失特征填充。当进入缺失特征填充阶段时,仅需要利用训练完成的特征填充模型的生成器进行特征填充即可。具体的,根据特征填充模型中的生成器生成待处理数据的缺失特征对应的目标特征值,以获得待处理数据对应的完整数据,即目标特征向量。该目标特征向量可用于新抗原预测模型的训练样本,本发明通过对来自不同研究机构和公司的新抗原异质数据中特征值有所缺失的部分数据进行特征填充后,可得到统一具有全部预设特征的特征值的目标特征向量,为新抗原预测模型的训练提供了更加真实的样本数据。
[0096] 如图3所示,本发明实施例公开一种新抗原异质数据整合装置,包括预处理单元301、删除单元302、标记单元303、训练单元304、获取单元305、掩码生成单元306、填充单元
307,其中,
[0097] 预处理单元301,用于获取完整特征的原始样本数据进行预处理以获得第一特征向量;
[0098] 删除单元302,用于随机删除第一特征向量中部分特征值,获得第二特征向量;
[0099] 标记单元303,用于标记第二特征向量中各个特征的真实标签,真实标签用于表示特征是否缺失特征值;
[0100] 训练单元304,用于根据第二特征向量和真实标签,对生成对抗网络进行训练获得特征填充模型;
[0101] 获取单元305,用于获取多个新抗原异质数据,对新抗原异质数据进行规范化处理,获得每个新抗原异质数据的初始特征向量;其中,各个新抗原异质数据的初始特征向量所包括的特征不完全相同;
[0102] 掩码生成单元306,用于将未包括全部预设特征的新抗原异质数据确定为特征值缺失的待处理数据,根据全部预设特征与初始特征向量,生成待处理数据的目标掩码向量;
[0103] 填充单元307,用于将待处理数据的初始特征向量和目标掩码向量输入特征填充模型,以获得待处理数据的目标特征向量。
[0104] 作为一种可选的实施方式,上述标记单元303,具体用于将第二特征向量中特征值缺失的特征标记为负例特征,以及将具备特征值的特征标记为正例特征,以获得第二特征向量中各个特征的真实标签。
[0105] 作为一种可选的实施方式,上述训练单元304包括以下未图示的子单元:
[0106] 生成子单元,用于将第二特征向量输入生成对抗网络的生成器,以使生成器根据真实标签对第二特征向量中缺失特征值的特征进行填充,以获得填充特征向量;
[0107] 判别子单元,用于将填充特征向量输入生成对抗网络的判别器,以使判别器预测填充特征向量中各个特征的预测标签;预测标签用于表示特征值是已知的特征值还是填充值;
[0108] 优化子单元,用于根据预测标签和真实标签,对生成器和判别器进行交替训练,获得特征填充模型。
[0109] 如图4所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器401以及与存储器401耦合的处理器402;
[0110] 其中,处理器402调用存储器401中存储的可执行程序代码,执行上述各实施例中描述的新抗原异质数据整合方法。
[0111] 本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的新抗原异质数据整合方法。
[0112] 以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
[0113] 以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。