会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 育种值 / 一种拟合非加性效应的基因组估计育种值的方法

一种拟合非加性效应的基因组估计育种值的方法

申请号 CN202010766792.9 申请日 2020-08-03 公开(公告)号 CN111883206B 公开(公告)日 2024-03-15
申请人 集美大学; 发明人 顾林林; 姜丹; 方铭; 王志勇;
摘要 本发明公开了一种拟合非加性效应的基因组选择新方法。该方法是将基因组选择中的加性效应预测模型和非加性效应预测模型组合成一个预测模型的元算法,这种方法相较于仅拟合加性效应的预测模型通常能够获得更好的预测效果。具体步骤为:获取单个群体完整的基因型信息和表型信息;随机划分训练群体和测试群体,通过混合算法MixPGV对训练群体进行迭代训练;获得各个SNP位点的期望加性效应值和期望非加性效应值,并累加得到MixPGV预测模型的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add;将加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV,最后计算基因组估计育种值GEBV与真实育种值的相关系数来获得估计准确度。
权利要求

1.一种拟合非加性效应的基因组估计育种值的方法,其特征在于,包括以下步骤:

1)数据采集:对待判定的单个种群的多个个体进行采样,测得每个个体的表型值和基因型数据;

2)数据分组:随机将步骤1)中单个种群的多个个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体;

3)训练MixPGV模型:用步骤2)中训练群体中个体的表型值与SNP位点训练MixPGV模型;

计算出训练群体MixPGV模型中的SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add;

4)计算种群育种值:根据步骤3)中SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add;将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV;

5)计算育种值估计准确度:计算种群基因组估计育种值GEBV与采样得到的种群平均表型值或种群真实育种值的相关系数,获得种群育种值估计准确度,判定MixPGV模型的预测精度;步骤1)中数据采集的步骤如下:

1‑1)采用GBS技术对每个个体进行基因组测序,测得基因组SNP位点;

1‑2)对每个个体进行表型测定;

步骤3)中训练MixPGV模型的步骤如下:

3‑1)初始化每个待测SNP位点的非加性效应值

(j)

3‑2)在第j次迭代过程中,让 以u 作为表型向量,用加性效应模型训(j)

练,得到期望固定效应值向量α 和SNP位点的期望加性效应值向量 使用得到的期望(j)固定效应值向量α 和SNP位点的期望加性效应值向量 计算加性效应基因组估计育种值:公式为:其中Z为个体的基因型矩阵;

(j)

3‑3)让 其中y为表型值向量,X为固定效应设计矩阵;以w作为表型向量,用非加性效应模型训练,得到SNP位点的期望非加性效应值向量 使用得到的SNP位点的期望非加性效应值向量 计算非加性效应基因组估计育种值,公式为:其中Z为个体的基因型矩阵;

3‑4)令

种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:cor(GEBV,y‑Xα)若:cor(GEBV,y‑Xα)

若:cor(GEBV,y‑Xα)≥cor(GEBVAdd,y‑Xα),则输出α,βAdd,βNon‑Add,训练完成;

步骤3)中计算种群基因组估计育种值的步骤如下:

4‑1)将步骤3)中SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add,公式为:GEBVAdd=ZβAdd                          (3)GEBVNon‑Add=ZβNon‑Add                        (4)其中:Z为估计群个体的基因型矩阵,βAdd为SNP位点的期望加性效应值向量,βNon‑Add为SNP位点的期望非加性效应值向量;

4‑2)将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV,公式为:GEBV=ZβAdd+ZβNon‑Add                      (5)步骤5)中计算育种值估计准确度,判定模型的预测精度的方法为

5‑1)种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:cor(GEBV,y‑Xα)                 (6)其中,GEBV为种群基因组估计育种值,y为表型值,X为固定效应设计矩阵,α为固定效应向量;

5‑2)根据计算得到的种群育种值估计准确度判定MixPGV模型的预测精度。

2.如权利要求1所述的一种拟合非加性效应的基因组估计育种值的方法,其特征在于,步骤2)中数据分组的方法为:随机将步骤1)中单个种群的多个个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体。

说明书全文

一种拟合非加性效应的基因组估计育种值的方法

技术领域

[0001] 本发明涉及基因组育种领域,尤其涉及一种拟合非加性效应的基因组估计育种值的方法。

背景技术

[0002] 基因组选择(genomicnselection,GS)是通过使用全基因组标记更好地预测多基因性状的植物或动物表型。该方法利用标记与QTL之间的连锁不平衡(LD)来捕获微小的QTL效应。与基于系谱的预测方法和基于少量标记的标记辅助选择预测方法不同,基因组选择可以对未知表型的个体进行育种值预测,而这种性质使得它可以被应用于早期选择,可以极大程度上减少育种周期、加快选择进展。目前已有多种预测模型被用于性状的基因组估计育种值GEBV(genomic estimated breeding value)的预测,例如基于BLUP算法(最佳线性无偏预测)、利用基因组信息的BLUP算法(GBLUP)、基于贝叶斯的算法,如Bayes A,Bayes B,BayesCπ和Bayes LASSO等,以及机器学习方法。虽然全基因组选择模型已经被广泛用于育种值的预测,但是基本的参数模型只考虑了基因的加性效应,而忽略了非加性效应,即显性和上位性效应。在品种选育过程中,由于显性和上位性效应不能在家系世代间稳定遗传,只考虑加性效应是合适的。但是在杂交种和纯系品种中,其实际遗传构成是复杂的。有研究表明在杂交种表型预测中,加入显性效应能有效的提高预测准确率。同样,在一些研究中通过在全基因组选择模型中加入上位性效应,同样也提高了模型的预测准确率。基因的上位性效应是影响数量性状遗传结构和杂种优势的重要因素。同时,对上位性效应的研究也表明基因间的互作在复杂遗传系统的进化中起到了重要作用。在数量性状的基因定位(QTL mapping)和全基因组关联分析(GWAS)中,发现上位性效应对QTL定位和GWAS的影响范围很广。这也从一个方面表明了上位性效应的复杂性。

发明内容

[0003] 本发明的目的就是提供一种拟合非加性效应的基因组估计育种值的方法,它可以预测种群的基因组估计育种值。
[0004] 本发明的目的是通过这样的技术方案实现的,包括以下步骤:
[0005] 1)数据采集:对待判定的单个种群的多个个体进行采样,测得每个个体的表型值和基因型数据;
[0006] 2)数据分组:随机将步骤1)中单个种群的多个个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体;
[0007] 3)训练MixPGV模型:使用步骤2)中训练群体中个体的表型值与SNP位点训练MixPGV模型;计算出训练群体MixPGV模型中的SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add;
[0008] 4)计算种群育种值:根据步骤3)中SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add;将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV;
[0009] 5)计算育种值估计准确度:计算种群基因组估计育种值GEBV与采样得到的种群平均表型值或种群真实育种值的相关系数,获得种群育种值估计准确度,判定MixPGV模型的预测精度。
[0010] 进一步,步骤1)中数据采集的步骤如下:
[0011] 1‑1)采用GBS技术对每个个体进行基因组测序,测得基因组SNP位点;
[0012] 1‑2)对每个个体进行表型测定。
[0013] 进一步,步骤2)中数据分类方法为:随机将步骤1)中单个种群的多个个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体。
[0014] 进一步,步骤3)中训练MixPGV模型的步骤如下:
[0015] 3‑1)初始化每个待测SNP位点的非加性效应值
[0016] 3‑2)在第j次迭代过程中,让 以u(j)作为表型向量,用加性效应模型(j)
训练,得到期望固定效应值向量α 和SNP位点的期望加性效应值向量 使用得到的期(j)
望固定效应值向量α 和SNP位点的期望加性效应值向量 计算加性效应基因组估计育种值:公式为:
[0017]
[0018] 其中Z为个体的基因型矩阵;
[0019] 3‑3)让 其中y为表型值向量,X为固定效应设计矩阵;(j)
以w 作为表型向量,用非加性效应模型训练,得到SNP位点的期望非加性效应值向量使用得到的SNP位点的期望非加性效应值向量 计算非加性效应基因组估计
育种值,公式为:
[0020]
[0021] 其中Z为个体的基因型矩阵;
[0022] 3 ‑ 4 ) 令 α = α ( j ) ,
[0023] 种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:cor(GEBV,y‑Xα);
[0024] 若:cor(GEBV,y‑Xα)
[0025] 若:cor(GEBV,y‑Xα)≥cor(GEBVAdd,y‑Xα),则输出α,βAdd,βNon‑Add,训练完成。
[0026] 进一步,步骤3)中计算计算种群基因组估计育种值的步骤如下:
[0027] 4‑1)将步骤3)中每个SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add,公式为:
[0028] GEBVAdd=ZβAdd                   (3)
[0029] GEBVNon‑Add=ZβNon‑Add                  (4)
[0030] 其中:Z为估计群个体的基因型矩阵,βAdd为SNP位点的期望加性效应值向量,βNon‑Add为SNP位点的期望非加性效应值向量。
[0031] 4‑2)将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV,公式为:
[0032] GEBV=ZβAdd+ZβNon‑Add                (5)
[0033] 进一步,步骤5)中计算育种值估计准确度,判定模型的预测精度的步骤如下:
[0034] 5‑1)种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:
[0035] cor(GEBV,y‑Xα)                    (6)
[0036] 其中,GEBV为种群基因组估计育种值,y为表型值,X为固定效应设计矩阵,α为固定效应向量。
[0037] 5‑2)根据计算得到的种群育种值估计准确度判定该MixPGV模型的预测精度。
[0038] 由于采用了上述技术方案,本发明具有如下的优点:
[0039] 本发明的混合算法灵活性好,可以与任意加性效应模型进行混合,且预测效果相对稳定,在非加性效应突出的情况下,能显著改善预测精度,因此,本发明的MixPGV算法具有稳定性高,灵活性好,同时能够提高估计准确度的优点。
[0040] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

[0041] 本发明的附图说明如下。
[0042] 图1不同的基因组选择模型的表现。
[0043] 图2MixPGV模型与所用拟合加性效应模型的关系图。
[0044] 图3技术路线图。

具体实施方式

[0045] 下面结合附图和实施例对本发明作进一步说明。
[0046] 实施例一:
[0047] 试验数据为CIMMYT全球小麦计划提供的小麦数据集,其中包含599个小麦品系。小麦数据集包括四种环境下的小麦平均产量,数据集有四个对象:wheat.Y、wheat.A、wheat.X和wheat.set。wheat.Y为小麦品系两年平均产量;wheat.A为同一家系的分子关系矩阵;wheat.X为DArT标记基因型,数据来源于纯种。对于DArT标记,一个等位基因由1或0编码,分别表示其存在或不存在。小麦集合表示10个彼此不相交的观察集合。
[0048] 对每个观察集合中的小麦计算基因组估计育种值的具体方法为:
[0049] 1)数据采集:对待判定的小麦个体进行采样,测得每个个体的表型值和基因型数据;
[0050] 2)数据分组:随机将步骤1)中的小麦个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体;
[0051] 3)训练MixPGV模型:使用步骤2)中训练群体中个体的表型值与SNP位点训练MixPGV模型;计算出训练群体MixPGV模型中的SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add;
[0052] 4)计算种群育种值:根据步骤3)中SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add;将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV;
[0053] 5)计算育种值估计准确度:计算种群基因组估计育种值GEBV与采样得到的种群平均表型值或种群真实育种值的相关系数,获得种群育种值估计准确度,判定MixPGV模型的预测精度。
[0054] 步骤1)中所有小麦个体进行采样,步骤如下:
[0055] 1‑1)采用GBS技术对每个小麦个体进行基因组测序,测得基因组SNP位点;
[0056] 1‑2)对每个小麦个体进行表型测定。
[0057] 步骤2)将每个集合中的小麦个体进行分类,其中:90%的个体作为训练群体,剩余的10%样本作为测试群体。
[0058] 步骤3)中训练MixPGV模型的具体步骤如下:
[0059] 3‑1)初始化每个待测SNP位点的非加性效应值(j)
[0060] 3‑2)在第j次迭代过程中,让 以u 作为表型向量,用加性效应模型(j)
(rrBLUP模型)训练,得到期望固定效应值向量α 和SNP位点的期望加性效应值向量(j)
使用得到的期望固定效应值向量α 和SNP位点的期望加性效应值向量 计算加性效应基因组估计育种值:公式为:
[0061]
[0062] 其中Z为个体的基因型矩阵;
[0063] 3‑3)让 其中y为表型值向量,X为固定效应设计矩阵;(j)
以w 作为表型向量,用非加性效应模型(随机森林模型)训练,得到SNP位点的期望非加性效应值向量 使用得到的SNP位点的期望非加性效应值向量 计算非加性效应
基因组估计育种值,公式为:
[0064]
[0065] 其中Z为个体的基因型矩阵;
[0066] 3 ‑ 4 ) 令 α = α ( j ) ,
[0067] 种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:cor(GEBV,y‑Xα)
[0068] 若:cor(GEBV,y‑Xα)
[0069] 若:cor(GEBV,y‑Xα)≥cor(GEBVadd,y‑Xα),则输出α,βAdd,βNon‑Add,训练完成。
[0070] 步骤4)中计算种群基因组估计育种值的具体步骤如下:
[0071] 4‑1)将步骤3)中每个SNP位点的期望加性效应值向量βAdd和期望非加性效应值向量βNon‑Add带入测试群体,通过MixPGV预测模型累加得到测试群体个体的加性基因组估计育种值GEBVAdd以及非加性基因组估计育种值GEBVNon‑Add,公式为:
[0072] GEBVAdd=ZβAdd                   (3)
[0073] GEBVNon‑Add=ZβNon‑Add                  (4)
[0074] 其中:Z为估计群个体的基因型矩阵,βAdd为SNP位点的期望加性效应值向量,βNon‑Add为SNP位点的期望非加性效应值向量;
[0075] 4‑2)将测试群体个体加性基因组估计育种值GEBVAdd和非加性基因组估计育种值GEBVNon‑Add累加得到群体的基因组估计育种值GEBV,公式为:
[0076] GEBV=ZβAdd+ZβNon‑Add                (5)
[0077] 步骤5)中计算育种值估计准确度,判定模型的预测精度的具体步骤如下:
[0078] 5‑1)种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数,种群育种值估计准确度为:
[0079] cor(GEBV,y‑Xα)                    (6)
[0080] 其中,GEBV为种群基因组估计育种值,y为表型值,X为固定效应设计矩阵,α为固定效应向量。
[0081] 5‑2)根据计算得到的种群育种值估计准确度判定该MixPGV模型的预测精度。
[0082] 示例中重复100次交叉验证,对不同的基因组选择模型的预测能力进行绘图,如图1所示:
[0083] 如图1所示,在各个环境下对小麦产量的预测过程中,加性效应模型的预测能力相当,而MixPGV(rrBLUP+randomforest)模型的预测能力始终优于仅拟合加性效应的基因组选择模型,说明在非加性效应存在的情况下,MixPGV能够比较好的拟合非加性效应。从图中可以很直观明了地看出MixPGV预测的稳定性相对于其他基因组选择模型较好,其箱形图的异常点较少,MixPGV模型在第二个、第三个和第四个环境中对小麦产量的预测能力评估中,100次交叉验证结果无异常点的存在,而其他的基因组选择模型在四个环境中对小麦产量的预测能力评估中都存在少量的异常点,这也进一步的说明了MixPGV模型相较于其他基因组选择模型,其预测稳定性较好。
[0084] 示例中重复100次交叉验证,对MixPGV模型与所用的拟合加性效应模型的关系进行绘图,所得的关系如图2所示:
[0085] 图2中将不同的MixPGV模型以及他们各自所拟合的加性效应模型的100次交叉验证平均预测结果画图,以所拟合的加性效应模型预测能力为x轴,MixPGV模型预测能力为y轴,并添加拟合直线。从图2可以很直观地看出,MixPGV模型预测能力和所拟合的加性效应模型预测能力之间成正比关系,即MixPGV模型所拟合的加性效应模型预测能力越好,MixPGV模型的预测能力就越好。这也为之后在育种过程中拟合加性效应模型的选择起到了借鉴作用。本发明的混合算法灵活性好,可以与任意加性效应模型进行混合,且预测效果相对稳定,在非加性效应突出的情况下,能显著改善预测精度。
[0086] 因此,本发明的MixPGV算法具有稳定性高,灵活性好,同时能够提高估计准确度的优点。
[0087] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。