一种筛选急性髓系白血病DNA甲基化预后标志物的方法转让专利

申请号 : CN201711233816.9

文献号 : CN109852672B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘春蕙于川高丽军祁红双侯晨芳王雪阳

申请人 : 深圳豪石生物科技有限公司

摘要 :

本发明公开了一种筛选急性髓系白血病DNA甲基化预后标志物的方法,包括如下步骤:(1)采集样本和收集临床资料;(2)制备样本;(3)提取基因组DNA;(4)全基因组CpG位点甲基化捕获测序:(5)甲基化测序数据分析,筛选出标志物。本发明应用全基因组CpG位点甲基化捕获测序技术检测急性髓系白血病DNA甲基化并进行预后分析,通过整合遗传学和表观遗传学信息,筛选到了具有预后指导意义的受DNA甲基化调控的基因标志物,指导AML的精准诊疗,从而提高疗效,改善患者预后。

权利要求 :

1.一种检测12种急性髓系白血病DNA甲基化预后标志物组合的甲基化试剂在制备急性髓系白血病DNA甲基化预后检测试剂中的应用,其中所述12种急性髓系白血病DNA甲基化预后标志物是DNA甲基化调控的功能性差异甲基化基因: BARD1,BCL9L,CLEC11A,DEFB1,FOXD2,IGF1,IL18,ITIH1,LSP1,P2RX6,RNASE3和TUBGCP2。

2.如权利要求1所述的应用,其特征在于,其通过检测试剂对同一患者12个差异甲基化基因甲基化水平进行检测,获得的平均值记为该患者的综合甲基化值M-value,用于代表患者的甲基化水平,其值越大表示预后不良因素。

说明书 :

一种筛选急性髓系白血病DNA甲基化预后标志物的方法

技术领域

[0001] 本发明涉及一种筛选急性髓系白血病DNA甲基化预后标志物的方法,属于生物医药领域。

背景技术

[0002] 白血病是我国最常见恶性肿瘤之一,在儿童及40岁以下年轻癌症患者中,白血病死亡率高居首位。2016年我国学者发表重要文章《Cancer Statistics in China,2015》,揭示白血病的发病率排在第12位,死亡率则上升至第9位,每年新发白血病病例约5万人,且发病率和死亡率均呈现逐年上升的趋势[1]。在白血病中,以急性髓系白血病(acute myeloid [2]leukemia,AML)为主,约占急性白血病发病率的70% 。AML发病机制复杂、临床异质性大、复发死亡率高[3-7],治疗费用昂贵,给家庭和社会带来沉重的经济负担。攻关AML的精准诊疗是改善疗效的必然选择,成为当下研究的热点和难点。
[0003] AML目前主要依据骨髓形态学(Morphology,M)、免疫学(Immunology,I)、细胞遗传学(Cytogenetics,C)和分子生物学(Molecular,M)(MICM)特征进行诊断分型和预后分层[8,9]。基于目前的预后分层体系,仍有近50%的患者为正常核型且缺乏预后相关基因突变[10-12],无法实现精准预后指导下的精准治疗。
[0004] 研究表明,DNA甲基化、组蛋白乙酰化、染色质重塑等表观遗传学修饰与AML的发生发展密切相关[13]。DNA甲基化异常是AML的一个显著特征[13-15],在指导AML的分型及预后分层方面具有重要作用[16-18]。然而,由于目前DNA甲基化检测技术的不足,DNA甲基化检测未能在临床上常规应用,如全基因组重亚硫酸盐测序(whole-genome  bisulfite sequencing,WGBS)价格昂贵、测序深度不足、数据分析困难;甲基化450K芯片(Illumina Human Methylation 450BeadChip array,Illumina 450K array)并非直接测定碱基、检测位点有限且数据分析系统过于封闭;Agilent SureSelect甲基化测序分子多样性低、起始样本量大、仅单链捕获;简化表观重亚硫酸盐测序(reduced representation bisulfite sequencing,RRBS)受限于酶切位点、区域固定及存在数据丢失等[19,20]。因此,亟需一种全新的、适合于临床的DNA甲基化检测方法在AML中推广应用,通过准确测定AML的DNA甲基化状态,完善预后分层,推动精准诊疗。
[0005] 2015年发表在Nature Communication杂志上的“全基因组CpG位点甲基化捕获测序技术(Genome-CpGs-scale methylC-capture sequencing,MCC-Seq)”,是基于二代测序平台的全新的DNA甲基化捕获检测技术[20]。此技术既弥补了450K芯片CpG位点覆盖不足的缺陷,又解决了WGBS覆盖面过大、测序深度不足、位点精准度不够、耗时费力成本高的问题,并具有独特探针设计、能够双链捕获、起始样本量低、准确定量检测等优点,是一种准确、经济、高效的DNA甲基化检测方法,将促进DNA甲基化研究的推广和应用。迄今为止,在AML中,尚无开展MCC-Seq测序技术的相关研究报道,更无应用此技术进行AML预后研究的报道。
[0006] 综上,鉴于AML异质性大、目前预后分层体系尚有不足、DNA甲基化与AML密切相关、既往甲基化研究方法存在缺陷、MCC-Seq检测甲基化具有多重优势,我们有充分依据认为,MCC-Seq可用于检测AML的DNA甲基化,精确描绘AML的甲基化特征,通过DNA甲基化差异分析,寻找与预后不良相关的甲基化调控基因,完善AML预后分层体系,指导AML的精准诊疗,从而提高疗效,改善患者预后,为国家和社会减轻经济负担,更为推动精准医学的发展做出贡献。
[0007] 全基因组CpG位点甲基化捕获测序技术(Genome-wide methylC-capture sequencing,MCC-Seq)是基于罗氏NimbleGen SeqCap Epi序列富集系统的一种全新的DNA甲基化检测技术,覆盖了550万个甲基化位点,还加入了CpG岛以外的CpG位点及疾病相关区域的位点。相比于Illumina 450k芯片,SeqCap Epi包括了DNA芯片上的所有位点,并多出12倍以上的CpG位点,并且公共位点的甲基化水平分析结果一致性高。此外,还可以发现甲基化修饰改变的新位点、获得等位基因特异性的甲基化模式[21,22]。MCC-Seq检测方法可以有效的避免样品损失,样品起始量仅1μg,且关键的测序指标有30%的改善,如均一性,这反映了文库复杂度的改善。另外,其针对一个区段同一个位置设计多种探针来保证不同情况的甲基化都能被有效捕获,并针对转化后的正反双链,均设计了探针,通过正负链的测序结果作为参考,以不发生甲基化的链的测序结果作为参考,来判断胞嘧啶(C)转变为胸腺嘧啶(T)是基因组发生的突变还是由于未甲基化的胞嘧啶经重亚硫酸盐处理的结果,从而提高甲基化分析的正确性。
[0008] 2015年,Nature Communication杂志首先报道了MCC-Seq用于人类脂肪组织表观基因组关联分析的研究(Epigenome-wide association study,EWAS),证实其是一种准确、经济、高效的DNA甲基化检测方法,尤其适用于疾病易感性/表型相关功能性差异甲基化基因的研究[20]。

发明内容

[0009] 本发明所要解决的技术问题是:鉴于AML发病率及死亡率高、异质性大、目前预后分层体系尚有不足、DNA甲基化与AML密切相关、既往甲基化研究方法存在缺陷、MCC-Seq检测甲基化具有多重优势,本发明应用MCC-Seq技术,对AML骨髓标本进行DNA甲基化测序,定量检测AML全基因组CpG位点甲基化状态,并通过DNA甲基化差异分析,寻找与预后不良相关的甲基化调控基因,指导AML的精准诊疗,改善患者预后,为国家和社会减轻经济负担,更为推动精准医学的发展做出贡献。
[0010] 本发明提供的技术方案是:一种筛选急性髓系白血病DNA甲基化预后标志物的方法,包括如下步骤:
[0011] (1)采集样本和收集临床资料;
[0012] (2)制备样本;
[0013] (3)提取基因组DNA;
[0014] (4)全基因组CpG位点甲基化捕获测序,步骤如下:
[0015] a)首先,构建文库:进行DNA的片段化,末端修复,加“A”,接头连接,Bisulfite处理,PCR扩增及产物纯化,最后得到纯化产物;
[0016] b)目标区域捕获测序:杂交前文库与芯片温浴杂交,目的DNA片段洗脱,目的DNA片段的PCR扩增,测序;
[0017] (5)甲基化测序数据分析:
[0018] 首先,进行数据过滤及比对:将步骤(4)中的测序数据进行过滤,去掉低质量数据,得到可用数据,数据检测合格后,将可用数据与参考基因组进行比对,得到比对结果,在确认比对质量合格后,使用唯一比对数据得到C碱基甲基化信息,进行信息分析处理,得到标准信息分析结果和个性化分析结果;
[0019] 然后,捕获区域的深度和覆盖度分析:分析不同Reads测序深度下的捕获区域的覆盖度,并分析C碱基有效测序深度的累积分布,甲基化C碱基在基因组上的分布包含三种形式即CG,CHG和CHH,其中H代表A或T或C碱基;
[0020] 进行甲基化位点识别及计算甲基化水平,计算各类型mC的位点数目及其在全部mC的位点中所占的比例,并计算甲基化水平;
[0021] 分析差异甲基化区域:在多个不同分组间、不同基因区域寻找符合条件的差异甲基化区域DMRs,将找到的DMRs注释到基因体,比较DMRs在基因体不同区域分布情况;
[0022] 筛选差异甲基化基因:对差异甲基化基因进行GO富集性分析和KEGG富集性分析,确定差异甲基化基因所参与的主要生化代谢途径及信号转导途径,最后筛选出一组12个与遗传学预后相关、受DNA甲基化调控的功能性差异甲基化基因,即:BARD1,BCL9L,CLEC11A,DEFB1,FOXD2,IGF1,IL18,ITIH1,LSP1,P2RX6,RNASE3和TUBGCP2。
[0023] 所述的方法,进一步包括步骤(6),即:临床意义验证,根据筛选到的12个DMGs,计算每一例患者每一个DMGs的DNA甲基化水平,同一患者12个DMGs甲基化水平的平均值记为该患者的综合甲基化值M-value,用于代表患者的甲基化水平。
[0024] 所述的方法,步骤(5)中,每一个甲基化C碱基的甲基化水平均按如下公式进行计算:C位点的甲基化水平=支持甲基化的Reads的数目/(支持甲基化的Reads的数目+支持非甲基化的Reads的数目)×100%;
[0025] 不同基因区域的平均甲基化水平计算公式如下:
[0026] 某区域平均甲基化水平=该区域支持甲基化的Reads的数目/该区域总的Reads的数目×100%。
[0027] 步骤(5)中,DMR符合以下三个条件:至少包含5个CpGs;其中至少有3个差异甲基化位点,区域差异甲基化水平≥20%。
[0028] 步骤b)中,扩增目的DNA片段的QPCR引物1,QPCR引物2,
[0029] 引物1序列:上游:GTTAGGTAGGGAAGAAGGGAGTAGT
[0030] 下游:CCCAAAAATCAAATAATCAAAAAAA
[0031] 引物2序列:上游:GTGGTTAATTAATTTTTGAGTTTTGT
[0032] 下游:TATTACCCTATAACCACCATCACC步骤(7)中,数据过滤的处理步骤如下:
[0033] (1)去除接头污染的Reads,即:去掉Reads中接头污染的碱基数大于5bp;
[0034] (2)去除低质量的Reads;
[0035] (3)去除含N比例大于5%的Reads。
[0036] 所述的方法,步骤(5)中,可用数据与参考基因组进行比对,在信息分析过程中,测序的结果和参考基因组都进行了C-to-T(Forward)和G-to-A(Reverse)的转换,将转换后的Reads和转换后的基因组序列进行比对,唯一比对Reads将用于甲基化信息的分析,用于比对的基因组数据库位University of California Santa Cruz HG19。
[0037] 本发明还提供所述的方法筛选得到的急性髓系白血病DNA甲基化预后标志物,即DNA甲基化调控的功能性差异甲基化基因:BARD1,BCL9L,CLEC11A,DEFB1,FOXD2,IGF1,IL18,ITIH1,LSP1,P2RX6,RNASE3和TUBGCP2。
[0038] 同时,本发明还提供一种一种用于筛选急性髓系白血病DNA甲基化预后标志物的试剂盒,该试剂盒包括:DNA末端修复体系:该体系包含有10X KAPA End Repair Buffer 7μl,KAPA End Repair Enzyme 5μl,dd H2O 8μl,总体积70ul;加“A”体系:该体系包含有10X KAPA A-Tailing Buffer 5μl,APA A-Tailing Enzyme 3μl,总体积50ul;连接体系:该体系包含有5X KAPA Ligation Buffer 10μl,KAPA T4DNA Ligase 5μl,Methylation Adapter(10μM)5μl,总体积50ul;PCR扩增体系:该体系包含有KAPA HiFi HotStart Ready Mix 25μl,KAPA Library扩增引物2μl,去离子水13μl,总体积50ul,其中,扩增引物序列:上游:AGTGGTTAATTAATTTTCGAGTTTC,下游:TATTATTACCCTATAACCACCATCG;目的片段捕获后的PCR扩增体系:该体系包含有QPCR引物1和QPCR引物2各1μl,HiFi DNA多聚酶混合物12.5μl,总量25μl,其中,QPCR引物1序列:上游:GTTAGGTAGGGAAGAAGGGAGTAGT,下游:
CCCAAAAATCAAATAATCAAAAAAA,QPCR引物2序列:上游:GTGGTTAATTAATTTTTGAGTTTTGT,下游:
TATTACCCTATAACCACCATCACC。
[0039] 本发明具有以下有益效果:
[0040] 本发明主要是从临床的实际角度出发,以解决临床问题为导向,应用全基因组CpG位点甲基化捕获测序技术检测急性髓系白血病DNA甲基化并进行预后分析。本发明方法具有良好的转换率(>99.5%)、Q30(95.03%)、比对率(92.90%)及经技术重复样本验证具有很好的稳定性。本发明通过整合遗传学和表观遗传学信息,筛选到了具有预后指导意义的受DNA甲基化调控的基因标志物,有助于完善AML预后分层体系,指导AML的精准诊疗,从而提高疗效,改善患者预后。本发明应用MCC-Seq技术检测AML骨髓样本数据准确、可靠,具有良好的可行性和实用性。AML患者DNA甲基化水平是一个评价甲基化状态的稳定、可靠的指标,AML患者启动子区具有最重要的功能性差异甲基化区域,适用于筛选预后相关的DNA甲基化调控基因。因此,本发明筛选得到的12个DMGs的平均甲基化水平M-value是评价患者DNA甲基化水平的稳定、可靠的指标,12个DMGs可作为AML预后分层的新的生物标志物,高M-value是诱导缓解、无病生存和总生存的预后不良因素。

附图说明

[0041] 图1全基因组CpG位点甲基化水平与各临床因素的关系。
[0042] 图2基因启动子区具有最重要的功能性DNA甲基化特征,其中:图A,初治AML和正常对照骨髓样本不同基因区域的DNA甲基化水平的比较;图B,8对初治-缓解配对AML骨髓样本不同基因功能区域的DNA甲基化水平的比较;图C,初治AML和正常对照骨髓样本比较不同基因功能区域的差异甲基化区域;图D,初治AML骨髓样本不同遗传学预后分组间比较的不同基因功能区域的差异甲基化基因。

具体实施方式

[0043] 下面通过具体实施方式的详细描述来进一步阐明本发明,但并不是对本发明的限制,仅仅作示例说明。
[0044] 实施例中如无特殊说明,所采用的实验方法,均为常规方法;所用的实验材料、试剂等,均可通过商业途径得到。
[0045] 一、实验材料
[0046] 1、MCC-Seq测序病例
[0047] 本发明选取AML患者,按照纳入标准:(1)明确诊断为非M3型急性髓系白血病;(2)年龄大于18岁;(3)至少完成一疗程化疗且评价疗效者;(4)MICM诊断资料、临床治疗资料完整;(5)有突变靶向测序结果(以便准确进行分子生物学预后分层);(6)至少保存有初治时的骨髓标本。最终选取21例初治AML患者(编号为C01,C02,C03……C21),共检测44例次骨髓样本,详细信息见表1。
[0048] 表1DNA甲基化测序患者及样本信息总结表
[0049]
[0050]
[0051]
[0052] “7+3”方案,以阿糖胞苷和蒽环类抗生素为基础的标准诱导方案,具体参见NCCN指南;地西他滨联合方案,地西他滨20mg/m2d1-5,阿糖胞苷10mg/m2q12h d1-5,阿克拉霉素20mg d1,3,5,粒细胞刺激因子300μg/d从化疗前一天用至中性粒细胞恢复。
[0053] 2、TCGA数据库验证病例
[0054] 为了更好地验证从自测病例中筛选到的差异甲基化基因的临床意义,本发明人从TCGA数据库调取了Illumina 450k芯片检测甲基化的AML患者的数据(https://tcga-data.nci.nih.gov/tcga/)[23]。根据临床信息及DNA甲基化检测数据的完整性进行筛选,最终共有169例AML患者纳入本研究。患者信息见表2。
[0055] 表2TCGA数据库患者信息总结表
[0056]
[0057]
[0058] 二、实验方法
[0059] 1、样本采集及临床资料收集
[0060] 所有病例(21例初治AML、2例复发AML、5例健康对照)签署知情同意书后,通过骨髓穿刺采集3-5ml骨髓样本。收集患者的临床诊治信息,包括一般信息、骨髓MICM信息、AML诊断、治疗及疗效、生存情况等。
[0061] 2、技术重复样本制备
[0062] 我们随机选取了2例复发的AML患者(C22和C23),分别采集新鲜骨髓标本并提取单个核细胞,然后将同一患者的单个核细胞均分为2份,从而得到4份技术重复样本(S22-重复1和S22-重复2,S23-重复1和S23-重复2),用于提取DNA和MCC-Seq测序,以评估MCC-Seq检测骨髓样本的稳定性。
[0063] 3、基因组DNA提取
[0064] 依据Genomi DNA extraction kit(promega)的说明书进行骨髓DNA提取。
[0065] 送检样本前应用紫外分光光度计测定吸光度值(A)以确定其含量及纯度,并用琼脂糖凝胶电泳检测DNA的完整性。本实验对DNA样本的要求:DNA总量≥3μg,浓度≥50ng/μl,纯度OD260/280≥1.8。此外,在DNA完整性方面,要求经琼脂糖凝胶电泳检测无拖尾、无弥散带。
[0066] 4、全基因组CpG位点甲基化捕获测序
[0067] 4.1文库构建
[0068] 一、DNA的片段化
[0069] 预冷超声打断仪(4℃),将5.8μl稀释过的硫化转换对照试剂加入至1μg DNA中,与足量的EB混合至50μl,在超声作用下打断为200bp DNA片段。具体操作方法见《Bioruptor标准操作流程》。然后用琼脂糖电泳对DNA片段大小进行检测是否合格。
[0070] 二、末端修复
[0071] 在EP管中配制修复体系,具体成分及用量见表3。混合后于20℃温浴约半小时,然后用磁珠对DNA回收纯化,并加入42μl EB将其溶解。
[0072] 三、加“A”
[0073] 在EP管中配制加“A”体系,具体成分及用量见表4。配好后混合,于37℃温浴约半小时,然后用磁珠对DNA回收纯化,并加入20μl EB溶解。
[0074] 四、接头连接
[0075] 用加完“A”的DNA产物进一步配制连接体系,见表5。配好后混合,于[0076] 16℃温浴约半小时,然后用磁珠对DNA回收纯化,并加入30μl EB溶解。
[0077] 表3修复体系
[0078]
[0079] 表4加“A”体系
[0080]
[0081] 表5连接体系
[0082]
[0083] 五、硫化处理
[0084] 使用Zymo公司EZ DNA Methylation-GoldTM Kit对连接产物进行亚硫酸盐处理,使得未甲基化的C转变为T。具体步骤参照EZ DNA Methylation-GoldTM Kit步骤进行操作,最终溶解于20ul ddH2O中。
[0085] 六、PCR扩增及产物纯化
[0086] 将加完接头后的DNA产物用PCR进行扩增并进一步纯化。
[0087] (1)PCR扩增体系见表6
[0088] 表6PCR扩增体系
[0089]
[0090] 引物序列:上游:AGTGGTTAATTAATTTTCGAGTTTC
[0091] 下游:TATTATTACCCTATAACCACCATCG
[0092] (2)PCR反应
[0093] 设定PCR程序:
[0094]
[0095] (3)PCR产物的回收纯化
[0096] 用磁珠对PCR扩增后的DNA产物进行回收纯化,溶于ddH2O中待下一步使用。
[0097] 4.2目标区域捕获测序
[0098] 一、杂交前文库与芯片温浴杂交
[0099] (1)将等量的待杂交文库进行混合,制成样本文库(1μg)。
[0100] (2)将每个样本文库对应的Index等摩尔混合,制成Index文库(1000pmol/L)。
[0101] (3)将10μl硫化捕获增强剂与步骤(1)中的混合物加入EP管中,并向其中加入10μl公共引物(1000pmol/L)和10μl步骤(2)中的混合物(1000pmol/L)。
[0102] (4)用密闭膜封闭步骤(3)中带有杂交样本的EP管,并在膜上打几个孔,置于真空干燥浓缩仪上(温度50℃)抽干,直至完全干燥。
[0103] (5)向EP管的干粉中加入以下两种成分:2×杂交缓冲液和杂交组分A(表7),震荡后离心10秒,然后放于95℃温浴仪10分钟使其变性。
[0104] 表7杂交样本的组分及含量
[0105]
[0106] (6)到时间后快速离心,将步骤(5)中混合物加至含有NimbleGen芯片的PCR管中。震荡3秒后离心,置于47℃加热模块上68-72h,设置热盖至57℃。
[0107] 二、目的DNA片段洗脱
[0108] (1)将编号为试管1、试管2、试管3、试管4的洗涤液原液配成1×缓冲液(表7)。
[0109] (2)将Dynabeads M280提前置于室温半小时,实验前震荡1分钟,将其充分混匀,分装50μl于离心管中,并放于磁力架上静置5分钟去掉上清,然后将两倍磁珠体积的1×Bead洗涤缓冲液加入,震荡10秒后放于架上,将上清弃去。用50μl 1×Bead洗涤缓冲液重悬并转入新的已标记好的EP管中,再次放于磁力架上去上清。
[0110] 表8磁珠洗涤液成分及含量
[0111]
[0112] (3)向步骤(2)的EP管中加入杂交的DNA文库,将加热模块设定47℃加热,并间隔震荡混匀45分钟。然后加入47℃50μl体积的1×洗涤缓冲液I,并混匀。将混匀产物转入新的已标记好的EP管中,放至磁力架去上清。再加入100μl 47℃的1×Stringent洗涤缓冲液,将其混匀后放于47℃加热模块上温浴5min。
[0113] (4)将1×洗涤缓冲液I 100μl加入到步骤(3)的EP管中,混合后放至磁力架去上清。然后加入1×洗涤缓冲液II 100μl,混合后放至磁架去上清。再加入1×洗涤缓冲液III 100μl,混合后放至磁力架去上清。最后向EP管中加入50μl ddH2O,洗脱beads并捕获DNA使之溶解。将beads-DNA混合物保存于-20℃。
[0114] 三、目的DNA片段的PCR扩增
[0115] (1)制备捕获后的PCR混合物(表9)
[0116] 表9捕获后的PCR混合物
[0117]
[0118] 引物1序列:上游:GTTAGGTAGGGAAGAAGGGAGTAGT
[0119] 下游:CCCAAAAATCAAATAATCAAAAAAA
[0120] 引物2序列:上游:GTGGTTAATTAATTTTTGAGTTTTGT
[0121] 下游:TATTACCCTATAACCACCATCACC
[0122] (2)PCR反应
[0123] 设定PCR程序:
[0124]
[0125] (3)PCR产物的回收纯化
[0126] 用磁珠将扩增后的DNA产物进行回收纯化,并溶于ddH2O中待测序。
[0127] 四、Hiseq2500测序
[0128] 杂交捕获后的样本用Hiseq 2500PE100进行测序。
[0129] 5、甲基化测序数据分析
[0130] 数据下机后,首先进行数据过滤,去掉低质量数据,得到可用数据。数据检测合格后,将可用数据与参考基因组进行比对,得到比对结果。在确认比对质量合格后,使用唯一比对数据得到C碱基甲基化信息,进行信息分析处理,得到标准信息分析结果和个性化分析结果。
[0131] 5.1数据过滤及比对
[0132] 一、原始数据
[0133] Illumina高通量测序结果最初以原始图像数据文件存在,经CASAVA软件进行碱基识别后转化为原始测序序列,其结果以FASTQ(简称为fq)文件格式存储。FASTQ文件包含每条测序序列的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33(Sanger质量值体系),即为该碱基的测序质量得分。不同测序质量得分代表不同的碱基测序错误率,如测序质量得分值为20和30分别表示碱基测序错误率为1%和0.1%。
[0134] 二、数据过滤
[0135] 对测序得到的原始序列进行过滤,得到高质量的Clean Reads,再进行后续分析,后续分析都基于Clean Reads。
[0136] 数据处理步骤如下:
[0137] (1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp。对于PE,若一端受到接头污染,则去掉两端的Reads);
[0138] (2)去除低质量的Reads(Reads中质量值Q≤19的碱基占总碱基的15%以上,对于PE,若一端为低质量Reads,则会去掉两端Reads);
[0139] (3)去除含N比例大于5%的Reads(对于PE,若一端含N比例大于5%,则会去掉两端Reads)。
[0140] 数据过滤统计指标如下:
[0141] Reads Length(bp):序列长度;
[0142] Raw Reads:原始下机的序列数;
[0143] Raw Bases:原始下机序列的碱基数;
[0144] Clean Reads:过滤后得到的高质量的序列数;
[0145] Clean Reads Rate(%):过滤后得到的高质量序列占原始下机序列的比例。这个值越大,说明测序质量或者文库质量越好;
[0146] Clean Bases:过滤后的高质量序列的碱基数;
[0147] Low-quality Reads:由于低质量碱基过多,被去掉的序列数;
[0148] Low-quality Reads Rate(%):由于低质量碱基过多,被去掉的序列占原始下机序列的比例;Ns Reads:由于含N过高,被去掉的序列数;
[0149] Ns Reads Rate(%):由于含N过高,被去掉的序列占原始下机序列的比例;
[0150] Adapter Polluted Reads:由于某些序列受到接头的污染,被去掉的序列数;
[0151] Adapter Polluted Reads Rate(%):由于某些序列受到接头的污染,被去掉的序列占原始下机序列的比例;
[0152] Original Q30Bases Rate(%):Raw Reads中测序质量值大于30(错误率小于0.1%)的碱基占总碱基的比例;
[0153] Clean Q30Bases Rate(%):Clean Reads中测序质量值大于30(错误率小于0.1%)的碱基占总碱基的比例。
[0154] 三、测序数据质量值分布
[0155] 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。每个碱基测序错误率是通过测序Phred数值(Phred score,Qphred)通过公式转化得到,而Phred数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表10所示:
[0156] 表10Illumina Casava碱基识别与Phred分值之间的简明对应关系
[0157]
[0158] 四、测序数据碱基分布
[0159] 以过滤后序列的碱基位置作为横坐标,以每个位置的ATCG碱基(其中N表示未知的碱基)的比例作为纵坐标,得到碱基分布图。
[0160] 五、比对分析
[0161] 在信息分析过程中,测序的结果和参考基因组都进行了C-to-T(Forward)和G-to-A(Reverse)的转换,将转换后的Reads和转换后的基因组序列进行比对,唯一比对Reads将用于甲基化信息的分析。用于比对的基因组数据库位University of California Santa Cruz HG19。使用软件及参数[24](版本:V0.9.0):bismark-p 5-N 1–directional-o Directory-1fq1-2fq2。
[0162] 5.2甲基化位点识别及计算甲基化水平
[0163] 一、甲基化位点识别
[0164] 不同分布类型的甲基化C位点在不同物种基因组中出现比例不同[25],因此,各类型mC(mCG、mCHG和mCHH)的位点数目及其在全部mC的位点中所占的比例(例:mCHG所占比例=mCHG数目/mC的总数),在一定程度上反映了特定物种的全基因组甲基化图谱的特征。
[0165] 二、计算甲基化水平
[0166] 每一个甲基化C碱基的甲基化水平均按如下公式进行计算:C位点的甲基化水平=支持甲基化的Reads的数目/(支持甲基化的Reads的数目+支持非甲基化的Reads的数目)×100%。捕获区域平均甲基化水平反应了基因组甲基化图谱的总体特征。这里只考虑覆盖深度不小于5的甲基化位点。
[0167] 不同基因区域的平均甲基化水平计算公式如下:某区域平均甲基化水平=该区域支持甲基化的Reads的数目/该区域总的Reads的数目×100%。
[0168] 5.3差异甲基化区域分析
[0169] 本研究在多个不同分组间、不同基因区域寻找差异甲基化区域(DMRs),DMR需要符合以下三个条件:至少包含5个CpGs;其中至少有3个差异甲基化位点(差异甲基化位点即差异甲基化水平≥20%的位点);区域差异甲基化水平≥20%。使用软件及参数(V0.9.2):R包methylKit[26]和eDMR[27]。
[0170] 将找到的DMRs注释到gene body,比较DMRs在gene body不同区域分布情况,更好的理解甲基化修饰的改变对基因调控的影响。
[0171] 5.4差异甲基化基因筛选及临床意义验证
[0172] 本发明的目的是寻找AML患者中高甲基化预后不良的基因,因此以细胞遗传学和分子遗传学预后分组为基础,在不同预后分组间进行差异甲基化比较,寻找在危险度高的组中高甲基化差异区域,并根据差异区域注释差异基因,进一步进行基因功能分析,筛选确定目标基因,然后在研究病例和TCGA数据库病例中进行临床意义验证,包括与临床因素之间的关系、缓解率及生存意义分析等。
[0173] 6、统计学方法
[0174] 连续变量采用‘学生t检验、方差分析、Mann-Whitney U秩和检验;分类变量采用Fisher’s精确性检验或卡方检验。生存分析采用Kaplan-Meier曲线。总生存率(Overall survival,OS)定义:从初诊到患者死亡或随访终止;无病生存率(Disease Free survival,DFS)定义为从完全缓解到复发、死亡、或者随访终止。双侧检验P<0.05为显著性统计差异。上述统计分析在SPSS 19.0(IBM Corp.,Armonk,NY,USA)、GraphPad Prism 6(GraphPad Software Inc.,San Diego,California,USA)等软件上进行。
[0175] 三、实验结果
[0176] 1、测试数据覆盖度结果
[0177] 采用所有上机测序的44例次样本进行测序数据质控分析。我们捕获的目标覆盖全基因组240,513个区域、包含大于5Mb的CpG位点,共有80M的碱基对。测序读长为125bp。覆盖度不低于1×,5×,10×,20×的CpG位点平均百分比分别为92.73%,80.32%,67.20%,和43.81%。所有44例次DNA样本覆盖度超过30×的数据量有430Gb。所有样本的转化率均超过
99.5%。
[0178] 2、测试数据过滤结果
[0179] 过滤剔除质量差的数据后,44例次样本平均的总clean reads数目为58,147,036(范围:40,663,694-79,302,058),测序质量值clean Q30base rate平均为95.03%(范围:92.65%-98.05%)。
[0180] 3、测试数据比对结果
[0181] 与参考基因组比对,Clean reads平均比对到基因组的目标捕获CpGs为72.32%(范围:38.54%-85.31%),总体比对率为92.90%(范围:80.52%-96.40%)。
[0182] 4、技术重复样本结果
[0183] 为了验证MCC-Seq检测骨髓样本DNA甲基化的稳定性,我们对两例AML患者的样本复本进行了独立、平行的检测。结果显示,不同测序深度下同一患者的两个复本DNA甲基化测序结果具有高度的一致性,并且随测序深度的增加,相关系数逐渐增大,相关性更强(S22-重复1和S22-重复2比较:在测序深度的界值分别为1×,5×,10×,20×时,R=0.959,0.971,0.978,0.985;S23-重复1和S23-重复2比较:在测序深度的界值分别为1×,5×,10×,20×时,R=0.954,0.967,0.974,0.982)。
[0184] 5、AML患者DNA甲基化水平影响因素
[0185] 我们计算了21例初治AML样本的全基因组范围内捕获的CpGs的甲基化水平(DNA methylation indicator,DMI),并分析了各临床特征与DMI的关系,以确定是否有特定的因素影响患者的DMI。结果显示,DMI不受骨髓样本原始细胞比例、患者年龄、性别、FAB分型、细胞遗传学危险度分组、分子遗传学危险度分组以及体细胞突变的数目的影响。同时发现,年龄≥50岁的患者与年龄<50岁的患者相比,DMI显著增高(49.39%±3.43%vs.46.75%±2.31%,p=0.048)(图1)。
[0186] 6、不同基因区域DNA甲基化水平
[0187] 我们分析了不同基因区域,如所有CpG位点捕获区域(all CpGs),CpG岛(CpG islands),启动子区(promoters),外显子区(exons),第一外显子(exon 1),内含子(introns),增强子(enhancers),5’非编码区(5’untranslated region,5’UTR)等的DNA甲基化水平。通过比较初治AML患者和正常对照骨髓这些区域的甲基化水平发现,仅启动子区和增强子区的DNA甲基化水平(DMI)显著高于正常对照(p=0.025和p=0.021)(图2A);进一步通过8对初治-缓解配对的样本分析发现,在诱导缓解期,仅启动子区的DNA甲基化水平显著低于初治(p=0.018),而增强子区DNA甲基化水平并无明显变化(p=0.145)(图2B);另外3对初治-复发配对样本的结果提示,复发时启动子区的DNA甲基化水平与初治时无显著差异(p=0.305)。上述结果显示,AML患者启动子区DNA甲基化水平高于正常对照,且缓解期显著下降,复发时再度升高,说明启动子区DNA甲基化是AML发病的一个显著特征,且与临床治疗反应密切相关。
[0188] 为了寻找具有功能的差异甲基化基因,我们首先在初治AML样本和正常对照样本间进行了相关基因功能区域(如启动子、第一外显子、增强子和5’非编码区,即promoter,exon 1,enhancer,5’UTR)的差异甲基化区域(DMR)比较。结果发现,启动子区具有最多的差异甲基化区域(60.9%,669/1099,p<0.001)),且以高甲基化差异区域为主(5.0%,502/669,p<0.001)(图2C);从整合遗传学预后和表观遗传学预后的角度出发,我们进一步比较了初治AML不同细胞遗传学预后和分子遗传学预后分组间的差异甲基化区域(DMR),并根据不同基因区域的DMR注释相应的差异甲基化基因(differentially methylated genes,DMGs),结果显示,注释到启动子区的DMGs最多(p<0.001)(图2D)。上述结果提示,启动子区具有最重要的功能性差异甲基化区域,并且与已知的遗传学预后分组具有联系。基于启动子区的差异甲基化进行甲基化预后相关基因的筛选具有实用性。
[0189] 7、差异甲基化基因筛选结果
[0190] 为了筛选启动子区高甲基化而导致患者预后不良的基因,确定一组整合了遗传学和表观遗传学的预后基因标志物,以便研发用于判断AML预后的试剂盒,我们进行了筛选和验证。首先,按照NCCN指南预后危险度分层标准,将进行了MCC-Seq测序的21例初治AML分成不同的细胞遗传学和分子遗传学预后分组,并比较不同预后分组间启动子区的甲基化差异,比较的组别方向是:高危vs.中危,中危vs.低危,高危vs.低危。细胞遗传学组间比较共找到100个高差异甲基化基因(hyper-DMGs),分子遗传学组间比较共找到44个高差异甲基化基因。然后进一步采用“取交集”的方法,即选择共同出现在细胞遗传学组间比较的100个hyper-DMGs中和分子遗传学组间比较的44个hyper-DMGs中的hyper-DMGs,从而得到了在细胞遗传学组间比较和分子遗传学组间比较中预后均不好的18个hyper-DMGs,我们进一步通过检索基因数据库(NCBI Gene database)、检索相关基因的文献报道、对基因进行GO功能分析和KEGG通路分析,明确筛选到的18个基因的特征,并最终确定其中的12个基因用于后续临床意义验证。18个基因中,剔除3个假基因(GUCY1B2,HNRNPA1P33和TUBA3FP)和2个无分子功能的基因(MIR3150B和MIR4638),及1个在TCGA数据库中无DNA甲基化检测结果的基因(PLEC)。最终有6个基因被剔除,确定了一组12个与遗传学预后相关、受DNA甲基化调控的功能性差异甲基化基因(BARD1,BCL9L,CLEC11A,DEFB1,FOXD2,IGF1,IL18,ITIH1,LSP1,P2RX6,RNASE3和TUBGCP2),并在研究病例和TCGA病例中进行临床意义验证,证明了其具有判断AML预后的意义,可用于后续预后分层试剂盒的研发。
[0191] 8、差异甲基化基因临床意义验证结果
[0192] 根据筛选到的12个DMGs,我们计算了每一例患者每一个DMGs的DNA甲基化水平。同一患者12个DMGs甲基化水平的平均值记为该患者的综合甲基化值(M-value),用于代表患者的甲基化水平。然后,我们在21例MCC-Seq的研究病例中和169例TCGA病例中验证了M-value的临床意义。
[0193] 结果发现,M-value不受患者年龄、性别和样本原始细胞比例的影响,这与捕获范围内的CpGs的甲基化水平不受这些因素影响的结果类似(图1)。
[0194] 我们评价了M-value与临床短期疗效,即诱导缓解率的关系。结果显示,完全缓解患者的平均M-value值低于未缓解者(37.42%±15.79%vs.49.69%±12.51%,p=0.09)。为了更进一步评价M-value与CR的关系,我们以21例患者M-value值的中位数为界,将患者分为低M-value组,即M-value值≤中位数(n=11);和高M-value组,即M-value值>中位数(n=10)。在低M-value组,有高达90.9%(10/11)的患者达到了CR,缓解率显著高于高M-value组(40.0%,4/10;p=0.024)。并且,6名预后中危(intermediate-risk AML,IR-AML)且低M-value的患者,有5例达到了CR,缓解率为83.3%,而8例IR-AML且高M-value的患者,仅3例达到了CR,缓解率仅为37.5%。上述结果提示,无论对于所有非M3AML还是IR-AML,低M-value的患者更容易获得CR。
[0195] 评价M-value与远期疗效,即生存的关系:我们将研究病例及TCGA数据库病例均按其各自的M-value的中位数分为低M-value组和高M-value组。首先,在21例研究病例中,总的中位总生存期(OS)、中位无病生存期(DFS)、1年累积OS、1年累积DFS分别为23.8个月、未达到、78.9%和69.1%。在低M-value组和高M-value组,中位OS分别为未达到和14.93个月(p=0.062);中位DFS分别为未达到和10.97个月(p=0.039);1年累积OS分别为88.9%和68.6%(p=0.145);1年累积DFS分别为90.9%和30.0%(p<0.001)。生存分析显示,高M-value是DFS的危险因素(HR:6.83,95%CI:1.07-40.28;p=0.039);对于OS,高M-value有预后更差的趋势。在TCGA病例中,高M-value组患者的OS显著差于低M-value组(median OS:
15.1months vs.16.4months;HR:1.491,95%CI:1.043-2.151,p=0.038)。对于DFS,高M-value有不良预后的趋势。并且,高M-value患者的2年累积OS和DFS均显著低于低M-value组(OS:35.9%vs.45.9%,p=0.001;DFS:30.2%vs.44.2%,p<0.001)。上述结果表明,高M-value是预后不良因素。
[0196] 参考文献
[0197] 1.Chen,W.,et al.,Cancer statistics in China,2015.CA Cancer J Clin,2016.
[0198] 2.Hasserjian,R.P.,Acute myeloid leukemia:advances in diagnosis and classification.Int J Lab Hematol,2013.35(3):p.358-66.
[0199] 3.Walter,R.B.,et al.,Significance of FAB subclassification of"acute myeloid leukemia,NOS"in the 2008WHO classification:analysis of 5848newly diagnosed patients.Blood,2013.121(13):p.2424-31.
[0200] 4.Prada-Arismendy,J.,J.C.Arroyave,and S.Rothlisberger,Molecular biomarkers in acute myeloid leukemia.Blood Rev,2017.31(1):p.63-76.
[0201] 5.Papaemmanuil,E.,et al.,Genomic Classification and Prognosis in Acute Myeloid Leukemia.N Engl J Med,2016.374(23):p.2209-21.
[0202] 6.Taylor,J.,W.Xiao,and O.Abdel-Wahab,Diagnosis and classification of hematologic malignancies on the basis of genetics.Blood,2017.130(4):p.410-423.
[0203] 7.Dohner,H.,et al.,Diagnosis and management of acute myeloid leukemia in adults:recommendations from an international expert panel,on behalf of the European LeukemiaNet.Blood,2010.115(3):p.453-74.
[0204] 8.Bennett,J.M.,et al.,Proposals for the classification of the acute leukaemias.French-American-British(FAB)co-operative group.Br J Haematol,1976.33(4):p.451-8.
[0205] 9.Daniel A.Arber,et al.,The 2016revision to the World Health Organization classification of myeloid neoplasms and acute leukemia.Blood,2016.127(20):p.2391-405.
[0206] 10.Bullinger,L.,et al.,Identification of acquired copy number alterations and uniparental disomies in cytogenetically normal acute myeloid leukemia  using high-resolution  single-nucleotide  polymorphism analysis.Leukemia,2010.24(2):p.438-49.
[0207] 11.Mardis,E.R.,et al.,Recurring mutations found by sequencing an acute myeloid leukemia genome.N Engl J Med,2009.361(11):p.1058-66.
[0208] 12.Shen,Y.,et al.,Gene mutation patterns and their prognostic impact in a cohort of 1185patients with acute myeloid leukemia.Blood,2011.118(20):p.5593-603.
[0209] 13.Gutierrez,S.E.and F.A.Romero-Oliva,Epigenetic changes:a common theme in acute myelogenous leukemogenesis.J Hematol Oncol,2013.6:p.57.[0210] 14.Figueroa,M.E.,et al.,Leukemic IDH1 and IDH2 mutations result in a hypermethylation phenotype,disrupt TET2 function,and impair hematopoietic differentiation.Cancer Cell,2010.18(6):p.553-67.
[0211] 15.Schoofs,T.,W.E.Berdel,and C.Muller-Tidow,Origins of aberrant DNA methylation in acute myeloid leukemia.Leukemia,2014.28(1):p.1-14.
[0212] 16.Figueroa,M.E.,et al.,DNA methylation signatures identify biologically distinct subtypes in acute myeloid leukemia.Cancer Cell,2010.17(1):p.13-27.
[0213] 17.Deneberg,S.,et al.,Gene-specific and global methylation patterns predict outcome in patients with acute myeloid leukemia.Leukemia,2010.24(5):p.932-41.
[0214] 18.Deneberg,S.,et al.,Prognostic DNA methylation patterns in cytogenetically normal acute myeloid leukemia are predefined by stem cell chromatin marks.Blood,2011.118(20):p.5573-82.
[0215] 19.Sun,Z.,et al.,Base resolution methylome profiling:considerations in platform selection,data preprocessing and analysis.Epigenomics,2015.7(5):p.813-28.
[0216] 20.Allum,F.,et al.,Characterization of functional methylomes by next-generation  capture sequencing identifies novel disease-associated variants.Nat Commun,2015.6:p.7211.
[0217] 21.NimbleGen.www.nimblegen.com.
[0218] 22.Walker,D.L.,et al.,DNA methylation profiling:comparison of genome-wide sequencing methods and the Infinium Human Methylation 450 Bead Chip.Epigenomics,2015.7(8):p.1287-302.
[0219] 23.Cancer Genome Atlas Research,N.,Genomic and epigenomic landscapes of adult de novo acute myeloid leukemia.N Engl J Med,2013.368(22):p.2059-74.[0220] 24.Krueger,F.and S.R.Andrews,Bismark:a flexible aligner and methylation caller for Bisulfite-Seq applications.Bioinformatics,2011.27(11):p.1571-2.
[0221] 25.Lister,R.,et al.,Human DNA methylomes at base resolution show widespread epigenomic differences.Nature,2009.462(7271):p.315-22.
[0222] 26.Akalin,A.,et al.,methylKit:a comprehensive R package for the analysis of genome-wide DNA methylation profiles.Genome Biol,2012.13(10):p.R87.
[0223] 27.Li,S.,et al.,An optimized algorithm for detecting and annotating regional differential methylation.BMC Bioinformatics,2013.14 Suppl 5:p.S10.