基因组结构绘图转让专利

申请号 : CN201580067332.4

文献号 : CN107406873B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : A.庞博P.爱德华兹M.尼科德米A.夏尔多内R.比格里

申请人 : 马克思-德布鲁克-分子医学中心亥姆霍兹联合会剑桥企业有限公司

摘要 :

本发明涉及分析基因组的三维结构领域,即,用于基因组结构绘图(GAM)。本发明提供一种确定在隔室(诸如细胞核)中多个核酸基因座的空间接近性的方法,其通过利用隔室的各级分中它们的共分离,所述级分在根据隔室中它们的定位(例如,通过低温切片或低温研磨隔室)将核酸基因座彼此分离以得到级分群时鉴定;确定在所述级分中存在或不存在多个基因座;和确定所述多个基因座的共分离。可随后使用统计方法来分析共分离,以确定空间接近性。所述方法可例如用于确定多个基因座之间的物理距离;和例如在核中绘图基因座和/或基因组结构;鉴定通过空间接触指导特定基因表达的可调节区域;鉴定在核中外源核酸的核位置和/或诊断与基因座的被干扰的共分离相关的疾病。

权利要求 :

1.一种确定在包含核酸的细胞隔室中多个核酸基因座的空间接近性的方法,其中所述细胞隔室源自细胞,所述方法包括以下步骤:(a) 根据在隔室中核酸基因座的定位,通过低温切片每个隔室以得到包含多于180个级分的级分群,使核酸基因座彼此分离,其中所述级分群获自多个相同类型的隔室,并且其中生成的切片具有70 nm至1000 nm的厚度;

(b) 通过测序确定在所述级分中存在或不存在多个基因座;和(c) 确定所述多个基因座的共分离,其中通过使用推理统计方法分析共分离来确定核酸基因座的空间接近性;

在进行步骤(a)之前,其中通过玻璃化保存细胞超微结构或者其中将核、细胞、组织或整个有机体用交联剂处理,

并且其中所述方法不需要对初始存在于隔室中的核酸的限制消化或核酸之间的连接。

2.根据权利要求1的方法,其中所述隔室是真核生物的核并且从切片分离单一核分布图。

3.根据权利要求1的方法,其中所述核酸为DNA和/或RNA。

4.根据权利要求1的方法,其中所述核酸为DNA。

5.根据权利要求1‑4中任一项的方法,其中所述隔室为真核细胞的核、线粒体或原核细胞。

6.根据权利要求1‑4中任一项的方法,其中在步骤(a)之前用甲醛进行交联。

7.根据权利要求1‑4中任一项的方法,其中在步骤(a)中的所述分离通过超低温切片所述隔室进行。

8.根据权利要求1‑4中任一项的方法,其中在步骤(a)中,将一个隔室分隔成为5‑300个级分。

9.根据权利要求1‑4中任一项的方法,其中在步骤(a)中,将一个隔室分隔成为40‑60个级分。

10.根据权利要求1‑4中任一项的方法,其中所述多个基因座为在所述隔室中两个基因座至所有核酸基因座。

11.根据权利要求1‑4中任一项的方法,其中所述方法允许检测至少三个共分离基因座。

12.根据权利要求1‑4中任一项的方法,其中使用测序方法确定存在或不存在所述多个基因座。

13.根据权利要求1‑4中任一项的方法,其中通过下一代测序,确定存在或不存在所述多个基因座。

14.根据权利要求1‑4中任一项的方法,其中当它们以高于由在染色体上它们的线性基因组距离预期的频率共分离时,确定基因座在空间上接近。

15.前述权利要求中任一项的方法用于以下的用途:(a) 确定多个基因座之间的物理距离;

(b) 绘图在所述隔室中的基因座和/或基因组结构;

(c) 确定多个基因座之间的相互作用的可能性;

(d) 确定基因座或染色体在所述隔室中的外周或中心位置;

(e) 分析选自以下的不同的功能元件的相互作用:涉及转录的启动子、增强子,RNA、转座因子、转录因子结合位点、基因体、剪接信号;

(f) 鉴定调节特定基因表达的调节区;

(g) 对染色体重排进行绘图;

(h) 确定染色质压实;和/或(i) 鉴定在与内源基因座相互作用的外源核酸上的基因座。

说明书 :

基因组结构绘图

[0001] 本发明涉及分析基因组的三维结构领域,即,用于基因组结构绘图(GAM)。本发明提供一种确定在隔室(诸如细胞核)中多个核酸基因座的空间接近性的方法,在该隔室的各
级分中,其通过利用隔室的各级分中它们的共分离,所述级分在根据隔室中它们的定位(例
如,通过低温切片或低温研磨隔室)将核酸基因座彼此分离以得到级分群时鉴定;确定在所
述级分中存在或不存在多个基因座;和确定所述多个基因座的共分离。可随后使用统计方
法来分析共分离,以确定空间接近性。所述方法可例如用于确定多个基因座之间的物理距
离;和例如在核中绘图基因座和/或基因组结构;鉴定通过空间接触指导特定基因表达的可
调节区域;鉴定在核中外源核酸的核位置;鉴定染色质压实和/或诊断与基因座的被干扰的
共分离相关的疾病。
[0002] 已采用若干方法来分析基因组的结构和染色质相互作用。线性基因组距离通常通过测序(例如鸟枪法测序)来分析。在基因组(特别是,在重复序列的情况下)中,可例如通过
1
HAPPY绘图 来解决定位序列的问题,其基于在基因组DNA的随机碎裂和稀释后基因座共分
离的频率,测量基因座之间的线性基因组距离,并且可用于高达约200kb线性距离。
[0003] 关于染色质的三维结构的信息也是高度受关注的,特别是,以发现可调节区域和基因启动子之间的接触。染色体相互作用影响基因表达的一个实例为可折叠的染色体区
域,以便在基因的密切接近性内,带来增强剂和关联的转录因子。研究染色体的结构性质和
空间组织对于基因表达的调节、DNA复制和修复以及重组的理解和评价是重要的。例如,在
癌症或先天性疾病中,染色体的折叠和它们的接触对于疾病机理和阐明治疗方法的目标具
有重要的暗示。
[0004] 染色质以相互作用和非相互作用状态存在。相互作用状态具有不同的性质,其取决于在相互作用中涉及的结合位点的特性,即,(a)它们的数量、距离和分配,(b)它们对粘
合剂的特异性和亲和力,和(c)粘合剂的浓度和特异性。染色质相互作用还可涉及同时关联
的不同数量的基因座(相互作用的多样性)。
[0005] 荧光性原位杂化(FISH)利用显微术来直接测量基因组基因座之间的空间距离,但是其可仅适用于在同一核中一次研究少量的基因组区域(例如,Pombo A.2003.Cellular 
genomics:which genes are transcribed when and where?Trends Biochem.Sci.28,6)。
理论上有可能使用不同组的探头来再次探测相同的细胞或组织切片,但是得注意重复的再
次探测引起结构假象,例如,由于分离随后的探头组所需的DNA变性,例如,诱导基因座的人
工聚集(接触)(即,相对于彼此和相对于核界标(例如,核薄层),亚基因组区域的再次定
位)。在中期染色体的情况下,其代表更加浓缩的(并且预期更加稳定的)染色质,再次探测
可重复最多六次(Pauciullo A等人,2014,Development of a sequential multicolor‑
FISH approach with 13chromosome‑specific painting probes for the rapid 
identification of river buffalo(使用13种染色体‑特异性涂漆探头,开发连续多色‑
FISH方法,用于快速鉴定river buffalo)(Bubalus bubalis,2n=50)chromosomes.J Appl 
Genet.55(3):397‑401),但是在第二次探测后,关于染色体形态的降解的关注可能已经显
而易见,这可导致损失染色体或核(Heslop‑Harrison JS,Harrison GE,Leitch IJ(1992)
Reprobing of DNA:DNA in situ hybridization preparations(DNA的再探测:DNA原位杂
化制备)。Trends Genet 8:372‑373)。RNA‑FISH为较温和的FISH方法,其不涉及DNA变性,但
是可能仅用于确定主动转录的基因(非沉默基因)的核位置。来自在细胞周期的相间阶段
(其中最通常绘图官能的染色质接触)中细胞的样品可被再次探测用于RNA‑FISH仅约三次,
但是已经不能详细测量结构的保护。可同时施用于DNA‑或RNA‑FISH的探头数量受到可识别
荧光标记物的限制,例如,通过组合五种颜色、四种颜色比率和两种不同水平的强度,原则
上可得到181种条形码(Pombo  A.2003.Cellular genomics:which genes are 
transcribed when and where?Trends Biochem.Sci.28,6)。然而,当分析的基因座在空间
上如此接近,以至于在一个探头中荧色物的组合不能与组合中的另一个区别时,该方法(多
路复用荧色物)失败,因此并不顺从在空间上接近的基因座的鉴定。此外,由于每一个特定
的基因座需要标记的探头,FISH可仅适用于分析关注的已知基因座的相互作用,并且例如
在检测内源或外源DNA序列中失败,除非它们已知为先验,例如,外源DNA的精确序列和病毒
亚型整体位置(viral subtype integration position)。线性基因组组织的先验假定也使
FISH混乱,其不可接受用于研究染色质定位特性,例如,染色质接触,当例如关注在有机体
群体中基因组序列的天然变体的影响时,例如,在研究人样品中,由于FISH不会内在地检测
序列变化(诸如拷贝数量变化或基因组重排)的事实,而没有样品的先验探头设计或先验整
个基因组测序接着探头设计。
[0006] 在不同的方法,指定的INGRID(相互作用DNA碎片的IN‑Gel复制;Gavrilov,A.A等人,2014,Quantitative analysis of genomic element interactions by molecular 
colony technique(通过分子克隆技术,基因组要素相互作用的定量分析)。Nucl.Acids 
Res.42(5):e36),交联的染色质碎片在大面积的聚丙烯酰胺凝胶层上铺展,接着使分别以
在所选的DNA碎片的凝胶内扩增期间产生的单组分和多组分分子群体形式的单独的和关联
的要素可视化,其通过分子标志技术显现(Chetverin AB,Chetverina HV.Molecular 
colony technique:a new tool for biomedical research and clinical practice(分
子群体技术:用于生物化学研究和临床实践的新的工具)。Prog.Nucleic  Acid 
Res.Mol.Biol.2008;82:219‑255)。该技术还依赖于基因组组织的先验知识,并且不能内在
地发现DNA序列变化、其空间组织以及其如何影响整个基因组的空间组织。
[0007] 分析基因组的三维结构的备选的当前的方法主要基于染色体构型捕获(3C)技术,其中存在许多当前的版本和改编(图4)。基于3C的方法通常由介导基因组接触的蛋白质的
弱化学交联开始。在染色质提取后,DNA的交联的块使用用于DNA碎裂的限制酶处理。加入连
接酶,随后连接(连接)两块DNA。3C的不同的变化使用检测这样的连接事件的不同的方法:
流行的一种方法是测序(Hi‑C,4C‑seq)。
[0008] 对这些技术的限制在图4中描述,并且已经在文献中讨论过(例如,在Belmont A.S.,2014中。Large scale chromatin organization:the good,the surprising,and 
the still perplexing(大规模染色质组织:良好的、意外的以及仍困惑的)。Curr Op Cell 
Biol 26,69;O’Sullivan J.M.等人,2013。The statistical‑mechanics of chromosome 
conformation capture(染色体构型捕获的统计‑力学)。Nucleus 4,390;Williamson,l.等
人,2014。Spatial genome organization:contrasting views from chromosome 
conformation capture and fluorescence in situ hybridization(空间基因组组织:染
色体构型捕获和荧光性原位杂化的对比图)。Genes Dev.28,2778‑2791)。
[0009] 目前,不可能以没有偏倚的方式在基因组范围内鉴定结合位点,因此,我们不能理解哪一种核组分建立染色体结构的不同方面,以及多长范围的染色质接触帮助维持基因组
稳定性和影响基因组功能(例如,基因表达)。因此,鉴定结合位点和测量结合位点彼此相互
作用的频率是主要的当前的挑战。
[0010] 本发明人解决提供用于确定核酸的空间接近性的改进的方法的问题,所述方法避免基于用于检测核酸相互作用的碎片化的核酸的连接的偏倚,并且允许同时分析若干高多
样性相互作用(各自涉及多于两种基因座),特别是,多于两种相互作用,并且在一种实施方
案中,用于同时分析基因组中的基本上所有的核酸相互作用和它们的相互依赖性。通过在
以下和在权利要求中描述的本发明的方法解决该问题。该方法为指定的基因组结构绘图
(GAM)。
[0011] 本发明提供一种确定在隔室中多个核酸基因座的空间接近性的方法,所述方法包括:
[0012] (a)根据在隔室中它们的定位使核酸彼此分离以得到级分群;
[0013] (b)确定在所述级分中存在或不存在多个基因座;和
[0014] (c)确定所述多个基因座的共分离。
[0015] 基因座(多个基因座)为基因、DNA序列或在染色体上的位置的特定的位置(Wikipedia)。每一个染色体携带许多基因;在23种不同的染色体上,在单倍体人基因组中
蛋白质编码基因的数量估计是20,000‑25,000。位于给定基因座的类似DNA序列的变体称为
等位基因。在本发明的情景下,核酸可为DNA或RNA或二者的组合,例如,如果基因之间的相
互作用被主动转录,并且待分析其它基因组区域。通常,使用本发明的方法分析DNA的共分
离。可在包含核酸(诸如真核细胞、线粒体或前核细胞的核)的任何细胞或器官隔室中分析
基因座的共分离。通常,将分析核酸(特别是,DNA、真核细胞的核中的基因座)的共分离。因
此,本发明的方法组成分析核中的基因座接近性的方案,通过测量它们分级的核的共分离
的频率。
[0016] 衍生隔室的细胞可为细菌、原生动物、植物细胞、真菌细胞或动物细胞,例如,哺乳动物细胞,诸如来自具有某一疾病或病症或正诊断病症的患者(优选,人患者)或健康受试
者的细胞。细胞可为例如肿瘤细胞或干细胞,诸如产生的诱导的多能干细胞,例如,通过人
组织的重新编程。这样的细胞可有利地用于将GAM施用于研究人发育病症或先天性疾病。如
果细胞为胚胎干细胞,优选其不在与破坏人胚胎有关的方法中产生。
[0017] 哺乳动物优选为人,但是也可关注研究,并且任选比较其它有机体的基因组结构,诸如大肠杆菌、酵母、拟南芥、线虫、X.laevis、斑马鱼、D.melanogaster、小鼠、大鼠或灵长
目动物。
[0018] 细胞可衍生自细胞培养物或由来自活的有机体或死的有机体的特定组织先体外离体分析,即,死后,或由整个实验有机体(例如,整个D.melanogaster胚胎或C.elegans)。
优选选择用于分析的细胞,例如,用于在细胞周期中共享共同的阶段,或用于分析仅属于特
定发育谱系或细胞类型的细胞(例如,在人器官的活检内)。例如,在胰腺中,仅可分析产生
β‑细胞的胰岛素。该方法优选用于在细胞周期的特定的阶段中使细胞同步,或使细胞分类,
例如通过荧光性活性细胞分类以捕获特定细胞类型,因为(a)这些方法可在其测量前改变
在关注的隔室中核酸的排布,和(b)它们产生仅少量的细胞(例如,由尺寸受限的活检),这
可导致下游分析的问题。同步的细胞或例如通过荧光性活性细胞分选而分选的细胞也可用
于本发明。标记物可用于使用细胞类型选择来帮助,例如,对在关注的细胞类型或细胞阶段
中独特表达的蛋白质特异性的抗体,或通过原位杂化检测,例如,使用检测在关注的细胞类
型中特别表达的特定物质(例如,mRNA或其它RNA)的核酸探头,或荧光标记物,诸如显示特
定基因表达或特定阶段特性的GFP。例如,在Pitx3转录因子的启动子的控制下的GFP转基因
可用于标记多巴胺‑表达神经元(Maxwell等人,2005,Pitx3regulates tyrosine 
hydroxylase expression in the substantia nigra and identifies a subgroup of 
mesencephalic dopaminergic progenitor neurons during mouse development(Pitx3
在黑质中调节酪氨酸羟化酶表达并且在小鼠发育期间鉴定中脑多巴胺能先祖神经元的亚
组),Dev.Biol.,282(2):467‑479)。细胞可用试剂预处理,例如,以测试药物对基因座的共
分离或定位的效果。
[0019] 在进行步骤(a)之前,优选核、细胞、组织或整个有机体用交联剂处理。优选交联剂可包含甲醛或与DNA提取相容的另一种稳定剂。优选甲醛将以0.5‑8%,优选1‑8%,2‑8%,
或最优选4‑8%的浓度(均为w/w)使用,例如,在250mM HEPES‑NaOH(pH 7.0‑8.0)的缓冲溶
液中,优选在pH 7.6‑7.8下用于哺乳动物细胞达10分钟至24小时,优选在4%下10分钟,接
着在8%下2小时。例如,在实验有机体的情况下,整个组织可通过以下交联:灌注HEPES‑缓
冲的甲醛溶液(例如,4%)优选达至少30分钟,接着在冰冷的4%甲醛/250mM HEPES‑NaOH
(pH7.6)中组织解剖30分钟至1小时,接着冰冷的8%甲醛/250mM HEPES‑NaOH(pH 7.6)达1‑
3小时( 等人,2012,Proteomic analysis of mitotic RNA polymerase II 
complexes reveals novel interactors and association  with  proteins 
dysfunctional in disease(有丝分裂RNA聚合酶II复合物的蛋白质组分析揭示新型相互
作用剂和在疾病中与蛋白质功能障碍的关联)。Mol.Cell.Proteomics 11(6):
M111.011767)。
[0020] 在悬浮细胞(例如,人白血细胞、Drosophila S2细胞或其它分离的悬浮细胞)的情况下,通过离心(例如,对于哺乳动物细胞,150‑300xg)使细胞沉积,随后细胞沉积物(沉淀
颗粒)在例如4%甲醛/250mM HEPES‑NaOH(pH 7.6)中再悬浮。通过离心(例如,对于哺乳动
物细胞,150‑300xg)使细胞沉积,将上清液倾析,随后加入8%甲醛/250mM HEPES‑NaOH(pH 
7.6),此后不扰乱细胞沉淀颗粒。允许使细胞沉淀颗粒交联例如1小时。以提高的离心力(例
如,500xg,1000xg,2000xg,4000xg,8000xg的步骤,并且在一些细胞类型中,高达10000xg;
每一次2分钟,最后一步5‑10分钟),通过离心逐步压实细胞沉淀颗粒。在如上所述8%浓缩
的固定剂中,总时间高达24小时,优选约2小时。对于输送(例如,在临床和诊断实验室之
间),或对于短期储存(1小时至1周),在最后的离心中除去8%甲醛上清液,用1%甲醛/
250mM HEPES‑NaOH(pH 7.6)替代,不扰乱细胞沉淀颗粒。不推荐更长的储存时间,虽然通过
补充新的甲醛(例如,1%甲醛/250mM HEPES‑NaOH(pH7.6))是可能的。对于与表面(例如,人
皮肤纤维组织母细胞、人肌肉细胞)附着生长的细胞的固定,将细胞培养物培养基倾析,随
后用例如4%甲醛/250mM HEPES‑NaOH(pH 7.6)漂洗,接着新加入例如4%甲醛/250mM 
HEPES‑NaOH(pH 7.6),孵育例如10分钟。将固定剂倾析,用例如8%甲醛/250mM HEPES‑NaOH
(pH 7.6)替代。优选1小时后,轻刮细胞并且在管中收集。在150‑300xg下离心后,如对于悬
浮细胞以上所述,以提高的力,通过离心压实细胞沉淀颗粒。对于输送或短期储存,可例如
在1%甲醛/250mM HEPES‑NaOH(pH 7.6)中储存固定的细胞或组织,理想地频繁用新的溶液
替代,例如,每天或每隔一天。在不存在固定剂,或者没有新的固定剂补充的情况下储存,由
于甲醛交联的逆转,可导致核酸位置或品质的结构恶化。
[0021] 交联剂诱导蛋白质彼此之间以及核酸和蛋白质之间连接。本发明的方法允许使用比与当前的基于3C的方法相容的更强的交联条件,因此更好的保护核结构。本发明人意外
的是,在核酸经受与亚细胞结构的优化结构保护相容的交联步骤之后,核酸的测序仍是可
能的。没有交联步骤,该方法理论上也是可能的,因为通过玻璃化细胞的切片(例如,如在
Dubochet等人,1988。Cryo‑electron microscopy of vitrified specimens(玻璃化样品
的低温电子显微术)Q.Rev.Biophys.21:129中讨论的)或通过玻璃化细胞的低温研磨
(Oeffinger M,Wei KE,Rogers R,DeGrasse JA,Chait BT,Aitchison JD,Rout MP,
2007Comprehensive analysis of diverse ribonucleoprotein complexes(多种多样的
核糖核蛋白复合物的综合分析),核的分级分离是可能的。Nat  Methods。4,951‑6;
Hakhverdyan等人,2015。Rapid,optimized interactomic screening(快速、优化的蛋白质
相互作用组筛分)。Nature Methods 12,553)。在任一种情况下,利用玻璃化(即快速冷冻)
来保护细胞超微结构将避免通过施用化学交联剂(例如,甲醛)可能潜在地被引入的任何假
象。例如,使用化学交联剂(例如,甲醛)处理可导致相对于彼此和/或相对于核界标(例如,
核薄层)亚基因组区域的再定位,但是在玻璃化样品中将不会发生该潜在的再定位。利用玻
璃化在结构上保护的这样的细胞或组织样品不能通过基于3C的方法或FISH方法测定。
[0022] 根据它们在隔室中的定位,将核酸彼此分离,以在步骤(a)中得到多个级分,通过使隔室切片,优选通过使隔室超低温切片而实现。涉及切片的本发明的方法也指定为GAM。
或者,可通过低温研磨进行分离(Oeffinger M,Wei KE,Rogers R,DeGrasse JA,Chait BT,
Aitchison JD,Rout MP,2007Comprehensive analysis of diverse ribonucleoprotein 
complexes(多种多样的核糖核蛋白复合物的综合分析)。Nat Methods。4,951‑6;
Hakhverdyan等人,2015。Rapid,optimized interactomic screening(快速、优化的蛋白质
相互作用组筛分)。Nature Methods 12,553)。
[0023] 在不存在树脂‑包被下,产生核低温切片,例如,通过Tokuyasu方法(Tokuyasu,K.T.,1973,J.Cell Biol.57,551‑65,一种用于悬浮细胞和组织的超薄冷冻切片的技术),
其涉及低温保护固定的组织,利用在0℃‑25℃温度下,优选在室温(20‑25℃)下或在约4℃
下,在饱和蔗糖溶液中包被至少约30分钟或至少约2小时或至少约1天或高达1周,例如,在
室温下2小时或在室温下2小时,接着在约4℃下短期储存1天至高达一周。包被之后接着放
置包被蔗糖的细胞沉淀颗粒或组织或有机体,例如,在用作样品夹具的金属短柱上,随后在
液氮中冷冻,并优选在‑80至‑110℃下切片,取决于组织,例如,约‑100℃。已显示稍微改变
的方法(Guillot PV,Xie SQ,Hollinshead M,Pombo A(2004)Fixation‑induced 
redistribution of hyperphosphorylated RNA polymerase ll in the nucleus of 
human cells(在人细胞的核中超磷酸化的RNA聚合酶II的固定‑诱导的再分配)。Exp.Cell 
Res.295,460‑468;Pombo A,Hollinshead M,Cook PR(1999)Bridging the resolution 
gap:lmaging the same transcription factories in cryosections by light and 
electron microscopy(桥接分辨间隙:通过光和电子显微术使低温切片中的相同的转录工
厂成像)。J.Histochem.Cytochem.47,471‑480)提供良好的结果。这些方法保护与在非固定
的低温切片中观察到的可比的细胞结构,并且提供对活性RNA聚合酶和核结构的最优保护。
可交替使用Chen等人,2014,Small 10:3267的方法。例如,根据 V.等人,2013。J.Cell 
Biol.202(3),407描述的方法,可制备非固定的级分。
[0024] 例如,对于直径5‑15微米的核,核的切片可具有约70nm至约1000nm,优选150‑3
220nm或180‑200nm的厚度。根据建立的方案 (图5a,b),本发明人例如以220nm的厚度低温
切片小鼠胚胎干(ES)细胞(mESCs;其具有9μm直径的核)。用于在固定的细胞的蔗糖培养基
中低温切片的商业设备是可用的(例如,Leica UltraCut UCT 52超低温切片机)。
[0025] 切片导致级分群,即,多个级分。各切片的最佳厚取决于隔室的尺寸,其在步骤(a)中,优选分离成5‑300个级分,10‑100个级分,更优选40‑60个级分或约45‑50个级分,如在以
下详细解释的,其已发现对于小鼠或人细胞核(或具有类似尺寸的核)是适合的。对于整个
分析,级分的厚度应为均质的。
[0026] 在本发明的一种实施方案中,在本发明的方法中分析隔室(特别是,一个核)的所有级分,使得单一细胞的基因组结构的分析是有可能的。然而,这不是需要的,并且在关注
的细胞群体中,可从多个隔室(例如,多个核)取样分析的级分。使用本发明的方法,优选分
析多于180个级分,例如,可分析约180至约10000个级分,优选约200‑5000,约220‑4000,约
230‑3500,约250‑3000,300‑2000或500‑1000个级分,其中可由多个细胞(或含有细胞隔室
的核酸)得到这些级分。
[0027] 由各级分分离单一核分布图(NPs),例如,通过激光微解剖4(图5c)。
[0028] 在步骤(b)中,通过非显微镜方法,例如,通过测序,优选通过下一代测序,可确定存在或不存在多个基因座。例如,可使用单一细胞整个基因组扩增(WGA)。优选级分中的基
因座的核酸实质或完全测序。特别感兴趣的是,如果进行该方法来检测在研究装置中不同
基因座之间的可能的相互作用,并且在使用的生理条件下,还未建立对于关注的细胞类型
的“正常的”共分离模式。本发明的方法可因此用于分析未知和/或未指定的基因座的空间
接近性(并因此,相互作用)。
[0029] 例如,可由级分(例如,由单一核分布图)提取核酸(诸如DNA),使成碎片,并使用单5
一‑细胞整个基因组扩增(WGA) 扩增(图5d)。例如,使用Illumina HiSeq技术,可使WGA‑扩
增的DNA测序。由单一NP目视检查行踪显示各自含有亚染色体区域的不同的补充(图2a),如
由薄的核切片进出通过的染色质预期的。此外,每一个NP含有仅一个受限子集的染色体。
[0030] 然而,可存在其中先前已研究存在或不存在特定相互作用(共分离)的情况,因此关注的相互作用基因座已经已知。特别是在诊断装置中,在不同的患者组(例如,健康受试
者和具有疾病诸如肿瘤或先天性疾病的受试者)之间已发现相互作用基因座的显著差异。
在这样的情况下,通过特定的PCR或通过另外特别检查它们的存在,例如,通过DNA印记或通
过Illumina HiSeq技术,也可确定存在或不存在两个(或更多个)关注的基因座,在选择覆
盖关注的基因座的核酸之后,例如,经由用于下一代测序的IDT目标捕获(IDT,Coralville,
lowa,USA),。
[0031] sGAM因此优选将超低温切片与DNA检测组合(例如,通过整个基因组扩增和下一代测序)。当通过单个核切割薄的低温切片时,比起远离的基因座(即,它们共分离更频繁,图
1b),发现在核空间中彼此更接近的基因座(但是,对于线性基因组不必然)在相同的切片中
更频繁地在一起。通过单个核的多个级分中,通过评分存在或不存在基因座,可随后推断基
因组基因座之间的核距离(图1c)。所得到的表可用于计算每一个基因座针对每另一个基因
座的共分离频率(图1d),以产生基因座之间的推断的相对距离的矩阵。因此,GAM允许染色
质接触基因组的计算宽泛。
[0032] 共分离可使用统计方法分析,以确定空间接近性(例如,Weibel,E.R..1979 Stereological Methods:Practical Methods for Biological Morphometry(立体方法:
用于生物实践测定法的实践方法)。第1卷,AcademicPress,英国伦敦;Weibel,E.R.,1980。
Stereological Methods:Theoretical Foundations(立体方法:理论基础)。第2卷,
Academic Press,英国伦敦)。密切空间接近性可为基因座的特定的相互作用的符号。基因
座的特定的相互作用可因此也通过使用统计方法分析共分离来确定。用于本发明方法的统
计方法可例如推理统计方法。用于实施例的统计方法也可用于本发明的方法来分析不同起
源的样品和/或用于关注的不同的基因座,例如,如本文提及的。
[0033] 当以高于由在染色体上它们的线性基因组距离预期的频率共分离时,优选确定基因座彼此接近或特别相互作用。在特定相互作用和染色质的通常的浓缩和/或核体积降低
之间,例如,在诊断装置中,统计方法也可不同。GAM可用于确定相对距离。通过使相对距离
与核的尺寸关联,可计算绝对距离。GAM可用于评定在关注的隔室中(例如,在球形隔室中)
关注的基因座的径向位置,切片得到具有较大多样性的DNA基因座的赤道级分和具有较低
多样性的DNA基因座的顶端级分,因此,由在检测的级分中DNA基因座的复杂性,可推断在球
形隔室中基因座的径向位置。DNA基因座的径向定位的改变与例如人疾病关联(例如,
Maeburn K.J等人,2009,Disease‑specific gene repositioning in breast cancer(在
乳腺癌中疾病‑特异性基因再定位)。J.Cell Biol.187(6):801‑12;Kubben N.等人,2012。
Mapping of lamin A‑and progerin‑interacting genome regions(核纤层蛋白A‑和
progerin‑相互作用基因组区域的绘图)。Chromosoma 121(5):447‑64)。如果考虑在给定的
基因组(线性)距离下在基因组中所有可能成对的基因座以及测量的它们的核(3D)距离,将
发现不相互作用的成对的基因座在平均3D距离周围分布,这取决于两个基因座之间的基因
组距离和染色质压实的程度。与此相反,比起在该特定细胞类型的核中的该基因组距离平
均的,将发现相互作用组更紧密地在一起。还可考虑更复杂的争论(参见以下),但是相互作
用可最简单地定义为偏离考虑对非随机行为的任何另外的贡献因子的染色质纤维的随机
排布。
[0034] GAM测量在相同的核分布图中两个基因座共分离的频率,比起可同时测量所有基因组基因座的共分离,产生顺从以下的定量信息:(a)鉴定与其它基因组区域更频繁相互作
用的基因组配位,以及(b)计算超过一些随机(预期)行为的基因座相互作用概率的宽泛的
数学处理。
[0035] 基因座的共分离的全基因组图源自特定的物理相互作用以及随机接触,其严重地取决于基因座之间的线性基因组距离,并且也影响共分离频率。GAM具有鉴定显著超过随机
水平的相互作用的基因座的潜能,通过施用区分在给定的基因组距离下基因座的非随机接
触与预期的随机行为的统计模式。例如,通过SLICE计算平台(基因座共分离的统计推理;参
见图11)可实现这一点。使用在统计上显著的直接相互作用,SLICE返回矩阵,考虑随机接近
性效果以及其它效果,诸如在不同的染色质区域和染色体领地位置中发现的不同的压实水
平。SLICE也解剖同时的三路相互作用(一式三份)并且更通常若干基因座之间的多价接触
的概率。也可开发在GAM管道内的SLICE分析,以估计在关注的特定的应用下,精细调节实验
程序以最优化成本和效率所需的对照参数的最优化值,诸如理想切片厚度和每个管中最小
数量的核分布图,超过给定的阈值,为了实现稳健检测染色质相互作用所需的管的数量,考
虑窗口分辨和检测性的效果。
[0036] 在数学上,最简单的方法是考虑其中在给定的基因组距离下基因座在3D空间中随机分布的随机情况,最高至由染色质在核内均质分布的假定计算的最大距离。然而,更高级
的数学计算与GAM和SLICE完全相容,这可考虑例如其它空间参数,其中的一些可通过实验
来测量或甚至由GAM数据本身推断。例如,染色体、亚染色体区域或单一基因座在关注的核
中占据的体积与在核分布图(NPs)中实测的每一个其基因座的频率成比例。
[0037] 多个基因座意味着两个或更多个基因座,任选,至少3,至少4,至少5,至少6,至少7,至少8,至少9,至少10,至少11,至少12,至少13,至少15,至少20,至少30,至少40,至少50,
至少75,至少100,至少200,至少500或至少1000个基因座并高达几百万或十亿个基因座,它
们被同时分析。例如,在5kb分辨下,人细胞的等位基因特异性分析需要同时分析1,300,000
个基因座。在一个选项中,使用本发明的方法分析在隔室中实质上所有基因座或所有基因
座,例如,通过测序在隔室中实质上所有核酸,优选所有DNA。可采用偏离的方式(例如,通过
选择来分析在人细胞中所有23000个蛋白质编码基因)或采用没有偏倚的方式(例如,通过
将基因组分成某些尺寸的窗口,例如,100bp至10Mb的窗口,优选1kb至1Mb,5kb‑50kb或
10kb‑30kb窗口)来测定待分析的基因座。此外,本发明的方法可采用在不同的等位基因之
间不区分的方式(例如,在正常的人细胞中存在的基因的两个同源拷贝)来施用,或者,其可
用于区分在相同的细胞中基因座的两个(或在例如,多倍体两栖动物细胞的情况下,更多
个)等位基因。
[0038] 本发明的方法允许检测多个共分离基因座,特别是,多于两个共分离基因座,优选多于3,多于4,多于8或多于20个共分离基因座。与此相反,已尝试使用基于3C的方法鉴定多
个相互作用,并且显示无效并且高度偏离(Sexton等人,2012,Cell 148:458‑72)。存在显示
基于3C的方法的这些实验限制将保持不能克服的数学证据,与增量改进无关(O’Sullivan 
J.M.等人,2013,Nucleus 4:390‑8)。特别是,在基于3C的方法中,作为用于鉴定相互作用的
基础,碎片DNA分子(仅具有两个末端)的彼此连接导致当同时相互作用基因座的数量提高
超过3个相互作用基因座时,检测较高多样性相互作用变得更困难的现象。然而,已知活性
基因通常与3个或甚至更多增强剂相互作用(Markenscoff‑Papadimitriou E等人,2014。
Enhancer lnteraction Networks as a Means for Singular Olfactory Receptor 
Expression(作为单数嗅觉系数受体表达手段的增强剂相互作用网)。Cell 159:543‑557),
并且活性基因彼此相互作用(Schoenfelder等人,2010。Preferential associations 
between co‑regulated genes reveal a transcriptional interactome in erythroid 
cells(在共调节的基因之间的优先关联揭示在红细胞中的转录相互作用组)。
Nat.Genet.42:53‑61)。此外,在基因组中限制位点不随机分布,导致检测的偏离。连接的效
率受DNA碎片的不同长度的影响,这增加与基于3C的结果的进一步偏离。本发明的方法优选
不受或实质上不受这些偏离的影响(图10)。
[0039] 与基于3C的方法的现有技术相反,在GAM方法中需要核酸的无限制消化,其涉及隔室的切片。对于本发明的所有步骤或方法在初始存在于隔室中的核酸之间不发生连接,特
别是,在步骤(b)之前必须没有实施连接。然而,例如,在检测存在或不存在核酸基因座的情
境下,例如,用于扩增或测序,使用外部连接剂,连接是可能的。避免衍生自隔室的核酸彼此
的限制消化和连接克服基于3C的方法的结构偏离。
[0040] 在这个意义上,与竞争技术相比,GAM是独特的,因为其可同时鉴定存在于给定的切片中的所有基因座(通过FISH,在技术上是不可能的),并且当它们相互作用和它们不相
互作用两种情况下,其可鉴定基因座的接近性,共同地,当一次存在多于3基因座相互作用
时,同时检测基因座相互作用的多样性(基于3C的方法是不可能的)。本发明方法的优点之
一还有其可用于鉴定在进行该方法之前不知道的基因座的空间接近性,即,可在新发现的
或非定义的基因座之间鉴定相互作用。例如,本发明的方法可用于鉴定与特定关注的基因
座相互作用的所有基因座,其中在进行分析之前不需要这些基因座中的任一个是已知的。
[0041] FISH的最重要的限制在于你必须事先知道基因组的哪个区域是你关注的,而GAM允许绘图所有序列,而无需事先知道关注哪一个。在研究和诊断情境二者中,这一点是重要
的,因为重要的基因重排通常具有许多变体。例如,在ETS基因家族的所有前列腺癌成员的
约一半至四分之三通过基因组重排加入到各种基因启动子;这具有诊断重要性(Mehra等
人,2007。“Comprehensive Assessment of TMPRSS2 and ETS Family Gene Aberrations 
in Clinically Localized Prostate Cancer(在临床定位的前列腺癌中TMPRSS2和ETS家
族基因畸变的综合评定)”。Modern Pathology 20(5):538‑44)。在任一种情况下,ETS基因
可为ERG、ETV1、ETV4、ETV5以及可能其它的(Brenner等人,2009,Translocations in 
Epithelial Cancers(在上皮癌中的易位)。Biochimica Et Biophysica Acta1796(2):
201‑15);和ETS基因可与TMPRSS2、SLC45A3、KLK2和其它基因结合(Brenner等人,2009);和
通过各种重排可实现这一点(Clark等人,2008,Complex Patterns of ETS Gene 
Alteration Arise During Cancer Development in the Human Prostate(在人前列腺中
在癌症发展期间ETS基因变化的复杂模式上升)。Oncogene 27(14):1993‑2003)。结果是,虽
然FISH可检测具体所选的重排(Clark等人,2008),通过FISH来测试所有已知的组合将不现
实,而GAM将不仅能发现所有已知的实例,其也将发现新的患者‑特异性变体。类似实例是为
治疗目标的在肺癌中激酶基因融合:在肺癌中EML4和ALK基因融合,这是治疗目标,可通常
通过FISH检测但不总是能通过FISH检测(Maus等人,2012,ldentification of Novel 
Variant of EML4‑ALK Fusion Gene in NSCLC:Potential Benefits of the RT‑PCR 
Method(在NSCLC中EML4‑ALK融合基因的新型变体的鉴定:RT‑PCR方法的潜在的益处)。
International Journal of Biomedical Science 8:1‑6),但是ALK可融合为许多其它基
因,包括KIF5B、TFG、KLC1、PTPN3和STRN(Hallberg&Palmer,2013,Mechanistic Insight 
Into ALK Receptor Tyrosine Kinase in Human Cancer Biology(在人癌症生物学中,
ALK受体酪氨酸激酶的机械洞察)。Nature Reviews Cancer 13(10):685‑700),并且存在融
合的其它激酶,包括ROS1,其融合为至少5个配对(Takeuchi等人,2012。RET,ROS1 and ALK 
Fusions in Lung Cance r(在肺癌中,RET、ROS1和ALK融合)。Nature Medicine 18(3):
378‑81)。
[0042] 本发明还提供本发明的方法的用途,用于
[0043] (a)确定多个基因座之间的物理距离。由于在步骤(a)中分级分离取决于在隔室中基因座的物理距离,可计算距离。需要知道已产生级分的隔室的平均尺寸以及在隔室中已
分开的级分的数量。
[0044] (b)绘图在隔室中的基因座和/或基因组结构。基于测定的物理距离,可绘图,用于特定的基因座或染色体结构。
[0045] (c)确定多个基因座之间的相互作用的可能性。如所描述的,本发明的方法可用于确定特定的相互作用,并且能够区分主导相互作用与旁观相互作用。
[0046] (d)确定在隔室中基因座或染色体的外周或中心位置。通过询问来自给定染色体的序列使用来自不同染色体的较少的其它窗口是否更通常被发现,可推断染色体和单一基
因座的径向位置,出于该原因,更可能在核分布图的顶端(外周),而不是赤道(中心)被发
现,反之亦然。
[0047] (e)分析选自以下的不同的官能要素的相互作用:启动子,增强剂,酶,例如,在转录中涉及的,可换位的要素,转录因子结合位点,阻遏物,基因主体,拼接信号或RNA。
[0048] (f)鉴定调节特定基因表达的可调节区域。
[0049] (g)鉴定能够影响基因座的共分离的药物的目标和/或效果。
[0050] (h)分析基因疗法对基因座的共分离的效果。由于基因疗法或其它基因工程方法、染色体插入或简单地存在核酸可影响基因组结构,例如,其可增强或预防可调节区域与特
定的启动子的相互作用,因此影响“不相关的”基因的转录。本发明的方法允许评定基因疗
法或基因工程对不同基因座之间的相互作用水平的影响。
[0051] (i)绘图染色体重排(诸如易位、删除、级联复制、倒转),例如,在癌症中,包括在特定的亚组织细胞群体中,例如,用于研究重排的克隆进化;
[0052] (j)分析在疾病中基因座的被干扰的共分离;
[0053] (k)诊断与基因座的被干扰的共分离关联的疾病;
[0054] (I)将患有特定疾病的患者分成对特定的药物治疗较多或较少可能响应的亚组,取决于某些基因座或染色体的接近性或位置;
[0055] (m)确定染色质压实,其定义为每单位体积基础配对的数量。特别是,通过使用本发明的方法测量由相应的基因座占据的体积,可测定在检查的基因座下染色质压实的等
级;和/或
[0056] (n)鉴定外源核酸上的基因座(例如,来自病毒或细菌),例如,在外源DNA或RNA上,其与内源基因座相互作用,或鉴定在外源核酸上与基因座相互作用的内源基因座。
[0057] 因此,本发明还提供一种诊断患者与基因座的被干扰的共分离相关的疾病的方法,所述方法包括,在取自所述患者的样品中,分析在患者中多个基因座的共分离,和将所
述共分离与在已经诊断患有所述疾病的受试者中所述基因座的共分离相比较,其中还优选
将所述共分离与健康受试者的共分离相比较。或者,基因座的共分离可在细胞的特定的亚
组之间比较,其可衍生自相同的患者,例如,肿瘤细胞和正常组织。在本发明的情境下,如果
没有特别另外体积,“一个”意味着指“至少一个”。
[0058] 由于本发明可用于研究在患者中基因座的被干扰的共分离,即,染色质错折叠,其也可有助于具有染色质错折叠关联的疾病的患者的治疗,由于在使用本发明的方法诊断之
后,这样的患者可被治疗,以矫正染色质错折叠(Deng等人,2014,Curr Op Genet Dev.25:
1‑7)。
[0059] 例如,通过“增强剂采用”可引起人疾病:它们不能正常调节与基因密切空间接近性的增强剂的不适当的定位(Lettice等人,2011,Hum Mutat。32:1492‑1499)。本发明的方
法可用于研究在患者‑衍生的组织中增强剂的空间接近性,以便诊断患有例如癌症的特定
亚类型的患者(Nortcott等人。2014,Nature 511:428‑434)。或者,如果患者呈现通常由特
异性基因的过表达引起的症状,本发明的方法可用于鉴定已变得与关注的基因定位接近的
增强剂,因此可呈现用于治疗介入的潜在的目标。在其它情况下,给定的基因的编码区域
中,疾病‑关联的基因变体可导致该基因的改变的基因表达,其混淆直接解释疾病显型的错
调节的染色质接触的发现,但是仅由染色质接触的没有偏倚的绘图揭露(Smemo等人。
2014Obesity‑associated variants within FTO form long‑range functional 
connections with IRX3(在与IRX3的FTO形式长范围官能连接内,肥胖‑关联的变体)。
Nature 507,371)。本发明的方法可因此用于诊断,例如,癌症或基因偏向的肥胖。
[0060] 许多临床遗传学是诊断基因疾病,诸如发育延迟的儿童(Cooper,G.M.等人,2011。A copy number variation morbidity map of develop‑mental delay(发育‑精神延迟的
拷贝数量变体发病率图)。Nat.Genet,43,838‑846)或精神分裂症(Cook,E.H.,Jr.,和
Scherer,S.W.2008。Copy‑number variations associated with neuropsychiatric 
conditions(与神经剂条件关联的拷贝数量变化)。Nature 455,919‑923),这通常由基因组
中的结构突变(诸如删除和染色体易位)引起。大多数超过细胞遗传学的能力,甚至其中细
胞遗传学可检测一部分重排(Gribble等人,2005。Complex Nature of Constitutional De 
Novo Apparently Balanced Translocations in Patients Presenting with Abnormal 
Phenotypes(在呈现异常显型的患者中,构造De Novo显然平衡易位的复杂性质)。Journal 
of Medical Genetics 42(1):8‑16;De Gregori,M.等人,2007。Cryptic Deletions Are a 
Common Finding in‘Balanced’ReciprocaI and Complex Chromosome Rearrangements:a 
Study of 59Patients(隐蔽删除是在‘平衡的’交互和复杂的染色体重排中共同的发现:59
名患者的研究)。Journal of Medical Genetics 44(12):750‑62),并且在大多数情况下,
不存在候选基因,几乎基因组的任何部分都可被改变,因此FISH没有价值。整个基因组测序
可发现候选重排连接,但不是所有的将被检测,一些重排连接将是假象,并且解释关于删
除、插入或易位发现的连接不稳健并且难以证实。GAM提供关于基因组的大伸展的异常接近
性的信息:至少这补充整个基因组测序并且可能是用于发现实质结构变化的更好的第一方
法。
[0061] 在一种单一实施方案中,本发明提供关于径向位置、染色质接触和染色质压实的整体全基因组信息,其具有提供疾病状态的更精炼的预言的标记物的潜在性。当前,使用单
独的方法,独立地研究3个参数。例如,已鉴定特异性基因组基因座的基因座‑特异性径向再
定位与前列腺癌和/或增生关联,其指示在疾病进展期间基因座‑特异性再组织和使患者分
层的潜在性(Leshner M等人。2015。Locus‑specific gene repositioning in prostate 
cancer(在前列腺癌中基因座‑特异性基因再定位)。Mol Biol Cell.2015.pii:mbc.E15‑
05‑0280.[Epub ahead of print])。与正常乳腺组织相比,在人侵袭性乳腺癌中也已经鉴
定特异性基因组基因座的改变的径向位置,其独立于基因组不稳定性(Meaburn KJ等人。
2009Disease‑specific gene repositioning in breast cancer(在乳腺癌中疾病‑特异
性基因再定位)。J Cell Biol.;187(6):801‑12。doi:10.1083/jcb.200909127)。还已经发
现改变的染色质接触与乳腺癌进展的不同阶段关联,诸如在两种不同的染色体之间和在亚
染色体区域之间降低的接触(Barutcu AR等人2015。Chromatin interaction analysis 
reveals changes in small chromosome and telomere clustering between 
epithelial and breast cancer cells(染色质相互作用分析揭示在上皮和乳腺癌细胞之
间小的染色体和端粒成簇的变化)。Genome Biol.16(1):214.doi:10.1186/s13059‑015‑
0768‑0)。
[0062] 包括以下实施例来说明本发明,不是要限制其范围。用于实施例的样品制备方法和分析和/或统计方法也可用于本发明的方法,以分析不同起源的样品和/或用于关注的不
同的基因座,例如,如本文提及的。因此引用的文献全部结合到本文中用于所有的目的。
[0063] 图例:
[0064] 图1:通过测量在核切片中它们的共分离,基因组结构绘图可测量基因座的核接近性。
[0065] a,沿着线性基因组密切的基因座在核中可能不具有密切接近性,因此需要该方法来测量在核空间中基因座之间的距离。b,当通过核取薄的切片(核分布图或NP)时,在核空
间中更密切在一起的基因座在相同的NP中被更频繁地发现。c,原则上,DNA检测的任何方法
(PCR、下一代测序等)可用于记分在每一个NP中存在或不存在基因座。d,当在大的足够数量
的NPs中记分基因座时,基因座的共分离可用于产生共分离矩阵,其指示在成对的基因座之
间的核距离。
[0066] 图2:GAM独立地复制在Hi‑C研究中先前发现的基因组结构的特征。
[0067] a,来自单个NPs的测序行踪显示与进出薄的切片染色质纤维成环一致的模式。b,通过在单一HiSeq车道上多路复用48NPs得到的测序深度足以饱和在每一个样品中30kb窗
口的检测。此外,在几乎所有的NPs中鉴定的基因组30kb窗口的百分数在由9μm直径球体的
220nm切片预期的核体积百分数范围内。c,GAM和FISH显示在HoxB基因座中3~40kb区域的
类似的检测效率。d,以1Mb分辨,通过PCa,GAM和Hi‑C鉴定类似的A和B隔室(65%隔室重叠)。
e,GAM拓扑鉴定与通过Hi‑C鉴定的那些类似的缔合结构域。
[0068] 图3:通过简单的模式化方法提取的相互作用概率矩阵富集增强剂和活性基因之间的接触。
[0069] a,通过随机染色质折叠,在核空间中比预期更密切的基因座可模式化作为基因座遵循随机情况分布的细胞的大群体以及证明密切得多的相互作用的细胞的小的亚群体。因
此该模式假定核距离的双峰分配。b,作为强相互作用或随机折叠状态的混合物,基因座的
模式化配对鉴定在Pou5f1基因座中离散的相互作用焦点。c,在重叠两个特定特征的所有
30kb窗口之间,通过计算使用SLICE估计的平均相互作用概率,鉴定在重叠增强剂或活性基
因的30kb窗口之内和之间,相互作用的统计富集(例如,在重叠活性基因的所有窗口和那些
重叠增强剂之间)并且与在矩阵对角线随机后得到的相同的值相比较。
[0070] 图4:用于测量染色质接触的当前的全基因组方法的限制。
[0071] a,表格列举用于测量染色质相互作用的当前的全基因组方法并且比较它们的各种限制。b,GAM遭受影响用于绘图基因组结构的当前的全基因组方法的少量限制。
[0072] 图5:GAM方法概要。
[0073] a,在本发明的呈现的实施方案中,在各步骤的新型序列中,GAM组合低温切片、激光捕获显微解剖、整个基因组扩增和下一代测序的现有技术。b,通过核领域,低温切片产生
切片,具有极薄的切片厚度。c,鉴定单个NPs,并且使用激光捕获显微解剖与低温切片分离。
d,通过显微解剖hgDNA、人基因组DNa,整个基因组扩增用于从分离的NPs提取和扩增DNA。e,
下一代测序鉴定在每一个初始NP中存在小鼠基因组的哪一个基因座。如由随机切片预期
的,每一个NP含有其中的染色体和亚染色体基因座的不同的补充,并且不是所有的染色体
在每一个NP中都能被鉴定。
[0074] 图6:GAM数据组的品质控制。
[0075] a,发现绘图至小鼠基因组的读数百分数和鉴定的窗口的总数是负对照的最好的鉴别器。在同一天收集的NPs的各组之间,在这些参数中鉴定无批次效果,并且共同处理。在
进一步处理之前,丢弃绘图至小鼠基因组的<15%读数的NPs。b,在至少一个NP(灰色条)中
检测从30kb至1Mb分辨的几乎所有的基因组窗口。一些窗口在9mm组件(例如,在着丝点)中
不具有限定的序列,因此不被检测(黑线)。在至少一个NP中检测的窗口的比例随着基因组
分辨的降低(即,提高的窗口尺寸)而提高。c,在单一NPs中发现每一个染色体6%的平均值,
横过染色体,该比例恒定。
[0076] 图7:共分离矩阵的归一化,以说明基因座检测频率的差异。
[0077] a,对于单个30kb窗口检测频率的分配稍微偏离二项式(binomial)分配,如果独立检测所有基因座,将预期这一点。b,30kb窗口的检测频率大部分独立于它们的GC含量或独
立于作为基因组重复注解的窗口的级分。检测频率与可作图性不关联。c,基因座之间的检
测频率的差异可巧妙地影响共分离矩阵,但是可通过计算归一化连接不平衡来校正。
[0078] 图8:408个NPs足以提取在30kb分辨下关于成对基因座的共分离的大多数信息。
[0079] a,通过品质控制的408NP数据组的初始批次被侵蚀6次,每一次随机除去68NPs。随后,使用提高数量的NPs绘制在鼠科动物染色体12上用于Esrrb基因座的共分离矩阵。当包
括至少约200NPs时,矩阵的结构接近稳定。b,对于较大的区域(30Mb,来自面板a的较小的
Esrrb基因座相应于底部底部右手拐角),观察到共分离矩阵的相同的稳定。c,在每一个被
侵蚀的数据组和408NP完整数据组之间绘制皮尔森相关系数(PCA)证实,在收集约200NPs
后,共分离矩阵开始饱和。
[0080] 图9:GAM复制围绕先前鉴定的TAD边界非对角线接触显著的耗尽。
[0081] a,非对角线接触定量为在从矩阵对角线2的抵销移动的3×3箱子中的平均归一化连接。这意味着围绕通过Hi‑C鉴定的TAD边界,归一化连接较低(Dixon J.R.等人,2012。
Topological domains in mammalian genomes identified by analysis of chromatin 
interactions(在通过染色质相互作用的分析鉴定的哺乳动物基因组中的拓扑结构域)。
Nature485,376‑380)。b,在小鼠ES细胞(mESC)中,在TAD边界的先前公布的列举中,对于每
一个TAD边界计算非对角线耗尽,发现这些边界的中值耗尽大于在TAD边界的5000个随机拖
曳列举的任一个中观察到的。c,对于所有的TAD边界平均的非对角线相互作用的分布图显
示在边界处大的耗尽。显示对于拖曳边界的5000个列举观察到的最大耗尽,用于比较。
[0082] 图10:在归一化之前和之后,在Hi‑C和GAM数据中,染色质接触强度测量的偏离。
[0083] 比起原始GAM数据,关于a,限制位点密度,b,GC含量,c,可作图性,d,复制时间和e,重复覆盖,原始Hi‑C数据显示较大水平的偏离。Hi‑C数据(ICE)的归一化仅部分除去偏离,
而GAM数据的偏离在归一化后被有效除去。对于偏离的每一个潜在的来源,基于讨论的潜在
的偏离,我们将在小鼠基因组中的所有的50kb窗口分成10个相同的组(或者在Hindlll位点
密度的情况下,9个组)。对于每一组的平均值±上和下四分点在顶部左柱形图中显示。我们
随后计算在10组的每一组中在窗口之间观察到的染色质接触(原始Hi‑C:连接频率,归一化
Hi‑C:ICE归一化连接频率,原始GAM:共分离频率,归一化GAM:归一化连接不平衡),并且将
每一个观察到的值除以通过该基因组距离分隔的所有窗口的平均值(预期的值)。热图显示
在每一对组之间平均观察到的/预期值。顶行(%正偏离)显示具有高于给定它们的基因组
距离预期染色质接触的组的组合,底行(%负偏离)显示具有低于预期接触的组的组合。底
部右箱形图在各组的所有可能的组合之上汇总绝对偏离(即,正和负偏离二者)。
[0084] 图11:由GAM数据,用于检测显著相互作用基因座配对的SLICE统计方法
[0085] a)本发明人的基因座配对共分离的统计模式化称为SLICE(共分离的统计推理)。横过基因组,基因座配对(每一个同源拷贝)以相互作用或非相互作用状态存在。通过核的
切片可含有两个基因座(M2)、仅一个基因座(M1)或没有基因座(M0)。横过核的群体,相互作
用或非相互作用基因座配对具有不同的切片共分离频率。在初始群体中,由观察到的共分
离频率估计任意两个基因座的相互作用(Pj)的概率。b)在不同的情况中,SLICE衍生基因座
配对的预期的共分离频率;即,当它们处于相互作用(t0,t1,t2)或非相互作用状态(u0,u1,
u2)时,在配对共分离中0、1或2个基因座的概率。作为一个实例,对于在距离d处并且在核中
具有分配ρ布置的一对基因座,我们在此处在切片V切片(z)中显示u2的公式。c)因此,一旦已
限定核状态P2、P1和P0的概率,可衍生NPs的预期的数量作为Pi的变量,并且与观察到的数据
相比较。
[0086] 图12:通过SLICE统计模式鉴定的染色质相互作用包括许多不同的基因组特征并且在大的基因组距离之上延伸。
[0087] a,涉及重叠或非重叠基因的30kb窗口的显著相互作用的数量。b,通过存在于每一个窗口的重叠特征,显著相互作用的数量。c,通过重叠特征,在具有显著相互作用的成对窗
口之间的基因组距离。d,由归一化连接不平衡矩阵,在每一个基因组距离,通过鉴定最高的
5%相互作用配对的基因座,不使用SLICE分析,复制在30kb窗口重叠增强剂或活性基因内
和之间,用于相互作用的统计富集,随后计数涉及重叠两个特定特征的窗口的这些相互作
用的数量(例如,在重叠活性基因的窗口和那些重叠增强剂之间鉴定的最高的5%相互作用
的数量)。通过与在相互作用位置随机化之后得到的相同的值相比较,随后计算富集。
[0088] 图13:横过所有基因组距离,比起非相互作用基因座配对,通过SLICE共分离鉴定的显著相互作用基因座配更频繁。
[0089] 横过宽泛的基因组距离,通过SLICE鉴定的成对显著相互作用窗口的平均共分离频率(实线)一致地高于非相互作用窗口的平均共分离频率(虚线)±标准偏差(阴影区域)。
[0090] 图14:在通过GAM鉴定的最高度相互作用TAD一式三份中,高度富集超级增强剂。
[0091] a,2D相互作用矩阵可显示在3个区域之间的重叠接触,这可不正确地解释为单一同时一式三份相互作用。单独使用成对的接触数据,同时的情况是与单独的成对事件(或两
个的复杂混合物)不可识别。b,用于鉴定TADs的策略最可能涉及真正地同时、3通路相互作
用。底部图显示根据它们的一式三份相互作用记分,TAD一式三份的最终分级,并且取超过
TAD一式三份的阈值位置真正同时相互作用。c,在染色体1上,在TAD之间,三路相互作用的
实例。矩阵显示经整个区域,显著的成对相互作用,插图显示在3个TAD之间显著的相互作用
的图像扩增。TAD的分类在以下显示。d,显示重叠基因组区域的非相邻最高的5%TAD一式三
份。每一个垂直线连接可能同时相互作用的3个TAD(基于横过NPs群体,它们频繁的共分
离)。e,TADs的分类。重叠超级增强剂的TADs指定为SE。当它们的后面的GRO覆盖在底部25%
四分点时,非SE TADs指定为低转录,或者当其在顶部25%时,指定为高转录。f,通过TAD类
别,最高的5%一式三份相互作用的基因组跨度。g,最高的5%一式三份高度富集含有SE区
域的TADs和高度转录的TADs,其中3个SE TADs之间的相互作用为单一最富集的组合。相对
于在随机拖曳一式三份位置后得到的值,以红色或蓝色显示的条分别富集或耗尽。h,在重
50
叠来自Peric‑Hupkes等人(2010) 的切片关联的结构域(LADs)的每一类中,TADs的百分数。
i,与形成大多数一式三份接触的TADs相比,形成最小一式三份接触的高度转录的和SE 
TADs更频繁重叠或更接近LADs。
[0092] 图15:一式三份TADs相互作用的分析。
[0093] a,在图14g中的富集分析另外显示不落入任何其它类别的TADs(中间TADs)。b,在每一个30kb窗口内,以5kb分辨,通过鉴定平均连接,用于精炼发现特定的结合位点的策略。
在活性或增强剂类别中,对于通过连接30kb窗口的SLICE鉴定的每一个显著的相互作用,我
们询问在较大的30kb窗口内的特定的亚窗口是否显示与搭档30kb窗口最高连接。特别是,
我们感兴趣询问例如,重叠活性基因启动子(或TSS,转录开始位点)或活性基因TES(转录结
束位点)或增强剂的5kb窗口是否可被搭档30kb窗口最频繁共分离。c,与位于这些特征的
15kb上游或下游的所有5kb窗口相比,与显著相互作用活性30kb窗口(实线)或增强剂30kb
窗口(虚线)的平均连接富集重叠活性基因TSSs(左)、活性基因TESs(中)或增强剂(右)的
5kb窗口。对于也重叠活性基因TSSs、TESs或增强剂但是与相同的活性30kb窗口(对照窗口;
虚线)不显著相互作用的所有其它5kb窗口,看不到该富集。d,用于鉴定在40kb分辨下平均
三路连接的策略。对于连接3个超级‑增强剂(SE)TADs的每一个顶部一式三份相互作用,我
们询问在整个TAD内,直接重叠超级增强剂的40kb窗口是否显示与其它两个相互作用超级
增强剂TADs的最高三路连接。e,与超级增强剂的40kb窗口120kb上游或下游相比,与形成顶
部一式三份(实线)的其它两个超级增强剂TADs的平均三路连接富集直接重叠超级增强剂
的40kb窗口。在形成顶部一式三份(虚线)的超级增强剂(SE)和两个高度表达的高)TADs之
间看不到该富集,在超级增强剂和在顶部一式三份(虚线)中不涉及的其它两个超级增强剂
TADs之间也观察不到该富集。
[0094] 图16:GAM还提供关于基因座径向定位和压实的信息。
[0095] a,在核内在中心布置的基因座在具有较大体积的赤道NPs中更频繁地被发现。与此相反,与核外周密切布置的基因座在具有较小体积的顶端级分中更频繁地被发现。b,在
径向位置数据可用的5种小鼠常染色体中,每个NP覆盖的基因组的平均百分数(作为NP体积
的代理)与径向定位负相关。c,比起具有较大体积的相应地压实的基因座,具有较大体积的
更多去压实的基因座更频繁地交叉(即,在更多的NPs中检测到)。d,在较高四分点的检测频
率的30kb窗口显示更大的平均DNase信号(局部染色质可接近性的度量),如预期是否检测‑
频率是染色质压实的度量,由于更加压实的染色质可能更少可接近。e,通过后面的GRO,在
较高四分点的检测频率的30kb窗口还显示较高的覆盖,指示更大水平的活性转录。这与活
性转录的染色质区域的通常的去压实一致,导致检测频率体积‑诱导的提高。
实施例
[0096] 在不存在树脂‑包被下,生产薄的核低温切片,通过修改的Tokuyasu方法(Tokuyasu,K.T.,1973,J.CELL Biol.57,551‑65,一种用于超薄冷冻切片悬浮细胞和组织
的技术;Guillot PV,Xie SQ,Hollinshead M,Pombo A(2004)Fixation‑induced 
redistribution of hyperphosphorylated RNA polymerase II in the nucleus of 
human cells(在人细胞的核中超磷酸化的RNA聚合酶II的固定‑诱导的再分配)。Exp.Cell 
Res.295,460‑468;Pombo A,Hollinshead M,Cook PR(1999)Bridging the resolution 
gap:lmaging the same transcription factories in cryosections by light and 
electron microscopy(桥接分辨间隙:通过光和电子显微术使低温切片中的相同的转录工
厂成像)。J.Histochem.Cytochem.47,471‑480),其涉及利用在饱和蔗糖溶液中包被接着在
液氮中冷冻,并且在‑100℃下切片,低温保护固定的组织。测试由低温切片的材料提取和检
3
测DNA的可行性。根据建立的方案 (图5a,b),以220nm的厚度将mESCs低温切片。通过激光显
4
微解剖 (图5c),将单一核分布图(NPs)与切片分离。随后提取DNA,使成为碎片,使用单细胞
5
全基因组扩增(WGA) 扩增(图5d)。
[0097] 使用Illumina HiSeq技术,使来自单一NPs的WGA‑扩增的DNA测序。来自单一NPs的行踪的目视检查显示各自含有亚染色体区域的不同补充(图5a),如由进出薄的核薄层的染
色质预期的。此外,每一个NP含有仅受限的亚组的染色体(平均,7个染色体/NP;图5e)。
[0098] 已证实通过全基因组测序方法提取和检测DNA的可行性,将小鼠基因组分成相同尺寸的窗口,以便测量它们的共分离。为了确定适当的基因组分辨(窗口尺寸),限定从10kb
至1Mb的一定范围的尺寸的规则的基因组窗口,并且先前描述的负‑二项式方法的改变用于
检测在单个NPs中这些窗口的存在。测序读数的连续腐蚀用于确定在每一个样品中饱和检
测正窗口所需的测序的深度(图2b)。对于>95%的测试样品,600k独特的读数足以饱和检
测30kb窗口,其允许在单一HiSeq车道上多路复用48NPs。
[0099] 使用GAM,绘图染色质接触
[0100] 为了使用GAM绘图染色质接触全基因组,将490个单个NPs测序。基于包括绘图的读数的百分数的标准的组合,评定每一个数据集的品质。在15批次的高达48NPs中收集样品,
在独立收集的批次之间可重现品质控制计量学(图6a)。在基于对小鼠基因组低百分数(<
15%)的绘图的读数的品质控制之后,由进一步处理丢弃少量的单一NP数据集(82个样品)。
[0101] 为了探查在我们的408NPs的数据集中获得的基因组覆盖的程度,计算横过整个数据集和在每一个NP中检测不同的基因组区域的程度。在至少一个NP中检测所有基因组30kb
窗口的96%(图6b)。单一NPs含有平均6±4%的30kb窗口。这符合预期在单一NPs中含有的
核体积的范围,由于mESC核具有9μm的平均直径,并且切片为0.22μm厚。在不同的染色体之
间,横过NPs的富集的窗口的平均分数恒定(图6c)。通过将WGA与Illumina测序组合,一起考
虑,这些结果显示由单一NPs稳健的DNA提取和检测。
[0102] 为了进一步测试检测的稳健性,通过GAM和在~40kb分辨下荧光性原位杂化(FISH),比较单一基因座的检测频率。测试横过HoxB基因座的3个基因组窗口,在两种方法
中,对于3个40kb窗口,使用7‑12%的检测频率,在FISH和GAM之间,发现显著的一致(图2c)。
接下来,横过NPs的整个数据集测量基因座检测的全基因组频率。如预期的,基因座检测频
率的分配良好近似于二项式分配(图7a)。与该分配的轻微偏离仅与GC含量或通过基因组重
复覆盖的窗口的分数弱相关,最强烈地与可绘图性相关(图7b)。这样的偏离可能起源于在
给定的NP中彼此相互作用的小比例的基因座,导致不完全独立于基因座之间的检测概率。
总之,在检测不同的基因组窗口中,GAM数据集受到系统偏离的最小影响,与基于3C的方法
相反(图10)。这可能是由于基于3C的方法依赖于与特定的限制酶位点密切的少量读数的精
确绘图,而GAM可检测在大得多的基因组区域内的任何核酸碎片。
[0103] 为了绘图通过GAM测量的染色质接触,对于每一个单个染色体,横过整个NP群绘图基因座共分离的矩阵。虽然检测到影响检测单个基因座的小的系统偏离,然而一些基因座
比其它更频繁地被检测,简单地由于在随机取向中切割NPs的概率统计性质。矫正不同的基
6
因座的检测频率的这些差异,用于使用归一化版本的连接不平衡,如先前描述的 (图7c,图
10)。408NPs足以开始探查基因组结构,由于通过使用较少NPs得到的共分离矩阵不显示与
围绕280NPs的显著差异(图8a)。通过计算在408NPs的完全数据集和被侵蚀的数据集之间的
关联,证实该观察,发现皮尔森关联系数在约300NPs下饱和(图8b)。
[0104] 基于408 NP数据集,在相同的核分布图中,较密切基因组距离的基因座通常更频繁地被发现,反映在3D空间中它们更密切的距离。对于染色质接触,GAM鉴定的局部优先与
7
先前描述的拓扑结构域类似。在非常大的基因组距离之前,也观察到指示基因座之间的密
切物理接近性的高共分离频率,高达整个染色体的长度(图2d,e)。在Hi‑C数据集中这些相
互作用不太明显,其可说明在两种方法之间的任何方法差异(图4)。
[0105] 将GAM数据集与由mESCs7先前公布的Hi‑C数据集相比较。目视比较揭示在两种数据集中的类似图案,特别是在较小的长度规格(图2d,e)。在1Mb分辨下,Hi‑C和GAM数据集与
0.63的总关联系数相关,并且在0.43‑0.71范围的单个染色体之间成对关联(Spearman分级
关联系数)。
[0106] 基于它们的接触,先前的Hi‑C研究已使用主要组分分析(PCA)将所有基因组基因8
座分成两个隔室 。在GAM数据集中,相同的方法适用于鉴定隔室A和B(图2d)。发现隔室良好
重叠,因为在GAM和Hi‑C二者中,66%的1Mb窗口被指定到相同的隔室。
[0107] 在GAM数据集中可在视觉上鉴定高度自身‑相互作用区域,其看起来与在Hi‑C中鉴定的拓扑结构域类似。使用“移动箱”方法(图9a),在小鼠mESCs7中,在先前鉴定的TAD边界
处,观察到高度显著耗尽非对角线接触,证实在我们的数据集中存在TADs(图9b,c)。
[0108] 使用SLICE,由GAM数据提取相互作用概率(频率)
[0109] DNA FISH研究已显示横过细胞,染色质折叠不均质:当在显微镜下直接检查在两个限定的基因座之间的相互作用时,它们通常仅在细胞的小的亚群体中被发现(Simonis 
M.等人,2006。Nuclear organisation of active and inactive chromatin domains 
uncovered by chromosome conformation capture‑on‑chip(通过染色体构型捕获‑在碎
片上揭露的活性和非活性染色质结构域的核组织)(4C)。Nat.Genet.38(11):1348‑54)。测
量共定位因此代表群体平均值。相互作用强度的大多数在生物学上相关的测量保持为在其
中发生的细胞群体的分数。当施用于细胞群体时,基于构象‑捕获的方法可鉴定比预期的更
频繁彼此接触的基因座,但是它们不能接近关于在单细胞中这些接触的频率的定量信息。
[0110] 为了估计在单个细胞中发生的相互作用的概率,本发明人开发了简单的统计模式(SLICE计算平台,共分离的统计推理)。其考虑具有非常密切(<100nm)相互作用或随机折
叠的基因座配对的细胞的混合群体。在少量简化假定下,最佳描述数据的相互作用(Pi)的
概率经由数学方法衍生:核体积近似为球体,在不同的染色体上等位基因之间的相互作用
9
考虑微不足道 ,并且两个基因座的物理距离与它们的基因组距离成比例。通过还假定大多
数基因座非相互作用(在给定的基因组距离下,基因座之间的平均相互作用概率小),该缩
放可经由在给定的基因组距离下所有基因座配对的平均共分离来近似。这种类型的模式化
方法非常难以施用于Hi‑C数据,由于测量的参数(连接频率)不是距离的直接应变量。使用
该基本模式化方法的进一步精心制作,“主导”染色质相互作用可由“跟随的”相互作用解
剖,其由于相邻或附近基因座的“主导”相互作用而发生。
[0111] 施用该模式以估计在成对基因座之间的相互作用矩阵。在统计上测定的阈值随后施用于数据集,以保护具有足够高频率以赋予统计置信度的仅那些相互作用。
[0112] 相比对于它们的基因组距离所预期的,SLICE模式用于鉴定在核空间中在短物理距离(<100nm)下更频繁布置的所有基因座配对,并且用于估计横过细胞群体基因座相互
作用的频率。选择100nm作为用于特定接触的紧迫距离,如通过FISH最近测量的
58
(Williamson等人。2014 )。首先,对于在相同的染色体上所有可能配对的基因座,估计Pi。
本发明人随后选择仅具有显著相互作用的那些基因座,意味着具有比偶然预期的更大Pi的
那些。
[0113] 通过SLICE鉴定的最显著的相互作用相应于在相同的切片中最频繁共分离的基因座配对(图13)。例如,通过10Mb共分离分隔的基因座平均为5.3/408NPs(1.29%)。与此相
反,通过10Mb共分离分隔的显著相互作用基因座为10.1/408NPs(2.47%)。该方法得到比任
一种Hi‑C或GAM共分离矩阵小得多的均质模式的相互作用矩阵(图3b)。图含有许多更加离
散的点,这可表示通过超过给定阈值的相互作用形成的染色质回路的特定的基础(基因
座)。
[0114] 已建立该模式,SLICE用于估计在不同分辨下的检测效率。该方法建议在30kb分辨下检测效率为80%,证实30kb为用于该数据集的最优化分辨并且与由比较GAM与低温FISH
的效率估计良好一致。该模式也用于考虑在每一个管中切割多于一个NP的可能性和在一定
范围的不同的厚度下的切割切片。220nm的厚度的一个NP/管最优化用于本发明的目的,但
是对于研究具有更大或更小核的有机体可能不是最好的选择,其中在单一管中可能同时分
析多于一个(优选2个、3个或更多个)NP。
[0115] 为了探查在Pi矩阵中相互作用的性质,探查含有独特基因组要素的30kb窗口的相互作用概率。本发明人使用SLICE来鉴定(189,000,000可能的内‑染色体配对的)10,000,
000高置信度常染色体相互作用,其中7,200,000涉及基因区域(图12a)。对于每一个30kb窗
口,平均鉴定254个显著的相互作用(±183标准偏差;图12b)。鉴定的相互作用的数量随着
基因组距离而降低,如预期的,但是跨度几十Mb。例如,4,500,000显著的相互作用涉及活性
基因,3,000,000跨度小于60Mb,而1,500,000跨度大于60Mb(图12c)。
[0116] 在mESCs中先前公布的mRNA‑seq和碎片‑seq11用于将基因分成3类:活性(FPKM>1)、Polycomb抑制的(FPKM<1,H3K27me3+和/或H3Aub1+)或非活性(FPKM<1,没有H3K27me3
12
或H3Aub1)。由先前的研究 也包括预测的增强剂的列举。将与基因或增强剂重叠的所有
30kb窗口记分,并且将不同的基因/增强剂种类之间的显著相互作用的数量与随机预期相
比较。发现在活性基因和增强剂种类内核之间,相互作用矩阵含有特别高数量的显著的相
互作用(图3c)。例如,比起随机对照,含有活性基因的窗口使得与含有其它活性基因的窗口
显著更多接触。与此相反,非活性基因之间的接触与如偶然预期的一样频繁地发生。在连接
数据中,在每一个距离处,没有SLICE分析,通过将富集分析施用于最高的5%的相互作用,
也得到类似的结果(图12d),显示它们为GAM数据集的固有特征。这样强调GAM方法用于鉴定
可调节要素和它们的同源基因之间的相互作用的效率。GAM检测官能基因组区域之间的接
触的特异性显示GAM为用于解剖特定的SNPs和其它基因组变体在基因组折叠和错误调节的
基因表达中的作用的强有力的方法。
[0117] 检测相互作用三联体
[0118] GAM具有捕获染色质空间组织全基因组的许多另外的方面的潜在性,诸如多价染色质相互作用(相互作用涉及2个、3个或更多个基因组区域)、染色体的径向分配和亚染色
体区域和染色质压实。本发明人显示mESC‑400数据集已经容纳足够的信息来揭示在3个或
更多个基因座之间的多价相互作用。GAM统计的详细分析指示当前的mESC‑400数据集允许
在数百千碱基的分辨下检测三联体接触,其相应于TADs的染色质组织水平。
[0119] 成对接触矩阵不能区分同时的三联体相互作用与在相同的细胞中不发生的独立的成对事件(图14a)。为了鉴定真实的三联体相互作用,本发明人延伸SLICE至考虑三联体,
并且在<100nm的相同的紧迫空间距离下,计算同时、三路相互作用(Pi3)的概率,用于在3
个TADs内所有可能的组合窗口(图14b)。它们考虑仅通过显著的成对相互作用连接的TADs
的三联体并且使用40kb窗口,以使分辨与公布的TAD定义匹配(Dixon等人,2012)
(Methods)。随后,候选TAD三联体通过它们的组成40kb窗口的平均Pi3而分级(图14c,图
15a),并且保护具有最高相互作用记分的最高的5%TAD三联体。这些最高的5%代表横过小
鼠常染色体,170,000高度相互作用三联体(图14d)。
[0120] 通过单分子跟踪实验,给定在活的mESC核中增强剂‑约束的Sox2转录因子的显著成簇的最近的观察(Liu等人,2014),其测试含有高密度的富集多能性转录因子结合的可调
节要素的TADs是否可存在于顶部相互作用TAD三联体内。因此,根据存在具有高‑占位性的
转录因子Oct4、Sox2和Nanog的成簇的增强剂,将所有TADs分类,所述增强剂已被称为强的、
伸展或超级增强剂(SEs)(Whyte等人,2013)。使用公布的基因组Run‑On(GRO‑seq)数据集,
根据它们的转录水平,将不含SEs的TADs细分(Min等人,2011),作为转录活性的度量(图
14e)。显著地,本发明人发现在大范围的基因组距离之上,SEs(低转录的和高度转录的
TADs)存在于大多数高度相互作用三联体组中(例如,41982三联体涉及SEs,19%跨度基因
组距离小于30Mb,81%跨度在30‑116Mb(图14f)。
[0121] 接着,本发明人测试在特定的种类之间的相互作用是否在统计上富集在顶部相互作用TAD三联体中。显著地,他们发现最高度相互作用TAD三联体显著富集连接3个含有SE的
TADs的三联体(图14g,图15a)。这样指示在线性染色体中成簇的增强剂的这些阵列在mESCs
中以高的多样性在3D空间中也变得在一起,这是在通过活的mESCs的单分子成像,染色质‑
约束的Sox2的核成簇(Liu等人,2014)以及通过Hi‑C检测的超级增强剂之间的成对接触
(Ing‑Simmons等人,2015)的最近的观察之上发展的结果。显著地,本发明人还发现富集在
高度转录的TADs或SE和高度‑转录的TADs的组合之间形成的三联体,与活性基因共定位的
先前的观察(Pombo等人,1999;Osborne等人,2004)一致。与此相反,比起偶然预期的,由最
小转录的TADs组成的三联体较少频繁地发生,这可能是它们与核薄层优先缔合的结果
(Peric‑Hupkes等人,2010)(图14h)。感兴趣的是,观察到重叠或与薄层‑关联的结构域
(LADs)密切的SE和高‑转录TADs也在较少的三路相互作用中涉及,指示相邻TADs的切片缔
合保持活性区域,并且限制它们接近更中心的增强剂簇(图14i)。
[0122] 这些分析鉴定重叠增强剂和活性基因的窗口作为染色体折叠的主要决定因素。为了检查在相互作用窗口内,通过活性基因和/或增强剂,相互作用是否可成核,本发明人计
算在5kb分辨下的归一化连接(图15b)。比起这些特征的15kb上游或下游的5kb窗口,他们发
现重叠增强剂、启动子(TSS)或活性基因的转录末端位点(TES)的5kb窗口具有与显著相互
作用活性30kb窗口较高的平均连接。与增强剂30kb窗口相互作用也看到该富集,但是对于
在30kb分辨下不相互作用的活性窗口,看不到该富集(图15c)。类似地,与120kb上游或下游
的40kb窗口相比,发现在形成顶部三联体的SE TADs之间的平均三路连接富集直接重叠超
级增强剂的40kb窗口(图15d,e)。
[0123] 使用GAM来探查径向定位和压实
[0124] GAM保持动力来探查在3D核空间中染色质组织的另外的空间特征。本发明人开发使用mESC‑400数据集,GAM方法的两种立体学应用。关于核,作为切片的随机取向的结果,源
自不同维度的核的NPs的DNA含量可用于估计基因组区域的径向分配。例如,通过定义,比起
赤道NPs,通过与它们的外周密切的核切割的NPs含有较小体积的核体积(或DNA含量;
Branco等人,2008)(图16a)。因此,被每一个NP覆盖的基因组的百分数可用作相对于大多数
赤道NPs其纬度的代理。实际上,本发明人发现在较小NPs中检测染色体的频率与它们的径
向位置相关(如先前在mESCs中对于五种染色体测量的(Mayer等人,2005)),其中较低的平
均DNA含量相应于更多的外周位置(图16b)。
[0125] 本发明人进一步探查染色质折叠的更加局部的特征,其原则上也可通过GAM来评定。本发明人推论,比起更加浓缩的基因座,去浓缩的基因组基因座将占据更大的体积(或
者采用更加伸长的构象)。因此,比起较小的或更加球形的基因座,更加去浓缩的基因座应
交叉更加频繁(并且在随机‑取向的核分布图中更加频繁地被检测)(图16c)。去浓缩的染色
质应该更加可接近酶分裂,例如,使用DNAse I,并且本发明人发现在公布的DNase‑seq数据
集中30kb窗口的覆盖与在GAM mESC‑400数据集中它们的检测频率相关(Spearman’s r=
‑6
0.47,p≤10 ;图16d)。在结构蛋白质的过表达之后,对于单个基因座或全球,已显示转录活
性与染色质去浓缩相关。本发明人进一步发现通过GRO‑seq覆盖测量的转录活性30kb基因
组窗口(Min等人,2011)与它们在单一NPs中的检测频率正相关(Spearman’s r=0.27,p≤
‑6
10 ;图16d)。这些结果允许它们第一次报道,在小鼠ESCs中,在30kb分辨下,转录水平和染
色质体积(浓缩)之间的全基因组缔合。这些分析已经说明GAM研究核组织的特征的潜在性,
核组织迄今为止保持不可接近和以全基因组规格不能探查。
[0126] 讨论
[0127] GAM为采用没有偏倚的方式用于捕获染色质接触的新型、无连接方法,独立于用于测量3D基因组拓扑学和定位的所有其它当前的技术。GAM揭露在mESCs中染色质的3D结构的
复杂的组织,其中官能基因组区域位于特定的染色质接触的下面。尤其显著的是在增强剂
要素和转录的区域内和之间富集成对染色质相互作用。鉴定在TADs之间丰富的三路相互作
用,其中多个强增强剂和高度转录的区域在相同的核中同时缔合,揭示横过大的基因组区
域,可调节要素形成较高顺序接触。与此相反,通过限制接近更加中心的增强剂簇或通过限
制可用于形成多个接触的表面,与核薄层的接近性看起来抑制形成涉及高度转录的TADs的
较高复杂性接触。
[0128] 重要的是,通过GAM得到的结果独立地证实使用其它方法得到的发现,包括通过5C/Hi‑C鉴定优先自身‑缔合基因组区域(TADs)和在活细胞成像中通过转录因子Sox2(增强
剂标记物)约束的染色质的观察到的成簇。同时,GAM的全基因组规格和位置信息的不同方
面的整体收集(接触,径向定位和压实)增加先前的技术不能提供的新的分析机会。
[0129] 开发SLICE提供一种用于GAM的通常的统计模式,其可由GAM数据集提取关于染色质相互作用的定量信息。考虑基因组距离,这允许鉴定显著成对和三路接触。使用较大的
GAM数据集,SLICE可延伸至整合不同的核或染色体形状或体积,与核外周和核结构的其它
特征缔合,以在高分辨下增强检测特定的相互作用染色质区域。
[0130] 含有几千NPs的较大的GAM数据集应允许探究由GAM提供的另外的分析可能性,包括成对的较高分辨定量、三联体和较高多样性接触、体积和径向定位全基因组以及不同接
触的相互依赖性(图4)。重要的是,GAM可将这些分析引导至通过显微解剖由宝贵的组织样
品特定选择的稀有细胞类型,例如由单个患者的活检得到的那些。此外,GAM应与在单细胞
中同时检测特定的染色质接触和活性转录相容(Dey等人,2015。Integrated genome and 
transcriptome sequencing of the same cell(相同细胞的整体基因组和转录组测序)。
Nature Biotechnology,33(3):285‑289),这对于解剖起因的关系将至关重要。
[0131] 总之,GAM为基因组生物学家的清单增加了强有力的新的工具,并且将我们的能力显著扩张至精细解剖三维染色质结构,使得许多通过实验先前无法回答的问题在宽泛的模
式系统、细胞类型和有价值的人样品中变得易处理。GAM对于在稀有细胞类型中研究染色体
折叠的独特的适应性在解剖在人疾病中天然序列变体的作用中将没有价值。
[0132] 方法
[0133] 细胞培养物
[0134] 用于该实例的小鼠ES细胞(mESCs)为46C line13、E14tg2a的Sox1‑GFP衍生物和Domingos Henrique的礼物(lnstitute of Molecular Medicine,Lisbon,Portugal)。如先
14
前描述的 进行mESC培养。简要地,在0.1%涂布明胶的盘子上,在补充10%胎牛血清、2ng/
ml LIF和1mM 2‑巯基乙醇的Glasgow Modified Eagles培养基中,在5%CO2孵育器中,使细
胞在37℃下生长。每隔一天使细胞传代。在收获前,在最后的传代24小时之后,在不含血清
的ESGRO完全克隆级别培养基(Millipore lnc.)中将mESCs再铺板。可改为使用其它细胞。
[0135] 制备低温切片
[0136] 如先前描述的2,准备细胞用于低温切片。简要地,将细胞在4%和8%多聚甲醛/250mM HEPES‑NaOH(pH 7.6;分别10分钟和2小时)中固定,成粒,在2.1M蔗糖/PBS中包被(2
小时),在液氮中冷冻。冷冻的细胞可无限期地在液氮中储存。以约220nm厚度,使用
UltraCut UCT 52超低温切片机(Leica,Milton Keynes,UK)切割超薄低温切片。在蔗糖溶
液液滴中捕获切片,转移至1mm厚的PEN膜覆盖的载玻片,用于激光显微解剖(Leica,Milton 
Keynes,UK)。为了除去包被培养基的蔗糖,载玻片用0.2μm过滤的分子‑生物学级别PBS(每
次5分钟)洗涤(3次),随后用过滤的超纯H2O(每次5分钟)洗涤(3次),让其干燥15分钟。在少
数情况下,第三次PBS洗涤用分子‑生物学级别碘化丙啶(1μg/ml,在PBS中)5分钟染色来替
代。
[0137] 核分布图的分离
[0138] 使用PALM微光束激光显微解剖显微镜(Carl Zeiss,Jena,德国),通过激光显微解剖,由低温切片分离单个NPs。在亮场成像下鉴定核,激光用于围绕每一个核切割载玻片膜。
使用激光压力快速移动,将切割的NPs随后快速移动至填充不透明的粘合剂材料的PCR Cap 
Strip中。让八个中的每一个条中的一个孔空着,通过WGA过程取其作为负对照。这五个负对
照也用于制备测序库,用于品质控制目的(图6a)。
[0139] 全基因组扩增
[0140] 进行使用WGA4试剂盒(Sigma)的全基因组扩增,对先前描述的方案5具有较少的修改。将水(13μl)加入到每一个含有分离的NP的朝上的PCR盖中(在该步骤和以下的步骤中,
相对于供应商的方案,缓冲液的体积已提高,以便覆盖PCR帽盖的整个内表面)。将PK主混合
物(含有8μl蛋白酶K溶液,128μl 10x单细胞裂解和碎裂缓冲液)加入到每一个盖(1.4μl/
盖),将1μl人基因组DNA加入到单一的盖中,没有核分布图用作正对照。在96‑孔PCR板中压
制盖,在50℃下上下翻转孵育4小时。
[0141] 孵育后,让PCR板在室温下冷却5分钟,随后倒转,在800xg下离心3分钟。在PCR机器中,将板在99℃下热失活4分钟,在冰上冷却2分钟。将2.9μl 1x单细胞库制备缓冲液和1.4μ
l库稳定溶液加入到每一个孔中,将板在95℃下孵育4分钟,随后在冰上冷却2分钟。将1.4μl
库制备酶加入到每一个反应,随后将板在PCR机器上在16℃下孵育20分钟,24℃下孵育20分
钟,37℃下孵育20分钟,最后75℃下孵育5分钟。
[0142] 在WGA库制备后,将PCR板在800xg下离心3分钟。将10x扩增主混合物(10.8μl)、水(69.8μl)和WGA DNA聚合酶(7.2μl)加入到每一个孔中,使用供应商提供的程序将样品PCR
扩增。
[0143] 全基因组扩增在一天中通常进行,但是在一些情况下,中途通过方案,将样品在‑20℃下储存过夜,在该变量的对照测试中,在DNA检测中,没有可检测的差异。
[0144] 制备用于高‑生产量测序的库
[0145] 使用Qiagen MinElute PCR Purification Kit纯化WGA扩增的DNA,在50μl提供的洗脱缓冲液中洗脱。通过PicoGreen定量测量每一个样品的浓度。随后使用Illumina 
TruSeq DNA HT Sample Prep Kit或TruSeq Nano DNA HT试剂盒制备测序库。在两种情况
下,用再悬浮缓冲液使样品高达55μl。对于DNA HT试剂盒,将最大1.1μg DNA加入到每一个
反应,而对于Nano试剂盒,使用最大200ng。根据制造商的用法说明制备库。对于DNA HT试剂
盒,样品尺寸选择为300‑500核苷酸使用Pippin Prep机器(Sage Science,Beverly,MA,
USA),具有不含EtBr的1.5%琼脂糖暗盒。使用基于珠粒的选择方案,选择使用Nano试剂盒
制备的样品为350核苷酸尺寸。
[0146] 在库制备后,使用Qubit 2.0荧光剂(Thermo Fisher Scientific,Waltham,MA,USA)估计库浓度,在96批次中,将库合并在一起。每一个库池在单一末端中测序,以快速运
行模式,100bp在Illumina HiSeq机器的两个车道上运行。由于在每一个读数的两个末端都
存在30bp WGA接合器,使用由Illumina提供的惯常运行处方,实施每一个运行的第一个
30bp,而没有使流动细胞成像(这些称为暗周期)。
[0147] 高‑生产量测序数据分析
[0148] 使用Bowtie215,将读数绘图至M.musculus基因组的mm9组件。除去不能独特绘图、具有小于20的品质记分或为PCR复制品的读数。
[0149] 在GAM样品中呼叫正窗口
[0150] 使用bedtools16,将小鼠基因组分成相同尺寸的窗口,bedtools multibamcov用于17
计算在重叠每一个基因组窗口的每一个核分布图中读数的数量。Pandas和NumPy蟒蛇包装
用于由重叠每一个窗口的读数的数量计算柱状图,来自SciPy的fmin函数用于将负二项式
分配(代表测序噪声)和log正常分配(代表真实的信号)与深度柱状图拟合。使用用于二项
式分配拟合的参数,测定读数x的阈值数量,其中观察多于x读数绘图到单一基因组窗口的
概率小于0.001。因此,对于每一个样品,独立地测定这样的阈值,如果测序读数的数量大于
预定的阈值,将窗口记分为正。
[0151] 样品品质控制
[0152] 为了由分析排除低品质数据集,对于每一个样品,测量品质计量学的数量。通过惯常python script测量绘图的读数的百分数和非PCR复制品读数的百分数。对于每一个样
品,使用FastQC(bioinformatics.babraham.ac.uk/projects/fastqc)测定测序品质计量
学,惯常script用于提取每个基础的平均测序品质记分、二核苷酸重复的数量和来自
FastQC输出文件的单一核苷酸重复的数量。使用Fastq‑筛分
(bioinformatics.babraham.ac.uk/projects/fastq_screen)检查可能的样品污染。预期
通过核的薄的切片含有特性比例的全基因组,在簇中组织,并且不含所有常染色体。因此,
对于每一个样品,开发惯常python script来测量记分为正的窗口的总数,与另一个正窗口
紧邻的正窗口的数量以及正染色体的数量。将所有这些品质计量学加入到主要组分分析,
并且寻找最佳区别五种负对照的组分。该分析确定绘图的读数的百分数为大多数预言的公
制。负对照具有最大2%绘图的读数,因此,排除具有<15%绘图的读数的所有样品作为保
守阈值。
[0153] 计算测序深度饱和点
[0154] NumPy用于侵蚀来自每个样品每个窗口的读数深度的矩阵的读数。以10%‑95%的腐蚀率,产生13个新的矩阵,对于每一个被侵蚀的数据集,呼叫正窗口。横过被侵蚀的数据
集,比较每一个样品,以得到饱和曲线,其中针对在腐蚀后保留的读数的百分数,绘制鉴定
的正窗口的数量。通过将饱和曲线分成两部分,并且比较这两部分的线性回归与在整个曲
线上的线性回归,将样品分类为饱和或不饱和的。推定饱和点定义为其中来自两部分拟合
的R‑平方值的平均最高的点。如果两部分的第二部分的梯度小于第一部分的梯度(即,如果
鉴定的另外的正窗口的数量在较高读数深度下更加缓慢地提高),并且如果两部分拟合的
平均R‑平方大于0.25,大于针对整个曲线的线性拟合的R‑平方(即,如果曲线显著区别于直
线),则将样品分类为饱和的。
[0155] 荧光性原位杂化
[0156] 如先前描述的18实施DNA FISH。小鼠ES‑OS25细胞(由W.Bickmore友好提供)如先前36
描述的 生长。使用F粘粒探头(分别G135P6799B3、G135P67637D6和G135P60674A4)检测
HoxB13、HoxB1‑3和Skap1基因座。由BACPAC Resources(California,USA)得到F粘粒探头。
使用特定的引物(未显示),通过PCR证实F粘粒探头的特异性。通过刻痕翻译(Roche),探头
用异羟基洋地黄毒甙元‑11‑dUTP、荧光素‑12‑dUTP或四甲基‑若丹明‑5‑dUTP标记,使用
MicroBioSpin P‑30层析住(BioRad,Hertfordshire,UK),与未结合的核苷酸分离。若丹明‑
标记的探头的信号用兔子抗若丹明抗体(2小时;1∶500;lnvitrogen)和针对兔子IgG的花青
3‑共轭的驴抗体(1小时;1∶1000;Jackson ImmunoResearch Laboratories)扩增。用异羟基
洋地黄毒甙元标记的探头用绵羊抗异羟基洋地黄毒甙元Fab碎片(2小时;1∶200;Roche)和
针对绵羊IgG的AlexaFluor555驴抗体(1小时;1∶1000;Invitrogen)检测。使用FITC标记的
探头用针对FITC的小鼠抗体(1小时,1∶500;Jackson Immuno Research Laboratories)和
针对小鼠IgG的AlexaFluor488驴抗体(1小时,1∶1000;Invitrogen)检测。核用DAPI染色,在
成像前,使用VectaShield(Vector Laboratories)安装coverslips。使用相当于1Airy圆盘
的针孔,在配备405nm二极管和氩气(488nm)、HeNe(543nm)和HeNe(633nm)激光的共焦激光‑
扫描显微镜(Leica TCS SP5;63x油物镜,NA1.4)上获得图像。连续收集不同通道的图像,以
预防荧光性泄漏。在lmageJ中合并原始图像(TIFF文件),对比伸展,在Adobe Photoshop中
没有阈值。
[0157] 计算连接矩阵
[0158] 对于限定的基因组区域,为了计算连接矩阵,首先提取重叠关注的区域的来自每一个样品的基因组窗口。对于重叠窗口的窗口的所有可能的配对,共分离为其中两个窗口
记分为正的核分布图除以核分布图的总数的数量。
[0159] 如先前多定义的6计算连接不平衡(D)和归一化连接不平衡(D’)。简言之,在基因组窗口A和B之间的连接定义为A和B的共分离(参见以上)减去它们的边缘检测频率的乘积。
A的边缘检测频率简单地为其中检测A的核分布图的数量除以核分布图的总数。两个基因组
窗口A和B之间的归一化连接定义为A和B的连接除以A和B之间最大可能的连接(Dmax)。如果
连接>0,则Dmax计算为min((marg(A)*(1‑marg(B))),(marg(B)*(1‑marg(A)))),其中marg
(A)为A的边缘检测频率。如果连接<0,则Dmax计算为min((marg(A)*marg(B)),((1‑marg
(A))*(1‑marg(B))))。
[0160] 此处,marg(A)为A的边缘检测频率。由连接矩阵L(i,j)计算在相同染色体上的所有区域之间的连接的热图,其中每一条为i和j的归一化连接。这些计算可琐碎地延伸至考
虑任何数量的基因座。例如,3个基因座之间的连接计算为A、B和C的共分离减去A、B和C的边
缘检测频率的乘积。
[0161] 由相互作用数据集限定隔室A和B
[0162] 根据先前公布的方法8,23,计算隔室A和B用于GAM和Hi‑C。每一个染色体用矩阵O(i,j)表示,其中每一条记录基因座i和基因座j之间观察到的相互作用。产生新的矩阵E(i,
j),其中每一条是在i和j之间,在具有相同距离的矩阵O中,对于所有位置,相互作用的平均
数。O除以E,得到K(i,j),为在预期值之上观察到的矩阵。随后计算最终的矩阵C(i,j),其中
每一个位置是矩阵K的柱i和柱j之间的关联。对关联矩阵C进行主要组分分析,随后提取解
释大多数变量的3种组分。在这些3种组分中,与GC含量具有最好关联的一个用于限定A和B
隔室。
[0163] 在GAM/Hi‑C矩阵中偏离的估计
[0164] 为了比较GAM和Hi‑C之间的偏离,基于它们的平均GC含量,将50kb基因组窗口指定为10个相同组中的一个。以50kb分辨,由GAM和Hi‑C数据二者,对于每一个染色体,随后计算
经预期的(OE)矩阵观察到的(参见“由GAM和Hi‑C数据集限定A和B隔室”)。对于两种GC含量
组的每一个组合,采用在两组中窗口之间的接触的平均OE值,通过GC含量导致平均OE值的
热图。随后重复相同的方法,通过平均可绘图性、它们含有的Hindlll位点的数量、它们的平
均复制时间或重叠注释的基因组重复的每一个50kb窗口的百分数,使50kb窗口成层。
[0165] 鉴定拓扑缔合结构域
[0166] 在mESCs中,由先前的研究7得到拓扑缔合结构域边界的列举。在3×3箱子中测量平均归一化连接不平衡,该箱子从连接矩阵的对角线以两个窗口的抵销移动,作为非对角
线相互作用的度量。通过比较在先前描述的拓扑结构域边界处的非对角线相互作用与在上
游和下游结构域边界150kb的非对角线相互作用,对于在数据集中这些先前限定的边界,测
量非对角线相互作用的耗尽。通过比较观察到的非对角线耗尽与由TADs的5000个随机拖曳
组测量的耗尽,评定该耗尽的统计显著性。
[0167] 使用SLICE方法,由GAM数据提取相互作用概率
[0168] 在小鼠基因组中,对于30kb窗口的所有配对,测量含有两个轨迹的管的数量与含有至少一个轨迹配对成员的管的数量之间的比率。随后在相同的基因组距离下,经轨迹的
所有配对,对该比率取平均,对于每一个染色体,单独计算。通过比较该基因组平均值与每
一个单个轨迹配对观察到的比率,可鉴定在相同的染色体上,在相同的距离下,比起轨迹的
平均配对,更加频繁共分聚的轨迹的配对。数学模式用于估计需要具有密切(<100nm)相互
作用以便得到观察到的比率值的细胞的分数。随后丢弃其中在该基因组距离下,观察到的
比率在对于非相互作用轨迹预期的比率的95%内的任何轨迹配对。
[0169] 在三联体中TADs相互作用的分析
[0170] 为了同时鉴定TADs相互作用的三联体,首先鉴定3个TADs的组,其中所有3个TADs显示通过SLICE鉴定的显著的成对相互作用。对于所有这样的三联体,使用SLICE计算组成
TADs的所有40kb窗口的Pi3。此处使用40kb窗口作为在40kb分辨下给出的在Dixon等人
(2012)中的TAD位置。最后,通过它们的平均Pi3以及用于富集分析选择的最高的5%,对所
有的三联体评级。如果它们重叠任何先前鉴定的超级增强剂,则TADs指定为SE TADs(SEs;
Whyte等人,2013)。如果它们分别具有低于第一个四分点或高于第三个四分点的GRO‑seq覆
盖,则不重叠SEs的TADs分类为低转录或高转录。在覆盖的中间两个四分点的TADs分类为中
转录。富集计算为每一个TAD三联体类别(例如,SE/SE/SE)观察到的数量除以TAD三联体的
500个随机变更列举的平均,并且如果观察到的计数大于或小于所有随机变更的值,则称为
显著的。
[0171] 为了分析核薄层缔合对三联体形成的影响,使用在mESC细胞中LAD区域的列举(Peric‑Hupkes,D.等人,Molecular Maps of the Reorganization of Genome‑Nuclear 
Lamina Interactions during Differentiation(在分化期间,基因组‑核薄层相互作用的
改组的分子图)。Mol.Cell38,603‑613(2010))。根据在含有TAD的最高的5%中三联体的数
量,将TADs分类为最多(顶部15%)和最少(底部15%)形成的三联体。使用最接近的BED工具
(Quinlan等人,2010),计算每一类的TADs与LADs的距离。
[0172] 在5kb分辨下,平均连接的分析
[0173] 为了限定30kb窗口的染色质相互作用是否集中于它们包含的特征(TSS、TES和增强剂),将精确重叠一种增强剂或活性基因的TSS/TES(FPKM>1;长度>120kb),但是没有其
它基因或增强剂的每一个30kb窗口细分为6个非重叠5kb窗口。随后,对于重叠关注特征的
5kb窗口±3个上游/下游5kb窗口,计算与其它相互作用“增强剂”或“活性”30kb窗口(包藏
30kb窗口与相互作用30kb窗口,SLICE p‑值=0.05)的归一化的连接不平衡。这导致其中每
一行代表两个30kb窗口之间的单一相互作用的矩阵,圆柱代表关注的5kb窗口±3个上游/
下游5kb窗口的连接。为了归一化距离效果,将每一行除以其自身平均。接着,取每个柱的平
均,以得到由在距离关注的5kb窗口的每一个距离下的平均连接。最后,将这些平均值除以
第一个和最后一个柱的平均,以得到相对于上游/下游15kb,在TSS的平均富集。作为对照,
使用包含相同特征(增强剂、TSS、TES)的非相互作用(SLICE p‑值>0.05)30kb窗口配对。为
了确保类似的距离分配,通过它们的基因组距离,将真实的相互作用储存在10个箱子中,将
对照组随机降低,使得对于每一个基因组距离范围的箱子数相同。
[0174] 在40kb分辨下,平均三路连接的分析
[0175] 为了限定在均含有超级增强剂的3个窗口(“SE/SE/SE”)之间的三联体染色质接触是否集中在包含的超级增强剂之上,选择含有长度小于40kb的单一SE的所有TADs。40kb窗
口在SE以及±3个上游/下游40kb窗口之上集中。将其中TAD边界落入这些40kb窗口中的任
一个之内的TADs丢弃。接着,基于涉及所选的TADs的所有“SE/SE/SE”三联体,计算在含有SE
的40kb窗口和在两个搭档SE TADs中的所有40kb窗口之间的平均三路归一化连接不平衡。
对于所选的含有SE的40kb窗口的上游/下游40kb窗口,重复这一点。如以上对于成对平均连
接所描述的,将每一个所得到的行除以其平均,随后对于每一个柱取平均,最后将结果除以
的第一个/最后一个柱的平均。在相应于“SE/高/高”TADs的顶部三联体的列举中,对于相同
组的所选的SE‑TADs和它们的搭档高度‑转录的(高)TADs,以及对于横跨相同的基因组距离
的非相互作用“SE/SE/SE”三联体TADs(对照),重复整个过程。
[0176] 由GAM数据估计染色体径向位置
[0177] 相对于核的中心,作为每一个NP纬度的近似,计算每一个染色体的覆盖作为对于每一个NP,每一个Mb,读数的平均数。对于每一个染色体,取其中该染色体在覆盖的顶部四
分点的每一个NP,并且正计算所有基因组1Mb窗口的百分数。NP的百分数覆盖为其半径的度
量(Branco等人,2008),因此,含有给定染色体的NPs的平均百分数覆盖为该染色体出现在
具有大半径的NPs中的优先性的度量(如更加在中心布置的染色体所预期的)。本发明人关
联含有染色体1、2、9、11和14的NPs的平均百分数覆盖与在Mayer等人(2005)中事先测量的
它们的径向位置,发现更加外周的染色体在具有较低基因组覆盖的NPs中被发现的倾向。
[0178] 由GAM数据估计轨迹体积
[0179] 将小鼠基因组分成30kb窗口,计算其中检测每一个窗口的NPs的数量(其检测频率)。经每一个30kb窗口,将该值与先前公布的GRO‑seq数据集的平均覆盖(Min等人,2011)
以及与DNAse‑seq的平均覆盖(在核小体水平下,染色质宽阔的度量;Yue,F.等人,2014。
Nature515,355‑364)关联。
[0180] 参考文献
[0181] 1.Dear,P.H.&Cook,P.R.Happy mapping:a proposal for linkage mapping the human genome(对于人基因组连接绘图的提议)。Nucleic Acids Res.17,6795‑807(1989)。
[0182] 2.Guillot,P.V,Xie,S.Q.,Hollinshead,M.&Pombo,A.Fixation‑induced redistribution of hyperphosphorylated RNA polymerase II in the nucleus of 
human cells(在人细胞的核中,超磷酸化的RNA聚合酶II的固定‑诱导的再分配).Exp.Cell 
Res.295,460‑8(2004)。
[0183] 3.Branco,M.R.&Pombo,A.Intermingling of chromosome territories in interphase suggests role in translocations and transcription‑dependent 
associations(在中间相混合染色体领地提议在易位和转录‑依赖性缔合中的作用).PLoS 
Biol.4,e138(2006)。
[0184] 4.Emmert‑Buck,M.R.等人,Laser capture microdissection(激光捕获显微解剖).Science274,998‑1001(1996)。
[0185] 5.Baslan,T.等人,Genome‑wide copy number analysis of single cells(单细胞的全基因组拷贝数量分析).Nat.Protoc.7,1024‑41(2012)。
[0186] 6.Lewontin,R.C.The Interaction of Selection and Linkage.I.General Considerations;Heterotic Models(选择和连接的相互作用。I.通常的考虑;杂化模式)
.Genetics49,49‑67(1964)。
[0187] 7.Dixon,J.R.等人,Topological domains in mammalian genomes identified by analysis of chromatin interactions(通过分析染色质相互作用鉴定的在哺乳动物
基因组中的拓扑结构域).Nature485,376‑380(2012)。
[0188] 8.Lieberman‑Aiden,E.等人,Comprehensive mapping of long‑range interactions reveals folding principles of the human genome(长范围相互作用的
综合绘图揭示人基因组的折叠原理).Science326,289‑93(2009)。
[0189] 9.Khalil,A.等人,Chromosome territories have a highly nonspherical morphology and nonrandom positioning(染色体领地具有高度非球形形态和非随机定
位).Chromosome Res.15,899‑916(2007)。
[0190] 10.Mateos‑Langerak,J.等人,Spatially confined folding of chromatin in the  interphase  nucleus(在中间相核中染色质的空间限定的折叠)
.Proc.Natl.Acad.Sci.U.S.A.106,3812‑7(2009)。
[0191] 11.Brookes,E.等人,Polycomb Associates Genome‑wide with a Specific RNA Polymerase II Variant,and Regulates Metabolic Genes in ESCs(Polycomb使全基因
组与特定RNA聚合酶II变体缔合,并且在ESCs中调节代谢基因).Cell Stem Cell10,157‑70
(2012)。
[0192] 12.Chen,C.,Morris,Q.&Mitchell,J.a.Enhancer identification in mouse embryonic stem cells using integrative modeling of chromatin and genomic 
features(使用染色质的整体模式化和基因组特征,在小鼠胚胎干细胞中的增强剂鉴定)
.BMC Genomics13,152(2012)。
[0193] 13.Ying,Q.‑L.,Stavridis,M.,Griffiths,D.,Li,M.&Smith,A.Conversion of embryonic stem cells into neuroectodermal precursors in adherent monoculture
(在粘着的单一培养物中,胚胎干细胞转化为神经外胚层前体).Nat.Biotechnol.21,183‑6
(2003)。
[0194] 14.Abranches,E.等人,Neural differentiation of embryonic stem cells in vitro:a road map to neurogenesis in the embryo(胚胎干细胞的体外神经分化:在胚
胎中向神经发生的地图).PLoS One4,e6286(2009)。
[0195] 15.Langmead,B.&Salzberg,S.L.Fast gapped‑read alignment with Bowtie 2(使用Bowtie 2快速间隙阅读对准).Nat.Methods9,357‑9(2012)。
[0196] 16.Quinlan,A.R.&Hall,I.M.BEDTools:a flexible suite of utilities for comparing  genomic  features(用于比较基因组特征的一套灵活的实用性)
.Bioinformatics26,841‑2(2010)。
[0197] 17.Oliphant,T.E.Python for Scientific Computing(用于科学计算的预言者).Comput.Sci.Eng.9,10‑20(2007)。
[0198] 18.Ferrai,C.等人,Poised transcription factories prime silent uPA gene prior to activation(在活化前,平衡的转录工厂引物沉默uPA基因).PLoS Biol.8,
e1000270(2010)。
[0199] 19.O’Sullivan,J.M.,Hendy,M.D.,Pichugina,T.,Wake,G.C.&Langowski,J.The statistical‑mechanics of chromosome conformation capture(染色体构型捕获的统计
机理).Nucleus4,390‑8(2013)。
[0200] 20.Sexton,T.等人,Three‑dimensional folding and functional organization principles of the Drosophila genome(果蝇基因组的三维折叠和官能组
织原理).Cell148,458‑72(2012)。
[0201] 21.Gavrilov,A.a等人,Disclosure of a structural milieu for the proximity ligation reveals the elusive nature of an active chromatin hub(用于
接近性绑扎的结构环境的公开揭示活性染色质套节的难以捉摸的性质).Nucleic Acids 
Res.41,3563‑75(2013)。
[0202] 22.Yaffe,E.&Tanay,A.Probabilistic modeling of Hi‑C contact maps eliminates systematic biases to characterize global chromosomal architecture
(Hi‑C接触图的概率统计模式化消除系统偏离,以表征球形染色体结构).Nat.Genet.1‑9
(2011)。doi:10.1038/ng.947
[0203] 23.Imakaev,M.等人,lterative correction of Hi‑C data reveals hallmarks of chromosome  organization(Hi‑C数据的反复校正揭示染色体组织的特征)
.Nat.Methods9,999‑1003(2012)。
[0204] 24.Hu,M.等人,HiCNorm:removing biases in Hi‑C data via Poisson regression(经由Poisson回归,在Hi‑C数据中除去偏离).Bioinformatics28,3131‑3133
(2012)。
[0205] 25.Kruse,K.,Sewitz,S.&Babu,M.M.A complex network framework for unbiased statistical analyses of DNA‑DNA contact maps(用于DNA‑DNA接触图的没有
偏倚的统计分析的复杂的网络框架).Nucleic Acids Res.41,701‑710(2012)。
[0206] 26.Van Berkum,N.L.等人,Hi‑C:a method to study the three‑dimensional architecture of genomes(一种用于研究基因组的三维结构的方法).J.Vis.Exp.e1869
(2010)。doi:10.3791/1869。
[0207] 27.Barbieri,M.等人,Complexity of chromatin folding is captured by the strings and binders switch model(通过成串和粘合剂开关模式捕获染色质折叠的复杂
性).Proc.Natl.Acad.Sci.U.S.A.109,16173‑8(2012)。
[0208] 28.Pombo A.2003.Cellular genomics:which genes are transcribed when and where?(细胞基因组:基因何时和在哪转录)Trends Biochem.Sci.28.6。
[0209] 29.Belmont A.S.,2014.Large scale chromatin organization:the good,the surprising,and the still perplexing(大规模染色质组织:良好的、意外的以及仍困惑
的).Curr Op Cell Biol 26,69。
[0210] 30.Chen et al.,2014.Nano‑Dissection and Sequencing of DNA at Single Sub‑Nuclear Structures(在单一亚核结构下,DNA的纳米解剖和排序).Small 10:3267。
[0211] 31. V.,et al.,2013.Cryo‑electron tomography:The challenge of doing structural biology in situ(低温电子断层照相术:进行原位结构生物学的挑
战).J Cell Biol 202(3),407。
[0212] 32.Deng et al.,2014.Manipulating nuclear architecture(操纵核结构).Curr Op Genet Dev.25:1‑7。
[0213] 33.Chetverin AB,Chetverina HV,2008.Molecular colony technique:a new tool for biomedical research and clinical practice(分子克隆技术:用于生物医学
研究和临床实践的一种新的工具).Prog.Nucleic Acid Res.Mol.Biol 82:219‑255。
[0214] 34.Pombo A,et al.1999.Bridging the resolution gap:Imaging the same transcription factories in cryosections by light and electron microscopy(桥接
分辨间隙 :通过光 和电 子显 微术 ,在 低温切片中 使相同的 转录成像)
.J.Histochem.Cytochem.47,471‑480。
[0215] 35.Maxwell S,等人,2005.Pitx3regulates tyrosine hydroxylase expression in the substantia nigra and identifies a subgroup of mesencephalic 
dopaminergic progenitor neurons during mouse development(Pitx3在黑质中调节酪
氨酸羟化酶表达并且在小鼠发育期间鉴定中脑多巴胺能先祖神经元的亚组).Dev.Biol.,
282(2):467‑479。
[0216] 36.Stock JK,等人,(2007)Ring1‑mediated ubiquitination of H2A restrains poised RNA polymerase II at bivalent genes in mouse ES cells(在小鼠ES细胞中,
在二价基因下,H2A的环1介导的泛素化保持平衡的RNA聚合酶II).Nat.Cell Biol.9:1428‑
35。
[0217] 37.GavriIov AA,等人,2014.Quantitative analysis of genomic element interactions by molecular colony technique(通过分子克隆技术,基因组要素相互作
用的定量分析).Nucl.Acids Res.42(5):e36。
[0218] 38.Maeburn KJ,等人,2009.Disease‑specific gene repositioning in breast cancer(在乳腺癌中,疾病‑特异性基因再定位).J.Cell Biol.187(6):801‑12;
[0219] 39.Kubben N,et al.2012.Mapping of lamin A‑and progerin‑interacting genome regions(核纤层蛋白A‑和早老蛋白‑相互作用基因组区域的绘图).Chromosoma 
121(5):447‑64。
[0220] 40.Simonis M,等人,2006.Nuclear organisation of active and inactive chromatin domains uncovered by chromosome conformation capture‑on‑chip(4C)(通
过染色体构型捕获‑在碎片上揭露的活性和非活性染色质结构域的核组织(4C))。
Nat.Genet.38(11):1348‑54。
[0221] 41.Dubochet J,et al.1988.Cryo‑electron microscopy of vitrified specimens(玻璃化样品的低温电子显微术).Q.Rev.Biophys.21:129
[0222] 42.Markenscoff‑Papadimitriou E,等人,2014.Enhancer Interaction Networks as a Means for Singular Olfactory Receptor Expression(增强剂相互作用
网络作为用于单数嗅觉受体表达的手段).Cell 159:543‑557。
[0223] 43.Schoenfelder S,et al.2010.Preferential associations between co‑regulated genes reveal a transcriptional interactome in erythroid cells(共调
节的基因之间的优先缔合揭示在红细胞中转录相互作用组).Nat.Genet.42:53‑61。
[0224] 44.Min,I.M.等人,Regulating RNA polymerase pausing and transcription elongation in embryonic stem cells(在胚胎干细胞中,调节RNA聚合酶暂停和转录伸
长).Genes Dev.25,742‑54(2011)。
[0225] 45.Whyte,W.a等人,Master transcription factors and mediator establish super‑enhancers at key cell identity genes(在关键的细胞同一性基因,主转录因子
和调节剂建立超级增强剂).Cell153,307‑19(2013)。
[0226] 46.Mayer,R.等人,Common themes and cell type specific variations of higher order chromatin arrangements in the mouse(在小鼠中较高顺序染色质排布的
共同主题和细胞类型特定的变化).BMC Cell Biol.6,44‑66(2005)。
[0227] 47.Liu,Z.等人,3D imaging of Sox2enhancer clusters in embryonic stem cells(在胚胎干细胞中,Sox2增强剂簇的3D成像).Elife3,1‑29(2014)。
[0228] 48.Pombo,a等人,Regional specialization in human nuclei:visualization of discrete sites of transcription by RNA polymerase III(在人核中区域专门化:
通过RNA聚合酶III显现转录的离散的位点).EMBO J.18,2241‑53(1999)。
[0229] 49.Osborne,C.S.等人,Active genes dynamically colocalize to shared sites of ongoing transcription(活性基因动态共定位至前进的转录的共享位点)
.Nat.Genet.36,1065‑71(2004)。
[0230] 50.Peric‑Hupkes,D.等人,Molecular Maps of the Reorganization of Genome‑Nuclear Lamina Interactions during Differentiation(在分化期间,基因组‑
核薄层相互作用的重组的分子图).Mol.Cell38,603‑613(2010)。
[0231] 51.Branco,M.R.,Branco,T.,Ramirez,F.&Pombo,A.Changes in chromosome organization during PHA‑activation of resting human lymphocytes measured by 
cryo‑FISH(在通过低温FISH测量的静止人淋巴细胞的PHA‑活化期间,染色体组织的变化)
.Chromosome Res.16,413‑26(2008)。
[0232] 52.Dey,S.S.,等人,Integrated genome and transcriptome sequencing from the same cell(来自相同细胞的整体基因组和转录组排序).Nat.Biotechnol.33,285‑289
(2015)。
[0233] 53.Binder,K.Applications of Monte Carlo methods to statistical physics(将Monte Carlo方法施用于统计物理).Reports Prog.Phys.60,487‑559(1999)。
[0234] 54.Northcott P A.等人,Enhancer hijacking activates GFI1 family oncogenes in medulloblastoma(在成神经管细胞瘤中,增强剂劫持活化GFI1家族肿瘤
学).Nature 511,428‑434(2014)。
[0235] 55.Lettice LA,等人,Enhancer‑adoption as a mechanism  of human developmental disease(采用增强剂作为人发育疾病的机理).Hum.Mutat.32,1492‑9
(2011)。
[0236] 56.Ing‑Simmons等人,Spatial enhancer clustering and regulation of enhancer‑proximal genes by cohesion(通过内聚,空间增强剂成簇和增强剂‑接近基因
的调整).Genome Res.25:504‑513(2015)。
[0237] 57.Smemo等人,2014Obesity‑associated variants within FTO form long‑range functional connections with lRX3(在与IRX3的FTO形式长范围官能连接内,肥
胖‑关联的变体).Nature 507,371。
[0238] 58.Williamson,I.等人,2014.Spatial genome organization:contrasting views from chromosome conformation capture and fluorescence in situ 
hybridization(空间基因组组织:来自染色体构型捕获和荧光性原位杂化的对比图)
.Genes Dev.28,2778‑2791。
[0239] 59.Oeffinger M,et al,2007Comprehensive analysis  of diverse ribonucleoprotein complexes(多种多样的核糖核蛋白复合物的综合分析).Nat 
Methods.4,951‑6;
[0240] 60.Hakhverdyan等人,2015.Rapid,optimized interactomic screening(快速、经优化的相互作用组筛分).Nature Methods 12,553。
[0241] 61.Pauciullo A,等人,2014Development of a sequential multicolor‑FISH approach with 13chromosome‑specific painting probes for the rapid 
identification of river buffalo(使用13种染色体‑特异性涂抹探头开发连续多色‑
FISH方法,用于快速鉴定river buffalo)(Bubalus bubalis,2n=50)chromosomes.J Appl 
Genet.55(3):397‑401.doi:10.1007/s13353‑014‑0207‑z。
[0242] 62.Leshner M,等人,Locus‑specific gene repositioning in prostate cancer(在前列腺癌中,轨迹‑特异性基因再定位).Mol Biol Cell.2015.pii:mbc.E15‑05‑
0280.[Epub ahead of print]
[0243] 63.Meaburn KJ,等人,2009Disease‑specific gene repositioning in breast cancer(在乳腺癌中,疾病‑特异性基因再定位).J Cell Biol.;187(6):801‑12.doi:
10.1083/jcb.200909127。
[0244] 64.Barutcu AR,等人,2015.Chromatin interaction analysis reveals changes in small chromosome and telomere clustering between epithelial and 
breast cancer cells(染色质相互作用分析揭示小的染色体变化和在上皮和乳腺癌细胞
之间端粒成簇).Genome Biol.16(1):214.doi:10.1186/s13059‑015‑0768‑0)。
[0245] 65.Yue,F.等人,A comparative encyclopedia of DNA elements in the mouse genome(在小鼠基因组中DNA要素的比较百科全书).Nature515,355‑364(2014)。