用于RNA定向的靶DNA修饰和用于RNA定向的转录调节的方法和组合物转让专利

申请号 : CN201380038920.6

文献号 : CN104854241B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : J·A·多德纳M·金内克K·凯林斯基埃玛纽埃尔·沙尔庞捷J·H·多德纳凯特W·利姆亓磊

申请人 : 埃玛纽埃尔·沙尔庞捷加利福尼亚大学董事会维也纳大学

摘要 :

本公开提供包含靶向序列的靶向DNA的RNA,以及修饰多肽,提供靶DNA和/或与所述靶DNA相关的多肽的位点特异性修饰。本公开进一步提供位点特异性修饰多肽。本公开进一步提供位点特异性修饰靶DNA和/或与所述靶DNA相关的多肽的方法。本公开提供调节靶细胞中的靶核酸转录的方法,所述方法总体上涉及使所述靶核酸与酶失活的Cas9多肽和靶向DNA的RNA接触。还提供执行所述方法的试剂盒和组合物。本公开提供产生Cas9的遗传修饰的细胞;和Cas9转基因非人多细胞生物。

权利要求 :

1.一种修饰靶DNA的方法,所述方法包括使所述靶DNA与复合物接触,所述复合物包含:(a) Cas9多肽,以及

(b) 单分子靶向DNA的RNA,其包含:

(i) DNA靶向区段,其包含与所述靶DNA中的序列互补的核苷酸序列;和(ii) 蛋白质结合区段,其与所述Cas9多肽相互作用,其中所述蛋白质结合区段包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述dsRNA双链体包含tracrRNA和CRISPR RNA(crRNA)的互补核苷酸,其中所述两个互补核苷酸段是通过插入核苷酸共价连接,其中所述接触为体外的或在离体细胞内;以及

其中所述修饰为裂解所述靶DNA。

2.如权利要求1所述的方法,其中所述dsRNA双链体的长度为8个碱基对(bp)至30 bp。

3.如权利要求1所述的方法,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

4.如权利要求2所述的方法,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

5.如权利要求1-4中任一项所述的方法,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

6.如权利要求1-4中任一项所述的方法,其中所述靶DNA为染色体DNA。

7.如权利要求1-4中任一项所述的方法,其中所述接触包括将以下引入细胞:(a) 所述Cas9多肽或编码所述Cas9多肽的多核苷酸,和(b) 所述靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸。

8.如权利要求5所述的方法,其中所述接触包括将以下引入细胞:(a) 所述Cas9多肽或编码所述Cas9多肽的多核苷酸,和(b) 所述靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸。

9.如权利要求6所述的方法,其中所述接触包括将以下引入细胞:(a) 所述Cas9多肽或编码所述Cas9多肽的多核苷酸,和(b) 所述靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸。

10.如权利要求7所述的方法,其中所述方法还包括将供体多核苷酸引入到所述细胞中。

11.如权利要求8所述的方法,其中所述方法还包括将供体多核苷酸引入到所述细胞中。

12.如权利要求9所述的方法,其中所述方法还包括将供体多核苷酸引入到所述细胞中。

13.如权利要求1-4和8-12中任一项所述的方法,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

14.如权利要求5所述的方法,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

15.如权利要求6所述的方法,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

16.如权利要求7所述的方法,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

17.如权利要求1-4和8-12中任一项所述的方法,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

18.如权利要求5所述的方法,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

19.如权利要求6所述的方法,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

20.如权利要求7所述的方法,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

21.一种组合物,其包含:

(a) Cas9多肽,或编码所述Cas9多肽的多核苷酸,以及

(b) 单分子靶向DNA的RNA,或编码所述单分子靶向DNA的RNA的DNA多核苷酸,其中所述单分子靶向DNA的RNA包含:(i) DNA靶向区段,其包含与靶DNA中的序列互补的核苷酸序列;和(ii) 蛋白质结合区段,其与所述Cas9多肽相互作用,其中所述蛋白质结合区段包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述dsRNA双链体包含tracrRNA和CRISPR RNA (crRNA)的互补核苷酸,和其中所述两个互补核苷酸段是通过插入核苷酸共价连接。

22.如权利要求21所述的组合物,其中所述dsRNA双链体的长度为8个碱基对(bp)至30 bp。

23.如权利要求21所述的组合物,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

24.如权利要求22所述的组合物,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

25.如权利要求21-24中任一项所述的组合物,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

26.如权利要求21-24中任一项所述的组合物,其中所述靶DNA为染色体DNA。

27.如权利要求21-24中任一项所述的组合物,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

28.如权利要求25所述的组合物,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

29.如权利要求26所述的组合物,其中将蛋白质转导结构域共价连接至所述Cas9多肽的氨基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

30.如权利要求21-24中任一项所述的组合物,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

31.如权利要求25所述的组合物,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

32.如权利要求26所述的组合物,其中将蛋白质转导结构域连接至所述Cas9多肽的羧基末端,其中所述蛋白质转导结构域促进所述Cas9多肽从胞质横穿到细胞的细胞器中。

33.如权利要求21-24中任一项所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

34.如权利要求25所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

35.如权利要求26所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

36.如权利要求27所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

37.如权利要求28-29和31-32中任一项所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

38.如权利要求30所述的组合物,其中所述Cas9多肽和所述单分子靶向DNA的RNA为在体外细胞或离体细胞内。

39.一种单分子靶向DNA的RNA,或一种编码所述单分子靶向DNA的RNA的DNA多核苷酸,其中所述单分子靶向DNA的RNA包含:(a) DNA靶向区段,其包含与靶DNA中的靶序列互补的核苷酸序列,和(b) 蛋白质结合区段,其与所述Cas9多肽相互作用,其中所述蛋白质结合区段包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述dsRNA双链体包含tracrRNA和CRISPR RNA (crRNA)的互补核苷酸,并且其中所述两个互补核苷酸段是通过插入核苷酸共价连接。

40.如权利要求39所述的单分子靶向DNA的RNA,其中所述dsRNA双链体的长度为8个碱基对(bp)至30 bp。

41.如权利要求39所述的单分子靶向DNA的RNA,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

42.如权利要求40所述的单分子靶向DNA的RNA,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

43.如权利要求39-42中任一项所述的单分子靶向DNA的RNA,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

44.如权利要求39-42中任一项所述的单分子靶向DNA的RNA,其中所述靶DNA为染色体DNA。

45.一种或多种核酸,其包含:

(a) 第一核苷酸序列,其编码单分子靶向DNA的RNA,所述单分子靶向DNA的RNA包含:(i) DNA靶向区段,其包含与靶DNA中的靶序列互补的核苷酸序列,和(ii) 蛋白质结合区段,其与所述Cas9多肽相互作用,其中所述蛋白质结合区段包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述dsRNA双链体包含tracrRNA和CRISPR RNA (crRNA)的互补核苷酸,并且其中所述两个互补核苷酸段是通过插入核苷酸共价连接;

其中所述编码所述靶向DNA的RNA的第一核苷酸序列被可操作地连接至启动子;以及,任选地,(b) 第二核苷酸序列,其编码Cas9多核苷酸,其中所述编码所述Cas9多肽的核苷酸序列被可操作地连接至启动子。

46.如权利要求45所述的一种或多种核酸,其中所述核酸为一种或多种重组表达载体。

47.如权利要求45所述的一种或多种核酸,其中所述dsRNA双链体的长度为8个碱基对(bp)至30 bp。

48.如权利要求46所述的一种或多种核酸,其中所述dsRNA双链体的长度为8个碱基对(bp)至30 bp。

49.如权利要求45-48中任一项所述的一种或多种核酸,其中所述蛋白质结合区段的杂交以形成dsRNA双链体的核苷酸之间的互补百分比为70%以上。

50.如权利要求45-48中任一项所述的一种或多种核酸,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

51.如权利要求49所述的一种或多种核酸,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

52.如权利要求45-48中任一项所述的一种或多种核酸,其中所述靶DNA为染色体DNA。

53.如权利要求49所述的一种或多种核酸,其中所述靶DNA为染色体DNA。

54.一种试剂盒,其包含:

(a) Cas9多肽,或包含编码所述Cas9多肽的核苷酸序列的核酸,以及(b) 单分子靶向DNA的RNA,或包含编码所述单分子靶向DNA的RNA的核苷酸序列的核酸,其中所述单分子靶向DNA的RNA包含:(i) DNA靶向区段,其包含与靶DNA中的序列互补的核苷酸序列;和(ii) 蛋白质结合区段,其与所述Cas9多肽相互作用,其中所述蛋白质结合区段包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述dsRNA双链体包含tracrRNA和CRISPR RNA (crRNA)的互补核苷酸,和其中所述两个互补核苷酸段是通过插入核苷酸共价连接,并且其中(a)和(b)是在相同的或单独的容器中。

55.如权利要求54所述的试剂盒,其中所述靶DNA存在于细菌细胞、古细菌细胞、单细胞真核生物、植物细胞、无脊椎动物细胞或脊椎动物细胞中。

56.如权利要求54所述的试剂盒,其中所述靶DNA为染色体DNA。

57.如权利要求21-38中任一项所述的组合物,或如权利要求39-44中任一项所述的单分子靶向DNA的RNA,或如权利要求45-53中任一项所述的一种或多种核酸,用于制备治疗疾病的药剂的用途。

说明书 :

用于RNA定向的靶DNA修饰和用于RNA定向的转录调节的方法

和组合物

[0001] 交叉引用
[0002] 本申请要求2012年5月25日提交的美国临时专利申请号61/652,086、2012年10月19日提交的美国临时专利申请号61/716,256、2013年1月28日提交的美国临时专利申请号
61/757,640以及2013年2月15日提交的美国临时专利申请号61/765,576的权益,所述申请各自均以引用的方式整体并入本文。
[0003] 关于联邦资助的研究的声明
[0004] 本发明根据国家卫生研究所授予的授权号GM081879下的政府资助产生。政府对本发明具有一定权利。
[0005] 以引用的方式并入呈文本文件提供的序列表
[0006] 特此提供呈2013年3月13日创建的文本文件“BERK-187WO-SeqList_ST25.txt”的序列表并且其具有7645KB的大小。文本文件的内容以引用的方式整体并入本文。
[0007] 背景
[0008] 大约60%的细菌和90%的古细菌具有CRISPR(成簇规律间隔的短回文重复序列)/CRISPR相关的(Cas)体系系统以赋予对外来DNA元件的抗性。来自酿脓链球菌(Streptococcus pyogenes)的II型CRISPR系统仅涉及编码Cas9蛋白的单个基因和两个RNA(成熟CRISPR RNA(crRNA)和部分互补的反式作用RNA(tracrRNA)),所述单个基因和两个RNA为RNA引导沉默外来DNA所必要和充分的。
[0009] 近年来,被设计靶向特异性DNA序列的工程化的核酸酶作为用于遗传操纵细胞和整个生物、允许靶向的基因缺失、替换和修复以及将外源序列(转基因)插入到基因组中的有力工具而吸引了相当多的注意。已出现用于工程化位点特异性DNA核酸酶的两大技术,所述两大技术均基于构建嵌合的核酸内切酶,其中序列非特异性DNA核酸内切酶结构域融合至工程化的DNA结合结构域。然而,靶向每个新基因组基因座需要设计新型核酸酶,从而使得这些方法既耗时又昂贵。另外,这两种技术均遭受有限的精确度,这可导致不可预测的脱靶效应。
[0010] 基因组的系统询问和细胞的遗传重新编程涉及靶向用于表达或阻抑的基因集合。目前,用于靶向调节用的任意基因的最常见方法为使用RNA干扰(RNAi)。此方法具有局限性。例如,RNAi可表现出显著的脱靶效应和毒性。
[0011] 在本领域中存在对允许以不需要设计用于每个新靶序列的新蛋白质的方式将核酸酶活性(或其它蛋白质活性)精确靶向至靶DNA内的相异位置的技术的需要。另外,本领域中存在对控制具有极小脱靶效应的基因表达的方法的需要。
[0012] 概述
[0013] 本公开提供包含靶向序列的靶向DNA的RNA,以及修饰多肽,提供靶DNA和/或与靶DNA相关的多肽的位点特异性修饰。本公开进一步提供位点特异性修饰多肽。本公开进一步提供位点特异性修饰靶DNA和/或与靶DNA相关的多肽的方法。本公开提供调节靶细胞中的靶核酸转录的方法,所述方法总体上涉及使靶核酸与酶失活的Cas9多肽和靶向DNA的RNA接触。还提供执行方法的试剂盒和组合物。本公开提供产生Cas9的遗传修饰的细胞;和Cas9转基因非人多细胞生物。
[0014] 特征
[0015] 本公开的特征包括靶向DNA的RNA,其包含:(i)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(ii)第二区段,其与定点修饰多肽相互作用。在一些情况下,第一区段包含8个与靶DNA中的序列具有100%互补性的核苷酸。在一些情况下,第二区段包含在一段至少8个连续核苷酸(stretch)上与SEQ ID NO:431-682(例如,431-562)中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,第二区段包含在一段至少8个连续核苷酸上与SEQ ID NO:563-682中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。
[0016] 本公开的特征包括DNA多核苷酸,其包含编码靶向DNA的RNA的核苷酸序列。在一些情况下,重组表达载体包含DNA多核苷酸。在一些情况下,编码靶向DNA的RNA的核苷酸序列可操作地连接至启动子。在一些情况下,启动子为诱导型启动子。在一些情况下,编码靶向DNA的RNA的核苷酸序列还包含多克隆位点。本公开的特征包括体外遗传修饰的宿主细胞,其包含DNA多核苷酸。
[0017] 本公开的特征包括重组表达载体,其包含:(i)编码靶向DNA的RNA的核苷酸序列,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的核苷酸序列,所述定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0018] 本公开的特征包括重组表达载体,其包含:(i)编码靶向DNA的RNA的核苷酸序列,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的核苷酸序列,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0019] 本公开的特征包括变体定点修饰多肽,其包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)表现出减小的定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些情况下,变体定点修饰多肽包含酿脓链球菌序列SEQ ID NO:8的H840A突变或如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应突变。在一些情况下,变体定点修饰多肽包含酿脓链球菌序列SEQ ID NO:8的D10A突变或如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应突变。在一些情况下,变体定点修饰多肽包含(i)酿脓链球菌序列SEQ ID NO:8的D10A突变或如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应突变;以及(ii)酿脓链球菌序列SEQ ID NO:8的H840A突变或如SEQ ID NO:1-256和
795-1346所列出的任何氨基酸序列中的对应突变。
[0020] 本公开的特征包括嵌合定点修饰多肽,其包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些情况下,嵌合定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,靶向DNA的RNA还包含在一段至少8个连续核苷酸上与SEQ ID NO:431-682(例如,SEQ ID NO:563-682)中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,靶向DNA的RNA还包含在一段至少8个连续核苷酸上与SEQ ID NO:431-562中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,嵌合定点修饰多肽的酶活性修饰靶DNA。在一些情况下,嵌合定点修饰多肽的酶活性为核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性。在一些情况下,嵌合定点修饰多肽的酶活性为核酸酶活性。在一些情况下,核酸酶活性在靶DNA中引入双链断裂。在一些情况下,嵌合定点修饰多肽的酶活性修饰与靶DNA相关的靶多肽。在一些情况下,嵌合定点修饰多肽的酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性。
[0021] 本公开的特征包括多核苷酸,其包含编码嵌合定点修饰多肽的核苷酸序列。在一些情况下,多核苷酸为RNA多核苷酸。在一些情况下,多核苷酸为DNA多核苷酸。本公开的特征包括重组表达载体,其包含多核苷酸。在一些情况下,多核苷酸可操作地连接至启动子。在一些情况下,启动子为诱导型启动子。本公开的特征包括体外遗传修饰的宿主细胞,其包含多核苷酸。
[0022] 本公开的特征包括嵌合定点修饰多肽,其包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。在一些情况下,活性部分增加了靶DNA内的转录。在一些情况下,活性部分减少了靶DNA内的转录。
[0023] 本公开的特征包括包含重组定点修饰多肽的遗传修饰的细胞,所述重组定点修饰多肽包含:与靶向DNA的RNA相互作用的RNA结合部分;以及表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,细胞选自由以下组成的组:古细菌细胞(archaeal cell)、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、鸟细胞、哺乳动物细胞、猪细胞、母牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞以及人细胞。
[0024] 本公开的特征包括其基因组包含转基因的转基因非人生物,所述转基因包含编码重组定点修饰多肽的核苷酸序列,所述重组定点修饰多肽包含:(i)与靶向DNA的RNA相互作用的RNA结合部分;以及(ii)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,生物选自由以下组成的组:古细菌、细菌、真核单细胞生物、藻类、植物、动物、无脊椎动物、苍蝇、蠕虫、刺胞动物、脊椎动物、鱼、蛙、鸟、哺乳动物、有蹄动物、啮齿动物、大鼠、小鼠以及非人灵长类动物。
[0025] 本公开的特征包括组合物,其包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些情况下,靶向DNA的RNA的第一区段包含8个与靶DNA中的序列具有至少100%互补性的核苷酸。在一些情况下,靶向DNA的RNA的第二区段包含在一段至少8个连续核苷酸上与SEQ ID NO:431-682(例如,SEQ ID NO:563-682)中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,靶向DNA的RNA的第二区段包含在一段至少8个连续核苷酸上与SEQ ID NO:431-562中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-
1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,酶活性修饰靶DNA。在一些情况下,酶活性为核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性。在一些情况下,酶活性为核酸酶活性。在一些情况下,核酸酶活性在靶DNA中引入双链断裂。在一些情况下,酶活性修饰与靶DNA相关的靶多肽。在一些情况下,酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性。在一些情况下,靶多肽为组蛋白并且酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性或去泛素活性。在一些情况下,靶向DNA的RNA为双分子靶向DNA的RNA并且组合物包含靶向物-RNA和激活物-RNA,所述激活物-RNA的双链体形成区段为互补的并且杂交以形成靶向DNA的RNA的第二区段。在一些情况下,激活物-RNA的双链体形成区段包含在一段至少8个连续核苷酸上与SEQ ID NO:431-682中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。
[0026] 本公开的特征包括组合物,其包含:(i)本公开的靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸;以及(ii)用于使核酸稳定的缓冲液。本公开的特征包括组合物,其包含:(i)本公开的定点修饰多肽或编码所述定点修饰多肽的多核苷酸;以及(ii)用于使核酸和/或蛋白质稳定的缓冲液。本公开的特征包括组合物,其包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。在一些情况下,活性部分增加了靶DNA内的转录。在一些情况下,活性部分减少了靶DNA内的转录。本公开的特征包括组合物,其包含:(i)定点修饰多肽或编码所述定点修饰多肽的多核苷酸;以及(ii)用于使核酸和/或蛋白质稳定的缓冲液。
[0027] 本公开的特征包括位点特异性修饰靶DNA的方法,方法包括:使靶DNA与以下物质接触:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分。在一些情况下,靶DNA为染色体外的。在一些情况下,靶DNA包含为5’-CCY-3’的互补链的PAM序列,其中Y为任何DNA核苷酸并且Y紧挨着靶DNA的互补链的靶序列的5’端。在一些情况下,靶DNA为体外染色体的一部分。在一些情况下,靶DNA为体内染色体的一部分。在一些情况下,靶DNA为细胞中的染色体的一部分。在一些情况下,细胞选自由以下组成的组:
古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、鸟细胞、哺乳动物细胞、猪细胞、母牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞以及人细胞。在一些情况下,靶向DNA的RNA包含在一段至少8个连续核苷酸上与SEQ ID NO:431-682(例如,SEQ ID NO:563-682)中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,靶向DNA的RNA包含在一段至少8个连续核苷酸上与SEQ ID NO:431-562中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。在一些情况下,DNA修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,酶活性修饰靶DNA。在一些情况下,酶活性为核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性。在一些情况下,DNA修饰酶活性为核酸酶活性。在一些情况下,核酸酶活性在靶DNA中引入双链断裂。在一些情况下,接触在容许非同源末端连接或同源定向修复的条件下发生。在一些情况下,方法还包括使靶DNA与供体多核苷酸接触,其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,方法不包括使细胞与供体多核苷酸接触,其中修饰靶DNA使得靶DNA内的核苷酸缺失。在一些情况下,酶活性修饰与靶DNA相关的靶多肽。在一些情况下,酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性。在一些情况下,靶多肽为组蛋白并且酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性或去泛素活性。在一些情况下,复合物还包含激活物-RNA。
在一些情况下,激活物-RNA包含在一段至少8个连续核苷酸上与SEQ ID NO:431-682中列出的任一核苷酸序列具有至少60%同一性的核苷酸序列。
[0028] 本公开的特征包括调节靶DNA内的位点特异性转录的方法,方法包括:使靶DNA与以下物质接触:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节转录的活性部分,其中所述接触引起调节靶DNA内的转录。在一些情况下,靶DNA内的转录增加。在一些情况下,靶DNA内的转录减少。
[0029] 本公开的特征包括在靶DNA上位点特异性修饰的方法,方法包括:使靶DNA与以下物质接触:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分。在一些情况下,定点修饰多肽增加了靶DNA内的转录。在一些情况下,定点修饰多肽减少了靶DNA内的转录。
[0030] 本公开的特征包括促进位点特异性裂解和修饰细胞中的靶DNA的方法,方法包括将以下物质引入到细胞中:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出在靶DNA中产生双链断裂的核酸酶活性的活性部分;其中双链断裂的位点通过靶向DNA的RNA来确定,接触在容许非同源末端连接或同源定向修复的条件下发生,并且使靶DNA裂解并重新连接以产生修饰的DNA序列。在一些情况下,方法还包括使靶DNA与供体多核苷酸接触,其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,方法不包括使细胞与供体多核苷酸接触,其中修饰靶DNA使得靶DNA内的核苷酸缺失。在一些情况下,细胞选自由以下组成的组:古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、鸟细胞、哺乳动物细胞、猪细胞、母牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞以及人细胞。在一些情况下,细胞为体外的。在一些情况下,细胞为体内的。
[0031] 本公开的特征包括在受试者体内产生遗传修饰的细胞的方法,方法包括:(I)将以下物质引入到细胞中:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出在靶DNA中产生双链断裂的核酸酶活性的活性部分;其中双链断裂的位点通过靶向DNA的RNA来确定,接触在容许非同源末端连接或同源定向修复的条件下发生,并且使靶DNA裂解并重新连接以产生修饰的DNA序列;从而产生遗传修饰的细胞;以及(II)将遗传修饰的细胞移植到受试者中。在一些情况下,方法还包括使细胞与供体多核苷酸接触,其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,方法不包括使细胞与供体多核苷酸接触,其中修饰靶DNA使得靶DNA内的核苷酸缺失。在一些情况下,细胞选自由以下组成的组:古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、两栖动物细胞、鸟细胞、哺乳动物细胞、有蹄动物细胞、啮齿动物细胞、非人灵长类动物细胞以及人细胞。
[0032] 本公开的特征包括修饰遗传修饰的细胞中的靶DNA的方法,所述遗传修饰的细胞包含编码外源定点修饰多肽的核苷酸序列,方法包括将靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸引入到遗传修饰的细胞中,其中:(i)靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;并且(ii)定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出核酸酶活性的活性部分。在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%氨基酸序列同一性的氨基酸序列。在一些情况下,细胞选自由以下组成的组:古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、两栖动物细胞、鸟细胞、哺乳动物细胞、有蹄动物细胞、啮齿动物细胞、非人灵长类动物细胞以及人细胞。在一些情况下,细胞为体内的。在一些情况下,细胞为体外的。在一些情况下,定点修饰多肽的表达在诱导型启动子的控制之下。在一些情况下,定点修饰多肽的表达在细胞类型特异性的启动子的控制之下。
[0033] 本公开的特征包括试剂盒,其包含:靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸;以及用于复原和/或稀释的试剂。在一些情况下,试剂盒还包含选自由以下组成的组的试剂:用于将靶向DNA的RNA引入到细胞中的缓冲液、洗涤缓冲液、对照试剂、对照表达载体或RNA多核苷酸、用于从DNA转录靶向DNA的RNA的试剂以及其组合。
[0034] 本公开的特征包括试剂盒,其包含:本公开的定点修饰多肽或编码所述定点修饰多肽的多核苷酸;以及用于复原和/或稀释的试剂。在一些情况下,试剂盒还包含选自由以下组成的组的试剂:用于将定点修饰多肽引入到细胞中的缓冲液、洗涤缓冲液、对照试剂、对照表达载体或RNA多核苷酸、用于从DNA体外产生定点修饰多肽的试剂以及其组合。
[0035] 本公开的特征包括试剂盒,其包含:本公开的定点修饰多肽或编码所述定点修饰多肽的多核苷酸;以及用于复原和/或稀释的试剂。本公开的特征包括试剂盒,其包含:靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0036] 本公开的特征包括试剂盒,其包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,所述靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,所述定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0037] 本公开的特征包括试剂盒,其包含:(i)上述任何重组表达载体;以及(ii)用于复原和/或稀释的试剂。本公开的特征包括试剂盒,其包含:(i)上述任何重组表达载体;以及(ii)包含编码定点修饰多肽的核苷酸序列的重组表达载体,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。本公开的特征包括试剂盒,其包含:(i)上述任何重组表达载体;以及(ii)包含编码定点修饰多肽的核苷酸序列的重组表达载体,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0038] 本公开的特征包括用于靶向靶DNA的试剂盒,所述试剂盒包含:两个或更多个靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,其中两个或更多个靶向DNA的RNA中的至少一个的第一区段与两个或更多个靶向DNA的RNA中的至少另一个的第一区段有至少一个核苷酸不同。
[0039] 附图简述
[0040] 图1A-图1B提供两个示例性本发明靶向DNA的RNA的示意图,每个靶向DNA的RNA均与定点修饰多肽相关并且与靶DNA相关。
[0041] 图2描绘通过使用Cas9/Csn1定点修饰多肽和靶向DNA的RNA引入的双链DNA断裂的靶DNA编辑。
[0042] 图3A-图3B描绘来自酿脓链球菌的Cas9/Csn1蛋白的氨基酸序列(SEQ ID NO:8)。Cas9具有与HNH和RuvC核酸内切酶同源的结构域。(A)以上划线示出基序1-4(B)以上划线示出结构域1和结构域2。
[0043] 图4A-图4B描绘来自多个物种的Cas9/Csn1蛋白之间的同一性百分比。(A)相对于酿脓链球菌的序列同一性。例如,结构域1为如在图3B中所描绘的来自酿脓链球菌的Cas9/Csn1的氨基酸7-166并且结构域2为所述来自酿脓链球菌的Cas9/Csn1的氨基酸731-1003。(B)相对于脑膜炎奈瑟氏菌(Neisseria meningitidis)的序列同一性。例如,结构域1为来自脑膜炎奈瑟氏菌(SEQ ID NO:79)的Cas9/Csn1的氨基酸13-139并且结构域2为所述来自脑膜炎奈瑟氏菌的Cas9/Csn1的氨基酸475-750。
[0044] 图5描绘来自各种不同物种的Cas9/Csn1蛋白的基序1-4的多序列比对,所述物种选自图32中的系统发生表(phylogenetic table)(参见图32、图3A和表1)(酿脓链球菌(SEQ ID NO:8)、嗜肺军团菌(Legionella pneumophila)(SEQ ID NO:17)、γ变形菌(Gamma proteobacterium)(SEQ ID NO:107)、无害李斯特氏菌(Listeria innocua)(SEQ ID NO:3)、加氏乳杆菌(Lactobacillus gasseri)(SEQ ID NO:152)、直肠真杆菌(Eubacterium rectale)(SEQ ID NO:99)、路邓葡萄球菌(Staphylococcus lugdunensis)(SEQ ID NO:
185)、关节液支原体(Mycoplasma synoviae)(SEQ ID NO:22)、运动支原体(Mycoplasma mobile)(SEQ ID NO:16)、产琥珀酸沃林氏菌(Wolinella succinogenes)(SEQ ID NO:10)、柱状黄杆菌(Flavobacterium columnare)(SEQ ID NO:235)、产琥珀酸丝状杆菌
(Fibrobacter succinogenes)(SEQ ID NO:121)、脆弱拟杆菌(Bacteroides fragilis)(SEQ ID NO:21)、解纤维热酸菌(Acidothermus cellulolyticus)(SEQ ID NO:42)以及齿双歧杆菌(Bifidobacterium dentium)(SEQ ID NO:131)。
[0045] 图6A-图6B提供来自各种物种的天然存在的tracrRNA(“激活物-RNA”)序列的比对(无害李斯特氏菌(L.innocua)(SEQ ID NO:268);酿脓链球菌(SEQ ID NO:267);变异链球菌(S.mutans)(SEQ ID NO:269);嗜热链球菌1(S.thermophilus1)(SEQ ID NO:270);运动支原体(M.mobile)(SEQ ID NO:274);脑膜炎奈瑟氏菌(N.meningitides)(SEQ ID NO:272);多杀巴氏杆菌(P.multocida)(SEQ ID NO:273);嗜热链球菌2(S.thermophilus2)(SEQ ID NO:271)以及酿脓链球菌(S.pyogenes)(SEQ ID NO:267)。(A)与具有类似构造和高度类似Cas9/Csn1序列的CRISPR/Cas基因座相关的选择的tracrRNA直向同源物的多序列比对(AlignX,VectorNTI package,Invitrogen)。黑框表示共有的核苷酸(B)与具有不同构造和非密切相关的Cas9/Csn1序列的CRISPR/Cas基因座相关的选择的tracrRNA直向同源物的多序列比对(AlignX,VectorNTI package,Invitrogen)。注释了脑膜炎奈瑟氏菌和多杀巴氏杆菌tracrRNA直向同源物的序列相似性。黑框表示共有的核苷酸。针对更多示例性激活物-RNA序列,参见SEQ ID NO:431-562。
[0046] 图7A-图7B提供来自各种物种的crRNA(“靶向物-RNA”)序列的天然存在的双链体形成区段的比对(无害李斯特氏菌(SEQ ID NO://);酿脓链球菌(SEQ ID NO://);变异链球菌(SEQ ID NO://);嗜热链球菌1(SEQ ID NO://);空肠弯曲菌(C.jejuni)(SEQ ID NO://);酿脓链球菌(SEQ ID NO://);新凶手弗朗西丝菌(F.novicida)(SEQ ID NO://);运动支原体(SEQ ID NO://);脑膜炎奈瑟氏菌(SEQ ID NO://);多杀巴氏杆菌(SEQ ID NO://)以及嗜热链球菌2(SEQ ID NO://)。(A)与具有类似构造和高度类似Cas9/Csn1序列的基因座相关的靶向物-RNA序列的示例性双链体形成区段的多序列比对(AlignX,VectorNTI package,Invitrogen)。(B)与具有不同构造和各异Cas9序列的基因座相关的靶向物-RNA序列的示例性双链体形成区段的多序列比对(AlignX,VectorNTI package,Invitrogen)。黑框表示共有的核苷酸。针对更多示例性双链体形成区段靶向物-RNA序列,参见SEQ ID NO:563-679。
[0047] 图8提供crRNA(“靶向物-RNA”)的天然存在的双链体形成区段与对应tracrRNA直向同源物(“激活物-RNA”)的双链体形成区段的杂交示意图。上面的序列,靶向物-RNA;下面的序列,对应激活物-RNA的双链体形成区段。CRISPR基因座属于II型(Nmeni/CASS4)CRISPR/Cas系统。命名法是根据CRISPR数据库(CRISPR DB)。酿脓链球菌(SEQ ID NO://和//);变异链球菌(SEQ ID NO://和//);嗜热链球菌1(SEQ ID NO://和//);嗜热链球菌2(SEQ ID NO://和//);无害李斯特氏菌(SEQ ID NO://和//);齿垢密螺旋体(T.denticola)(SEQ ID NO://和//);脑膜炎奈瑟氏菌(SEQ ID NO://和//);格氏链球菌(S.gordonii)(SEQ ID NO://和//);两歧双歧杆菌(B.bifidum)(SEQ ID NO://和//);唾液乳杆菌(L.salivarius)(SEQ ID NO://和//);土拉热弗朗西丝菌(F.tularensis)(SEQ ID NO://和//)以及嗜肺军团菌(L.pneumophila)(SEQ ID NO://和//)。注意一些物种含有各两种II型CRISPR基因座。针对更多示例性激活物-RNA序列,参见SEQ ID NO:431-562。针对更多示例性双链体形成区段靶向物-RNA序列,参见SEQ ID NO:563-679。
[0048] 图9描绘来自两个物种的实例tracrRNA(激活物-RNA)序列和crRNA(靶向物-RNA)序列。存在一定程度的可互换性;例如,酿脓链球菌Cas9/Csn1蛋白可与源自无害李斯特氏菌的tracrRNA和crRNA起作用。(|)指代典型的沃森-克里克碱基对,而(·)指代G-U摆动碱基对。“变量20nt”或“20nt”表示与靶DNA互补的DNA靶向区段(此区的长度可高达至约100nt)。还示出并入靶向物-RNA和激活物-RNA的特征的单分子靶向DNA的RNA的设计。(来自各种各样物种的Cas9/Csn1蛋白序列描绘于图3中并且如SEQ ID NO:1-256和795-1346所列出)酿脓链球菌:从上至下:(SEQ ID NO://、//、//);无害李斯特氏菌:从上至下:(SEQ ID NO://、//、//)。所提供的序列为非限制性实例并且意图说明可如何基于来自各种各样物种的天然存在的序列设计单分子靶向DNA的RNA和二分子靶向DNA的RNA。来自各种各样物种的适合序列的各种实例如下列出(Cas9蛋白:SEQ ID NO:1-259;tracrRNA:SEQ ID NO:431-
562或其互补序列;crRNA:SEQ ID NO:563-679或其互补序列;以及实例单分子靶向DNA-的RNA:SEQ ID NO:680-682)。
[0049] 图10A-图10E示出Cas9为通过两个RNA分子引导的DNA核酸内切酶。图E(从上至下,SEQ ID NO:278-280和//)。
[0050] 图11A-图11B展示Cas9使用两个核酸酶结构域来裂解靶DNA中的两条链。
[0051] 图12A-图12E说明靶DNA的Cas9催化的裂解需要tracrRNA中的激活结构域并且通过crRNA中的种子序列来管控。图12C(从上至下,SEQ ID NO:278-280和//);图12D(从上至下,SEQ ID NO:281-290);并且图12E(从上至下,SEQ ID NO:291-292、283、293-298)。
[0052] 图13A-图13C示出需要PAM来通过Cas9-tracrRNA:crRNA复合物许可靶DNA裂解。
[0053] 图14A-图14C说明可使用合并tracrRNA和crRNA特征的单个工程化RNA分子来编程Cas9。嵌合体A(SEQ ID NO:299);嵌合体B(SEQ ID NO:300)。
[0054] 图15描绘II型RNA介导的CRISPR/Cas免疫途径。
[0055] 图16A-图16B描绘Cas9核酸酶的纯化。
[0056] 图17A-图17C示出由二元tracrRNA:crRNA引导的Cas9裂解原型间隔区质粒和寡核苷酸DNA。图17B(从上至下,SEQ ID NO:301-303和//);并且图17C(从上至下,SEQ ID NO:304-306和//)。
[0057] 图18A-图18B示出Cas9为具有3’-5’核酸外切酶活性的Mg2+依赖型核酸内切酶。
[0058] 图19A-图19C说明二元tracrRNA:crRNA定向的Cas9裂解靶DNA为位点特异性的。图19C(从上至下,SEQ ID NO:307-309、//、337-339以及//)。
[0059] 图20A-图20B示出二元tracrRNA:crRNA定向的Cas9裂解靶DNA为快速有效的。
[0060] 图21A-图21B示出Cas9的HNH和RuvC样结构域分别定向互补和非互补DNA链的裂解。
[0061] 图22展示需要tracrRNA用于靶DNA识别。
[0062] 图23A-图23B示出tracrRNA的极小区域能够引导二元tracrRNA:crRNA定向的靶DNA裂解。
[0063] 图24A-图24D展示通过Cas9进行的二元tracrRNA:crRNA引导的靶DNA裂解可为物种特异性的。
[0064] 图25A-图25C示出crRNA中的种子序列管控通过Cas9进行的二元tracrRNA:crRNA引导的靶DNA裂解。图25A:靶DNA探针1(SEQ ID NO:310);间隔区4crRNA(1-42)(SEQ ID NO:311);tracrRNA(15-89)(SEQ ID NO://)。图25B左图(SEQ ID NO:310)。
[0065] 图26A-图26C展示PAM序列为通过Cas9-tracrRNA:crRNA进行的原型间隔区质粒DNA裂解和细菌细胞中的Cas9介导的质粒DNA干扰所必不可少的。图26B(从上至下,SEQ ID NO:312-314);并且图26C(从上至下,SEQ ID NO:315-320)。
[0066] 图27A-图27C示出通过单个嵌合RNA模拟二元tracrRNA:crRN A引导的Cas9裂解原型间隔区DNA。图27C(从上至下,SEQ ID NO:321-324)。
[0067] 图28A-图28D描绘靶向绿色荧光蛋白(GFP)基因序列的嵌合RN A的从头设计。图28B(从上至下,SEQ ID NO:325-326)。图28C:GFP1靶序列(SEQ ID NO:327);GFP2靶序列(SEQ ID NO:328);G FP3靶序列(SEQ ID NO:329);GFP4靶序列(SEQ ID NO:330);GF P5靶序列(SEQ ID NO:331);GFP1嵌合RNA(SEQ ID NO:332);G FP2嵌合RNA(SEQ ID NO:333);
GFP3嵌合RNA(SEQ ID NO:334);GFP4嵌合RNA(SEQ ID NO:335);GFP5嵌合RNA(SEQ ID NO:
336)。
[0068] 图29A-图29E展示Cas9和导向RNA在人细胞中的共表达使在靶基因座处产生双链DNA断裂。图29C(从上至下,SEQ ID NO:425-428)。
[0069] 图30A-图30B展示细胞溶解产物含有活性Cas9:sgRNA并且支持位点特异性DNA裂解。
[0070] 图31A-图31B展示sgRNA构建体的3’延长增强了位点特异性NHEJ介导的诱变。图31A(从上至下,SEQ ID NO:428-430)。
[0071] 图32A-图32B描绘来自各种生物的代表性Cas9序列的系统发生树(A)以及针对树的主要组的Cas9基因座构造(B)。
[0072] 图33A-图33E描绘来自选择的细菌物种的II型CRISPR-Cas的构造。
[0073] 图34A-图34B描绘在选择的II型CRISPR Cas系统中共同加工的tracrRNA和pre-crRNA。图34A(从上至下,SEQ ID NO://、//、//、//、//、//、//、//);图34B(从上至下,SEQ ID NO://、//、//、//)。
[0074] 图35描绘展示出tracrRNA序列多样性的tracrRNA直向同源物的序列比对。
[0075] 图36A-图36F描绘通过深度RNA测序显现出的细菌tracrRNA直向同源物和crRNA的表达。
[0076] 图37A-图37O列出通过对所研究的细菌物种测序检出的所有tracrRNA直向同源物和成熟crRNA,包括坐标(感兴趣的区域)和对应的cDNA序列(5'至3')。
[0077] 图38A-图38B呈现含有特征在于存在标记基因cas9的II型CRISPR-Cas基因座的细菌物种的表格。这些序列用于系统发生分析。
[0078] 图39A-图39B描绘CRISPR干扰(CRISPRi)系统的设计。
[0079] 图40A-图40E展示CRISPRi有效地使转录延长和起始沉默。
[0080] 图41A-图41B展示CRISPRi通过阻断转录延长来起作用。
[0081] 图42A-图42C展示CRISPRi系统的靶向特异性。
[0082] 图43A-图43F描绘影响沉默效率的因子的表征。
[0083] 图44A-图44C描绘使用CRISPRi基因敲低的复合物调节网络的功能特征(functional profiling)。
[0084] 图45A-图45B展示在哺乳动物细胞中使用CRISPRi的基因沉默。
[0085] 图46描绘来自酿脓链球菌的II型CRISPR系统的机制。
[0086] 图47A-图47B描绘用dCas9和sgRNA共转化的大肠杆菌(E.coli)细胞培养物的生长曲线。
[0087] 图48示出CRISPRi可使多拷贝质粒上的报道基因的表达沉默。
[0088] 图49A-图49C描绘具有靶向不同基因的sgRNA的细胞的RNA-seq数据。
[0089] 图50A-图50E描绘具有相邻双错配的sgRNA的沉默作用。
[0090] 图51A-图51C描绘使用两个sgRNA来调节单个基因的组合沉默作用。
[0091] 图52示出sgRNA阻抑取决于靶基因座和离转录起始的相对距离。
[0092] 图53A-图53C描绘展示出当dCas9仅在RuvC1结构域(例如,D10A)、仅在HNH结构域(例如,H840A)或这两个结构域(例如,D10A和H840A)中具有减小的活性时变体Cas9定点多肽(dCas9)为本发明方法的工作的实验结果。
[0093] 图54A-图54C列出用于本发明变体Cas9定点多肽的适合的融合配偶体(或其片段)的实例。实例包括但不限于所列出的那些。
[0094] 图55A-图55D展示嵌合定点多肽可用来激活(增加)人细胞中的转录。
[0095] 图56展示嵌合定点多肽可用来阻抑(减少)人细胞中的转录。
[0096] 图57A-图57B展示与天然存在的tracrRNA和crRNA共有粗略地50%同一性的人工序列可与Cas9起作用以裂解靶DNA,只要靶向DNA的RNA的蛋白质结合结构域的结构为保守的。
[0097] 定义–第I部分
[0098] 本文可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体、或包含嘌呤碱基和嘧啶碱基或其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。“寡核苷酸”通常是指单链或双链DNA的约5与约100个核苷酸之间的多核苷酸。然而,出于本公开的目的,寡核苷酸的长度不存在上限。寡核苷酸又称为“低聚物”或“寡聚物”并且可从基因中分离或通过本领域中已知的方法化学合成。术语“多核苷酸”和“核酸”应该理解为包括如可适用于所描述的实施方案的单链(如有义或反义)和双链多核苷酸。
[0099] “茎-环结构”是指具有二级结构的核酸,所述茎-环结构包括已知或预测形成通过主要地单链核苷酸(环部分)的区连接在一侧上的双链(茎部分)的核苷酸的区。还在本文中使用了术语“发夹”和“折叠”结构来指茎-环结构。此类结构为本领域中熟知的并且与其在本领域中的已知意思一致地使用这些术语。如本领域所知,茎-环结构不需要精确的碱基配对。因此,茎可包括一个或多个碱基错配。或者,碱基配对可为精确的,即不包括任何错配。
[0100] “可杂交的”或“互补的”或“大致上互补的”意指核酸(例如RNA)包含能使其在适当的温度和溶液离子强度的体外和/或体内条件下以序列特异性、反平行的方式(即,核酸特异性结合互补核酸)非共价结合(即形成沃森-克里克碱基对和/或G/U碱基对)、“退火”或“杂交”另一个核酸的核苷酸序列。如本领域所知,标准沃森-克里克碱基配对包括:腺嘌呤(A)与胸腺嘧啶(T)配对、腺嘌呤(A)与尿嘧啶(U)配对以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA、RNA]。另外,本领域中还已知对于两个RNA分子(例如,dsRNA)之间的杂交,鸟嘌呤(G)碱基与尿嘧啶(U)配对。例如,G/U碱基配对为tRNA抗密码子碱基配对mRNA中的密码子的背景下的遗传密码简并(即,冗余)的部分原因。在本公开的背景下,本发明靶向DNA的RNA分子的蛋白结合区段(dsRNA双链体)的鸟嘌呤(G)被认为与尿嘧啶(U)互补,并且反之亦然。因此,当可在本发明靶向DNA的RNA分子的蛋白结合区段(dsRNA双链体)的给定核苷酸位置上形成G/U碱基对时,不认为所述位置为非互补的,而是认为互补的。
[0101] 杂交和洗涤条件为熟知的并且在以下所举例说明:Sambrook,J.、Fritsch,E.F.和Maniatis,T.Molecular Cloning:A Laboratory Manual,第二版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor(1989),具体为第11章和其中的表11.1;以及Sambrook,J.和Russell,W.,Molecular Cloning:A Laboratory Manual,第三版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor(2001)。温度和离子强度的条件决定杂交的“严格性”。
[0102] 杂交要求两个核酸含有互补序列,虽然碱基之间有可能存在错配。适用于两个核酸之间的杂交的条件取决于核酸的长度和互补的程度、本领域中熟知的变量。两个核苷酸序列之间的互补程度越大,对于具有那些序列的核酸的杂交体的解链温度(Tm)的值越大。对于具有短段互补性(例如,在35或更少、30或更少、25或更少、22或更少、20或更少或18或更少个核苷酸上的互补性)的核酸之间的杂交,错配的位置变得重要(参见Sambrook等,同上,11.7-11.8)。通常,可杂交核酸的长度为至少约10个核苷酸。可杂交核酸的说明性最小长度为:至少约15个核苷酸;至少约20个核苷酸;至少约22个核苷酸;至少约25个核苷酸;以及至少约30个核苷酸)。此外,熟练技术人员将认识到温度和洗涤溶液盐浓度可根据如互补区的长度和互补程度等因素所需要来调整。
[0103] 本领域中应该理解,多核苷酸的序列不需要与其可特异性杂交或可杂交的靶核酸的序列100%互补。此外,多核苷酸可在一个或多个区段上杂交以使得中间区段或相邻区段不涉及杂交事件(例如,环结构或发夹结构)。多核苷酸可包含与其靶向的靶核酸序列内的靶区域至少70%、至少80%、至少90%、至少95%、至少99%或100%序列互补性。例如,其中反义化合物的20个核苷酸中的18个与靶区域互补并且因此将特异性杂交的反义核酸将表示90%互补性。在此实例中,剩下的非互补核苷酸可与互补核苷酸集群或穿插在互补核苷酸中并且不需要彼此邻接或与互补核苷酸邻接。核酸内的核酸序列的具体段之间的互补百分比常规可使用本领域中已知的BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等,J.Mol.Biol.,1990,215,403-410;Zhang和Madden,Genome Res.,1997,7,649-656)或通过使用Gap程序(Wisconsin序列分析包,Unix第8版本,Genetics Computer Group,University Research Park,Madison Wis.)、使用默认设置(其使用Smith和Waterman的算法)(Adv.Appl.Math.,1981,2,482-489)来确定。
[0104] 术语“肽”、“多肽”和“蛋白质”在本文中可互换使用并且是指任何长度的氨基酸的聚合形式,其可包括编码和非编码氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。
[0105] 如本文所使用的“结合”(例如,关于多肽的RNA结合结构域)是指大分子之间(例如,蛋白质与核酸之间)的非共价相互作用。当在非共价相互作用的状态下,大分子被称作“缔合”或“相互作用”或“结合”(例如,当分子X被称作与分子Y相互作用时,意指分子X以非共价方式结合分子Y)。不是所有的结合相互作用组分都需要为序列特异性的(例如,与DNA骨架中的磷酸酯残基接触),但结合相互作用的一些部分可为序列特异性的。结合相互作用通常特征在于解离常数(Kd)小于10-6M、小于10-7M、小于10-8M、小于10-9M、小于10-10M、小于10-11M、小于10-12M、小于10-13M、小于10-14M或小于10-15M。“亲和力”是指结合的强度,增加的结合亲和力与较低的Kd相关。
[0106] “结合结构域”意指能够非共价结合另一分子的蛋白质结构域。结合结构域可结合例如DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)。就蛋白质结构域结合蛋白来说,它可结合其自身(以形成同源二聚体、同源三聚体等)和/或它可结合一种或多种不同蛋白质的分子。
[0107] 术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;具有酸性侧链的一组氨基酸由谷氨酸酯和天冬氨酸酯组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团为:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸以及天冬酰胺-谷氨酰胺。
[0108] 多核苷酸或多肽与另一多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时在相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性,可使用在包括ncbi.nlm.nili.gov/BL AST、ebi.ac.uk/Tools/msa/tcoffee/、ebi.ac.uk/Tools/msa/muscle/、mafft.cbrc.jp/alignment/software/的万维网网址上可获得的各种方法和计算机程序(例如,BLAST、T-COFFEE、MUSCLE、MAFFT等)来比对序列。参见,例如Altschul等(1990),J.Mol.Bioi.215:403-10。
[0109] “编码”具体RNA的DNA序列为转录成RNA的DNA核酸序列。DNA多核苷酸可编码翻译成蛋白质的RNA(mRNA),或DNA多核苷酸可编码不翻译成蛋白质的RNA(例如tRNA、rRNA或靶向DNA的RNA;又称为“非编码”RNA或“ncRNA”)。
[0110] “蛋白质编码序列”或编码具体蛋白质或多肽的序列为当置于适当调节序列的控制下时转录成mRNA(在DNA的情况下)并且在体外或体内翻译(在mRNA的情况下)成多肽的核酸序列。编码序列的边界通过在5'末端(N-末端)上的起始密码子和在3'末端(C-末端)上的翻译终止无义密码子来确定。编码序列可包括但不限于来自原核生物或真核生物mRNA的cDNA、来自原核生物或真核生物DNA的基因组DNA序列以及合成核酸。转录终止序列将通常位于编码序列的3'端。
[0111] 如本文所使用,“启动子序列”为能够结合RNA聚合酶并且启动下游(3'方向)编码或非编码序列的转录的DNA调节区。出于限定本发明的目的,启动子序列在其3'末端上通过转录起始位点结合并且向上游(5'方向)延伸以包括启动高于背景的可检测水平转录所需要的最小数目的碱基或元件。在启动子序列内将发现转录起始位点以及蛋白质结合结构域为造成RNA聚合酶结合的原因。真核生物启动子将经常但不总是含有“TATA”盒和“CAT”盒。包括诱导型启动子的各种启动子可用来驱动本发明的各种载体。
[0112] 启动子可为组成型活性启动子(即,在活性/“ON”状态下组成型的启动子),它可为诱导型启动子(即,通过外界刺激例如存在具体温度、化合物或蛋白质控制其状态为活性/“ON”或非活性/“OFF”的启动子。),它可为空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可为时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。
[0113] 适合的启动子可源自病毒并且可因此称为病毒启动子,或它们可源自任何生物,包括原核生物或真核生物。适合的启动子可用来通过任何RNA聚合酶(例如,pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复(LTR)启动子;腺病毒主要晚期启动子(Ad MLP);单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如,Xia等,Nucleic Acids Res.2003 Sep 1;31(17))、人H1启动子(H1)等。
[0114] 诱导型启动子的实例包括但不限于T7RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。诱导型启动子可因此通过包括但不限于多西环素(doxycycline);RNA聚合酶,例如T7RNA聚合酶;雌激素受体;雌激素受体融合等分子来调节。
[0115] 在一些实施方案中,启动子为空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等)以使得在多细胞生物中,启动子在特定细胞子集中为活性的(即,“ON”)。空间限制的启动子还可称为增强子、转录控制元件、控制序列等。可使用任何合宜的空间限制的启动子并且适合的启动子(例如,脑特异性启动子、驱动神经元子集中的表达的启动子、驱动种系中的表达的启动子、驱动肺中的表达的启动子、驱动肌肉内的表达的启动子、驱动胰腺的胰岛细胞中的表达的启动子)的选择将取决于生物。例如,对于植物、苍蝇、蠕虫、哺乳动物、小鼠等已知各种空间限制的启动子。因此,空间限制的启动子可用来取决于生物调节各种各样不同组织和细胞类型中的编码本发明定点修饰多肽的核酸的表达。一些空间限制的启动子还为时间限制的以使得启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态。
[0116] 出于说明的目的,空间限制的启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间限制的启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见,例如EMBL HSENO2、X51956);芳香族氨基酸脱羧酶(AADC)启动子;神经丝启动子(参见,例如GenBank HUMNFL、L04147);突触蛋白启动子(参见,例如GenBank HUMSYNIB、M55301);thy-1启动子(参见,例如Chen等(1987)Cell 51:7-19;和Llewellyn等(2010)Nat.Med.16(10):1161-1166);血清素受体启动子(参见,例如GenBank S62283);酪氨酸羟化酶启动子(TH)(参见,例如Oh等(2009)Gene Ther 16:437;Sasaoka等(1992)Mol.Brain Res.16:274;Boundy等(1998)J.Neurosci.18:9989;和Kaneda等(1991)Neuron 6:583-594);GnRH启动子(参见,例如Radovick等(1991)Proc.Natl.Acad.Sci.USA 88:3402-
3406);L7启动子(参见,例如Oberdick等(1990)Science 248:223-226);DNMT启动子(参见,例如Bartge等(1988)Proc.Natl.Acad.Sci.USA 85:3648-3652);脑啡肽启动子(参见,例如Comb等(1988)EMBO J.17:3793-3805);髓磷脂碱性蛋白(MBP)启动子;Ca2+-钙调蛋白依赖型蛋白激酶II-α(CamKIIα)启动子(参见,例如Mayford等(1996)Proc.Natl.Acad.Sci.USA 
93:13250;和Casanova等(2001)Genesis 31:37);CMV增强子/血小板来源的生长因子-β启动子(参见,例如Liu等(2004)Gene Therapy 11:52-60)等。
[0117] 脂肪细胞特异性空间限制的启动子包括但不限于aP2基因启动子/增强子,例如人aP2基因的从-5.4kb至+21bp的区域(参见,例如Tozzo等(1997)Endocrinol.138:1604;Ross等(1990)Proc.Natl.Acad.Sci.USA 87:9590;和Pavjani等(2005)Nat.Med.11:797);葡萄糖转运蛋白-4(GLUT4)启动子(参见,例如Knight等(2003)Proc.Natl.Acad.Sci.USA 100:14725);脂肪酸移位酶(FAT/CD36)启动子(参见,例如Kuriki等(2002)
Biol.Pharm.Bull.25:1476;和Sato等(2002)J.Biol.Chem.277:15703);硬脂酰-辅酶A去饱和酶-1(SCD1)启动子(Tabor等(1999)J.Biol.Chem.274:20603);瘦素启动子(参见,例如Mason等(1998)Endocrinol.139:1013;和Chen等(1999)Biochem.Biophys.Res.Comm.262:
187);脂联素启动子(参见,例如Kita等(2005)Biochem.Biophys.Res.Comm.331:484;和Chakrabarti(2010)Endocrinol.151:2408);降脂素启动子(参见,例如Platt等(1989)Proc.Natl.Acad.Sci.USA 86:7490);抵抗素启动子(参见,例如Seo等(2003)
Molec.Endocrinol.17:1522)等。
[0118] 心肌细胞特异性空间限制的启动子包括但不限于源自以下基因的控制序列:肌球蛋白轻链-2、α-肌球蛋白重链、AE3、心肌肌钙蛋白C、心肌肌动蛋白等。Franz等(1997)Cardiovasc.Res.35:560-566;Robbins等(1995)Ann.N.Y.Acad.Sci.752:492-505;Linn等(1995)Circ.Res.76:584-591;Parmacek等(1994)Mol.Cell.Biol.14:1870-1885;Hunter等(1993)Hypertension 22:608-617;以及Sartorelli等(1992)Proc.Natl.Acad.Sci.USA 89:4047-4051。
[0119] 平滑肌特异性空间限制的启动子包括但不限于SM22α启动子(参见,例如Akyürek等(2000)Mol.Med.6:983;和美国专利号7,169,874);平滑素(smoothelin)启动子(参见,例如WO 2001/018048);α-平滑肌肌动蛋白启动子等。例如,在其内放有两个CArG元件的SM22α启动子的0.4kb区域已显示出介导血管平滑肌细胞特异性的表达(参见,例如Kim等(1997)Mol.Cell.Biol.17,2266-2278;Li等(1996)J.Cell Biol.132,849-859;和Moessler等(1996)Development 1 22,2415-2425)。
[0120] 光感受器特异性空间限制的启动子包括但不限于视紫红质启动子;视紫红质激酶启动子(Young等(2003)Ophthalmol.Vis.Sci.44:4076);β磷酸二酯酶基因启动子(Nicoud等(2007)J.Gene Med.9:1015);色素性视网膜炎基因启动子(Nicoud等(2007)同上);光感受器间视网膜样结合蛋白(IRBP)基因增强子(Nicoud等(2007)同上);IRBP基因启动子(Yokoyama等(1992)Exp Eye Res.55:225)等。
[0121] 本文可互换使用的术语“DNA调节序列”、“控制元件”和“调控元件”是指提供和/或调节非编码序列(例如,靶向DNA的RNA)或编码序列(例如,定点修饰多肽或Cas9/Csn1多肽)的转录和/或调节编码多肽的翻译的转录和翻译控制序列,如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等。
[0122] 如本文所使用适用于核酸、多肽、细胞或生物的术语“天然存在的”或“未修饰的”是指存在于自然中的核酸、多肽、细胞或生物。例如,可从自然中的来源分离并且不通过人在实验室中有意修饰的存在于生物(包括病毒)中的多肽或多核苷酸序列为天然存在的。
[0123] 如本文所使用适用于核酸或多肽的术语“嵌合”是指通过源自不同来源的结构定义的两种组分。例如,在嵌合多肽(例如,嵌合Cas9/Csn1蛋白)的背景下使用“嵌合”时,嵌合多肽包括源自不同多肽的氨基酸序列。嵌合多肽可包含修饰的或天然存在的多肽序列(例如,来自修饰的或未修饰的Cas9/Csn1蛋白的第一氨基酸序列;和除了Cas9/Csn1蛋白以外的第二氨基酸序列)。类似地,在编码嵌合多肽的多核苷酸的背景下的“嵌合”包括源自不同编码区的核苷酸序列(例如,编码修饰的或未修饰的Cas9/Csn1蛋白的第一核苷酸序列;和编码除了Cas9/Csn1蛋白以外的多肽的第二核苷酸序列)。
[0124] 术语“嵌合多肽”是指通常通过人干预,通过组合(即,“融合”)氨基序列的两个另外分开的区段而制得的多肽。包含嵌合氨基酸序列的多肽为嵌合多肽。一些嵌合多肽可称为“融合变体”。
[0125] 如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,在嵌合Cas9/Csn1蛋白中,天然存在的细菌Cas9/Csn1多肽(或其变体)的RNA结合结构域可融合至异源多肽序列(即来自除了Cas9/Csn1以外的蛋白质的多肽序列或来自另一种生物的多肽序列)。异源多肽序列可表现出将还由嵌合Cas9/Csn1蛋白(例如,甲基转移酶活性、乙酰基转移酶活性、激酶活性、去泛素活性等)所表现出的活性(例如,酶活性)。异源核酸序列可连接至天然存在的核酸序列(或其变体)(例如,通过基因工程化)以产生编码嵌合多肽的嵌合核苷酸序列。作为另一个实例,在融合变体Cas9定点多肽中,变体Cas9定点多肽可融合至异源多肽(即除了Cas9以外的多肽),所述异源多肽表现出将还由融合变体Cas9定点多肽所表现出的活性。异源核酸序列可连接至变体Cas9定点多肽(例如,通过基因工程化)以产生编码融合变体Cas9定点多肽的核苷酸序列。
[0126] 如本文所使用的“重组”意指具体核酸(DNA或RNA)为克隆、限制、聚合酶链反应(PCR)和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中发现的内源核酸区别开的结构编码或非编码序列的构建体。编码多肽的DNA序列可由cDNA片段或由一系列合成寡核苷酸组装以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操纵或表达,并且实际上可通过各种机制起到调节希望的产物产生的作用(参见以下“DNA调节序列”)。或者,未翻译的编码RNA的DNA序列(例如,靶向DNA的RNA)也可被认为是重组的。因此,例如术语“重组”核酸是指非天然存在的,例如通过人干预通过人工组合序列的两个另外分开的区段而制得的核酸。此人工组合常常通过化学合成手段或通过人工操作核酸的分开的区段(例如通过基因工程化技术)来完成。这通常是用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子来替代一个密码子。或者,将具有希望的功能的核酸区段连接在一起以产生希望的功能组合。此人工组合常常通过化学合成手段或通过人工操作核酸的分开的区段(例如通过基因工程化技术)来完成。当重组多核苷酸编码多肽时,编码多肽的序列可为天然存在的(“野生型”)或可为天然存在的序列的变体(例如,突变体)。因此,术语“重组”多肽未必是指其序列不是天然存在的多肽。相反,“重组”多肽通过重组DNA序列来编码,但多肽的序列可为天然存在的(“野生型”)或非天然存在的(例如,变体、突变体等)。因此,“重组”多肽为人干预的结果,但可为天然存在的氨基酸序列。
[0127] “载体”或“表达载体”为复制子,如质粒、噬菌体、病毒或粘粒,另一个DNA区段(即“插入物”)可附着至所述复制子以便在细胞中引起所附着的区段的复制。
[0128] “表达盒”包含可操作地连接至启动子的DNA编码序列。“可操作地连接”是指并置,其中所述组分处于容许其以预期的方式起作用的关系中。例如,如果启动子影响其转录或表达,将启动子可操作地连接至编码序列。
[0129] 术语“重组表达载体”或“DNA构建体”在本文中可互换使用,是指包含载体和至少一个插入物的DNA分子。通常出于表达和/或繁殖插入物的目的或出于构建其它重组核苷酸序列而产生重组表达载体。插入物可以或可以不可操作地连接至启动子序列并且可以或可以不可操作地连接至DNA调节序列。
[0130] 当此类DNA引入到细胞内部时,细胞被外源DNA例如重组表达载体“遗传修饰”或“转化”或“转染”。外源DNA的存在导致永久或瞬时的遗传变化。转化DNA可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中,转化DNA可维持在游离元件如质粒上。相对于真核细胞,稳定转化的细胞为其中转化DNA逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化DNA的子细胞群的细胞系或克隆的能力来展示。“克隆”为通过有丝分裂源自单个细胞或共同祖先的一群细胞。“细胞系”为能够在体外稳定生长许多代的原代细胞的克隆。
[0131] 遗传修饰(又称为“转化”)的适合方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见,例如Panyam等Adv Drug Deliv Rev.2012 Sep 13.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0132] 遗传修饰的方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(例如,体外、离体或体内)。这些方法的一般讨论可见于Ausubel等,Short Protocols in Molecular Biology,第3版,Wiley&Sons,1995中。
[0133] 如本文所使用的“靶DNA”为包含“靶位点”或“靶序列”的DNA多核苷酸。术语“靶位点”或“靶序列”或“靶原型间隔区DNA”在本文中可互换使用,是指存在于本发明靶向DNA的RNA的DNA靶向区段将结合的靶DNA中的核酸序列(参见图1和图39),其条件为存在足够用于结合的条件。例如,靶DNA内的靶位点(或靶序列)5'-GAGCATATC-3'(SEQ ID NO://)被RNA序列5’-GAUAUGCUC-3’(SEQ ID NO://)靶向(或结合、或与所述RNA序列杂交或互补)。适合的DNA/RNA结合条件包括正常存在于细胞中的生理条件。其它适合的DNA/RNA结合条件(例如,无细胞系统中的条件)为本领域中已知的;参见例如Sambrook,同上。与靶向DNA的RNA互补并杂交的靶DNA的链称为“互补链”并且与“互补链”互补的靶DNA的链(并且因此不与靶向DNA的RNA互补)称为“非互补链(noncomplementary strand)”或“非互补链(non-complementary strand)”(参见图12)。
[0134] “定点修饰多肽”或“RNA结合定点多肽”或“RNA结合定点修饰多肽”或“定点多肽”意指结合RNA并靶向特异性DNA序列的多肽。如本文所述的定点修饰多肽通过其结合的RNA分子靶向特异性DNA序列。RNA分子包含与靶DNA内的靶序列互补的序列,从而将结合的多肽靶向靶DNA内的特定位置(靶序列)。
[0135] “裂解”意指DNA分子的共价骨架的断裂。可通过各种各样的方法来开始裂解,所述方法包括但不限于磷酸二酯键的酶水解或化学水解。单链裂解和双链裂解均是可能的,并且双链裂解可由于两个相异单链裂解事件而发生。DNA裂解可导致平端或交错端产生。在某些实施方案中,包含靶向DNA的RNA和定点修饰多肽的复合物用于靶向的双链DNA裂解。
[0136] “核酸酶”和“核酸内切酶”在本文中可互换使用,意指具有用于DNA裂解的催化活性的酶。
[0137] 核酸酶的“裂解结构域”或“活性结构域”或“核酸酶结构域”意指具有用于DNA裂解的催化活性的核酸酶内的多肽序列或结构域。裂解结构域可包含在单个多肽链中或裂解活性可由两个(或更多个)多肽的缔合引起。单个核酸酶结构域可由给定多肽内的多于一个分离的段的氨基酸的段组成。
[0138] 结合定点修饰多肽并将多肽靶向靶DNA内的特定位置的RNA分子在本文中称为“靶向DNA的RNA”或“靶向DNA的RNA多核苷酸”(在本文中又称为“导向RNA”或“gRNA”)。本发明靶向DNA的RNA包含两个区段,“DNA靶向区段”和“蛋白质结合区段”。“区段”意指分子的区段/部分/区域,例如RNA中的一段连续核苷酸。区段还可意指复合物的区域/部分以使得区段可包含多于一个分子的区域。例如,在一些情况下靶向DNA的RNA的蛋白质结合区段(以下所述)为一个RNA分子并且因此蛋白质结合区段包含所述RNA分子的区域。在其它情况下,靶向DNA的RNA的蛋白质结合区段(以下所述)包含沿着具有互补性的区域杂交的两个分开的分子。作为一个说明性、非限制性实例,包含两个分开的分子的靶向DNA的RNA的蛋白质结合区段可包含(i)长度为100个碱基对的第一RNA分子的碱基对40-75;和(ii)长度为50个碱基对的第二RNA分子的碱基对10-25。除非另外在特定背景下确切地定义,否则“区段”的定义不限于特定数目的总碱基对,不限于来自给定RNA分子的任何具体数目的碱基对,不限于复合物内的具体数目的分开分子,并且可包括具有任何总长度的RNA分子的区域并且可以或可以不包括与其它分子具有互补性的区域。
[0139] DNA靶向区段(或“DNA靶向序列”)包含与靶DNA内的特异性序列互补的核苷酸序列(靶DNA的互补链)。蛋白质结合区段(或“蛋白质结合序列”)与定点修饰多肽相互作用。当定点修饰多肽为Cas9或Cas9相关的多肽(以下更详细地描述)时,靶DNA的位点特异性裂解发生在通过以下所确定的位置上:(i)靶向DNA的RNA与靶DNA之间的碱基配对互补性;和(ii)靶DNA中的短基序(称为原型间隔区相邻基序(PAM))。
[0140] 本发明靶向DNA的RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。
[0141] 在一些实施方案中,本发明核酸(例如,靶向DNA的RNA、包含编码靶向DNA的RNA的核苷酸序列的核酸;编码定点多肽的核酸等)包含提供额外希望的特征的修饰或序列(例如,修饰的或调节的稳定性;亚细胞靶向;追踪,例如荧光标记;用于蛋白质或蛋白质复合物的结合位点等)。非限制性实例包括:5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列(例如,通过蛋白质和/或蛋白质复合物允许调节的稳定性和/或调节的可接近性);稳定性控制序列;形成dsRNA双链体(即发夹)的序列;将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的修饰或序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列以及其组合。
[0142] 在一些实施方案中,靶向DNA的RNA包含提供上述任何特征的在5’或3’端上的额外区段。例如,适合的第三区段可包含5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列(例如,通过蛋白质和蛋白质复合物允许调节的稳定性和/或调节的可接近性);稳定性控制序列;形成dsRNA双链体(即发夹)的序列;将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列以及其组合。
[0143] 本发明靶向DNA的RNA和本发明定点修饰多肽(即,定点多肽)形成复合物(即,经过非共价相互作用结合)。靶向DNA的RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性。复合物的定点修饰多肽提供位点特异性活性。换言之,定点修饰多肽借助于其与靶向DNA的RNA的蛋白质结合区段缔合来引导至靶DNA序列(例如染色体核酸中的靶序列;染色体外核酸(例如游离型核酸、小环等)中的靶序列;线粒体核酸中的靶序列;叶绿体核酸中的靶序列;质粒中的靶序列等)。
[0144] 在一些实施方案中,本发明靶向DNA的RNA包含两个单独的RNA分子(RNA多核苷酸:“激活物-RNA”和“靶向物-RNA”,参见下文)并且在本文中称为“双分子靶向DNA的RNA”或“二分子靶向DNA的RNA”。在其它实施方案中,本发明靶向DNA的RNA为单个RNA分子(单个RNA多核苷酸)并且在本文中称为“单分子靶向DNA的RNA”、“单导向RNA”或“sgRNA”。术语“靶向DNA的RNA”或“gRNA”为包括在内的,是指双分子靶向DNA的RNA和单分子靶向DNA的RNA(即,sgRNA)。
[0145] 示例性二分子靶向DNA的RNA包含crRNA样(“CRISPR RNA”或“靶向物-RNA”或“crRNA”或“crRNA重复”)分子和对应的tracrRNA样(“反式作用CRISPR RNA”或“激活物-RNA”或“tracrRNA”)分子。crRNA样分子(靶向物-RNA)包含靶向DNA的RNA的DNA靶向区段(单链)和一段形成靶向DNA的RNA的蛋白质结合区段的dsRNA双链体的一半的核苷酸(“双链体形成区段”)。对应的tracrRNA样分子(激活物-RNA)包含一段形成靶向DNA的RNA的蛋白质结合区段的dsRNA双链体的另一半的核苷酸(双链体形成区段)。换言之,一段crRNA样分子的核苷酸与一段tracrRNA样分子的核苷酸互补并杂交以形成靶向DNA的RNA的蛋白质结合结构域的dsRNA双链体。因此,每个crRNA样分子均可被称作具有对应的tracrRNA样分子。crRNA样分子额外地提供单链DNA靶向区段。因此,crRNA样和tracrRNA样分子(作为对应的一对)杂交以形成靶向DNA的RNA。给定的crRNA或tracrRNA分子的精确序列为其中发现RNA分子的物种的特征。各种crRNA和tracrRNA以对应的互补对形式描绘在图8中。本发明双分子靶向DNA的RNA可包含任何对应的crRNA和tracrRNA对。本发明双分子靶向DNA的RNA可包含任何对应的crRNA和tracrRNA对。
[0146] 本文使用术语“激活物-RNA”意指双分子靶向DNA的RNA的tracrRNA样分子。本文使用术语“靶向物-RNA”意指双分子靶向DNA的RNA的crRNA样分子。本文使用术语“双链体形成区段”意指有助于通过与一段对应的激活物-RNA或靶向物-RNA分子的核苷酸杂交形成一段dsRNA双链体的激活物-RNA或靶向物-RNA的核苷酸。换言之,激活物-RNA包含与对应的靶向物-RNA的双链体形成区段互补的双链体形成区段。因此,激活物-RNA包含双链体形成区段而靶向物-RNA包含双链体形成区段和靶向DNA的RNA的DNA靶向区段。因此,本发明双分子靶向DNA的RNA可包含任何对应的激活物-RNA和靶向物-RNA对。
[0147] 如本文所使用的“宿主细胞”指代体内或体外真核细胞、原核细胞(例如,细菌或古细菌细胞)或作为单细胞实体培养的来自多细胞生物的细胞(例如,细胞系),所述真核细胞或原核细胞可用作或已用作核酸的受体,并且包括通过核酸转化的原始细胞的子代。应该理解由于天然、偶然或有意突变,单细胞的子代可不必在形态或在基因组或总DNA互补序列上与原始亲本完全相同。“重组宿主细胞”(又称为“遗传修饰的宿主细胞”)为已将异源核酸例如表达载体引入到其中的宿主细胞。例如,本发明细菌宿主细胞为借助于引入到外源核酸(例如,质粒或重组表达载体)的适合细菌宿主细胞中的遗传修饰的细菌宿主细胞,并且本发明真核宿主细胞为借助于引入到外源核酸的适合真核宿主细胞中的遗传修饰的真核宿主细胞(例如,哺乳动物生殖细胞)。
[0148] 本文使用术语“干细胞”是指具有自我更新和产生分化的细胞类型的能力的细胞(例如,植物干细胞、脊椎动物干细胞)(参见Morrison等(1997)Cell 88:287-298)。在细胞个体发育的背景下,形容词“被分化的”或“分化的”为相对术语。“分化的细胞”为比与其比较的细胞在发育途径上更进一步向下发展的细胞。因此,多能干细胞(以下所述)可分化成谱系限制的祖细胞(例如,中胚层干细胞),所述祖细胞反过来可分化成进一步限制的细胞(例如,神经元祖细胞),所述祖细胞可分化成末期细胞(即,终止分化的细胞,例如神经元、心肌细胞等),所述祖细胞在某些组织类型中起特征性作用,并且可以或可以不保持进一步增殖的能力。干细胞可特征在于存在特异性标志物(例如,蛋白质、RNA等)和不存在特异性标志物。干细胞还可通过体外和体内的功能测定,具体地与干细胞产生多个分化子代的能力相关的测定来鉴定。
[0149] 感兴趣的干细胞包括多能干细胞(PSC)。本文使用术语“多能干细胞”或“PSC”意指能够产生生物的所有细胞类型的干细胞。因此,PSC可产生生物的所有生殖层(例如,脊椎动物的内胚层、中胚层和外胚层)的细胞。多能细胞能够形成畸胎瘤并且对活生物中的外胚层、中胚层或内胚层组织有影响。植物的多能干细胞能够产生植物的所有细胞类型(例如,根、茎、叶等的细胞)。
[0150] 可以许多不同方式得到动物的PSC。例如,胚胎干细胞(ESC)源自胚胎的内细胞群(Thomson等,Science.1998Nov 6;282(5391):114 5-7),而诱导的多能干细胞(iPSC)源自体细胞(Takahashi等,Cell.200 7  Nov 30;131(5):861-72;Takahashi等,Nat Protoc.2007;2(12):3081-9;Yu等,Science.2007 Dec 21;318(5858):1917-20.Epub 2007 Nov 20)。因为术语PSC是指无论其来源的多能干细胞,所以术语PSC涵盖术语ESC和iPSC以及术语胚胎生殖干细胞(EGSC),所述胚胎生殖干细胞为PSC的另一个实例。PSC可以建立的细胞系形式存在,它们可直接从原代胚胎组织获得或它们可源自体细胞。PSC可为本文所述方法的靶细胞。
[0151] “胚胎干细胞(ESC)”意指从胚胎,通常从胚泡的内细胞群中分离的PSC。ESC系列于NIH人胚胎干细胞记录中,例如hESBGN-01、hESBGN-02、hESBGN-03、hESBGN-04(BresaGen,Inc.);HES-1、H ES-2、HES-3、HES-4、HES-5、HES-6(ES Cell International);Miz-hES1(MizMedi Hospital-Seoul National University);HSF-1、HSF-6(University of California at San Francisco);以及H1、H7、H9、H13、H14(Wisconsin Alumni Research Foundation(WiCell Research Institute))。感兴趣的干细胞还包括来自其它灵长类动物的胚胎干细胞,如恒河猴干细胞和狨猴干细胞。干细胞可获自任何哺乳动物种类,例如人、马、牛、猪、犬、猫、啮齿动物(例如,小鼠、大鼠、仓鼠)、灵长类动物等。(Thomson等(1998)Science 282:1145;Thomson等(1995)Proc.Natl.Acad.Sci USA 92:7844;Thomson等(1996)Biol.Reprod.55:254;Shamblott等,Proc.Natl.Acad.Sci.USA 95:13726,1998)。在培养中,ESC通常呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。另外,ESC表达SSEA-3、SSEA-4、TRA-1-60、TRA-1-81和碱性磷酸酶,但不表达SSEA-1。产生和表征ES C的方法的实例可见于例如美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806中,所述专利的公开内容以引用的方式并入本文。用于以未分化的形式增殖hESC的方法描述于WO 99/20741、WO 01/51616和WO 03/020920中。
[0152] “胚胎生殖干细胞(EGSC)”或“胚胎生殖细胞”或“EG细胞”意指源自生殖细胞和/或生殖细胞祖细胞(例如原生殖细胞,即将变为精子和卵子的原生殖细胞)的PSC。认为胚胎生殖细胞(EG细胞)具有类似于如上所述的胚胎干细胞的性质。产生和表征EG细胞的方法的实例可见于例如美国专利号7,153,684;Matsui,Y.等,(1992)Cell 70:841;Shamblott,M.等(2001)Proc.Natl.Acad.Sci.USA  98:113;Shamblott,M.等(1998)Proc.Natl.Acad.Sci.USA,95:13726;以及Koshimizu,U.等(1996)Development,122:1235中,所述参考文献的公开内容以引用的方式并入本文。
[0153] “诱导多能干细胞”或“iPSC”意指源自不是PSC的细胞的PSC(即,来自相对于PSC分化的细胞)。iPSC可源自多种不同细胞类型,包括终止分化的细胞。iPSC具有呈有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长的ES细胞样形态。另外,iPSC表达本领域普通技术人员已知的一种或多种主要多能标志物,包括但不限于碱性磷酸酶、SSEA3、SSEA4、Sox2、Oct3/4、Nanog、TRA160、TRA181、TDGF 1、Dnmt3b、FoxD3、GDF3、Cyp26a1、TERT和zfp42。产生和表征iPSC的方法的实例可见于例如美国专利公布号US20090047263、
US20090068742、US20090191159、US20090227032、US20090246875和US20090304646中,所述专利的公开内容以引用的方式并入本文。通常,为了产生iPSC,提供具有本领域中已知的重新编程因子(例如Oct4、SOX2、KLF4、MYC、Nanog、Lin28等)以将体细胞重新编程变为多能干细胞的体细胞。
[0154] “体细胞”意指生物中的任何细胞,所述细胞在不存在实验操纵的情况下通常不产生生物中的所有类型的细胞。换言之,体细胞为具有足够分化的细胞,它们将不天然产生身体的所有三个生殖层(即外胚层、中胚层和内胚层)的细胞。例如,体细胞将包括神经元和神经祖细胞,后者的神经祖细胞可能够天然产生中枢神经系统的所有或一些细胞类型但不能产生中胚层或内胚层谱系的细胞。
[0155] “有丝分裂细胞”意指经历有丝分裂的细胞。有丝分裂为真核细胞将其细胞核中的染色体分到两个分开细胞核中的两个相同集合中的过程。通常紧接着是胞质分裂,所述胞质分裂将细胞核、细胞质、细胞器官和细胞膜分到含有粗略相等共有这些细胞组分的两个细胞中。
[0156] “有丝分裂后细胞”意指退出有丝分裂的细胞,即其为“静止的”,即它不再经历分裂。这种静止状态可为瞬时的,即可逆的,或其可为永久的。
[0157] “减数分裂细胞”意指经历减数分裂的细胞。减数分裂为细胞出于产生配子或孢子的目的分配其核物质的过程。不像有丝分裂,在减数分裂中,染色体经历在染色体之间混乱遗传物质的重组步骤。另外,与由有丝分裂产生的两个(遗传相同的)二倍体细胞相比,减数分裂的结果为四个(遗传独特的)单倍体细胞。
[0158] “重组”意指两个多核苷酸之间遗传信息交换的过程。如本文所使用,“同源定向修复(HDR)”是指例如发生在细胞中的双链断裂的修复过程中的专门形式DNA修复。此过程需要核苷酸序列同源性,使用“供体”分子以成为“靶”分子(即,经历双链断裂的分子)的修复模板,并且导致遗传信息从供体向靶标转移。如果供体多核苷酸不同于靶分子并且供体多核苷酸的部分或所有序列并入到靶DNA中,同源定向修复可引起靶分子序列改变(例如,插入、缺失、突变)。在一些实施方案中,将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。
[0159] “非同源末端连接(NHEJ)”意指通过将断裂末端与另一个断裂末端直接连接而不需要同源模板(与同源定向修复相比,所述同源定向修复需要同源序列来引导修复)在DNA中进行的双链断裂的修复。NHEJ常常导致接近双链断裂的位点的核苷酸序列损失(缺失)。
[0160] 本文使用术语“治疗(treatment)”、“治疗(treating)”等一般意指获得希望的药理作用和/或生理作用。作用就完全或部分预防疾病或其症状而言可为预防性的和/或就部分或完全治愈疾病和/或可归因于疾病的副作用而言可为治疗性的。如本文所使用的“治疗”涵盖哺乳动物体内疾病或症状的任何治疗,并且包括:(a)预防疾病或症状在可易于获得疾病或症状但尚未诊断为患有所述疾病或症状的受试者体内发生;(b)抑制疾病或症状,即阻止其发展;或(c)减轻疾病,即引起疾病消退。可在疾病或损伤发作之前、期间或之后施用治疗剂。对其中治疗使患者的不希望临床症状稳定或减少的正在进行的疾病的治疗为特别感兴趣的。此种治疗希望在受影响组织功能完全失去之前进行。本发明疗法将希望在疾病的症状阶段过程中施用,并且在一些情况下在疾病的症状阶段之后施用。
[0161] 术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用并且是指希望诊断、治疗或疗法的任何哺乳动物受试者,具体是人。
[0162] 分子和细胞生物化学中的一般方法可见于如Molecular Cloning:A Laboratory Manual,第3版(Sambrook等,HaRBor Laboratory Press 2001);Short Protocols in Molecular Biology,第4版(Ausubel等编著,John Wiley&Sons 1999);Protein Methods(Bollag等,John Wiley&Sons 1996);Nonviral Vectors for Gene Therapy(Wagner等编著,Academic Press 1999);Viral Vectors(Kaplift&Loewy编著,Academic Press 1995);Immunology Methods Manual(I.Lefkovits编著,Academic Press 1997);以及Cell and Tissue Culture:Laboratory Procedures in Biotechnology(Doyle&Griffiths,John Wiley&Sons 1998)的此类标准教科书中,所述参考文献的公开内容以引用的方式并入本文。
[0163] 在进一步描述本发明之前,应该理解本发明不限于所述的具体实施方案,因此其当然可变化。还应该理解,本文所使用的术语仅出于描述具体实施方案的目的并且不旨在为限制性的,因为本发明的范围将仅被所附权利要求所限制。
[0164] 在提供数值范围时,应该理解在所述范围的上下限之间的每个中间值(除非上下文另外清楚地指出,否则所述中间值达到下限单位的十分之一)和任何其它说明的或在所述说明范围中的中间值涵盖在本发明内。这些较小范围的上下限可独立地包括在较小范围中,并且还涵盖在本发明内,除了任何确切超出所说明范围之外的限值。在所说明范围包括所述限值之一或两者时,超出那些包括的限值的任一个或两者的范围也包括在本发明中。
[0165] 在本文中使用前面有术语“大约”的数值来呈现某些范围。本文使用术语“大约”为它之后的精确数字以及接近或近似术语之后数字的数字提供文字支持。在确定数字是否接近或近似确切列举的数字中,接近或近似未列举的数字可为在提出其的上下文中提供大致相等的确切列举数字的数字。
[0166] 除非另外定义,否则本文使用的所有技术术语和科学术语具有与通过本发明所属领域中的普通技术人员通常理解的相同的含义。虽然还可在本发明的实践或测试中使用类似于或等同于本文所述的那些方法和材料的任何方法和材料,但现在描述优选的方法和材料。本文所提到的所有出版物以引用的方式并入本文以公开和描述与出版物所引用的相关的方法和/或材料。
[0167] 本说明书中引用的所有出版物和专利以引用的方式并入本文如同每个单独的出版物或专利均确切地和单独地指出以引用的方式并入一样,并且以引用的方式并入本文以公开和描述与出版物所引用的相关的方法和/或材料。任何出版物的引用为其公开在申请日之前并且不应该解释为承认本发明没有资格先于现有发明的这种出版物。此外,所提供的出版日期可与实际出版日期不同,这可能需要独立证实。
[0168] 应该指出,如本文和在所附权利要求书中所使用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数对象,除非上下文另外清楚地指出。因此,例如,提到“一个多核苷酸”包括多个此类多核苷酸并且提到“所述多肽”包括提到一种或多种多肽及其本领域技术人员已知的等效物,等等。进一步指出,权利要求可起草成排除任何可选元件。因此,此说明旨在用作使用与权利要求元件引用相关的如“仅有”、“仅仅”等此类排他术语或使用“否定”限制的先行词基础。
[0169] 应该领会,为了清楚起见而在分开的实施方案的上下文中描述的本发明的某些特征还可与单个实施方案组合提供。相反,为了简明起见而在单个实施方案的上下文中描述的本发明的各种特征还可分开提供或以任何适合的子组合形式提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外,各种实施方案及其元件的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种这样的子组合均单独地和明确地在本文中公开一样。
[0170] 本文所讨论的出版物仅为其在本申请的申请日之前的公开而提供。本文没有任何内容被解释为承认本发明没有资格先于现有发明的这种出版物。此外,所提供的出版日期可与实际出版日期不同,这可能需要独立证实。
[0171] 详述–第I部分
[0172] 本公开提供包含靶向序列的靶向DNA的RNA,以及修饰多肽,提供靶DNA和/或与靶DNA相关的多肽的位点特异性修饰。本公开进一步提供位点特异性修饰多肽。本公开进一步提供位点特异性修饰靶DNA和/或与靶DNA相关的多肽的方法。本公开提供调节靶细胞中的靶核酸转录的方法,所述方法总体上涉及使靶核酸与酶失活的Cas9多肽和靶向DNA的RNA接触。还提供执行方法的试剂盒和组合物。本公开提供产生Cas9的遗传修饰的细胞;和Cas9转基因非人多细胞生物。
[0173] 核酸
[0174] 靶向DNA的RNA
[0175] 本公开提供靶向DNA的RNA,其引导相关多肽(例如,定点修饰多肽)对靶DNA内的特异性靶序列的活性。本发明靶向DNA的RNA包含:第一区段(在本文中又称为“DNA靶向区段”或“DNA靶向序列”)和第二区段(在本文中又称为“蛋白质结合区段”或“蛋白质结合序列”)。
[0176] 靶向DNA的RNA的DNA靶向区段
[0177] 本发明靶向DNA的RNA的DNA靶向区段包含与靶DNA中的序列互补的核苷酸序列。换言之,本发明靶向DNA的RNA的DNA靶向区段经过杂交(即,碱基配对)以序列特异性方式与靶DNA相互作用。因此,DNA靶向区段的核苷酸序列可改变并且确定靶向DNA的RNA和靶DNA将相互作用的靶DNA内的位置。本发明靶向DNA的RNA的DNA靶向区段可被修饰(例如,通过遗传工程化)以杂交靶DNA内的任何希望的序列。
[0178] DNA靶向区段的长度可为约12个核苷酸至约100个核苷酸。例如,DNA靶向区段的长度可为约12个核苷酸(nt)至约80nt、约12nt至约50nt、约12nt至约40nt、约12nt至约30nt、约12nt至约25nt、约12nt至约20nt或约12nt至约19nt。例如,DNA靶向区段的长度可为约19nt至约20nt、约19nt至约25nt、约19nt至约30nt、约19nt至约35nt、约19nt至约40nt、约
19nt至约45nt、约19nt至约50nt、约19nt至约60nt、约19nt至约70nt、约19nt至约80nt、约
19nt至约90nt、约19nt至约100nt、约20nt至约25nt、约20nt至约30nt、约20nt至约35nt、约
20nt至约40nt、约20nt至约45nt、约20nt至约50nt、约20nt至约60nt、约20nt至约70nt、约
20nt至约80nt、约20nt至约90nt或约20nt至约100nt。与靶DNA的核苷酸序列(靶序列)互补的DNA靶向区段的核苷酸序列(DNA靶向序列)的长度可为至少约12nt。例如,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度可为至少约12nt、至少约15nt、至少约18nt、至少约19nt、至少约20nt、至少约25nt、至少约30nt、至少约35nt或至少约40nt。例如,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度可为约12个核苷酸(nt)至约80nt、约
12nt至约50nt、约12nt至约45nt、约12nt至约40nt、约12nt至约35nt、约12nt至约30nt、约
12nt至约25nt、约12nt至约20nt、约12nt至约19nt、约19nt至约20nt、约19nt至约25nt、约
19nt至约30nt、约19nt至约35nt、约19nt至约40nt、约19nt至约45nt、约19nt至约50nt、约
19nt至约60nt、约20nt至约25nt、约20nt至约30nt、约20nt至约35nt、约20nt至约40nt、约
20nt至约45nt、约20nt至约50nt或约20nt至约60nt。与靶DNA的核苷酸序列(靶序列)互补的DNA靶向区段的核苷酸序列(DNA靶向序列)的长度可为至少约12nt。
[0179] 在一些情况下,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度为20个核苷酸。在一些情况下,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度为19个核苷酸。
[0180] DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比可为至少60%(例如,至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少97%、至少98%、至少99%或100%)。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的七个连续最5’端核苷酸上为100%。
在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在约20个连续核苷酸上为至少60%。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的十四个连续最5’端核苷酸上为100%并且在剩余核苷酸上低至0%。在这样的情况下,DNA靶向序列可认为长度为14个核苷酸(参见图
12D-图12E)。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的七个连续最5’端核苷酸上为100%并且在剩余核苷酸上低至0%。在这样的情况下,DNA靶向序列可认为长度为7个核苷酸。
[0181] 靶向DNA的RNA的蛋白质结合区段
[0182] 本发明靶向DNA的RNA的蛋白质结合区段与定点修饰多肽相互作用。本发明靶向DNA的RNA经过以上提到的DNA靶向区段将结合的多肽引导至靶DNA内的特异性核苷酸序列。本发明靶向DNA的RNA的蛋白质结合区段包含彼此互补的两段核苷酸。蛋白质结合区段的互补核苷酸杂交以形成双链RNA双链体(dsRNA)(参见图1A和图1B)。
[0183] 本发明双分子靶向DNA的RNA包含两个单独的RNA分子。本发明双分子靶向DNA的RNA的两个RNA分子各自均包含一段彼此互补的核苷酸,以使得两个RNA分子的互补核苷酸杂交以形成蛋白质结合区段的双链RNA双链体(图1A)。
[0184] 在一些实施方案中,激活物-RNA的双链体形成区段与在SEQ ID NO:431-562中列出的激活物-RNA(tracrRNA)分子之一或其互补序列在一段至少8个连续核苷酸上至少约60%相同。例如,激活物-RNA的双链体形成区段(或编码激活物-RNA的双链体形成区段的DNA)与在SEQ ID NO:431-562中列出的tracrRNA序列之一或其互补序列在一段至少8个连续核苷酸上至少约60%相同、至少约65%相同、至少约70%相同、至少约75%相同、至少约
80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约
99%相同或100%相同。
[0185] 在一些实施方案中,靶向物-RNA的双链体形成区段与在SEQ ID NO:563-679中列出的靶向物-RNA(crRNA)序列之一或其互补序列在一段至少8个连续核苷酸上至少约60%相同。例如,靶向物-RNA的双链体形成区段(或编码靶向物-RNA的双链体形成区段的DNA)与在SEQ ID NO:563-679中列出的crRNA序列之一或其互补序列在一段至少8个连续核苷酸上至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同或100%相同。
[0186] 二分子靶向DNA的RNA可设计成允许靶向物-RNA与激活物-RNA受控制的(即,有条件的)结合。因为二分子靶向DNA的RNA不是功能性的除非激活物-RNA和靶向物-RNA结合在具有dCas9的功能复合物中,二分子靶向DNA的RNA可通过使激活物-RNA与靶向物-RNA之间的结合成为可诱导的而为可诱导的(例如,药物可诱导的)。作为一个非限制性实例,RNA适体可用来调节(即,控制)激活物-RNA与靶向物-RNA的结合。因此,激活物-RNA和/或靶向物-RNA可包含RNA适体序列。
[0187] RNA适体为本领域中已知的并且通常为核糖开关的合成形式。术语“RNA适体”和“核糖开关”在本文中可互换使用以涵盖提供其为一部分的RNA分子的结构的可诱导调节(并且因此特异性序列的可用性)的合成核酸序列和天然核酸序列。RNA适体通常包含折叠成具体结构(例如,发夹)的序列,所述序列特异性结合具体药物(例如,小分子)。药物结合引起RNA折叠中的结构变化,这改变适体为一部分的核酸的特征。作为非限制性实例:(i)具有适体的激活物-RNA可不能够结合同源靶向物-RNA,除非适体被适当的药物结合;(ii)具有适体的靶向物-RNA可不能够结合同源激活物-RNA,除非适体被适当的药物结合;以及(iii)各自均包含结合不同药物的不同适体的靶向物-RNA和激活物-RNA可不能够彼此结合,除非存在这两种药物。如通过这些实例所说明,二分子靶向DNA的RNA可设计为可诱导的。
[0188] 适体和核糖开关的实例可例如见于:Nakamura等,Genes Cells.2012 May;17(5):344-64;Vavalle等,Future Cardiol.2012 May;8(3):3 71-82;Citartan等,Biosens Bioelectron.2012 Apr 15;34(1):1-11;和Liberman等,Wiley Interdiscip Rev RNA.2012May-Jun;3(3):369-84中;所有所述参考文献均以引用的方式整体并入本文。
[0189] 可包括在二分子靶向DNA的RNA中的核苷酸序列的非限制性实例包括在SEQ ID NO:431-562中列出的序列或其与在SEQ ID NO:563-679中列出的任何序列配对的互补序列或其可杂交以形成蛋白质结合区段的互补序列。
[0190] 本发明单分子靶向DNA的RNA包含两段核苷酸(靶向物-RNA和激活物-RNA),所述两段核苷酸彼此互补、通过插入核苷酸(“接头”或“接头核苷酸”)共价连接并且杂交以形成蛋白质结合区段的双链RNA双链体(dsRNA双链体),从而产生茎-环结构(图1B)。靶向物-RNA和激活物-RNA可经过靶向物-RNA的3’端和激活物-RNA的5’端共价连接。或者,靶向物-RNA和激活物-RNA可经过靶向物-RNA的5’端和激活物-RNA的3’端共价连接。
[0191] 单分子靶向DNA的RNA的接头的长度可为约3个核苷酸至约100个核苷酸。例如,接头的长度可为约3个核苷酸(nt)至约90nt、约3个核苷酸(nt)至约80nt、约3个核苷酸(nt)至约70nt、约3个核苷酸(nt)至约60nt、约3个核苷酸(nt)至约50nt、约3个核苷酸(nt)至约40nt、约3个核苷酸(nt)至约30nt、约3个核苷酸(nt)至约20nt或约3个核苷酸(nt)至约
10nt。例如,接头的长度可为约3nt至约5nt、约5nt至约10nt、约10nt至约15nt、约15nt至约
20nt、约20nt至约25nt、约25nt至约30nt、约30nt至约35nt、约35nt至约40nt、约40nt至约
50nt、约50nt至约60nt、约60nt至约70nt、约70nt至约80nt、约80nt至约90nt或约90nt至约
100nt。在一些实施方案中,单分子靶向DNA的RNA的接头为4nt。
[0192] 示例性单分子靶向DNA的RNA包含杂交以形成dsRNA双链体的两段互补核苷酸。在一些实施方案中,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该段的DNA)与在SEQ ID NO:431-562中列出的激活物-RNA(tracrRNA)分子之一或其互补序列在一段至少8个连续核苷酸上至少约60%相同。例如,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该段的DNA)与在SEQ ID NO:431-562中列出的tracrRNA序列之一或其互补序列在一段至少8个连续核苷酸上至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同或100%相同。
[0193] 在一些实施方案中,单分子靶向DNA的RNA的两个互补核苷酸段之一(或编码该段的DNA)与在SEQ ID NO:563-679中列出的靶向物-RNA(crRNA)序列之一或其互补序列在一段至少8个连续核苷酸上至少约60%相同。例如,单分子靶向DNA的RNA的两个互补核苷酸段之一(或编码该段的DNA)与在SEQ ID NO:563-679中列出的crRNA序列之一或其互补序列在一段至少8个连续核苷酸上至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约
99%相同或100%相同。
[0194] crRNA和tracrRNA的适当天然存在的关联对可常规通过在确定适当关联对时考虑物种名称和碱基配对(针对蛋白质结合结构域的dsRNA双链体)而针对SEQ ID NO:431-679确定(参见作为一个非限制性实例的图8)。
[0195] 关于本发明单分子靶向DNA的RNA和本发明双分子靶向DNA的RNA,图57展示与天然存在的tracrRNA和crRNA共有非常少(粗略地50%同一性)的人工序列可与Cas9起作用以裂解靶DNA,只要靶向DNA的RNA的蛋白质结合结构域的结构为保守的。因此,可考虑靶向DNA的RNA的天然存在的蛋白质结合结构域的RNA折叠结构以便设计人工蛋白质结合结构域(二分子形式或单分子形式)。作为一个非限制性实例,基于天然存在的DNA靶向的蛋白质结合区段的结构(例如,包括沿着RNA双链体的相同数目碱基对和包括与存在于天然存在的RNA中相同的“凸出”区)设计图57的功能性人工靶向DNA的RNA。因为结构可易于通过本领域普通技术人员针对来自任何物种的任何天然存在的crRNA:tracrRNA对而产生(参见来自各种各样物种的针对crRNA和tracrRNA序列的SEQ ID NO:431-679),所以人工靶向DNA的RNA可设计成当使用来自所述物种的Cas9(或相关Cas9,参见图32A)时模拟给定物种的天然结构。(参见图24D和实施例1中的相关细节)。因此,适合的靶向DNA的RNA可为人工设计的RNA(非天然存在的),其包含设计成模拟天然存在的靶向DNA的RNA的蛋白质结合结构域的结构的蛋白质结合结构域。(参见SEQ ID NO:431-679,在确定适当关联对时考虑物种名称)。
[0196] 蛋白质结合区段的长度可为约10个核苷酸至约100个核苷酸。例如,蛋白质结合区段的长度可为约15个核苷酸(nt)至约80nt、约15nt至约50nt、约15nt至约40nt、约15nt至约30nt或约15nt至约25nt。
[0197] 还关于本发明单分子靶向DNA的RNA和本发明双分子靶向DNA的RNA,蛋白质结合区段的dsRNA双链体的长度可为约6个碱基对(bp)至约50bp。例如,蛋白质结合区段的dsRNA双链体的长度可为约6bp至约40bp、约6bp至约30bp、约6bp至约25bp、约6bp至约20bp、约6bp至约15bp、约8bp至约40bp、约8bp至约30bp、约8bp至约25bp、约8bp至约20bp或约8bp至约15bp。例如,蛋白质结合区段的dsRNA双链体的长度可为约8bp至约10bp、约10bp至约15bp、约15bp至约18bp、约18bp至约20bp、约20bp至约25bp、约25bp至约30bp、约30bp至约35bp、约
35bp至约40bp或约40bp至约50bp。在一些实施方案中,蛋白质结合区段的dsRNA双链体的长度为36个碱基对。杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比可为至少约60%。例如,杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比可为至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约
90%、至少约95%、至少约98%或至少约99%。在一些情况下,杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比为100%。
[0198] 定点修饰多肽
[0199] 本发明靶向DNA的RNA和本发明定点修饰多肽形成复合物。靶向DNA的RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性(如上所述)。复合物的定点修饰多肽提供位点特异性活性。换言之,定点修饰多肽借助于其与靶向DNA的RNA的至少蛋白质结合区段缔合来引导至DNA序列(例如染色体序列或染色体外序列,例如游离型序列、小环序列、线粒体序列、叶绿体序列等)(以上所述)。
[0200] 本发明定点修饰多肽修饰靶DNA(例如,裂解或甲基化靶DNA)和/或与靶DNA相关的多肽(例如,甲基化或乙酰化组蛋白尾)。定点修饰多肽在本文中还称为“定点多肽”或“RNA结合定点修饰多肽”。
[0201] 在一些情况下,定点修饰多肽为天然存在的修饰多肽。在其它情况下,定点修饰多肽不为天然存在的多肽(例如,如下所讨论的嵌合多肽或经过修饰例如突变、缺失、插入的天然存在的多肽)。
[0202] 示例性天然存在的定点修饰多肽作为天然存在的Cas9/Csn1核酸内切酶的非限制性和非穷尽性列表列于SEQ ID NO:1-255中。如本文所公开的这些天然存在的多肽结合靶向DNA的RNA,因此定向至靶DNA内的特异性序列,并且裂解靶DNA以产生双链断裂。本发明定点修饰多肽包含两个部分,RNA结合部分和活性部分。在一些实施方案中,本发明定点修饰多肽包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)表现出定点酶活性(例如,用于DNA甲基化的活性、用于DNA裂解的活性、用于组蛋白乙酰化的活性、用于组蛋白甲基化的活性等)的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0203] 在其它实施方案中,本发明定点修饰多肽包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)调节靶DNA内的转录(例如,增加或减少转录)的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0204] 在一些情况下,本发明定点修饰多肽具有修饰靶DNA的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)。
[0205] 在其它情况下,本发明定点修饰多肽具有修饰与靶DNA相关的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)。
[0206] 示例性定点修饰多肽
[0207] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0208] 核酸修饰
[0209] 在一些实施方案中,本发明核酸(例如,靶向DNA的RNA)包含一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。如本领域中所已知,核苷为碱基-糖组合。核苷的碱基部分通常为杂环碱基。此类杂环碱基的两个最常见类别为嘌呤和嘧啶。核苷酸为还包括共价连接至核苷的糖部分的磷酸酯基团的核苷。对于包括呋喃戊糖的那些核苷,磷酸酯基团可连接至糖的2'、3'或5'羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。反过来,线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物通常为适合的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架为3'至5'的磷酸二酯键。
[0210] 修饰的骨架和修饰的核苷间键
[0211] 含有修饰的适合的核酸的实例包括含有修饰的骨架或非天然的核苷间键的核酸。核酸(具有修饰的骨架)包括在骨架中保留磷原子的那些和在骨架中不具有磷原子的那些。
[0212] 其中含有磷原子的适合的修饰的寡核苷酸包括例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其它烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯、膦酸盐、氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯、二氨基磷酸酯、硫羰氨基磷酸酯、硫羰烷基磷酸酯、硫羰烷基磷酸三酯、具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯、这些的2'-5'连接类似物以及具有反极性的那些,其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的适合的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键,即可为无碱基(核碱基丢失或其被羟基替代)的单个反转核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。
[0213] 在一些实施方案中,本发明核酸包含一个或多个硫代磷酸酯键和/或杂原子核苷间键,具体为-CH2-NH-O-CH2-、-CH2-N(CH3)-O-CH2-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH2-O-N(CH3)-CH2-、-CH2-N(CH3)-N(CH3)-CH2-以及-O-N(CH3)-CH2-CH2-(其中天然磷酸二酯核苷间键表示为-O-P(=O)(OH)-O-CH2-)。MMI型核苷间键公开于以上提到的美国专利号5,489,677中。适合的酰氨基核苷间键公开于美国专利号5,602,240中。
[0214] 还适合的为具有在例如美国专利号5,034,506中所述的吗啉代骨架结构的核酸。例如,在一些实施方案中,本发明核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中,二氨基磷酸酯或其它非磷酸二酯核苷间键替代磷酸二酯键。
[0215] 其中不包括磷原子的适合的修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括具有以下的那些:吗啉代键(部分地从核苷的糖部分中形成);硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合N、O、S和CH2组成部分的其它骨架。
[0216] 模拟物
[0217] 本发明核酸可为核酸模拟物。当对多核苷酸应用术语“模拟”时旨在包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持用于与适当的靶核酸杂交。一种这样的核酸(已显示出具有优良杂交性质的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中,多核苷酸的糖骨架被含酰氨的骨架替代,具体为氨基乙基甘氨酸骨架。核苷酸被保留下来并且直接或间接结合骨架的酰氨部分的氮杂氮原子。
[0218] 已报道具有优良杂交性质的一种多核苷酸模拟物为肽核酸(PNA)。PNA化合物中的骨架为给予PNA含酰氨骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰氨部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331和5,719,262。
[0219] 已被研究的另一类多核苷酸模拟物基于具有附着至吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不希望的相互作用。基于吗啉代的多核苷酸为不太可能与细胞蛋白质形成不希望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch and David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中。已制备了吗啉代类多核苷酸内的各种化合物,所述化合物具有连接单体亚单元的各种不同连接基团。
[0220] 另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等,J.Am.Chem.Soc.,2000,122,8595-8602)。通常,CeNA单体并入到DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物类似的稳定性的复合物。通过NMR和圆二色性显示CeNA结构并入到天然核酸结构中的研究以继续进行简单的构象调整。
[0221] 另一种修饰包括锁定核酸(LNA),其中2'-羟基连接至糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键,从而形成双环糖部分。链可为亚甲基(-CH2-)(桥联2'氧原子和
4'碳原子的基团),其中n为1或2(Singh等,Chem.Commun.,1998,4,455-456)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm=+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解性质。已描述了含有LNA的有效和非毒性反义寡核苷酸(Wahlestedt等,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638)。
[0222] 已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别性质(Koshkin等,Tetrahedron,1998,54,3607-3630)。LNA及其制备也描述于WO 98/39352和WO 99/14226中。
[0223] 修饰的糖部分
[0224] 本发明核酸还可包括一个或多个取代的糖部分。适合的多核苷酸包含选自以下的糖取代基:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可为取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别适合的为O((CH2)nO)mCH3、O(CH2)nOCH3、O(CH2)nNH2、O(CH2)nCH3、O(CH2)nONH2和O(CH2)nON((CH2)nCH3)2,其中n和m为1至约10。其它适合的多核苷酸包含选自以下的糖取代基:C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷基氨基、多烷基氨基、取代的甲硅烷基、RNA裂解基团、报道基团、嵌入剂、用于改进寡核苷酸的药物代谢动力学性质的基团或用于改进寡核苷酸的药效性质的基团以及具有类似性质的其它取代基。适合的修饰包括2'-甲氧基乙氧基(2'-O-CH2CH2OCH3,又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等,Helv.Chim.Acta,1995,78,486-504),即烷氧基烷氧基。另一适合的修饰包括2'-二甲基氨基氧基乙氧基,即O(CH2)2ON(CH3)2基团,又称为2'-DMAOE,如在下文的实施例中所述;和2'-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE),即2'-O-CH2-O-CH2-N(CH3)2。
[0225] 其它适合的糖取代基包括甲氧基(-O-CH3)、氨基丙氧基(--O CH2CH2CH2NH2)、烯丙基(-CH2-CH=CH2)、-O-烯丙基(--O--CH2—CH=CH2)以及氟(F)。2'-糖取代基可处于阿拉伯糖(上)位或核糖(下)位。适合的2'-阿拉伯糖修饰为2'-F。还可在低聚化合物上的其它位置上做出类似的修饰,具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置和5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物如环丁基部分。
[0226] 碱基修饰和取代
[0227] 本发明核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所使用,“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其它合成和天然的核碱基如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其它烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其它烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C=C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其它炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代、8-氨基、8-巯基、8-硫烷基、8-羟基和其它8-取代的腺嘌呤和鸟嘌呤、5-卤代(具体为5-溴)、5-三氟甲基和其它5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的修饰的核碱基包括三环嘧啶如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。
[0228] 杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其它杂环替代的那些,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer  Science And 
Engineering,第858-859页,Kroschwitz,J.I.编著John Wiley&Sons,1990中的那些、由Englisch等,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编著,CRC Press,1993公开的那些。这些核碱基中的某些有用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶、6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等编著,Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页)并且例如当与2'-O-甲氧基乙基糖修饰组合时为适合的碱基取代。
[0229] 缀合物
[0230] 本发明核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接至多核苷酸。这些部分或缀合物可包括共价结合如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物药效性质的基团以及增强低聚物药物代谢动力学性质的基团。适合的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效性质的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学性质的基团包括改进本发明核酸的吸收、分布、代谢或排泄的基团。
[0231] 缀合物部分包括但不限于:脂质部分如胆固醇部分(Letsinger等,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)、胆酸(Manoharan等,
Bioorg.Med.Chem.Let.,1994,4,1053-1060)、硫醚例如己基-S-三苯甲基硫醇(Manoharan等,Ann.N.Y.Acad.Sci.,1992,660,306-309;Manoharan等,Bioorg.Med.Chem.Let.,1993,
3,2765-2770)、硫代胆固醇(Oberhauser等,Nucl.Acids Res.,1992,20,533-538)、脂肪族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等,EMBO J.,1991,10,1111-1118;
Kabanov等,FEBS Lett.,1990,259,327-330;Svinarchuk等,Biochimie,1993,75,49-54)、磷脂例如二-十六烷基-外消旋甘油或1,2-二-O-十六烷基-外消旋甘油-3-H-磷酸三乙基铵盐(Manoharan等,Tetrahedron Lett.,1995,36,3651-3654;Shea等,Nucl.Acids Res.,
1990,18,3777-3783)、多胺或或聚乙二醇链(Manoharan等,Nucleosides&Nucleotides,
1995,14,969-973)、或金刚烷乙酸(Manoharan等,Tetrahedron Lett.,1995,36,3651-
3654)、棕榈基部分(Mishra等,Biochim.Biophys.Acta,1995,1264,229-237)、或十八烷基胺或己基氨基-羰基-氧基胆固醇部分(Crooke等,J.Pharmacol.Exp.Ther.,1996,277,923-
937。\
[0232] 缀合物可包括“蛋白质转导结构域”或PTD(又称为CPP–细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附着至另一个分子(所述分子可在小极性分子至大分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空隙进入至细胞内空隙或细胞溶质进入至细胞器内。在一些实施方案中,PTD共价连接至外源多肽(例如,定点修饰多肽)的氨基末端。在一些实施方案中,PTD共价连接至外源多肽(例如,定点修饰多肽)的羧基末端。在一些实施方案中,PTD共价连接至核酸(例如,靶向DNA的RNA、编码靶向DNA的RNA的多核苷酸、编码定点修饰多肽的多核苷酸等)。示例性PTD包括但不限于最小十一肽蛋白质转导结构域(对应于包含YG RKKRRQRRR的HIV-1TAT的残基47-57;SEQ ID NO:264);包含许多足以引导实体进入细胞中的精氨酸的聚精氨酸序列(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸);VP22结构域(Zender等(2002)Cancer Gene Ther.9(6):489-96);果蝇触角蛋白质转导结构域(Noguchi等(2003)Diabetes 52(7):1732-1737);截短的人降钙素肽(Trehin等(2004)Pharm.Research  21:1248-1256);聚赖氨酸(Wender等(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKR(SEQ ID NO:265);转运肽(Transportan)GW TLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:266);KALAWE 
AKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:267);和R QIKIWFQNRRMKWKK(SEQ ID NO:
268)。示例性PTD包括但不限于YGRKKRRQRRR(SEQ ID NO:264)、RKKRRQRRR(SEQ ID N O:
269);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下的任何序列:YGR KKRRQRRR(SEQ ID NO:264);RKKRRQRR(SEQ ID NO:
270);YARAAARQARA(SEQ ID NO:271);THRLPRRRRRR(SEQ ID N O:272);以及GGRRARRRRRR(SEQ ID NO:273)。在一些实施方案中,PTD为可激活CPP(ACPP)(Aguilera等(2009)Integr Biol(Cam b)June;1(5-6):371-381)。ACPP包含经过可裂解接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并且从而抑制粘合和吸收到细胞中。当接头裂解时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而使ACPP“激活”以横穿膜。
[0233] 示例性靶向DNA的RNA
[0234] 在一些实施方案中,适合的靶向DNA的RNA包含两个单独的RNA多核苷酸分子。两个单独的RNA多核苷酸分子中的第一个(激活物-RNA)包含在一段至少8个连续核苷酸上与SEQ ID NO:431-562中列出的任一核苷酸序列或其互补序列具有至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或100%核苷酸序列同一性的核苷酸序列。两个单独的RNA多核苷酸分子中的第二个(靶向物-RNA)包含在一段至少8个连续核苷酸上与SEQ ID NO:563-679中列出的任一核苷酸序列或其互补序列具有至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或100%核苷酸序列同一性的核苷酸序列。
[0235] 在一些实施方案中,适合的靶向DNA的RNA为单RNA多核苷酸并且包含在一段至少8个连续核苷酸上与SEQ ID NO:431-562中列出的任一核苷酸序列具有至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约
98%、至少约99%或100%核苷酸序列同一性的第一核苷酸序列和在一段至少8个连续核苷酸上与SEQ ID NO:463-679中列出的任一核苷酸具有至少约60%、至少约65%、至少约
70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约
99%或100%核苷酸序列同一性的第二核苷酸序列。
[0236] 在一些实施方案中,靶向DNA的RNA为双分子靶向DNA的RNA并且靶向物-RNA包含在其5’端处连接至一段与靶DNA互补的核苷酸的序列5’GUUUUAGAGCUA-3’(SEQ ID NO:679)。在一些实施方案中,靶向DNA的RNA为双分子靶向DNA的RNA并且激活物-RNA包含序列5’UAGCAAGUUAAAAUAAGGCUAGUCCG-3’(SEQ ID NO://)。
[0237] 在一些实施方案中,靶向DNA的RNA为单分子靶向DNA的RNA并且包含在其5’端处连接至一段与靶DNA互补的核苷酸的序列5’-GUUUUAGAGCUA-linker-UAGCAAGUUAAAAUAAGGCUAGU CCG-3’(其中“接头”指代可包含任何核苷酸序列的任何接头核苷酸序列)(SEQ ID NO://)。其它示例性单分子靶向DNA的RNA包括SEQ ID NO:680-682中列出的那些。
[0238] 编码本发明靶向DNA的RNA和/或本发明定点修饰多肽的核酸
[0239] 本公开提供一种核酸,所述核酸包含编码本发明靶向DNA的RNA和/或本发明定点修饰多肽的核苷酸序列。在一些实施方案中,编码本发明靶向DNA的RNA的核酸为表达载体,例如重组表达载体。
[0240] 在一些实施方案中,本发明方法涉及使一种或多种核酸接触靶DNA或将一种或多种核酸引入到细胞(或细胞群)中,所述核酸包含编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列。在一些实施方案中,包含靶DNA的细胞为体外的。在一些实施方案中,包含靶DNA的细胞为体内的。包含编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列的适合的核酸包括表达载体,其中包含编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列的表达载体为“重组表达载体”。
[0241] 在一些实施方案中,重组表达载体为病毒构建体,例如重组腺伴随病毒构建体(参见,例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体、重组逆转录病毒构建体等。
[0242] 适合的表达载体包括但不限于病毒载体(例如基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见,例如Li等,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;
Sakamoto等,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;
WO 94/28938;WO 95/11984和WO 95/00655);腺伴随病毒(参见,例如Ali等,Hum Gene Ther 
9:81 86,1998;Flannery等,PNAS 94:6916 6921,1997;Bennett等,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等,Gene Ther 4:683 690,1997;Rolling等,Hum Gene Ther 10:641 648,1999;Ali等,Hum Mol Genet 5:591 594,1996;Srivastava的WO 93/
09239;Samulski等,J.Vir.(1989)63:3822-3828;Mendelson等,Virol.(1988)166:154-
165;以及Flotte等,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人免疫缺陷病毒(参见,例如Miyoshi等,PNAS 94:10319 23,1997;Takahashi等,J Virol 73:7812 7816,
1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。
[0243] 众多适合的表达载体为本领域技术人员已知并且许多为商业上可获得的。通过实例的方式对于真核宿主细胞提供以下载体:pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG以及pSVLSV40(Pharmacia)。然而,可使用任何其它载体,只要所述载体与宿主细胞相容。
[0244] 取决于所使用的宿主/载体系统,可在表达载体中使用任何许多适合的转录和翻译控制元件,包括组成型和诱导型启动子、转录增强子元件、转录终止子等(参见,例如Bitter等(1987)Methods in Enzy mology,153:516-544)。
[0245] 在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,如启动子。转录控制元件可在真核细胞(例如,哺乳动物细胞)或原核细胞(例如,细菌或古细菌细胞)中起作用。在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至允许编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列在原核细胞和真核细胞中表达的多个控制元件。
[0246] 适合的真核启动子(在真核细胞中起作用的启动子)的非限制性实例包括来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子在本领域普通技术人员的水平内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包括用于扩增表达的适当序列。表达载体还可包括编码蛋白质标签(例如,6xHis标签、血凝素标签、绿色荧光蛋白等)的核苷酸序列,所述蛋白质标签融合至定点修饰多肽,从而产生嵌合多肽。
[0247] 在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至组成型启动子。
[0248] 将核酸引入到宿主细胞中的方法为本领域中已知的,并且任何已知的方法可用来将核酸(例如,表达构建体)引入到细胞中。适合的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见,例如Panyam等Adv Drug D eliv Rev.2012 Sep 13.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0249] 嵌合多肽
[0250] 本公开提供嵌合定点修饰多肽。本发明嵌合定点修饰多肽与本发明靶向DNA的RNA(以上所述)相互作用(例如,结合)。靶向DNA的RNA将嵌合定点修饰多肽引导至靶DNA内的靶序列(例如染色体序列或染色体外序列,例如游离型序列、小环序列、线粒体序列、叶绿体序列等)。本发明嵌合定点修饰多肽修饰靶DNA(例如,裂解或甲基化靶DNA)和/或与靶DNA相关的多肽(例如,甲基化或乙酰化组蛋白尾)。
[0251] 本发明嵌合定点修饰多肽修饰靶DNA(例如,裂解或甲基化靶DNA)和/或与靶DNA相关的多肽(例如,甲基化或乙酰化组蛋白尾)。嵌合定点修饰多肽在本文中还称为“嵌合定点多肽”或“嵌合RNA结合定点修饰多肽”。
[0252] 本发明嵌合定点修饰多肽包含两个部分,RNA结合部分和活性部分。本发明嵌合定点修饰多肽包含源自至少两种不同多肽的氨基酸序列。本发明嵌合定点修饰多肽可包含修饰的和/或天然存在的多肽序列(例如,来自修饰的或未修饰的Cas9/Csn1蛋白的第一氨基酸序列;和除了Cas9/Csn1蛋白以外的第二氨基酸序列)。
[0253] RNA结合部分
[0254] 在一些情况下,本发明嵌合定点修饰多肽的RNA结合部分为天然存在的多肽。在其它情况下,本发明嵌合定点修饰多肽的RNA结合部分不为天然存在的分子(修饰的,例如突变、缺失、插入)。感兴趣的天然存在的RNA结合部分源自本领域中已知的定点修饰多肽。例如,SEQ ID NO:1-256和SEQ ID NO:795-1346提供可用作定点修饰多肽的天然存在的Cas9/Csn1核酸内切酶的非限制性和非穷尽性列表。在一些情况下,本发明嵌合定点修饰多肽的RNA结合部分包含与具有如SEQ ID NO:1-256和SEQ ID NO:795-1346所列出的任何氨基酸序列的多肽RNA结合部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或100%氨基酸序列同一性的氨基酸序列。
[0255] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0256] 活性部分
[0257] 除了RNA结合部分以外,嵌合定点修饰多肽包含“活性部分”。在一些实施方案中,本发明嵌合定点修饰多肽的活性部分包含定点修饰多肽(例如,Cas9/Csn1核酸内切酶)的天然存在的活性部分。在其它实施方案中,本发明嵌合定点修饰多肽的活性部分包含定点修饰多肽的天然存在的活性部分的修饰的氨基酸序列(例如,取代、缺失、插入)。感兴趣的天然存在的活性部分源自本领域中已知的定点修饰多肽。例如,SEQ ID NO:1-256和SEQ ID NO:795-1346提供可用作定点修饰多肽的天然存在的Cas9/Csn1核酸内切酶的非限制性和非穷尽性列表。本发明嵌合定点修饰多肽的活性部分为可变的并且可包含可用于本文所公开的方法中的任何异源多肽序列。
[0258] 在一些实施方案中,本发明嵌合定点修饰多肽包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)表现出定点酶活性(例如,用于DNA甲基化的活性、用于DNA裂解的活性、用于组蛋白乙酰化的活性、用于组蛋白甲基化的活性等)的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0259] 在其它实施方案中,本发明嵌合定点修饰多肽包含:(i)与靶向DNA的RNA相互作用的RNA结合部分,其中靶向DNA的RNA包含与靶DNA中的序列互补的核苷酸序列;以及(ii)调节靶DNA内的转录(例如,增加或减少转录)的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0260] 在一些情况下,本发明嵌合定点修饰多肽的活性部分具有修饰靶DNA的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)。
[0261] 在其它情况下,本发明嵌合定点修饰多肽的活性部分具有修饰与靶DNA相关的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)。
[0262] 在一些情况下,本发明嵌合定点修饰多肽的活性部分表现出酶活性(以上所述)。在其它情况下,本发明嵌合定点修饰多肽的活性部分调节靶DNA的转录(以上所述)。本发明嵌合定点修饰多肽的活性部分为可变的并且可包含可用于本文所公开的方法中的任何异源多肽序列。
[0263] 示例性嵌合定点修饰多肽
[0264] 在一些实施方案中,嵌合定点修饰多肽的活性部分包含Cas9/Csn1蛋白的修饰形式。在一些例子中,Cas9/Csn1蛋白的修饰形式包含减小Cas9/Csn1蛋白的天然存在的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些例子中,Cas9/Csn1蛋白的修饰形式具有小于50%、小于40%、小于30%、小于20%、小于10%、小于5%或小于1%的对应野生型Cas9/Csn1多肽的核酸酶活性。在一些情况下,Cas9/Csn1多肽的修饰形式大致上不具有核酸酶活性。
[0265] 在一些实施方案中,Cas9/Csn1多肽的修饰形式为可裂解靶DNA的互补链但对靶DNA的非互补链具有减小的裂解能力的D10A(在SEQ ID NO:8的氨基酸位置10上的天冬氨酸至丙氨酸)突变(或在SEQ ID NO:1-256和795-1346中呈现的任何蛋白质的对应突变)(参见图11)。在一些实施方案中,Cas9/Csn1多肽的修饰形式为可裂解靶DNA的非互补链但对靶DNA的互补链具有减小的裂解能力的H840A(在氨基酸位置840上的组氨酸至丙氨酸)突变(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)(参见图11)。在一些实施方案中,Cas9/Csn1多肽的修饰形式具有D10A和H840A突变(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)以使得多肽对靶DNA的互补链和非互补链均具有减小的裂解能力。可使其它残基突变以实现以上作用(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,可改变(即,取代)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)(更多关于Cas9氨基酸残基保守性的信息参见图3、图5、图11A和表1)。同样,除了丙氨酸取代以外的突变也为适合的。更多重要的信息
[0266] 表1.表1列出存在于来自各种物种的Cas9序列中的4个基序(还参见图3和图5)。在此列出的氨基酸来自酿脓链球菌的Cas9(SEQ ID NO:8)。
[0267]
[0268] 在一些情况下,嵌合定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性的氨基酸序列。在一些情况下,嵌合定点修饰多肽包含4个基序(如在表4中所列出并且在图3A和图5中所描绘),每一个基序具有与表1中列出的4个基序(SEQ ID NO:260-263)中的每一个基序或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性的氨基酸序列。在一些情况下,嵌合定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性的氨基酸序列。
[0269] 在一些实施方案中,定点修饰多肽的活性部分包含具有DNA修饰活性和/或转录因子活性和/或DNA相关的多肽修饰活性的异源多肽。在一些情况下,异源多肽替代提供核酸酶活性的Cas9/Csn1多肽的部分。在其它实施方案中,本发明定点修饰多肽包含通常提供核酸酶活性的Cas9/Csn1多肽的部分(并且所述部分可为完全活性的或可替代地被修饰成具有小于100%的对应野生型活性)和异源多肽。换言之,在一些情况下,本发明嵌合定点修饰多肽为包含通常提供核酸酶活性的Cas9/Csn1多肽的部分和异源多肽的融合多肽。在其它情况下,本发明嵌合定点修饰多肽为包含Cas9/Csn1多肽的活性部分的修饰变体(例如,氨基酸变化、缺失、插入)和异源多肽的融合多肽。在又其它情况下,本发明嵌合定点修饰多肽为包含异源多肽和天然存在的或修饰的定点修饰多肽的RNA结合部分的融合多肽。
[0270] 例如,在嵌合Cas9/Csn1蛋白中,天然存在的(或修饰的,例如突变、缺失、插入)细菌Cas9/Csn1多肽可融合至异源多肽序列(即来自除了Cas9/Csn1以外的蛋白质的多肽序列或来自另一种生物的多肽序列)。异源多肽序列可表现出将还由嵌合Cas9/Csn1蛋白(例如,甲基转移酶活性、乙酰基转移酶活性、激酶活性、去泛素活性等)所表现出的活性(例如,酶活性)。异源核酸序列可连接至另一个核酸序列(例如,通过基因工程化)以产生编码嵌合多肽的嵌合核苷酸序列。在一些实施方案中,嵌合Cas9/Csn1多肽通过将Cas9/Csn1多肽(例如,野生型Cas9或Cas9变体,例如具有减小的或失活的核酸酶活性的Cas9)与提供亚细胞定位的异源序列(例如,用于靶向细胞核的核定位信号(NLS);用于靶向线粒体的线粒体定位信号;用于靶向叶绿体的叶绿体定位信号;ER滞留信号等)融合来产生。在一些实施方案中,异源序列可提供便于追踪或纯化的标签(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;HIS标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。在一些实施方案中,异源序列可提供增加的或减小的稳定性。在一些实施方案中,异源序列可提供结合结构域(例如,以提供嵌合Cas9多肽结合感兴趣的另一种蛋白质的能力,所述蛋白质例如DNA或组蛋白修饰蛋白、转录因子或转录阻抑物、募集蛋白(recruiting protein)等)。
[0271] 用于本发明变体Cas9定点多肽的各种另外适合的融合配偶体(或其片段)的实例包括但不限于在图54中列出的那些。
[0272] 编码本发明嵌合定点修饰多肽的核酸
[0273] 本公开提供包含编码本发明嵌合定点修饰多肽的核苷酸序列的核酸。在一些实施方案中,包含编码本发明嵌合定点修饰多肽的核苷酸序列的核酸为表达载体,例如重组表达载体。
[0274] 在一些实施方案中,本发明方法涉及使一种或多种包含嵌合定点修饰多肽的核酸接触靶DNA或将一种或多种所述核酸引入到细胞(或细胞群)中。包含编码嵌合定点修饰多肽的核苷酸序列的适合的核酸包括表达载体,其中包含编码嵌合定点修饰多肽的核苷酸序列的表达载体为“重组表达载体”。
[0275] 在一些实施方案中,重组表达载体为病毒构建体,例如重组腺伴随病毒构建体(参见,例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体等。
[0276] 适合的表达载体包括但不限于病毒载体(例如基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见,例如Li等,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;
Sakamoto等,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;
WO 94/28938;WO 95/11984和WO 95/00655);腺伴随病毒(参见,例如Ali等,Hum Gene Ther 
9:81 86,1998;Flannery等,PNAS 94:6916 6921,1997;Bennett等,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等,Gene Ther 4:683 690,1997;Rolling等,Hum Gene Ther 10:641 648,1999;Ali等,Hum Mol Genet 5:591 594,1996;Srivastava的WO 93/
09239;Samulski等,J.Vir.(1989)63:3822-3828;Mendelson等,Virol.(1988)166:154-
165;以及Flotte等,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人免疫缺陷病毒(参见,例如Miyoshi等,PNAS 94:10319 23,1997;Takahashi等,J Virol 73:7812 7816,
1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。
[0277] 众多适合的表达载体为本领域技术人员已知并且许多为商业上可获得的。通过实例的方式对于真核宿主细胞提供以下载体:pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG以及pSVLSV40(Pharmacia)。然而,可使用任何其它载体,只要所述载体与宿主细胞相容。
[0278] 取决于所使用的宿主/载体系统,可在表达载体中使用任何许多适合的转录和翻译控制元件,包括组成型和诱导型启动子、转录增强子元件、转录终止子等(参见,例如Bitter等(1987)Methods in Enzymology,153:516-544)。
[0279] 在一些实施方案中,编码嵌合定点修饰多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,如启动子。转录控制元件可在真核细胞(例如,哺乳动物细胞)或原核细胞(例如,细菌或古细菌细胞)中起作用。在一些实施方案中,编码嵌合定点修饰多肽的核苷酸序列可操作地连接至允许编码嵌合定点修饰多肽的核苷酸序列在原核细胞和真核细胞中表达的多个控制元件。
[0280] 适合的真核启动子(在真核细胞中起作用的启动子)的非限制性实例包括来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子在本领域普通技术人员的水平内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包括用于扩增表达的适当序列。表达载体还可包括编码融合至嵌合定点修饰多肽的蛋白质标签(例如,6xHis标签、血凝素(HA)标签、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)等)的核苷酸序列。
[0281] 在一些实施方案中,编码嵌合定点修饰多肽的核苷酸序列可操作地连接至诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)。在一些实施方案中,编码嵌合定点修饰多肽的核苷酸序列可操作地连接至空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)。在一些实施方案中,编码嵌合定点修饰多肽的核苷酸序列可操作地连接至组成型启动子。
[0282] 将核酸引入到宿主细胞中的方法为本领域中已知的,并且任何已知的方法可用来将核酸(例如,表达构建体)引入到干细胞或祖细胞中。适合的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见,例如Panyam等Adv Drug Deliv Rev.2012 Sep 13.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0283] 方法
[0284] 本公开提供用于修饰靶DNA和/或靶DNA相关的多肽的方法。通常,本发明方法涉及使靶DNA与复合物(“靶复合物”)接触,所述复合物包含靶向DNA的RNA和定点修饰多肽。
[0285] 如上所讨论,本发明靶向DNA的RNA和本发明定点修饰多肽形成复合物。靶向DNA的RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性。复合物的定点修饰多肽提供位点特异性活性。在一些实施方案中,本发明复合物修饰靶DNA,导致例如DNA裂解、DNA甲基化、DNA损坏、DNA修复等。在其它实施方案中,本发明复合物修饰与靶DNA相关的靶多肽(例如,组蛋白、DNA结合蛋白等),导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。靶DNA可例如为体外裸露的DNA、体外细胞中的染色体DNA、体内细胞中的染色体DNA等。
[0286] 在一些情况下,定点修饰多肽表现出在通过靶向DNA的RNA与靶DNA之间的互补区限定的靶DNA序列上裂解靶DNA的核酸酶活性。在一些情况下,当定点修饰多肽为Cas9或Cas9相关的多肽时,靶DNA的位点特异性裂解发生在通过以下所确定的位置上:(i)靶向DNA的RNA与靶DNA之间的碱基配对互补性;和(ii)靶DNA中的短基序[称为原型间隔区相邻基序(PAM)]。在一些实施方案中(例如,当使用来自酿脓链球菌的Cas9或密切相关的Cas9时(参见SEQ ID NO:1-256和795-1346)),非互补链的PAM序列为5’-XGG-3’,其中X为任何DNA核苷酸并且X紧挨着靶DNA的非互补链的靶序列的3’端(参见图10)。因此,互补链的PAM序列为5’-CCY-3’,其中Y为任何DNA核苷酸并且Y紧挨着靶DNA的互补链的靶序列的5’端(参见图
10,其中非互补链的PAM为5’-GGG-3’并且互补链的PAM为5’-CCC-3’)。在一些此类实施方案中,X和Y为互补的并且X-Y碱基对可为任何碱基对(例如,X=C和Y=G;X=G和Y=C;X=A和Y=T;X=T和Y=A)。
[0287] 在一些情况下,不同Cas9蛋白(即,来自各种物种的Cas9蛋白)可有利地用于各种提供的方法中以便利用不同Cas9蛋白的各种酶特征(例如,用于不同PAM序列偏好;用于增加的或减小的酶活性;用于增加的或减小的细胞毒性水平;以改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡)。来自各种物种的Cas9蛋白(参见SEQ ID NO:1-256和795-1346)可在靶DNA中要求不同PAM序列。因此,对于所选择的具体Cas9蛋白,PAM序列要求可与以上所述的5’-XGG-3’序列不同。
[0288] 本文已鉴定出来自各种各样物种的许多Cas9直向同源物并且蛋白质仅共有少数相同的氨基酸。所有鉴定出的Cas9直向同源物具有相同的结构域构造,具有中心HNH核酸内切酶结构域和分开的RuvC/RNA酶H结构域(参见图3A、图3B、图5和表1)。Cas9蛋白共有具有保守构造的4个关键基序。基序1、基序2和基序4为RuvC样基序,而基序3为HNH基序。在一些情况下,适合的定点修饰多肽包含具有4个基序的氨基酸序列,基序1-4中的每一个基序具有与图3A中描绘的Cas9/Csn1氨基酸序列的基序1-4(分别如在表1中所描绘的SEQ ID NO:260-263)或与在SEQ ID NO:1-256和795-1346中列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性(参见来自不同Cas9序列的基序1-4比对的图5)。在一些情况下,适合的定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性的氨基酸序列。如上所定义的任何Cas9蛋白可用作定点修饰多肽或本发明方法的嵌合定点修饰多肽的一部分。
[0289] 核酸酶活性使靶DNA裂解以产生双链断裂。然后这些断裂以两种方式之一通过细胞来修复:非同源末端连接和同源定向修复(图2)。在非同源末端连接(NHEJ)中,双链断裂通过断裂端彼此直接连接来修复。因此,没有新的核酸物质插入到位点中,虽然一些核酸物质可能丢失,从而导致缺失。在同源定向修复中,具有与裂解的靶DNA序列同源的供体多核苷酸用作修复裂解的靶DNA序列的模板,从而导致遗传信息从供体多核苷酸向靶DNA转移。因此,新的核酸物质可能插入/拷贝到位点中。在一些情况下,使靶DNA与本发明供体多核苷酸接触。在一些情况下,将本发明供体多核苷酸引入到本发明细胞中。由于NHEJ和/或同源定向修复引起的靶DNA修饰导致例如基因校正、基因替代、基因标签、转基因插入、核苷酸缺失、基因破坏、基因突变等。
[0290] 因此,通过定点修饰多肽进行的DNA裂解可用来通过裂解靶DNA序列和允许细胞在没有外源提供的供体多核苷酸情况下修复序列而使核酸物质从靶DNA序列缺失(例如,以破坏使细胞易受感染的基因(例如,CCR5或CXCR4基因,其使T细胞易受HIV感染)、以去除神经元中的致病三核苷酸重复序列、以产生作为研究中的疾病模型的基因敲除和突变等)。因此,本发明方法可用来敲除基因(导致完全缺乏转录或转录改变)或将一般物质敲到靶DNA中的所选择的基因座中。
[0291] 或者,如果使用包括与靶DNA序列具有同源性的至少一个区段的供体多核苷酸序列将靶向DNA的RNA和定点修饰多肽共同施用至细胞,本发明方法可用来将核酸物质添加(即插入或替代)至靶DNA序列(例如以“敲入”编码蛋白质的核酸、siRNA、miRNA等)、添加标签(例如,6xHis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(HA)、FLAG等)、将调节序列添加至基因(例如启动子、多腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等)、修饰核酸序列(例如,引入突变)等。因此,包含靶向DNA的RNA和定点修饰多肽的复合物有用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA,例如基因敲除、基因敲入、基因编辑、基因标签等,例如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法、出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产、iPS细胞诱导、生物研究、用于缺失或替代的病原体基因的靶向等中所使用。
[0292] 在一些实施方案中,定点修饰多肽包含Cas9/Csn1蛋白的修饰形式。在一些例子中,Cas9/Csn1蛋白的修饰形式包含减小Cas9/Csn1蛋白的天然存在的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些例子中,Cas9/Csn1蛋白的修饰形式具有小于50%、小于40%、小于30%、小于20%、小于10%、小于5%或小于1%的对应野生型Cas9/Csn1多肽的核酸酶活性。在一些情况下,Cas9/Csn1多肽的修饰形式大致上不具有核酸酶活性。当本发明定点修饰多肽为大致上不具有核酸酶活性的Cas9/Csn1多肽的修饰形式时,它可称为“dCas9”。
[0293] 在一些实施方案中,Cas9/Csn1多肽的修饰形式为可裂解靶DNA的互补链但对靶DNA的非互补链具有减小的裂解能力(从而产生单链断裂(SSB)而不是DSB;参见图11)的D10A(在SEQ ID NO:8的氨基酸位置10上的天冬氨酸至丙氨酸)突变(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)。在一些实施方案中,Cas9/Csn1多肽的修饰形式为可裂解靶DNA的非互补链但对靶DNA的互补链具有减小的裂解能力(从而产生单链断裂(SSB)而不是DSB;参见图11)的H840A(在SEQ ID NO:8的氨基酸位置840上的组氨酸至丙氨酸)突变(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)。使用Cas9的D10A或H840A变体(或在如SEQ ID NO:1-256和795-1346所列出的任何蛋白质中的对应突变)可改变预期的生物结果,因为当存在DSB时比存在SSB时更可能发生非同源末端连接(NHEJ)。因此,在人们希望减少DSB可能性(并且因此减少NHEJ可能性)的一些情况下,可使用Cas9的D10A或H840A变体。可使其它残基突变以实现相同作用(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,可改变(即,取代)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)(更多关于Cas9氨基酸残基保守性的信息参见图3、图5、图11A和表1)。同样,除了丙氨酸取代以外的突变也为适合的。在当定点多肽(例如,定点修饰多肽)具有减小的催化活性时(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变,例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)的一些实施方案中,多肽仍可以位点特异性方式结合靶DNA(因为它仍通过靶向DNA的RNA引导至靶DNA序列),只要所述多肽保留与靶向DNA的RNA相互作用的能力。
[0294] 在一些实施方案中,Cas9/Csn1多肽的修饰形式具有D10A和H840A突变(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)以使得多肽对靶DNA的互补链和非互补链均具有减小的裂解能力(即变体可大致上不具有核酸酶活性)。可使其它残基突变以实现相同作用(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,可改变(即,取代)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)(更多关于Cas9氨基酸残基保守性的信息参见图3、图5、图11A和表1)。同样,除了丙氨酸取代以外的突变也为适合的。
[0295] 在一些实施方案中,定点修饰多肽包含异源序列(例如,融合)。在一些实施方案中,异源序列可提供定点修饰多肽的亚细胞定位(例如,用于靶向细胞核的核定位信号(NLS);用于靶向线粒体的线粒体定位信号;用于靶向叶绿体的叶绿体定位信号;ER滞留信号等)。在一些实施方案中,异源序列可提供便于追踪或纯化的标签(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;his标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。在一些实施方案中,异源序列可提供增加的或减小的稳定性。
[0296] 在一些实施方案中,本发明定点修饰多肽可为密码子优化的。此类型的优化为本领域中已知的并且需要外源DNA突变以模拟意图的宿主生物或细胞的密码子偏好同时编码相同蛋白质。因此,改变密码子,但编码蛋白质仍未变。例如,如果意图的靶细胞为人细胞,人密码子优化的Cas9(或变体,例如酶失活的变体)将为适合的定点修饰多肽(参见例如SEQ ID NO:256)。任何适合的定点修饰多肽(例如像在SEQ ID NO:1-256和795-1346中列出的任何序列的任何Cas9)可为密码子优化的。作为另一个非限制性实例,如果意图的宿主细胞为小鼠细胞,则小鼠密码子优化的Cas9(或变体,例如酶失活的变体)将为适合的定点修饰多肽。虽然不要求密码子优化,但在某些情况下它为可接受的并且可为优选的。
[0297] 在一些实施方案中,本发明靶向DNA的RNA和本发明定点修饰多肽用作用于切断细菌细胞中的基因表达的可诱导系统。在一些情况下,将编码适当靶向DNA的RNA和/或适当定点多肽的核酸并入到靶细胞的染色体中并且在诱导型启动子的控制之下。当诱导靶向DNA的RNA和/或定点多肽时,当靶向DNA的RNA和定点修饰多肽均存在并且形成复合物时,靶DNA在感兴趣的位置(例如,单独质粒上的靶基因)上裂解(或以另外的方式修饰)。因此,在一些情况下,工程化细菌表达菌株以包括核酸序列,所述核酸序列编码细菌基因组中的适当定点修饰多肽和/或质粒上的适当靶向DNA的RNA(例如,在诱导型启动子的控制之下)、允许其中任何靶向的基因(由引入到菌株中的单独质粒表达)的表达可通过诱导靶向DNA的RNA和定点多肽的表达来控制的实验。
[0298] 在一些情况下,定点修饰多肽具有以除了引入双链断裂以外的方式修饰靶DNA的酶活性。可用来修饰靶DNA(例如,通过将具有酶活性的异源多肽融合至定点修饰多肽,从而产生嵌合定点修饰多肽)的感兴趣的酶活性包括但不限于甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)。甲基化和脱甲基化在本领域中公认为表观遗传性基因调节的重要方式,而DNA损伤和修复活性为细胞存活和维持适当基因组对环境应激的反应所必需的。
[0299] 因此,本文的方法可用于靶DNA的表观遗传修饰并且可用来通过将希望的互补核酸序列基因工程化到靶向DNA的RNA的DNA靶向区段中而在靶DNA中的任何位置上控制靶DNA的表观遗传修饰。本文的方法还可用于靶DNA内的任何希望位置上的有意和受控制的DNA损伤。本文的方法还可用于靶DNA内的任何希望位置上的序列特异性和受控制的DNA修复。将DNA修饰酶活性靶向靶DNA中的特异性位置的方法可用于研究应用和临床应用中。
[0300] 在一些情况下,定点修饰多肽具有调节靶DNA转录的活性(例如,在嵌合定点修饰多肽等的情况下)。在一些情况下,包含表现出增加或减少转录能力的异源多肽(例如,转录激活物多肽或转录阻抑物多肽)的嵌合定点修饰多肽用来在靶DNA中的特异性位置上增加或减少靶DNA的转录,这通过靶向DNA的RNA的DNA靶向区段来引导。用于为嵌合定点修饰多肽提供转录调节活性的来源多肽的实例包括但不限于光诱导转录调节物、小分子/药物反应性转录调节物、转录因子、转录阻抑物等。在一些情况下,本发明方法用来控制靶向的编码RNA(蛋白质编码基因)和/或靶向的非编码RNA(例如,tRNA、rRNA、snoRNA、siRNA、miRNA、长ncRNA等)的表达。
[0301] 在一些情况下,定点修饰多肽具有修饰与DNA相关的多肽(例如,组蛋白)的酶活性。在一些实施方案下,酶活性为甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性(即,泛素化活性)、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)或去糖基化活性。本文列出的酶活性催化对蛋白质的共价修饰。此类修饰为本领域中已知改变靶蛋白的稳定性或活性(例如,由于激酶活性引起的磷酸化可取决于靶蛋白刺激或沉默蛋白质活性)。特别感兴趣的蛋白质靶标为组蛋白。组蛋白为本领域中已知结合DNA并且形成称为核小体的复合物。可修饰(例如,通过甲基化、乙酰化、泛素化、磷酸化)组蛋白以引发周围DNA中的结构变化,从而控制潜在大部分DNA对相互作用因子如转录因子、聚合酶等的可接近性。可以许多不同方式并且以许多不同组合修饰单个组蛋白(例如,组蛋白3的赖氨酸27(H3K27)的三甲基化与受阻抑转录的DNA区相关,而组蛋白3的赖氨酸4(H3K4)的三甲基化与活性转录的DNA区相关)。因此,具有组蛋白修饰活性的定点修饰多肽可用于DNA结构的位点特异性控制并且可用来改变靶DNA的所选择的区中的组蛋白修饰形式。此类方法可用于研究应用和临床应用中。
[0302] 在一些实施方案中,同时使用多个靶向DNA的RNA来同时修饰相同靶DNA上或不同靶DNA上的不同位置。在一些实施方案中,两个或更多个靶向DNA的RNA靶向相同基因或转录物或基因座。在一些实施方案中,两个或更多个靶向DNA的RNA靶向不同不相关的基因座。在一些实施方案中,两个或更多个靶向DNA的RNA靶向不同但相关的基因座。
[0303] 在一些情况下,定点修饰多肽直接提供为蛋白质。作为一个非限制性实例,可使用原生质球转化用外源蛋白质和/或核酸转化真菌(例如,酵母)(参见Kawai等,Bioeng Bugs.2010 Nov-Dec;1(6):395-403:“Transformation of Saccharomyces cerevisiae and other fungi:methods and possible underlying mechanism”;和Tanka等,Nature.2004 Mar 18;428(6980):323-8:“Conformational variations in an infectious protein determine prion strain differences”;所述参考文献均以引用的方式整体并入本文)。因此,定点修饰多肽(例如,Cas9)可并入到原生质球(具有或不具有编码靶向DNA的RNA的核酸并且具有或不具有供体多核苷酸)中并且原生质球可用来将内容物引入到酵母细胞中。可通过任何合宜方法将定点修饰多肽引入到细胞中(提供至细胞);此类方法为本领域普通技术人员所已知的。作为另一个非限制性实例,可将定点修饰多肽直接注射到细胞(例如,具有或不具有编码靶向DNA的RNA的核酸并且具有或不具有供体多核苷酸)中,例如斑马鱼胚胎的细胞、受精小鼠卵母细胞的原核等。
[0304] 感兴趣的靶细胞
[0305] 在一些以上应用中,可采用本发明方法来诱导体内和/或离体和/或体外有丝分裂细胞或有丝分裂后细胞中的DNA裂解、DNA修饰和/或转录调节(例如,以便产生可重新引入到个体中的遗传修饰的细胞)。因为靶向DNA的RNA通过与靶DNA杂交来提供特异性,所以所公开方法中的感兴趣的有丝分裂和/或有丝分裂后细胞可包括来自任何生物的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物细胞;植物细胞;藻类细胞,例如布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens C.Agardh)等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人的细胞等)。
[0306] 任何类型的细胞可为感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导的多能干(iPS)细胞、生殖细胞;体细胞,例如成纤维细胞、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞,例如1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎等)。细胞可来自已建立的细胞系或它们可为原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指源自受试者并且允许在体外生长有限次数的传代(即,使培养物分裂)的细胞和细胞培养物。例如,原代培养物为可传代0次、1次、2次、4次、5次、10次或15次但没有传代通过转折期的足够次数的培养物。通常,本发明的原代细胞系在体外维持少于10代。在许多实施方案中,靶细胞为单细胞生物或在培养物中生长。
[0307] 如果细胞为原代细胞,它们可通过任何合宜方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等的细胞通过活组织检查最方便地收获。适当的溶液可用于分散或悬浮所收获的细胞。此种溶液将通常为方便地用胎牛血清或其它天然存在的因子补充、连同低浓度(通常5-25mM)可接受的缓冲液的平衡盐溶液,例如生理盐水、磷酸盐缓冲盐水(PBS)、汉克平衡盐溶液等。合宜的缓冲液包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。细胞可立即使用或它们可储藏、冷冻较长的一段时间、解冻并且能够重新使用。在此类情况下,细胞将通常在10%DMSO、50%血清、40%缓冲介质或如通常用于本领域中在此类冷冻温度下保存细胞的一些其它此种溶液中冷冻并且以如本领域中通常已知用于解冻被冷冻的培养的细胞的方式解冻。
[0308] 编码本发明靶向DNA的RNA和/或本发明定点修饰多肽的核酸
[0309] 在一些实施方案中,本发明方法涉及使一种或多种核酸接触靶DNA或将一种或多种核酸引入到细胞(或细胞群)中,所述核酸包含编码靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的核苷酸序列。包含编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列的适合的核酸包括表达载体,其中包含编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列的表达载体为“重组表达载体”。
[0310] 在一些实施方案中,重组表达载体为病毒构建体,例如重组腺伴随病毒构建体(参见,例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体等。
[0311] 适合的表达载体包括但不限于病毒载体(例如基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见,例如Li等,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;
Sakamoto等,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;
WO 94/28938;WO 95/11984和WO 95/00655);腺伴随病毒(参见,例如Ali等,Hum Gene Ther 
9:81 86,1998;Flannery等,PNAS 94:6916 6921,1997;Bennett等,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等,Gene Ther 4:683 690,1997;Rolling等,Hum Gene Ther 10:641 648,1999;Ali等,Hum Mol Genet 5:591 594,1996;Srivastava的WO 93/
09239;Samulski等,J.Vir.(1989)63:3822-3828;Mendelson等,Virol.(1988)166:154-
165;以及Flotte等,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人免疫缺陷病毒(参见,例如Miyoshi等,PNAS 94:10319 23,1997;Takahashi等,J Virol 73:7812 7816,
1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。
[0312] 众多适合的表达载体为本领域技术人员已知并且许多为商业上可获得的。通过实例的方式对于真核宿主细胞提供以下载体:pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG以及pSVLSV40(Pharmacia)。然而,可使用任何其它载体,只要所述载体与宿主细胞相容。
[0313] 在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,如启动子。转录控制元件可在真核细胞(例如,哺乳动物细胞)或原核细胞(例如,细菌或古细菌细胞)中起作用。在一些实施方案中,编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列可操作地连接至允许编码靶向DNA的RNA和/或定点修饰多肽的核苷酸序列在原核细胞和真核细胞中表达的多个控制元件。
[0314] 取决于所使用的宿主/载体系统,可在表达载体中使用任何许多适合的转录和翻译控制元件,包括组成型和诱导型启动子、转录增强子元件、转录终止子等(例如,U6启动子、H1启动子等;参见上文)(参见,例如Bitter等(1987)Methods in Enzymology,153:516-544)。
[0315] 在一些实施方案中,靶向DNA的RNA和/或定点修饰多肽可提供为RNA。在此类情况下,靶向DNA的RNA和/或编码定点修饰多肽的RNA可通过直接化学合成来产生或可从编码靶向DNA的RNA的DNA在体外转录。从DNA模板合成RNA的方法为本领域中熟知的。在一些情况下,靶向DNA的RNA和/或编码定点修饰多肽的RNA将使用RNA聚合酶(例如,T7聚合酶、T3聚合酶、SP6聚合酶等)在体外合成。一旦合成,RNA可直接接触靶DNA或可通过用于将核酸引入到细胞中的任何熟知的技术(例如,微注射、电穿孔、转染等)而引入到细胞中。
[0316] 可使用开发良好的转染技术向细胞提供编码靶向DNA的RNA(作为DNA或RNA引入)和/或定点修饰多肽(作为DNA或RNA引入)和/或供体多核苷酸的核苷酸;参见,例如Angel和Yanik(2010)PLoS ONE 5(7):e11756,并且商业上可获得的 试剂来自Qiagen、StemfectTM RNA转染试剂盒来自Stemgent并且 -mRNA转染试剂盒来自
Mirus Bio LLC。还参见Beumer等(2008)Efficient gene targeting in Drosophila by direct embryo injection with zinc-finger nucleases.PNAS 105(50):19821-19826。
或者,可在DNA载体上提供编码靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的核酸。有用于将核酸转移到靶细胞中的许多载体例如质粒、粘粒、小环、噬菌体、病毒等为可获得的。包含核酸的载体可以游离形式维持为例如质粒、小环DNA、病毒如巨细胞病毒、腺病毒等,或可通过同源重组或随机整合将所述载体整合到靶细胞基因组中,例如逆转录病毒来源的载体如MMLV、HIV-1、ALV等。
[0317] 可直接向本发明细胞提供载体。换言之,使细胞与包含编码靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的核酸的载体接触以使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂转染)为本领域中熟知的。对于病毒载体递送,使细胞与包含编码靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的核酸的病毒颗粒接触。逆转录病毒例如慢病毒特别适用于本发明的方法。通常使用的逆转录病毒载体为“缺陷的”,即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了产生包含感兴趣的核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入到衣壳中的不同包膜蛋白(亲嗜性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的亲嗜性;对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞以外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将包含编码重新编程因子的核酸的逆转录病毒载体引入到包装细胞系中和收集通过包装细胞系产生的病毒颗粒的方法为本领域中熟知的。还可通过直接微注射引入核酸(例如,将RNA注射到斑马鱼胚胎中)。
[0318] 用于向本发明细胞提供编码靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的核酸的载体将通常包含用于驱动表达(即转录激活感兴趣的核酸)的适合的启动子。换言之,感兴趣的核酸将可操作地连接至启动子。所述启动子可包括泛素作用启动子,例如CMV-β-肌动蛋白启动子,或诱导型启动子,如在具体细胞群中有活性或对药物如四环素的存在有反应的启动子。通过转录激活,预期转录将在靶细胞中的基础水平以上增加至少约10倍、至少约100倍、更通常地至少约1000倍。另外,用于向本发明细胞提供靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的载体可包括编码靶细胞中的可选择标志物的核酸序列,以便鉴定已吸收靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽和/或供体多核苷酸的细胞。
[0319] 本发明靶向DNA的RNA和/或定点修饰多肽和/或嵌合定点修饰多肽可替代地用来接触DNA或作为RNA引入到细胞中。将RNA引入到细胞中的方法为本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其它方法。
[0320] 本发明定点修饰多肽可替代地作为多肽提供至细胞。这样的多肽可任选地融合至增加产物溶解度的多肽结构域。结构域可通过限定的蛋白酶裂解位点,例如通过TEV蛋白酶裂解的TEV序列连接至多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的裂解在维持产物溶解度的缓冲液中,例如在0.5M至2M尿素存在下、在多肽和/或增加溶解度的多核苷酸存在下等进行。感兴趣的结构域包括核内体溶解结构域,例如流感HA结构域;和辅助产生的其它多肽,例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如,肽可为PEG化的,其中聚乙烯氧基提供增强的在血流中的寿命。
[0321] 另外或可选地,本发明定点修饰多肽可融合至多肽穿透结构域以促进被细胞吸收。许多穿透结构域为本领域中已知的并且可用于本发明的非整合多肽中,包括肽、肽模拟物和非肽载体。例如,穿透肽可源自黑腹果蝇转录因子Antennapaedia(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO://)。作为另一个实例,穿透肽包含HIV-1tat碱性区氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其它穿透结构域包括聚精氨酸基序,例如HIV-1rev蛋白的氨基酸34-56的区、九精氨酸、八精氨酸等。(参见,例如Futaki等(2003)Curr Protein Pept Sci.2003 Apr;4(2):87-9和446;和Wender等(2000)Proc.Natl.Acad.Sci.U.S.A 2000 Nov.21;97(24):13003-8;出版的美国专利申请20030220334;20030083256;20030032593和
20030022831,对于易位肽和类肽的教义以引用的方式确切地并入本文)。九精氨酸(R9)序列为已表征的更有效的PTD之一(Wender等2000;Uemura等2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最优位点。
[0322] 本发明定点修饰多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠例如热变性、DTT还原等进一步加工,并且可使用本领域已知的方法进一步再折叠。
[0323] 不改变原始序列的感兴趣的修饰包括多肽的化学衍生,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在其合成和加工过程中或在另外加工步骤中修饰多肽的糖基化形式;例如通过将多肽暴露于影响糖基化的酶如哺乳动物糖基化酶或脱糖基化酶而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
[0324] 在本发明中还包括使用一般分子生物技术和合成化学来修饰的靶向DNA的RNA和定点修饰多肽,以便改进它们对蛋白酶水解降解的抗性、改变靶序列特异性、优化溶解性质、改变蛋白质活性(例如,转录调节活性、酶活性等)或使它们更适合作为治疗剂。此类多肽的类似物包括含有除了天然存在的L-氨基酸以外(例如D-氨基酸或非天然存在的合成氨基酸)的残基的那些。D-氨基酸可替代一些或所有氨基酸残基。
[0325] 可使用本领域中所知的常规方法,通过体外合成制备定点修饰多肽。各种商业上的合成装置为可获得的,例如Applied Biosystems,Inc.、Beckman等提供的自动合成仪。通过使用合成仪,天然存在的氨基酸可用非天然氨基酸替代。制备的具体顺序和方式将通过所需要的方便性、经济性、纯度等来确定。
[0326] 如果希望,可在合成过程中或在表达过程中将各种基团引入到肽中,这允许连接至其它分子或表面。因此半胱氨酸可用来制得用于连接至金属离子复合物的硫醚、组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。
[0327] 还可根据重组合成的常规方法分离和纯化定点修饰多肽。可由表达宿主制备溶解产物,并且使用HPLC、排阻色谱法、凝胶电泳、亲和色谱法或其它纯化技术来纯化溶解产物。大多数情况下,所使用的组合物将包含相对于与产物制备及其纯化的方法相关的污染物至少20重量%的希望的产物、更通常地至少约75重量%、优选地至少约95重量%,并且出于治疗目的通常至少约99.5重量%的希望的产物。通常,百分数将基于总蛋白。
[0328] 为了诱导DNA裂解和重组、或对靶DNA的任何希望的修饰、或对与靶DNA相关的多肽的任何希望的修饰,向细胞提供靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸(无论它们作为核酸或多肽引入)持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其它时期,所述时期可以约每天至约每4天的频率,例如每1.5天、每2天、每3天或约每天至约每4天的任何其它频率来重复。可向本发明细胞提供试剂一次或多次,例如一次、两次、三次或多于三次,并且在每次接触事件之后允许用试剂孵育细胞一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
[0329] 在其中向细胞提供两种或多种不同靶向复合物(例如,与相同或不同靶DNA内的不同序列互补的两种不同靶向DNA的RNA)的情况下,可同时提供(例如,作为两个多肽和/或核酸)或同时递送复合物。或者,可连续提供它们,例如首先提供靶向复合物,接着提供第二靶向复合物等或反之亦然。
[0330] 通常,向靶DNA或细胞提供有效量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸以诱导裂解。有效量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸为相对于阴极对照(例如与空载体或不相关多肽接触的细胞)诱导在两个同源序列之间观察到的靶修饰的量增加2倍或更多的量。即,有效量或剂量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸将诱导在靶DNA区处观察到的靶修饰的量增加2倍、增加3倍、增加4倍或更多,在一些例子中,所观察到的重组的量增加5倍、增加6倍或更多、有时增加7倍或8倍或更多,例如增加10倍、50倍或100倍或更多,在一些例子中,所观察到的重组的量增加200倍、500倍、700倍或1000倍或更多,例如增加5000倍或增加10,000倍。可通过任何合宜的方法测量靶修饰的量。例如,包含与靶向DNA的RNA的靶向区段(靶向序列)互补的序列的沉默报道构建体可共转染到细胞中,所述靶向DNA的RNA的侧翼为当重组时将重构编码活性报道蛋白的核酸的重复序列,并且在与靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸接触之后,例如在与靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸接触之后2小时、4小时、
8小时、12小时、24小时、36小时、48小时、72小时或更多评价报道蛋白的量。再例如,更高的灵敏度测定(例如包含靶DNA序列的感兴趣的基因组DNA区处的重组程度)可通过在与靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸接触之后,例如与靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸接触之后2小时、4小时、8小时、12小时、24小时、36小时、48小时、72小时或更多对所述区进行的PCR或DNA杂交来评价。
[0331] 使细胞与靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸接触可发生在任何培养基中并且在促进细胞存活的任何培养条件下。例如,细胞可悬浮在方便的任何适当营养物培养基中,如用胎牛血清或热灭活山羊血清(约5%-10%)、L-谷氨酰胺、硫醇(具体为2-巯基乙醇)以及抗生素(例如,青霉素和链霉素)补充的Iscove改良DMEM或RPMI 1640。培养物可含有细胞对其有反应的生长因子。如本文所定义的生长因子为能够通过跨膜受体上的特定作用在培养物中或在完整组织中促进细胞存活、生长和/或分化的分子。生长因子包括多肽和非多肽因子。促进细胞存活的条件通常容许非同源末端连接和同源定向修复。
[0332] 在其中希望将多核苷酸序列插入到靶DNA序列中的应用中,还向细胞提供包含待插入的供体序列的多核苷酸。“供体序列”或“供体多核苷酸”意指在通过定点修饰多肽诱导的裂解位点处待插入的核酸序列。供体多核苷酸将对裂解位点处的基因组序列含有足够的同源性(例如与裂解位点侧翼,例如裂解位点的约50个碱基或更少内,例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内、或紧挨裂解位点侧翼的核苷酸序列具有70%、80%、85%、90%、95%或100%同源性)以支持所述基因组序列与其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)将支持同源定点修复。供体序列可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
[0333] 供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复。在一些实施方案中,供体序列包含侧翼为两个同源区的非同源序列,以使得靶DNA区与两个侧翼序列之间的同源定向修复导致在靶区处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与感兴趣的DNA区同源并且不意图插入到感兴趣的DNA区中的序列。通常,供体序列的同源区将与希望与其重组的基因组序列具有至少50%序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。取决于供体多核苷酸的长度,可存在1%与100%之间任何值的序列同一性。
[0334] 供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标志物(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评价供体序列在裂解位点处成功插入或在一些情况下可用于其它目的(例如,表示靶向的基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。或者,这些序列差异可包括侧翼重组序列如FLP、loxP序列等,所述侧翼重组序列可在去除标志物序列后的时间里激活。
[0335] 供体序列可作为单链DNA、单链RNA、双链DNA或双链RNA向细胞提供。它可以线性或环状形式引入到细胞中。如果以线性形式引入,供体序列的末端可通过本领域技术人员已知的方法来保护(例如,免受核酸外切降解)。例如,将一个或多个双脱氧核苷酸残基添加至线性分子的3'末端和/或将自互补寡核苷酸连接至一端或两端。参见,例如Chang等(1987)Proc.Natl.Acad Sci USA 84:4959-4963;Nehls等(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加末端氨基和使用修饰的核苷酸间键,例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在具有同源性的区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列引入到细胞中作为载体分子的一部分,所述载体分子具有额外序列例如像复制起点、启动子和编码抗生素耐药性的基因。此外,可引入作为裸露核酸、作为与药剂(如脂质体或泊洛沙姆(poloxamer))复合的核酸的供体序列,或可通过如上所述用于编码靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的病毒(例如,腺病毒,AAV)来递送。
[0336] 根据以上所述方法,感兴趣的DNA区可离体裂解和修饰,即“遗传修饰”。在一些实施方案中,如当可选择标志物已插入到感兴趣的DNA区中时,细胞群可通过使遗传修饰的细胞从剩余细胞群中分离来富集包含遗传修饰的那些。在富集之前,“遗传修饰的”细胞可仅占细胞群的约1%或更多(例如,2%或更多、3%或更多、4%或更多、5%或更多、6%或更多、7%或更多、8%或更多、9%或更多、10%或更多、15%或更多或20%或更多)。“遗传修饰的”细胞的分离可通过适用于所使用的可选择标志物的任何合宜分离技术来实现。例如,如果已插入荧光标志物,可通过荧光激活细胞分类术分离细胞,而如果已插入细胞表面标志物,可通过亲和分离技术从异质群中分离出细胞,所述亲和分离技术例如磁分离、亲和色谱法、具有附接至固体基质的亲和试剂的“淘选”或其它合宜技术。提供精确分离的技术包括荧光激活细胞分类术,其可具有不同程度的复杂性,如多个颜色通道、低角度和钝角光散射检测通道、阻抗通道等。可通过采用与死细胞相关的染料(例如碘化丙啶)来针对死细胞选择细胞。可采用不过分损害遗传修饰的细胞生存的任何技术。以此方式实现高度富集包含修饰的DNA的细胞的细胞组合物。“高度富集”意指遗传修饰的细胞将为细胞组合物的70%或更多、75%或更多、80%或更多、85%或更多、90%或更多,例如细胞组合物的约95%或更多或
98%或更多。换言之,组合物可为遗传修饰的细胞的大致上纯净的组合物。
[0337] 可立即使用通过本文所描述的方法产生的遗传修饰的细胞。或者,细胞可在液氮温度下冷冻并且储藏较长的一段时间、解冻并且能够重新使用。在此类情况下,细胞将通常在10%二甲亚砜(DMSO)、50%血清、40%缓冲介质或如通常用于本领域中在此类冷冻温度下保存细胞的一些其它此种溶液中冷冻并且以如本领域中通常已知用于解冻被冷冻的培养的细胞的方式解冻。
[0338] 可在各种培养条件下体外培养遗传修饰的细胞。细胞可在培养物中扩增(expand),即在促进其增殖的条件下生长。培养基可为液体或半固体,例如含琼脂、甲基纤维素等。细胞群可悬浮在适当的营养物培养基中,如通常用胎牛血清(约5%-10%)、L-谷氨酰胺、硫醇(具体为2-巯基乙醇)以及抗生素(例如,青霉素和链霉素)补充的Iscove改良DMEM或RPMI 1640。培养物可含有调节T细胞对其有反应的生长因子。如本文所定义的生长因子为能够通过跨膜受体上的特定作用在培养物中或在完整组织中促进细胞存活、生长和/或分化的分子。生长因子包括多肽和非多肽因子。
[0339] 以此方式遗传修饰的细胞可出于如基因疗法的目的,例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂,出于在农业中产生遗传修饰的生物或出于生物研究移植至受试者。受试者可为新生儿、少年或成年。特别感兴趣的为哺乳动物受试者。可用本发明的方法治疗的哺乳动物种类包括犬和猫;马;牛;羊等以及灵长类动物,具体为人。动物模型,具体为小型哺乳动物(例如,小鼠、大鼠、豚鼠、仓鼠、兔形目动物(例如,兔)等)可用于实验研究。
[0340] 单独地或与适合的底物或基质一起向受试者提供细胞,例如以便支持所述细胞在它们移植至其中的组织中生长和/或组织化。通常,将施用至少1x103个细胞,例如5x103个细胞、1x104个细胞、5x104个细胞、1x105个细胞、1x 106个细胞或更多。可经过任何以下途径将细胞引入至受试者:肠胃外、皮下、静脉内、颅内、脊柱内、眼内或进入脊髓液。可通过注射、导管等引入细胞。用于局部递送(即,递送至损伤部位)的方法的实例包括例如通过例如用于鞘内递送的奥马耶贮器(参见例如美国专利号5,222,982和5385582,所述专利以引用的方式并入本文);通过快速浓注,例如通过注射器例如进入关节;通过连续输注,例如通过例如具有对流的套管插入术(参见例如美国申请号20070254842,所述专利以引用的方式并入本文);或通过植入在其上已可逆地固定细胞的装置(参见例如美国申请号20080081064和20090196903,所述专利以引用的方式并入本文)。还可出于产生转基因动物(例如,转基因小鼠)的目的将细胞引入到胚胎(例如,胚泡)中。
[0341] 向受试者施用治疗的数目可变化。将遗传修饰的细胞引入到受试者中可为一次性事件;但在一些情况下,此种治疗可引发有限时间段的改进并且要求进行一系列重复的治疗。在其它情况下,可在观察到作用之前要求多次施用遗传修饰的细胞。准确试验方案取决于疾病或病状、疾病的阶段以及被治疗的个体受试者的参数。
[0342] 在本发明的其它方面中,再次出于如基因疗法,例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的目的,出于在农业中产生遗传修饰的生物或出于生物研究采用靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸来体内修饰细胞DNA。在这些体内实施方案中,直接向个体施用靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸。可通过本领域中用于向受试者施用肽、小分子和核酸的任何数目的熟知方法来施用靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸。可将靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸并入到各种制剂中。更具体地来说,可通过与适当的药学上可接受的载体或稀释剂组合将本发明的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸配制成药物组合物。
[0343] 药物制剂为包括存在于药学上可接受的媒介物中的一个或多个靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的组合物。“药学上可接受的媒介物”可为联邦或州政府的管理机构批准或列于美国药典或用于哺乳动物如人的其它公认药典中的媒介物。术语“媒介物”是指本发明的化合物与其配制用于向哺乳动物施用的稀释剂、佐剂、赋形剂或载体。此类药物媒介物可为脂质,例如脂质体,例如脂质体树枝状聚合物;液体,如水和油,包括石油、动物、植物或合成来源的那些,如花生油、大豆油、矿物油、芝麻油等,盐水;阿拉伯胶、明胶、淀粉糊、滑石、角蛋白、胶体二氧化硅、尿素等。另外,可使用辅助剂、稳定剂、增稠剂、润滑剂和着色剂。药物组合物可以固体、半固体、液体或气体形式配制成制剂,如片剂、胶囊、粉剂、颗粒剂、软膏剂、溶液、栓剂、注射剂、吸入剂、凝胶、微球以及气雾剂。因此,可以各种方式实现靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的施用,所述方式包括经口、口腔、直肠、肠胃外、腹膜内、皮内、透皮、气管内、眼内等施用。活性剂可在施用之后为全身性的或可通过使用区域施用、内部施用或使用起到在植入部位处保持活性剂量作用的植入物而为局部的。活性剂可配制用于立即活性或它可配制用于持续释放。
[0344] 针对一些病状,具体为中枢神经系统病状,可必需使药剂制备穿过血脑屏障(BBB)。用于通过血脑屏障(BBB)进行药物递送的一个策略需要通过渗透手段如甘露醇或白细胞三烯或通过使用血管活性物质如缓激肽生物化学破坏BBB。用于使用将靶特定药剂向脑肿瘤打开的BBB的可能也是一种选择。当通过血管内注射来施用组合物时,BBB破坏剂可与本发明的治疗组合物共同施用。穿过BBB的其它策略可能需要使用内源转运系统,包括小窝蛋白-1介导的胞转、载体介导的转运蛋白如葡萄糖和氨基酸载体、用于胰岛素或转铁蛋白的受体介导的胞转以及主动流出转运蛋白如p-糖蛋白。还可将主动转运部分缀合至用于本发明中的治疗化合物以促进转运穿过血管内皮壁。或者,通过BBB的治疗剂药物递送可为通过局部递送,例如通过鞘内递送,例如通过奥马耶贮器(参见例如美国专利号5,222,982和5385582,所述专利以引用的方式并入本文);通过快速浓注,例如通过注射器,例如玻璃体内或颅内;通过连续输注,例如通过例如具有对流的套管插入术(参见例如美国申请号20070254842,所述专利以引用的方式并入本文);或通过植入在其上已可逆地固定细胞的装置(参见例如美国申请号20080081064和20090196903,所述专利以引用的方式并入本文)。
[0345] 通常,提供有效量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸。如上关于离体方法所讨论,体内有效量或有效剂量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸为相对于阴极对照(例如与空载体或不相关多肽接触的细胞)诱导在两个同源序列之间观察到的重组的量增加2倍或更多的量。重组的量可通过例如如上所述和本领域中已知的任何合宜方法来测量。待施用的有效量或有效剂量的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的计算在本领域普通技术人员的技能范围内,并且对于本领域技术人员而言将为常规的。待施用的最终量将取决于施用途径并且取决于待治疗的病症或病状的性质。
[0346] 给予具体患者的有效量将取决于各种因素,若干所述因素将在患者与患者之间不同。有能力的临床医生将能够确定向患者施用的有效量的治疗剂以当需要时中止疾病病状或使疾病病状的进展逆转。利用LD50动物数据和可供用于药剂的其它信息,临床医生可取决于施用途径确定用于个体的最大安全剂量。例如,静脉内施用的剂量可多于鞘内施用的剂量,给予治疗组合物施用到其中的体液更多。类似地,快速从身体清除的组合物可在较高剂量下或以重复剂量施用,以便维持治疗浓度。利用普通技术,有能力的临床医生将能够在常规临床试验的过程中优化具体治疗剂的剂量。
[0347] 对于包括在药剂中,靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸可获自适合的商业来源。作为一般建议,每次剂量的肠胃外施用的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的总药物有效量将在可通过剂量应答曲线测量的范围中。
[0348] 基于靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的治疗剂,即用于治疗施用的靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的制剂必须为无菌的。通过过滤穿过无菌过滤膜(例如,0.2μm膜)容易地实现无菌性。通常将治疗组合物放到具有无菌进入端口的容器中,例如具有通过皮下注射针可刺穿的塞子的静脉内溶液袋或小瓶。基于靶向DNA的RNA和/或定点修饰多肽和/或供体多核苷酸的治疗剂可呈水溶液形式或呈用于复原的冻干制剂形式储藏在单位剂量或多剂量容器中,例如密封的安瓿或小瓶。作为冻干制剂的一个实例,用5ml无菌过滤的1%(w/v)化合物水溶液填充10mL小瓶,并且将所得到的混合物冻干。通过使用抑菌性注射用水复原冻干化合物来制备输注溶液。
[0349] 药物组合物可包括(取决于所希望的制剂)药学上可接受的、非毒性稀释剂载体,所述稀释剂载体定义为常见用来配制用于动物或人施用的药物组合物的媒介物。选择稀释剂以便不影响组合的生物活性。此类稀释剂的实例为蒸馏水、缓冲水、生理盐水、PBS、林格氏溶液、葡萄糖溶液以及汉克溶液。另外,药物组合物或制剂可包括其它载体、佐剂或非毒性、非治疗性、非免疫原性稳定剂、赋形剂等。组合物还可包括接近生理条件的额外物质,如pH调节剂和缓冲剂、毒性调节剂、湿润剂以及去污剂。
[0350] 组合物还可包括任何各种稳定剂,例如像抗氧化剂。当药物组合物包括多肽时,多肽可与增强多肽的体内稳定性或以另外的方式增强其药理性质(例如,增加多肽的半衰期、减少其毒性、增强溶解度或吸收)的各种熟知化合物复合。此类修饰或复合剂的实例包括硫酸盐、葡糖酸盐、柠檬酸盐以及磷酸盐。组合物的核酸或多肽还可与增强其体内属性的分子复合。此类分子包括例如碳水化合物、多胺、氨基酸、其它肽、离子(例如,钠、钾、钙、镁、锰)以及脂质。
[0351] 适用于各种类型施用的另外关于制剂的指导可见于Remington's Pharmaceutical Sciences,Mace Publishing Company,Philadelphia,Pa.,第17版(1985)中。对于用于药物递送的方法的简要综述参见Langer,Science 249:1527-1533(1990)。
[0352] 可施用药物组合物用于预防性治疗和/或治疗性治疗。活性成分的毒性和治疗功效可根据细胞培养物和/或实验动物中的标准药物工序来确定,包括例如确定LD50(50%群体致死剂量)和ED50(50%群体有效治疗剂量)。毒性与治疗作用之间的剂量比为治疗指数并且它可表示为LD50/ED50比。表现出高治疗指数的治疗剂为优选的。
[0353] 获自细胞培养和/或动物研究的数据可用于配制一系列用于人的剂量范围。活性成分的剂量通常处于包括具有低毒性的ED50的循环浓度范围内。剂量可取决于所采用的剂型和所使用的施用途径在此范围内变化。
[0354] 用来配制药物组合物的组分优选地具有高纯度并且大致上不含潜在有害的污染物(例如,至少国家食品(NF)级、通常至少分析级并且更通常至少药物级)。此外,意图用于体内使用的组合物通常为无菌的。为了达到在使用之前必须合成给定的化合物的程度,所得到的产物通常大致上不含任何潜在的毒性剂、具体为任何内毒素,所述毒性剂可在合成或纯化过程期间存在。用于肠胃外施用的组合物也为无菌的,大致上等渗的并且在GMP条件下制得。
[0355] 给予具体患者的有效量的治疗组合物将取决于各种因素,若干所述因素将在患者与患者之间不同。有能力的临床医生将能够确定向患者施用的有效量的治疗剂以当需要时中止疾病病状或使疾病病状的进展逆转。利用LD50动物数据和可供用于药剂的其它信息,临床医生可取决于施用途径确定用于个体的最大安全剂量。例如,静脉内施用的剂量可多于鞘内施用的剂量,给予治疗组合物施用到其中的体液更多。类似地,快速从身体清除的组合物可在较高剂量下或以重复剂量施用,以便维持治疗浓度。利用普通技术,有能力的临床医生将能够在常规临床试验的过程中优化具体治疗剂的剂量。
[0356] 遗传修饰的宿主细胞
[0357] 本公开提供遗传修饰的宿主细胞,其包括分离的遗传修饰的宿主细胞,其中本发明遗传修饰的宿主细胞包含(已用以下遗传修饰):1)外源靶向DNA的RNA;2)包含编码靶向DNA的RNA的核苷酸序列的外源核酸;3)外源定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等);4)包含编码定点修饰多肽的核苷酸序列的外源核酸;或5)以上的任何组合。本发明遗传修饰的细胞通过用例如以下遗传修饰宿主细胞来产生:
1)外源靶向DNA的RNA;2)包含编码靶向DNA的RNA的核苷酸序列的外源核酸;3)外源定点修饰多肽;4)包含编码定点修饰多肽的核苷酸序列的外源核酸;或5)以上的任何组合。
[0358] 适合作为靶细胞的所有细胞还适合作为遗传修饰的宿主细胞。例如,感兴趣的遗传修饰的宿主细胞可为来自任何生物的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞;来自哺乳动物(例如,猪、母牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。
[0359] 在一些实施方案中,遗传修饰的宿主细胞已用包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸遗传修饰。遗传修饰的宿主细胞的DNA可被靶向用于通过将靶向DNA的RNA(或编码靶向DNA的RNA的DNA,其确定待修饰的基因组位置/序列)和任选地供体核酸引入到细胞中来修饰。在一些实施方案中,编码定点修饰多肽的核苷酸序列可操作地连接至诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)。在一些实施方案中,编码定点修饰多肽的核苷酸序列可操作地连接至空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)。在一些实施方案中,编码定点修饰多肽的核苷酸序列可操作地连接至组成型启动子。
[0360] 在一些实施方案中,本发明遗传修饰的宿主细胞为体外的。在一些实施方案中,本发明遗传修饰的宿主细胞为体内的。在一些实施方案中,本发明遗传修饰的宿主细胞为原核细胞或源自原核细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为细菌细胞或源自细菌细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为古细菌细胞或源自古细菌细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为真核细胞或源自真核细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为植物细胞或源自植物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为动物细胞或源自动物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为无脊椎动物细胞或源自无脊椎动物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为脊椎动物细胞或源自脊椎动物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为哺乳动物细胞或源自哺乳动物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为啮齿动物细胞或源自啮齿动物细胞。在一些实施方案中,本发明遗传修饰的宿主细胞为人细胞或源自人细胞。
[0361] 本公开进一步提供本发明遗传修饰的细胞的子代,其中子代可包含与其来源的本发明遗传修饰的细胞相同的外源核酸或多肽。本公开进一步提供包含本发明遗传修饰的宿主细胞的组合物。
[0362] 遗传修饰的干细胞和遗传修饰的祖细胞
[0363] 在一些实施方案中,本发明遗传修饰的宿主细胞为遗传修饰的干细胞或祖细胞。适合的宿主细胞包括例如干细胞(成人干细胞、胚胎干细胞、iPS细胞等)和祖细胞(例如,心脏祖细胞、神经祖细胞等)。适合的宿主细胞包括哺乳动物干细胞和祖细胞,包括例如啮齿动物干细胞、啮齿动物祖细胞、人干细胞、人祖细胞等。适合的宿主细胞包括体外宿主细胞,例如分离的宿主细胞。
[0364] 在一些实施方案中,本发明遗传修饰的宿主细胞包含外源靶向DNA的RNA核酸。在一些实施方案中,本发明遗传修饰的宿主细胞包含外源核酸,所述外源核酸包含编码靶向DNA的RNA的核苷酸序列。在一些实施方案中,本发明遗传修饰的宿主细胞包含外源定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)。在一些实施方案中,本发明遗传修饰的宿主细胞包含外源核酸,所述外源核酸包含编码定点修饰多肽的核苷酸序列。在一些实施方案中,本发明遗传修饰的宿主细胞包含外源核酸,所述外源核酸包含编码1)靶向DNA的RNA和2)定点修饰多肽的核苷酸序列。
[0365] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0366] 组合物
[0367] 本发明提供包含本发明靶向DNA的RNA和/或定点修饰多肽的组合物。在一些情况下,定点修饰多肽为本发明嵌合多肽。本发明组合物有用于执行本公开的方法,例如用于位点特异性修饰靶DNA的方法;用于位点特异性修饰与靶DNA相关的多肽的方法等。
[0368] 包含靶向DNA的RNA的组合物
[0369] 本发明提供包含本发明靶向DNA的RNA的组合物。组合物可包含除了靶向DNA的RNA以外的以下一种或多种:盐,例如NaCl、MgCl2、KCl、MgSO4等;缓冲剂,例如Tris缓冲液,N-(2-羟乙基)哌嗪-N'-(2-乙磺酸)(HEPES)、2-(N-吗啉代)乙磺酸(MES)、MES钠盐、3-(N-吗啉代)丙磺酸(MOPS)、N-三[羟甲基]甲基-3-氨基丙磺酸(TAPS)等;增溶剂;去污剂,例如非离子型去污剂如吐温-20等;核酸酶抑制剂等。例如,在一些情况下,本发明组合物包含本发明靶向DNA的RNA和用于使核酸稳定的缓冲液。
[0370] 在一些实施方案中,存在于本发明组合物中的靶向DNA的RNA为纯净的,例如至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或多于99%纯净的,其中“%纯度”意指靶向DNA的RNA为列举的百分比不含其它大分子或可在靶向DNA的RNA产生过程中存在的污染物。
[0371] 包含本发明嵌合多肽的组合物
[0372] 本发明提供本发明嵌合多肽的组合物。组合物可包含除了靶向DNA的RNA以外的以下一种或多种:盐,例如NaCl、MgCl2、KCl、MgSO4等;缓冲剂,例如Tris缓冲液、HEPES、MES、MES钠盐、MOPS、TAPS等;增溶剂;去污剂,例如非离子型去污剂如吐温-20等;蛋白酶抑制剂;还原剂(例如,二硫苏糖醇)等。
[0373] 在一些实施方案中,存在于本发明组合物中的本发明嵌合多肽为纯净的,例如至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或多于99%纯净的,其中“%纯度”意指定点修饰多肽为列举的百分比不含其它蛋白质、其它大分子或可在嵌合多肽产生过程中存在的污染物。
[0374] 包含靶向DNA的RNA和定点修饰多肽的组合物
[0375] 本发明提供一种组合物,其包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸;和ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸。在一些情况下,定点修饰多肽为本发明嵌合定点修饰多肽。在其它情况下,定点修饰多肽为天然存在的定点修饰多肽。在一些例子中,定点修饰多肽表现出修饰靶DNA的酶活性。在其它情况下,定点修饰多肽表现出修饰与靶DNA相关的多肽的酶活性。在还其它情况下,定点修饰多肽调节靶DNA的转录。
[0376] 本发明提供一种组合物,其包含:(i)如上所述的靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0377] 在一些例子中,本发明组合物包含:一种组合物,其包含(i)本发明靶向DNA的RNA,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0378] 在其它实施方案中,本发明组合物包含:(i)编码本发明靶向DNA的RNA的多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。
[0379] 在一些实施方案中,本发明组合物包括双分子靶向DNA的RNA的RNA分子。因此,在一些实施方案中,本发明组合物包括激活物-RNA,所述激活物-RNA包含与靶向物-RNA的双链体形成区段互补的双链体形成区段(参见图1A)。激活物-RNA和靶向物-RNA的双链体形成区段杂交以形成靶向DNA的RNA的蛋白质结合区段的dsRNA双链体。靶向物-RNA进一步提供靶向DNA的RNA的DNA靶向区段(单链)并且因此将靶向DNA的RNA靶向靶DNA内的特异性序列。作为一个非限制性实例,激活物-RNA的双链体形成区段包含与序列5’-UAGCAAGUUAAAAU-3’(SEQ ID NO:562)具有至少约70%、至少约80%、至少约90%、至少约95%、至少约98%或
100%同一性的核苷酸序列。作为另一个非限制性实例,靶向物-RNA的双链体形成区段包含与序列5’-GUUUUAGAGCUA-3’(SEQ ID NO:679)具有至少约70%、至少约80%、至少约90%、至少约95%、至少约98%或100%同一性的核苷酸序列。
[0380] 本公开提供一种组合物,其包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0381] 例如,在一些情况下,本发明组合物包含:(i)靶向DNA的RNA,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0382] 作为另一个实例,在一些情况下,本发明组合物包含:(i)编码靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0383] 本发明组合物可包含除了i)本发明靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸和ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸以外的以下一种或多种:盐,例如NaCl、MgCl2、KCl、MgSO4等;缓冲剂,例如Tris缓冲液、HEPES、MES、MES钠盐、MOPS、TAPS等;增溶剂;去污剂,例如非离子型去污剂如吐温-20等;蛋白酶抑制剂;还原剂(例如,二硫苏糖醇)等。
[0384] 在一些情况下,组合物的组分单独地为纯净的,例如每种组分均为至少约75%、至少约80%、至少约90%、至少约95%、至少约98%、至少约99%或至少99%纯净的。在一些情况下,本发明组合物的单独组分在添加至组合物之前为纯净的。
[0385] 例如,在一些实施方案中,存在于本发明组合物中的定点修饰多肽为纯净的,例如至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约98%、至少约99%或多于99%纯净的,其中“%纯度”意指定点修饰多肽为列举的百分比不含其它蛋白质(例如,除了定点修饰多肽以外的蛋白质)、其它大分子或可在定点修饰多肽产生过程中存在的污染物。
[0386] 试剂盒
[0387] 本公开提供用于执行本发明方法的试剂盒。本发明试剂盒可包括以下一种或多种:定点修饰多肽;包含编码定点修饰多肽的核苷酸的核酸;靶向DNA的RNA;包含编码靶向DNA的RNA的核苷酸序列的核酸;激活物-RNA;包含编码激活物-RNA的核苷酸序列的核酸;靶向物-RNA;以及包含编码靶向物-RNA的核苷酸序列的核酸。定点修饰多肽;包含编码定点修饰多肽的核苷酸的核酸;靶向DNA的RNA;包含编码靶向DNA的RNA的核苷酸序列的核酸;激活物-RNA;包含编码激活物-RNA的核苷酸序列的核酸;靶向物-RNA;以及包含编码靶向物-RNA的核苷酸序列的核酸在上文中详细地描述。试剂盒可包含复合物,所述复合物包含以下的两种或更多种:定点修饰多肽;包含编码定点修饰多肽的核苷酸的核酸;靶向DNA的RNA;包含编码靶向DNA的RNA的核苷酸序列的核酸;激活物-RNA;包含编码激活物-RNA的核苷酸序列的核酸;靶向物-RNA;以及包含编码靶向物-RNA的核苷酸序列的核酸。
[0388] 在一些实施方案中,本发明试剂盒包含定点修饰多肽或编码所述定点修饰多肽的多核苷酸。在一些实施方案中,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;和(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。在一些情况下,定点修饰多肽的活性部分表现出减小或失活的核酸酶活性。在一些情况下,定点修饰多肽为嵌合定点修饰多肽。
[0389] 在一些实施方案中,本发明试剂盒包含:定点修饰多肽、编码所述定点修饰多肽的多核苷酸以及用于复原和/或稀释定点修饰多肽的试剂。在其它实施方案中,本发明试剂盒包含核酸(例如,DNA、RNA),所述核酸包含编码定点修饰多肽的核苷酸。在一些实施方案中,本发明试剂盒包含:包含编码定点修饰多肽的核苷酸的核酸(例如,DNA、RNA);和用于复原和/或稀释定点修饰多肽的试剂。
[0390] 包含定点修饰多肽或编码所述定点修饰多肽的多核苷酸的本发明试剂盒可还包括一种或多种额外试剂,其中此类额外试剂可选自:用于将定点修饰多肽引入到细胞中的缓冲液;洗涤缓冲液;对照试剂;对照表达载体或RNA多核苷酸;用于从DNA体外产生定点修饰多肽的试剂等。在一些情况下,包括在本发明试剂盒中的定点修饰多肽为如上所述的嵌合定点修饰多肽。
[0391] 在一些实施方案中,本发明试剂盒包含靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;和(b)第二区段,其与定点修饰多肽相互作用。在一些实施方案中,靶向DNA的RNA还包含第三区段(如上所述)。在一些实施方案中,本发明试剂盒包含:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在一些实施方案中,定点修饰多肽的活性部分不表现出酶活性(包含失活的核酸酶,例如经过突变)。在一些情况下,试剂盒包含靶向DNA的RNA和定点修饰多肽。在其它情况下,试剂盒包含:(i)包含编码靶向DNA的RNA的核苷酸序列的核酸;和(ii)包含编码定点修饰多肽的核苷酸序列的核酸。
[0392] 作为另一个实例,本发明试剂盒可包括:(i)靶向DNA的RNA或编码所述靶向DNA的RNA的DNA多核苷酸,所述靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)定点修饰多肽或编码所述定点修饰多肽的多核苷酸,所述定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。在一些情况下,试剂盒包含:(i)靶向DNA的RNA;和定点修饰多肽。在其它情况下,试剂盒包含:(i)包含编码靶向DNA的RNA的核苷酸序列的核酸;和(ii)包含编码定点修饰多肽的核苷酸序列的核酸。
[0393] 本公开提供试剂盒,其包含:(1)重组表达载体,其包含(i)编码靶向DNA的RNA的核苷酸序列,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的核苷酸序列,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定;以及(2)用于复原和/或稀释表达载体的试剂。
[0394] 本公开提供试剂盒,其包含:(1)重组表达载体,其包含(i)编码靶向DNA的RNA的核苷酸序列,其中靶向DNA的RNA包含:(a)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;以及(b)第二区段,其与定点修饰多肽相互作用;以及(ii)编码定点修饰多肽的核苷酸序列,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定;以及(2)用于复原和/或稀释重组表达载体的试剂。
[0395] 本公开提供试剂盒,其包含:(1)包含核酸的重组表达载体,所述核酸包含编码靶向DNA的RNA的核苷酸序列,所述靶向DNA的RNA包含:(i)第一区段,其包含与靶DNA中的序列互补的核苷酸序列;和(ii)第二区段,其与定点修饰多肽相互作用;以及(2)用于复原和/或稀释重组表达载体的试剂。在此试剂盒的一些实施方案中,试剂盒包含:重组表达载体,其包含编码定点修饰多肽的核苷酸序列,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)表现出定点酶活性的活性部分,其中酶活性的位点通过靶向DNA的RNA来确定。在此试剂盒的其它实施方案中,试剂盒包含:重组表达载体,其包含编码定点修饰多肽的核苷酸序列,其中定点修饰多肽包含:(a)与靶向DNA的RNA相互作用的RNA结合部分;以及(b)调节靶DNA内的转录的活性部分,其中靶DNA内的所调节的转录的位点通过靶向DNA的RNA来确定。
[0396] 在任何上述试剂盒的一些实施方案中,试剂盒包含激活物-RNA或靶向物-RNA。在任何上述试剂盒的一些实施方案中,试剂盒包含单分子靶向DNA的RNA。在任何上述试剂盒的一些实施方案中,试剂盒包含两个或更多个双分子或单分子靶向DNA的RNA。在任何上述试剂盒的一些实施方案中,靶向DNA的RNA(例如,包括两个或更多个靶向DNA的RNA)可提供为阵列(例如,RNA分子阵列、编码靶向DNA的RNA的DNA分子阵列等)。此类试剂盒可例如有用于连同包含本发明定点修饰多肽的上述遗传修饰的宿主细胞一起使用。在任何上述试剂盒的一些实施方案中,试剂盒还包含实现所希望的遗传修饰的供体多核苷酸。本发明试剂盒的组分可处于单独的容器中;或可合并在单个容器中。
[0397] 任何上述试剂盒可还包括一种或多种额外试剂,其中此类额外试剂可选自:稀释缓冲液;复原溶液;洗涤缓冲液;对照试剂;对照表达载体或RNA多核苷酸;用于从DNA体外产生定点修饰多肽的试剂等。
[0398] 除了以上提到的组分,本发明试剂盒可还包括用于使用试剂盒的组分来实践本发明方法的说明书。用于实践本发明方法的说明书通常记录在适合的记录介质上。例如,可在衬底如纸或塑料等上印刷说明书。因此,说明书可作为包装插入物存在于试剂盒中,试剂盒容器的标签或其组件(即,与包装或分装相关)中。在其它实施方案中,说明书作为存在于适合的计算机可读存储介质例如CD-ROM、磁盘、闪存驱动器等上的电子存储数据文档存在。在又其它实施方案中,实际的说明书不存在于试剂盒中,但提供了用于例如经过互联网从远程资源获得说明书的装置。此实施方案的一个实例为包括网址的试剂盒,在所述网址中可查看说明书和/或从所述网址可下载说明书。与说明书一样,用于获得说明书的此装置记录在适合的衬底上。
[0399] 非人遗传修饰的生物
[0400] 在一些实施方案中,遗传修饰的宿主细胞已用包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸遗传修饰。如果这样的细胞为真核单细胞生物,那么修饰的细胞可认为是遗传修饰的生物。在一些实施方案中,本发明非人遗传修饰的生物为Cas9转基因多细胞生物。
[0401] 在一些实施方案中,本发明遗传修饰的非人宿主细胞(例如,已用包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸遗传修饰的细胞)可产生本发明遗传修饰的非人生物(例如,小鼠、鱼、青蛙、苍蝇、蠕虫等)。例如,如果遗传修饰的宿主细胞为多能干细胞(即,PSC)或生殖细胞(例如,精子、卵母细胞等),整个遗传修饰的生物可源自遗传修饰的宿主细胞。在一些实施方案中,遗传修饰的宿主细胞为可产生遗传修饰的生物的体内或体外的多能干细胞(例如,ESC、iPSC、多能植物干细胞等)或生殖细胞(例如,精细胞、卵母细胞等)。在一些实施方案中,遗传修饰的宿主细胞为脊椎动物PSC(例如,ESC、iPSC等)并且用来产生遗传修饰的生物(例如,通过将PSC注射到胚泡中以产生嵌合/镶嵌型动物,所述动物然后可交配以产生非嵌合/非镶嵌型遗传修饰的生物;在植物的情况下为嫁接等)。用于产生遗传修饰的生物的任何合宜方法/方案(包括本文描述的方法)适用于产生包含外源核酸的遗传修饰的宿主细胞,所述外源核酸包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列。产生遗传修饰的生物的方法为本领域中已知的。例如,参见Cho等,Curr Protoc Cell Biol.2009 Mar;第19章:第19.11单元:Generation of transgenic mice;Gama等,Brain Struct Funct.2010 Mar;214(2-3):91-109.Epub 2009 Nov 25:Animal transgenesis:an overview;Husaini等,GM Crops.2011 Jun-Dec;2(3):150-
62.Epub 2011 Jun 1:Approaches for gene targeting and targeted gene expression in plants。
[0402] 在一些实施方案中,遗传修饰的生物包含用于本发明方法的靶细胞,并且因此可认为是靶细胞的来源。例如,如果包含外源核酸(所述外源核酸包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列)的遗传修饰的细胞用来产生遗传修饰的生物,则遗传修饰的生物的细胞包含外源核酸(所述外源核酸包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列)。在一些此类实施方案中,遗传修饰的生物的细胞的DNA可被靶向用于通过将靶向DNA的RNA(或编码靶向DNA的RNA的DNA)和任选地供体核酸引入到细胞中来修饰。例如,将靶向DNA的RNA(或编码靶向DNA的RNA的DNA)引入到遗传修饰的生物的细胞子集(例如,脑细胞、肠细胞、肾细胞、肺细胞、血液细胞等)中可靶向此类细胞的DNA用于修饰,所述修饰的基因组位置将取决于引入的靶向DNA的RNA的DNA靶向序列。
[0403] 在一些实施方案中,遗传修饰的生物为用于本发明方法的靶细胞的来源。例如,包含用包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸遗传修饰的细胞的遗传修饰的生物可提供遗传修饰的细胞的来源,例如PSC(例如,ESC、iPSC、精子、卵母细胞等)、神经元、祖细胞、心肌细胞等。
[0404] 在一些实施方案中,遗传修饰的细胞为包含外源核酸的PSC,所述外源核酸包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列。因此,PSC可为靶细胞以使得PSC的DNA可被靶向用于通过将靶向DNA的RNA(或编码靶向DNA的RNA的DNA)和任选地供体核酸引入到PSC中来修饰,并且修饰的基因组位置将取决于引入的靶向DNA的RNA的DNA靶向序列。因此,在一些实施方案中,本文描述的方法可用来修饰源自本发明遗传修饰的生物的PSC的DNA(例如,缺失和/或替代任何所希望的基因组位置)。此类修饰的PSC然后可用来产生具有以下的生物:(i)包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸和(ii)引入到PSC中的DNA修饰。
[0405] 包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。适合的已知启动子可为任何已知启动子并且包括组成型活性启动子(例如,CMV启动子)、诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
[0406] 本发明遗传修饰的生物(例如其细胞包含编码定点修饰多肽的核苷酸序列的生物,所述定点修饰多肽例如天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)可为任何生物,包括例如植物;藻类;无脊椎动物(例如,刺胞动物、棘皮动物、蠕虫、苍蝇等);脊椎动物(例如,鱼(例如,斑马鱼、河豚、金鱼等)、两栖动物(例如,蝾螈、青蛙等)、爬行动物、鸟、哺乳动物等);有蹄动物(例如,山羊、猪、绵羊、母牛等);啮齿动物(例如,小鼠、大鼠、仓鼠、豚鼠);兔形目动物(例如,兔)等。
[0407] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0408] 转基因非人动物
[0409] 如上所述,在一些实施方案中,本发明核酸(例如,编码定点修饰多肽的核苷酸序列,所述定点修饰多肽例如天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)或本发明重组表达载体用作转基因以产生转基因动物,所述转基因动物产生定点修饰多肽。因此,本发明进一步提供转基因非人动物,所述动物包含了包含本发明核酸的转基因,所述核酸包含编码定点修饰多肽的核苷酸序列,所述定点修饰多肽例如如上所述的天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等。在一些实施方案中,转基因非人动物的基因组包含编码定点修饰多肽的本发明核苷酸序列。在一些实施方案中,转基因非人动物对于遗传修饰为纯合的。在一些实施方案中,转基因非人动物对于遗传修饰为杂合的。在一些实施方案中,转基因非人动物为脊椎动物,例如鱼(例如,斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈等)、鸟(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、哺乳动物(例如,有蹄动物,例如猪、母牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。
[0410] 包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的外源核酸可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。适合的已知启动子可为任何已知启动子并且包括组成型活性启动子(例如,CMV启动子)、诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
[0411] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0412] 转基因植物
[0413] 如上所述,在一些实施方案中,本发明核酸(例如,编码定点修饰多肽的核苷酸序列,所述定点修饰多肽例如天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)或本发明重组表达载体用作转基因以产生转基因植物,所述转基因植物产生定点修饰多肽。因此,本发明进一步提供转基因植物,所述植物包含了包含本发明核酸的转基因,所述核酸包含编码定点修饰多肽的核苷酸序列,所述定点修饰多肽例如如上所述的天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等。在一些实施方案中,转基因植物的基因组包含本发明核酸。在一些实施方案中,转基因植物对于遗传修饰为纯合的。在一些实施方案中,转基因植物对于遗传修饰为杂合的。
[0414] 将外源核酸引入到植物细胞中的方法为本领域中熟知的。如上所定义,此类植物细胞被认为是“转化的”。适合的方法包括病毒感染(如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(即体外、离体或体内)。
[0415] 基于土壤杆菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别有用于将外源核酸分子引入到维管植物中。野生型土壤杆菌属形式含有引导在宿主植物上生长的致瘤冠瘿产生的Ti(肿瘤诱导)质粒。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列,所述T-DNA边缘序列为描绘待转移区的一系列直接DNA重复序列。基于土壤杆菌属的载体为Ti质粒的修饰形式,其中肿瘤诱导功能被待引入到植物宿主中的感兴趣的核酸序列替代。
[0416] 土壤杆菌属介导的转化通常采用共合体载体或二元载体系统,其中Ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列限定的感兴趣的基因)之间分配。各种二元载体为本领域中熟知的并且例如从Clontech(Palo Alto,Calif.)可商业上获得。例如用培养的植物细胞或受伤组织如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也为本领域中熟知的。参见例如Glick和Thompson(编著),Methods in Plant Molecular Biology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。
[0417] 微粒介导的转化还可用来产生本发明转基因植物。首先由Klein等(Nature 327:70-73(1987))描述的这个方法依赖于通过用氯化钙、亚精胺或聚乙二醇沉淀来涂覆有所希望的核酸分子的微粒如金或钨。微粒颗粒使用如BIOLISTIC PD-1000(Biorad;Hercules Calif.)装置在高速下加速到被子植物组织中。
[0418] 可以使得核酸能够例如经过体内或离体方案进入植物细胞的方式将本发明核酸引入到植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的许多载体,包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等,(1990)Plant Molecular Biology Manual,Kluwer Academic Publishers中的那些载体。具体实例包括源自根瘤土壤杆菌的Ti质粒的那些以及由Herrera-Estrella等(1983)Nature 303:209、Bevan(1984)Nucl Acid Res.12:8711-8721、Klee(1985)Bio/Technolo 3:637-642公开的那些。或者,非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法,可产生转基因植物如小麦、稻米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟的胚胎还可为通过使用粒子枪的直接DNA递送技术的单子叶植物良好靶组织(Weeks等(1993)Plant Physiol 102:1077-1084;Vasil(1993)Bio/Technolo 10:667-674;Wan和Lemeaux(1994)Plant Physiol 104:37-48以及用于土壤杆菌属介导的DNA转移(Ishida等(1996)Nature Biotech 14:745-750)。用于将DNA引入到叶绿体中的示例性方法为生物弹轰击、原生质体聚乙二醇转化以及微注射(Danieli等Nat.Biotechnol 16:345-348,1998;Staub等Nat.Biotechnol 18:333-338,
2000;O’Neill等Plant J.3:729-738,1993;Knoblauch等Nat.Biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;于国际申请号WO 95/16783中;以及于Boynton等,Methods  in  Enzymology  217:510-536(1993)、Svab等,
Proc.Natl.Acad.Sci.USA 90:913-917(1993)和McBride等,Proc.Nati.Acad.Sci.USA 91:
7301-7305(1994)中)。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适合用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
[0419] 可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业以及葡萄藤。可修饰的植物的具体实例如下:玉米、香蕉、花生、豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及稻米。
[0420] 本发明还提供转化的植物细胞、含有转化的植物细胞的组织、植物和产品。本发明转化的细胞以及包括所述转化的细胞的组织和产品的特征为存在整合到基因组中的本发明核酸和通过定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的植物细胞来产生。本发明的重组植物细胞用作重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等。
[0421] 包含编码定点修饰多肽(例如,天然存在的Cas9;修饰的,即突变的或变体Cas9;嵌合Cas9等)的核苷酸序列的核酸可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。适合的已知启动子可为任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
[0422] 在一些情况下,定点修饰多肽包含与图3中描绘的Cas9/Csn1氨基酸序列的氨基酸7-166或731-1003或与在如SEQ ID NO:1-256和795-1346所列出的任何氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或
100%氨基酸序列同一性的氨基酸序列。
[0423] 本发明还提供本发明转基因植物的繁殖物质,其中繁殖物质包括种子、子代植物和克隆物质。
[0424] 定义–第II部分
[0425] 如本文所使用适用于核酸、多肽、细胞或生物的术语“天然存在的”或“未修饰的”是指存在于自然中的核酸、多肽、细胞或生物。例如,可从自然中的来源分离并且不通过人在实验室中有意修饰的存在于生物(包括病毒)中的多肽或多核苷酸序列为天然存在的。
[0426] 如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,在融合变体Cas9定点多肽中,变体Cas9定点多肽可融合至异源多肽(即除了Cas9以外的多肽)。异源多肽可表现出还将通过融合变体Cas9定点多肽所表现出的活性(例如,酶活性)。异源核酸序列可连接至变体Cas9定点多肽(例如,通过基因工程化)以产生编码融合变体Cas9定点多肽的核苷酸序列。
[0427] 术语“嵌合多肽”是指例如通过人干预,通过人工组合氨基序列的两个另外分开的区段而制得的非天然存在的多肽。因此,嵌合多肽还为人干预的结果。因此,包含嵌合氨基酸序列的多肽为嵌合多肽。
[0428] “定点多肽”或“RNA结合定点多肽”或“RNA结合定点多肽”意指结合RNA并且靶向特异性DNA序列的多肽。如本文所述的定点多肽通过其结合的RNA分子靶向特异性DNA序列。RNA分子包含与靶DNA内的靶序列互补的序列,从而将结合的多肽靶向靶DNA内的特定位置(靶序列)。
[0429] 在一些实施方案中,本发明核酸(例如,靶向DNA的RNA、包含编码靶向DNA的RNA的核苷酸序列的核酸;编码定点多肽的核酸等)包含提供额外希望的特征的修饰或序列(例如,修饰的或调节的稳定性;亚细胞靶向;追踪,例如荧光标记;用于蛋白质或蛋白质复合物的结合位点等)。非限制性实例包括:5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列(例如,通过蛋白质和/或蛋白质复合物允许调节的稳定性和/或调节的可接近性);将RNA靶向亚细胞定位(例如,细胞核、线粒体、叶绿体等)的修饰或序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列以及其组合。
[0430] 在一些实施方案中,靶向DNA的RNA包含提供上述任何特征的在5’或3’端上的额外区段。例如,适合的第三区段可包括:5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列(例如,通过蛋白质和蛋白质复合物允许调节的稳定性和/或调节的可接近性);将RNA靶向亚细胞定位(例如,细胞核、线粒体、叶绿体等)的序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列以及其组合。
[0431] 本发明靶向DNA的RNA和本发明定点多肽形成复合物(即,经过非共价相互作用结合)。靶向DNA的RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性。复合物的定点多肽提供位点特异性活性。换言之,定点多肽借助于其与靶向DNA的RNA的蛋白质结合区段缔合来引导至靶DNA序列(例如染色体核酸中的靶序列;染色体外核酸中的靶序列,例如游离型核酸、小环等;线粒体核酸中的靶序列;叶绿体核酸中的靶序列;质粒中的靶序列等)。
[0432] 在一些实施方案中,本发明靶向DNA的RNA包含两个单独的RNA分子(RNA多核苷酸)并且在本文中称为“双分子靶向DNA的RNA”或“二分子靶向DNA的RNA”。在其它实施方案中,本发明靶向DNA的RNA为单个RNA分子(单个RNA多核苷酸)并且在本文中称为“单分子靶向DNA的RNA”。如果没有另外指出,术语“靶向DNA的RNA”包括称为单分子靶向DNA的RNA和双分子靶向DNA的RNA。
[0433] 本发明二分子靶向DNA的RNA包含两个单独的RNA分子(“靶向物-RNA”和“激活物-RNA”)。本发明二分子靶向DNA的RNA的两个RNA分子各自均包含一段彼此互补的核苷酸,以使得两个RNA分子的互补核苷酸杂交以形成蛋白质结合区段的双链RNA双链体。
[0434] 本发明单分子靶向DNA的RNA包含两段核苷酸(靶向物-RNA和激活物-RNA),所述两段核苷酸彼此互补、通过插入核苷酸(“接头”或“接头核苷酸”)共价连接并且杂交以形成蛋白质结合区段的双链RNA双链体(dsRNA双链体),从而产生茎-环结构。靶向物-RNA和激活物-RNA可经过靶向物-RNA的3’端和激活物-RNA的5’端共价连接。或者,靶向物-RNA和激活物-RNA可经过靶向物-RNA的5’端和激活物-RNA的3’端共价连接。
[0435] 示例性二分子靶向DNA的RNA包含crRNA样(“CRISPR RNA”或“靶向物-RNA”或“crRNA”或“crRNA重复”)分子和对应的tracrRNA样(“反式作用CRISPR RNA”或“激活物-RNA”或“tracrRNA”)分子。crRNA样分子(靶向物-RNA)包含靶向DNA的RNA的DNA靶向区段(单链)和一段形成靶向DNA的RNA的蛋白质结合区段的dsRNA双链体的一半的核苷酸(“双链体形成区段”)。对应的tracrRNA样分子(激活物-RNA)包含一段形成靶向DNA的RNA的蛋白质结合区段的dsRNA双链体的另一半的核苷酸(双链体形成区段)。换言之,一段crRNA样分子的核苷酸与一段tracrRNA样分子的核苷酸互补并杂交以形成靶向DNA的RNA的蛋白质结合结构域的dsRNA双链体。因此,每个crRNA样分子均可被称作具有对应的tracrRNA样分子。crRNA样分子额外地提供单链DNA靶向区段。因此,crRNA样和tracrRNA样分子(作为对应的一对)杂交以形成靶向DNA的RNA。给定的crRNA或tracrRNA分子的精确序列为其中发现RNA分子的物种的特征。
[0436] 本文使用术语“激活物-RNA”意指双分子靶向DNA的RNA的tracrRNA样分子。本文使用术语“靶向物-RNA”意指双分子靶向DNA的RNA的crRNA样分子。本文使用术语“双链体形成区段”意指有助于通过一段与对应的激活物-RNA或靶向物-RNA分子的核苷酸杂交形成一段dsRNA双链体的激活物-RNA或靶向物-RNA的核苷酸。换言之,激活物-RNA包含与对应的靶向物-RNA的双链体形成区段互补的双链体形成区段。因此,激活物-RNA包含双链体形成区段而靶向物-RNA包含双链体形成区段和靶向DNA的RNA的DNA靶向区段。因此,本发明双分子靶向DNA的RNA可包含任何对应的激活物-RNA和靶向物-RNA对。
[0437] 二分子靶向DNA的RNA可设计成允许靶向物-RNA与激活物-RNA受控制的(即,有条件的)结合。因为二分子靶向DNA的RNA不是功能性的除非激活物-RNA和靶向物-RNA结合在具有dCas9的功能复合物中,二分子靶向DNA的RNA可通过使激活物-RNA与靶向物-RNA之间的结合成为可诱导的而为可诱导的(例如,药物可诱导的)。作为一个非限制性实例,RNA适体可用来调节(即,控制)激活物-RNA与靶向物-RNA的结合。因此,激活物-RNA和/或靶向物-RNA可包含RNA适体序列。
[0438] RNA适体为本领域中已知的并且通常为核糖开关的合成形式。术语“RNA适体”和“核糖开关”在本文中可互换使用以涵盖提供其为一部分的RNA分子的结构的可诱导调节(并且因此特异性序列的可用性)的合成核酸序列和天然核酸序列。RNA适体通常包含折叠成具体结构(例如,发夹)的序列,所述序列特异性结合具体药物(例如,小分子)。药物结合引起RNA折叠中的结构变化,这改变适体为一部分的核酸的特征。作为非限制性实例:(i)具有适体的激活物-RNA可不能够结合同源靶向物-RNA,除非适体被适当的药物结合;(ii)具有适体的靶向物-RNA可不能够结合同源激活物-RNA,除非适体被适当的药物结合;以及(iii)各自均包含结合不同药物的不同适体的靶向物-RNA和激活物-RNA可不能够彼此结合,除非存在这两种药物。如通过这些实例所说明,二分子靶向DNA的RNA可设计为可诱导的。
[0439] 适体和核糖开关的实例可例如见于:Nakamura等,Genes Cells.2012 May;17(5):344-64;Vavalle等,Future Cardiol.2012 May;8(3):3 71-82;Citartan等,Biosens Bioelectron.2012 Apr 15;34(1):1-11;和Liberman等,Wiley Interdiscip Rev RNA.2012 May-Jun;3(3):369-84中;所有所述参考文献均以引用的方式整体并入本文。
[0440] 可包括在二分子靶向DNA的RNA中的核苷酸序列的非限制性实例包括可与SEQ ID NO:671-678中列出的任一激活物RNA的双链体形成区段配对的靶向物RNA(例如,SEQ ID NO:566-567)。
[0441] 示例性单分子靶向DNA的RNA包含杂交以形成dsRNA双链体的两段互补核苷酸。在一些实施方案中,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该段的DNA)与在SEQ ID NO:431-562中列出的激活物-RNA(tracrRNA)序列之一在一段至少8个连续核苷酸上至少约60%相同。例如,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该段的DNA)与在SEQ ID NO:431-562中列出的tracrRNA序列之一在一段至少8个连续核苷酸上至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同或100%相同。
[0442] 在一些实施方案中,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该的DNA)与在SEQ ID NO:563-679中列出的靶向物-RNA(crRNA)序列之一在一段至少8个连续核苷酸上至少约60%相同。例如,单分子靶向DNA的RNA的两段互补核苷酸之一(或编码该段的DNA)与在SEQ ID NO:563-679中列出的crRNA序列之一在一段至少8个连续核苷酸上至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约
90%相同、至少约95%相同、至少约98%相同、至少约99%相同或100%相同。
[0443] 如上本文所使用的“宿主细胞”指代体内或体外真核细胞、原核细胞(例如,细菌或古细菌细胞)或作为单细胞实体培养的来自多细胞生物的细胞(例如,细胞系),所述真核细胞或原核细胞可用作或已用作核酸的受体,并且包括通过核酸转化的原始细胞的子代。应该理解由于天然、偶然或有意突变,单细胞的子代可不必在形态或在基因组或总DNA互补序列上与原始亲本完全相同。“重组宿主细胞”(又称为“遗传修饰的宿主细胞”)为已将异源核酸例如表达载体引入到其中的宿主细胞。例如,本发明细菌宿主细胞为借助于引入到外源核酸(例如,质粒或重组表达载体)的适合细菌宿主细胞中的遗传修饰的细菌宿主细胞,并且本发明真核宿主细胞为借助于引入到外源核酸的适合真核宿主细胞中的遗传修饰的真核宿主细胞(例如,哺乳动物生殖细胞)。
[0444] 在“定义–第I部分”中提供的定义也适用于本小节;参见“定义–第I部分”的额外术语说明。
[0445] 在进一步描述本发明之前,应该理解本发明不限于所述的具体实施方案,因此其当然可变化。还应该理解,本文所使用的术语仅出于描述具体实施方案的目的并且不旨在为限制性的,因为本发明的范围将仅被所附权利要求所限制。
[0446] 在提供数值范围时,应该理解在所述范围的上下限之间的每个中间值(除非上下文另外清楚地指出,否则所述中间值达到下限单位的十分之一)和任何其它说明的或在所述说明范围中的中间值涵盖在本发明内。这些较小范围的上下限可独立地包括在较小范围中,并且还涵盖在本发明内,除了任何确切超出所说明范围之外的限值。在所说明范围包括所述限值之一或两者时,超出那些包括的限值的任一个或两者的范围也包括在本发明中。
[0447] 除非另外定义,否则本文使用的所有技术术语和科学术语具有与通过本发明所属领域中的普通技术人员通常理解的相同的含义。虽然还可在本发明的实践或测试中使用类似于或等同于本文所述的那些方法和材料的任何方法和材料,但现在描述优选的方法和材料。本文所提到的所有出版物以引用的方式并入本文以公开和描述与出版物所引用的相关的方法和/或材料。
[0448] 必须指出,如本文和在所附权利要求书中所使用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数对象,除非上下文另外清楚地指出。因此,例如,提到“一种酶失活Cas9多肽”包括多种此类多肽并且提到“所述靶核酸”包括提到一种或多种靶核酸及其本领域普通技术人员已知的等效物,等等。进一步指出,权利要求可起草成排除任何可选元件。因此,此说明旨在用作使用与权利要求元件引用相关的如“仅有”、“仅仅”等此类排他术语或使用“否定”限制的先行词基础。
[0449] 应该领会,为了清楚起见而在分开的实施方案的上下文中描述的本发明的某些特征还可与单个实施方案组合提供。相反,为了简明起见而在单个实施方案的上下文中描述的本发明的各种特征还可分开提供或以任何适合的子组合形式提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外,各种实施方案及其元件的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种这样的子组合均单独地和明确地在本文中公开一样。
[0450] 本文所讨论的出版物仅为其在本申请的申请日之前的公开而提供。本文没有任何内容被解释为承认本发明没有资格先于现有发明的这种出版物。此外,所提供的出版日期可与实际出版日期不同,这可能需要独立证实。
[0451] 详述–第II部分
[0452] 本公开提供调节宿主细胞中的靶核酸的转录的方法。方法总体上涉及使靶核酸与酶失活Cas9多肽和单导向RNA接触。方法有用于各种应用中,也提供了所述应用。
[0453] 本公开的转录调节方法克服了涉及RNAi的方法的一些缺陷。本公开的转录调节方法可用于各种各样的应用中,包括研究应用、药物发现(例如,高通量筛选)、靶标确认、工业应用(例如,作物工程化;微生物工程化等)、诊断应用、治疗应用以及成像技术。
[0454] 调节转录的方法
[0455] 本公开提供选择性调节宿主细胞中的靶DNA的转录的方法。方法总体上涉及:a)将以下物质引入到宿主细胞中:i)靶向DNA的RNA或包含编码靶向DNA的RNA的核苷酸序列的核酸;和ii)变体Cas9定点多肽(“变体Cas9多肽”)或包含编码变体Cas9多肽的核苷酸序列的核酸,其中变体Cas9多肽表现出减小的脱氧核糖核酸内切酶活性。
[0456] 靶向DNA的RNA(在本文中又称为“crRNA”或“导向RNA”或“gRNA”)包含:i)第一区段,其包含与靶DNA中的靶序列互补的核苷酸序列;ii)第二区段,其与定点多肽相互作用;以及iii)转录终止子。包含与靶DNA中的靶序列互补的核苷酸序列的第一区段在本文中称为“靶向区段”。与定点多肽相互作用的第二区段在本文中又称为“蛋白质结合序列”或“dCas9结合发夹”或“dCas9柄”。“区段”意指分子的区段/部分/区域,例如RNA中的一段连续核苷酸。除非在具体背景下另外确切地定义,否则“区段”的定义不限于具体数目的总碱基对并且可包括具有任何总长度的RNA分子的区域和可以或可以不包括与其它分子互补的区域。根据本公开的靶向DNA的RNA可为单个RNA分子(单个RNA多核苷酸),其在本文中可称为“单分子靶向DNA的RNA”、“单导向RNA”或“sgRNA”。根据本公开的靶向DNA的RNA可包含两个RNA分子。术语“靶向DNA的RNA”或“gRNA”为包括在内的,是指二分子靶向DNA的RNA和单分子靶向DNA的RNA(即,sgRNA)。
[0457] 变体Cas9定点多肽包含:i)与靶向DNA的RNA相互作用的RNA结合部分;和ii)表现出减小的脱氧核糖核酸内切酶活性的活性部分。
[0458] 靶向DNA的RNA和变体Cas9多肽在宿主细胞中形成复合物;复合物选择性调节宿主细胞中的靶DNA的转录。
[0459] 在一些情况下,本公开的转录调节方法提供宿主细胞中的靶核酸的选择性调节(例如,减小或增加)。例如,与不存在靶向DNA的RNA/变体Cas9多肽复合物情况下的靶核酸的转录水平相比,靶核酸的转录“选择性”减小为靶核酸的转录减小至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约
90%或大于90%。靶核酸的转录选择性减小为减小靶核酸的转录,但大致上不减小非靶核酸的转录,例如,如果有的话,与不存在靶向DNA的RNA/变体Cas9多肽复合物情况下的非靶核酸的转录水平相比非靶核酸的转录减小小于10%。
[0460] 增加的转录
[0461] 与不存在靶向DNA的RNA/变体Cas9多肽复合物情况下的靶DNA的转录水平相比,靶DNA的“选择性”增加的转录可增加靶DNA的转录至少约1.1倍(例如,至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.5倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约12倍、至少约15倍或至少约20倍)。靶DNA的转录的选择性增加为增加靶DNA的转录,但大致上不增加非靶DNA的转录,例如,如果有的话,与不存在靶向DNA的RNA/变体Cas9多肽复合物情况下的非靶DNA的转录水平相比非靶DNA的转录增加小于约5倍(例如,小于约4倍、小于约3倍、小于约2倍、小于约1.8倍、小于约1.6倍、小于约1.4倍、小于约1.2倍、或小于约1.1倍)。
[0462] 作为一个非限制性实例,可通过将dCas9融合至异源序列来实现增加。适合的融合配偶体包括但不限于提供通过直接作用于靶DNA或与靶DNA相关的多肽(例如,组蛋白或其它DNA结合蛋白)来间接增加转录的活性的多肽。适合的融合配偶体包括但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性的多肽。
[0463] 另外适合的融合配偶体包括但不限于直接提供靶核酸的增加的转录的多肽(例如,转录激活物或其片段、募集转录激活物的蛋白质或其片段、小分子/药物反应性转录调节物等)。
[0464] 使用dCas9融合蛋白增加原核生物中的转录的本发明方法的一个非限制性实例包括细菌单杂交(B1H)或双杂交(B2H)系统的修饰。在B1H系统中,DNA结合结构域(BD)融合至细菌转录激活结构域(AD,例如大肠杆菌RNA聚合酶的α亚基(RNAPα))。因此,本发明dCas9可融合至包含AD的异源序列。当本发明dCas9融合蛋白到达启动子的上游区域处(在这里被靶向DNA的RNA靶向)时,dCas9融合蛋白的AD(例如,RNAPα)募集RNAP全酶,导致转录激活。在B2H系统中,BD不直接融合至AD;替代地,它们的相互作用通过蛋白质-蛋白质相互作用(例如,GAL11P-GAL4相互作用)来介导。为了修饰这样的系统用于本发明方法,dCas9可融合至提供蛋白质-蛋白质相互作用的第一蛋白质序列(例如,酵母GAL11P和/或GAL4蛋白)并且RNAα可融合至完成蛋白质-蛋白质相互作用的第二蛋白质序列(例如,如果GAL11P融合至dCas9为GAL4,如果GAL4融合至dCas9为GAL11P等)。GAL11P与GAL4之间的结合亲和力增加了结合和转录触发速率的效率。
[0465] 使用dCas9融合蛋白增加真核生物中的转录的本发明方法的一个非限制性实例包括将dCas9融合至激活结构域(AD)(例如,GAL4、疱疹病毒激活蛋白VP16或VP64、人核因子NF-κB p65亚基等)。为了给予系统可诱导性,dCas9融合蛋白的表达可通过诱导型启动子(例如,Tet-ON、Tet-OFF等)来控制。靶向DNA的RNA可被设计成靶向已知的转录应答元件(例如,启动子、增强子等)、已知的上游激活序列(UAS)、具有怀疑能够控制靶DNA的表达的未知或已知功能的序列等。
[0466] 另外的融合配偶体
[0467] 实现增加的或减少的转录的融合配偶体的非限制性实例列于图54中并且包括转录激活物和转录阻抑物结构域(例如,Krüppel相关框(KRAB或SKD);Mad mSIN3相互作用结构域(SID);ERF阻抑物结构域(ERD)等)。在一些此类情况下,dCas9融合蛋白通过靶向DNA的RNA而靶向至靶DNA中的具体位置(即,序列)并且发挥基因座特异性调节,如阻断RNA聚合酶结合启动子(所述启动子选择性抑制转录激活物功能)和/或修饰局部染色质状态(例如,当使用融合序列时修饰靶DNA或修饰与靶DNA相关的多肽)。在一些情况下,变化为瞬时的(例如,转录阻抑或激活)。在一些情况下,变化为可遗传的(例如,当对靶DNA或与靶DNA相关的蛋白质例如核小体组蛋白进行后生修饰时)。
[0468] 在一些实施方案中,异源序列可融合至dCas9多肽的C-末端。在一些实施方案中,异源序列可融合至dCas9多肽的N-末端。在一些实施方案中,异源序列可融合至dCas9多肽的内部(即,除了N-末端或C-末端以外的部分)。
[0469] 使用本发明dCas9融合蛋白的方法的生物作用可通过任何合宜方法(例如,基因表达测定;基于染色质的测定,例如染色质免疫沉淀(ChiP)、染色质体内测定(CiA)等;以及类似方法)来检测。
[0470] 在一些情况下,本发明方法涉及使用两个或更多个不同的靶向DNA的RNA。例如,两个不同的靶向DNA的RNA可用于单个宿主细胞中,其中两个不同的靶向DNA的RNA靶向相同靶核酸中的两个不同靶序列。
[0471] 因此,例如,本发明转录调节方法可还包括将第二靶向DNA的RNA或包含编码第二靶向DNA的RNA的核苷酸序列的核酸引入到宿主细胞中,其中第二靶向DNA的RNA包含:i)第一区段,其包含与靶DNA中的第二靶序列互补的核苷酸序列;ii)第二区段,其与定点多肽相互作用;以及iii)转录终止子。在一些情况下,使用两个不同的靶向DNA的RNA来靶向相同靶核酸中的两个不同靶向序列提供了靶核酸的转录调节增加(例如,减小或增加)。
[0472] 作为另一个实例,两个不同的靶向DNA的RNA可用于单个宿主细胞中,其中两个不同的靶向DNA的RNA靶向两个不同靶核酸。因此,例如,本发明转录调节方法可还包括将第二靶向DNA的RNA或包含编码第二靶向DNA的RNA的核苷酸序列的核酸引入到宿主细胞中,其中第二靶向DNA的RNA包含:i)第一区段,其包含与至少一个第二靶DNA中的靶序列互补的核苷酸序列;ii)第二区段,其与定点多肽相互作用;以及iii)转录终止子。
[0473] 在一些实施方案中,本发明核酸(例如,靶向DNA的RNA,例如单分子靶向DNA的RNA、激活物-RNA、靶向物-RNA等;供体多核苷酸;编码定点修饰多肽的核酸等)包含提供额外希望的特征(例如,修饰的或调节的稳定性;亚细胞靶向;追踪,例如荧光标记;用于蛋白质或蛋白质复合物的结合位点等)的修饰或序列。非限制性实例包括:5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列或适体序列(例如,通过蛋白质和/或蛋白质复合物允许调节的稳定性和/或调节的可接近性);终止子序列;形成dsRNA双链体(即发夹)的序列);将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的修饰或序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列以及其组合。
[0474] DNA靶向区段
[0475] 靶向DNA的RNA的DNA靶向区段(或“DNA靶向序列”)(“crRNA”)包含与靶DNA内的特异性序列互补的核苷酸序列(靶DNA的互补链)。
[0476] 换言之,本发明靶向DNA的RNA的DNA靶向区段经过杂交(即,碱基配对)以序列特异性方式与靶DNA相互作用。因此,DNA靶向区段的核苷酸序列可改变并且确定靶向DNA的RNA和靶DNA将相互作用的靶DNA内的位置。本发明靶向DNA的RNA的DNA靶向区段可被修饰(例如,通过遗传工程化)以杂交靶DNA内的任何希望的序列。
[0477] DNA靶向区段的长度可为约12个核苷酸至约100个核苷酸。例如,DNA靶向区段的长度可为约12个核苷酸(nt)至约80nt、约12nt至约50nt、约12nt至约40nt、约12nt至约30nt、约12nt至约25nt、约12nt至约20nt或约12nt至约19nt。例如,DNA靶向区段的长度可为约19nt至约20nt、约19nt至约25nt、约19nt至约30nt、约19nt至约35nt、约19nt至约40nt、约
19nt至约45nt、约19nt至约50nt、约19nt至约60nt、约19nt至约70nt、约19nt至约80nt、约
19nt至约90nt、约19nt至约100nt、约20nt至约25nt、约20nt至约30nt、约20nt至约35nt、约
20nt至约40nt、约20nt至约45nt、约20nt至约50nt、约20nt至约60nt、约20nt至约70nt、约
20nt至约80nt、约20nt至约90nt或约20nt至约100nt。
[0478] 与靶DNA的核苷酸序列(靶序列)互补的DNA靶向区段的核苷酸序列(DNA靶向序列)的长度可为至少约12nt。例如,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度可为至少约12nt、至少约15nt、至少约18nt、至少约19nt、至少约20nt、至少约25nt、至少约30nt、至少约35nt或至少约40nt。例如,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度可为约12个核苷酸(nt)至约80nt、约12nt至约50nt、约12nt至约45nt、约12nt至约
40nt、约12nt至约35nt、约12nt至约30nt、约12nt至约25nt、约12nt至约20nt、约12nt至约
19nt、约19nt至约20nt、约19nt至约25nt、约19nt至约30nt、约19nt至约35nt、约19nt至约
40nt、约19nt至约45nt、约19nt至约50nt、约19nt至约60nt、约20nt至约25nt、约20nt至约
30nt、约20nt至约35nt、约20nt至约40nt、约20nt至约45nt、约20nt至约50nt或约20nt至约
60nt。与靶DNA的核苷酸序列(靶序列)互补的DNA靶向区段的核苷酸序列(DNA靶向序列)的长度可为至少约12nt。
[0479] 在一些情况下,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度为20个核苷酸。在一些情况下,与靶DNA的靶序列互补的DNA靶向区段的DNA靶向序列的长度为19个核苷酸。
[0480] DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比可为至少60%(例如,至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少97%、至少98%、至少99%或100%)。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的七个连续最5’端核苷酸上为100%。
在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在约20个连续核苷酸上为至少60%。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的十四个连续最5’端核苷酸上为100%并且在剩余核苷酸上低至0%。在这样的情况下,DNA靶向序列可认为长度为14个核苷酸。在一些情况下,DNA靶向区段的DNA靶向序列与靶DNA的靶序列之间的互补百分比在靶DNA的互补链的靶序列的七个连续最5’端核苷酸上为100%并且在剩余核苷酸上低至0%。在这样的情况下,DNA靶向序列可认为长度为7个核苷酸。
[0481] 蛋白质结合区段
[0482] 靶向DNA的RNA的蛋白质结合区段(即“蛋白质结合序列”)与变体定点多肽相互作用。当变体Cas9定点多肽连同靶向DNA的RNA一起结合靶DNA时,靶DNA的转录减少。
[0483] 靶向DNA的RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。
[0484] 本公开的靶向DNA的RNA的蛋白质结合区段包含两段核苷酸(靶向物-RNA和激活物-RNA),所述两段核苷酸彼此互补、通过插入核苷酸(例如,在单分子靶向DNA的RNA情况下)(“接头”或“接头核苷酸”)共价连接并且杂交以形成蛋白质结合区段的双链RNA双链体(dsRNA双链体或“dCas9结合发夹”),从而产生茎-环结构。此茎-环结构在图39A中示意性示出。靶向物-RNA和激活物-RNA可经过靶向物-RNA的3’端和激活物-RNA的5’端共价连接。或者,靶向物-RNA和激活物-RNA可经过靶向物-RNA的5’端和激活物-RNA的3’端共价连接。
[0485] 蛋白质结合区段的长度可为约10个核苷酸至约100个核苷酸,例如约10个核苷酸(nt)至约20nt、约20nt至约30nt、约30nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70nt至约80nt、约80nt至约90nt或约90nt至约100nt。例如,蛋白质结合区段的长度可为约15个核苷酸(nt)至约80nt、约15nt至约50nt、约15nt至约40nt、约15nt至约
30nt或约15nt至约25nt。
[0486] 蛋白质结合区段的dsRNA双链体的长度可为约6个碱基对(bp)至约50bp。例如,蛋白质结合区段的dsRNA双链体的长度可为约6bp至约40bp、约6bp至约30bp、约6bp至约25bp、约6bp至约20bp、约6bp至约15bp、约8bp至约40bp、约8bp至约30bp、约8bp至约25bp、约8bp至约20bp或约8bp至约15bp。例如,蛋白质结合区段的dsRNA双链体的长度可为约8bp至约10bp、约10bp至约15bp、约15bp至约18bp、约18bp至约20bp、约20bp至约25bp、约25bp至约
30bp、约30bp至约35bp、约35bp至约40bp或约40bp至约50bp。在一些实施方案中,蛋白质结合区段的dsRNA双链体的长度为36个碱基对。杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比可为至少约60%。例如,杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比可为至少约65%、至少约70%、至少约75%、至少约
80%、至少约85%、至少约90%、至少约95%、至少约98%或至少约99%。在一些情况下,杂交以形成蛋白质结合区段的dsRNA双链体的核苷酸序列之间的互补百分比为100%。
[0487] 接头的长度可为约3个核苷酸至约100个核苷酸。例如,接头的长度可为约3个核苷酸(nt)至约90nt、约3个核苷酸(nt)至约80nt、约3个核苷酸(nt)至约70nt、约3个核苷酸(nt)至约60nt、约3个核苷酸(nt)至约50nt、约3个核苷酸(nt)至约40nt、约3个核苷酸(nt)至约30nt、约3个核苷酸(nt)至约20nt或约3个核苷酸(nt)至约10nt。例如,接头的长度可为约3nt至约5nt、约5nt至约10nt、约10nt至约15nt、约15nt至约20nt、约20nt至约25nt、约25nt至约30nt、约30nt至约35nt、约35nt至约40nt、约40nt至约50nt、约50nt至约60nt、约
60nt至约70nt、约70nt至约80nt、约80nt至约90nt或约90nt至约100nt。在一些实施方案中,靶向DNA的RNA的接头为4nt。
[0488] 可包括在适合的蛋白质结合区段(即,dCas9柄)中的核苷酸序列的非限制性实例列于SEQ ID NO:563-682(例如,参见图8和图9)中。
[0489] 在一些情况下,适合的蛋白质结合区段包含与任一以上列出的序列有1、2、3、4或5个核苷酸不同的核苷酸序列。
[0490] 稳定性控制序列(例如,转录终止子区段)
[0491] 稳定性控制序列影响RNA(例如,靶向DNA的RNA、靶向物-RNA、激活物-RNA等)的稳定性。适合的稳定性控制序列的一个实例为转录终止子区段(即,转录终止序列)。本发明靶向DNA的RNA的转录终止子区段的总长度可为约10个核苷酸至约100个核苷酸,例如约10个核苷酸(nt)至约20nt、约20nt至约30nt、约30nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70nt至约80nt、约80nt至约90nt或约90nt至约100nt。例如,转录终止子区段的长度可为约15个核苷酸(nt)至约80nt、约15nt至约50nt、约15nt至约40nt、约
15nt至约30nt或约15nt至约25nt。
[0492] 在一些情况下,转录终止序列为在真核细胞中起作用的转录终止序列。在一些情况下,转录终止序列为在原核细胞中起作用的转录终止序列。
[0493] 可包括在稳定性控制序列(例如,转录终止区段或在提供增加的稳定性的靶向DNA的RNA的任何区段中)中的核苷酸序列的非限制性实例包括列于SEQ ID NO:683-696中的序列,并且例如,
[0494] 5’-UAAUCCCACAGCCGCCAGUUCCGCUGGCGGCAUUUU-5’(SEQ ID NO:795)(Rho独立型trp终止位点)。
[0495] 另外的序列
[0496] 在一些实施方案中,靶向DNA的RNA在5’或3’端上包含至少一个另外区段。例如,适合的另外区段可包含5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚腺苷酸尾);核糖开关序列(例如,通过蛋白质和蛋白质复合物允许调节的稳定性和/或调节的可接近性);形成dsRNA双链体(即发夹)的序列;将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的序列;提供追踪(例如,直接缀合至荧光分子、缀合至促进荧光检测的部分、允许荧光检测的序列等)的修饰或序列;提供用于蛋白质(例如,作用在DNA上的蛋白质,包括转录激活物、转录阻抑物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列、提供增加的、减少的和/或可控制的稳定性的修饰或序列以及其组合。
[0497] 多个同时靶向DNA的RNA
[0498] 在一些实施方案中,同时在相同细胞中使用多个靶向DNA的RNA来同时调节相同靶DNA上或不同靶DNA上的不同位置处的转录。在一些实施方案中,两个或更多个靶向DNA的RNA靶向相同基因或转录物或基因座。在一些实施方案中,两个或更多个靶向DNA的RNA靶向不同不相关的基因座。在一些实施方案中,两个或更多个靶向DNA的RNA靶向不同但相关的基因座。
[0499] 因为靶向DNA的RNA为小而坚固的,所以它们可同时存在于相同表达载体上并且如果这样希望的话可甚至在相同转录控制之下。在一些实施方案中,两个或更多个(例如,3个或更多个、4个或更多个、5个或更多个、10个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、45个或更多或50个或更多个)靶向DNA的RNA同时在靶细胞中表达(从相同或不同载体中)。表达的靶向DNA的RNA可被来自不同细菌如酿脓链球菌、嗜热链球菌、无害李斯特氏菌和膜炎奈瑟氏菌的dCas9蛋白不同地识别。
[0500] 为了表达多个靶向DNA的RNA,可使用通过Csy4核糖核酸内切酶介导的人工RNA加工系统。可将多个靶向DNA的RNA连结成前体转录物(例如,从U6启动子表达)上的串联阵列,并且通过Csy4特异性RNA序列来分离。共表达的Csy4蛋白将前体转录物裂解成多个靶向DNA的RNA。用于使用RNA加工系统的优点包括:第一,不需要使用多个启动子;第二,因为所有靶向DNA的RNA从前体转录物中加工,所以它们的浓度被归一化用于类似的dCas9结合。
[0501] Csy4为源自细菌绿脓假单胞菌(Pseudomonas aeruginosa)的小分子核糖核酸内切酶(RNA酶)蛋白。Csy4特异性识别最小的17bp RNA发夹,并且表现出快速(<1min)和高度有效(>99.9%)的RNA裂解。不像大多数RNA酶,裂解的RNA片段仍保持稳定和功能活性。基于Csy4的RNA裂解可重新意图到人工RNA加工系统中。在此系统中,17bp RNA发夹插入在转录为来自单个启动子的前体转录物的多个RNA片段之间。Csy4的共表达有效地产生单独RNA片段。
[0502] 定点多肽
[0503] 如上所指出,本发明靶向DNA的RNA和变体Cas9定点多肽形成复合物。靶向DNA的RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性。
[0504] 变体Cas9定点多肽具有减小的脱氧核糖核酸内切酶活性。例如,适合用于本公开的转录调节方法的变体Cas9定点多肽表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas9多肽的脱氧核糖核酸内切酶活性,例如包含如在图3中所描绘的氨基酸序列(SEQ ID NO:8)的野生型Cas9多肽。在一些实施方案中,变体Cas9定点多肽大致上不具有可检测的脱氧核糖核酸内切酶活性。在当定点多肽具有减小的催化活性时(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变,例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)的一些实施方案中,多肽仍可以位点特异性方式结合靶DNA(因为它仍通过靶向DNA的RNA引导至靶DNA序列),只要所述多肽保留与靶向DNA的RNA相互作用的能力。
[0505] 在一些情况下,适合的变体Cas9定点多肽包含与图3中描绘的Cas9/Csn1氨基酸序列(SEQ ID NO:8)的氨基酸7-166或731-1003或与SEQ ID NO:1-256和795-1346的任一氨基酸序列中的对应部分具有至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%氨基酸序列同一性的氨基酸序列。
[0506] 在一些情况下,变体Cas9定点多肽可裂解靶DNA的互补链,但对靶DNA的非互补链具有减小的裂解能力。例如,变体Cas9定点多肽可具有减小RuvC结构域(例如,图3的“结构域1”)的功能的突变(氨基酸取代)。作为一个非限制性实例,在一些情况下,变体Cas9定点多肽为图3中描绘的氨基酸序列的D10A(天冬氨酸至丙氨酸)突变(或在SEQ ID NO:1-256和795-1346中列出的任何氨基酸序列的对应突变)。
[0507] 在一些情况下,变体Cas9定点多肽可裂解靶DNA的非互补链,但对靶DNA的互补链具有减小的裂解能力。例如,变体Cas9定点多肽可具有减小HNH结构域(RuvC/HNH/RuvC结构域基序,图3的“结构域2”)的功能的突变(氨基酸取代)。作为一个非限制性实例,在一些情况下,变体Cas9定点多肽为H840A(在SEQ ID NO:8的氨基酸位置840上组氨酸至丙氨酸)或在SEQ ID NO:1-256和795-1346中列出的任何氨基酸序列的对应突变。
[0508] 在一些情况下,变体Cas9定点多肽对靶DNA的互补链和非互补链均具有减小的裂解能力。作为一个非限制性实例,在一些情况下,变体Cas9定点多肽具有图3中描绘的氨基酸序列的D10A和H840A突变(或在SEQ ID NO:1-256和795-1346中列出的任何氨基酸序列的对应突变)。
[0509] 可使其它残基突变以实现相同作用(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,可改变(即,取代)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或如SEQ ID NO:1-256和795-1346所列出的任何蛋白质的对应突变)(更多关于Cas9氨基酸残基保守性的信息参见图3、图5、图11A和表1)。同样,除了丙氨酸取代以外的突变也为适合的。
[0510] 在一些情况下,变体Cas9定点多肽为融合多肽(“变体Cas9融合多肽”),即融合多肽包含:i)变体Cas9定点多肽;和b)共价连接的异源多肽(又称为“融合配偶体”)。
[0511] 异源多肽可表现出将还由变体Cas9融合多肽(例如,甲基转移酶活性、乙酰基转移酶活性、激酶活性、去泛素活性等)所表现出的活性(例如,酶活性)。异源核酸序列可连接至另一个核酸序列(例如,通过基因工程化)以产生编码嵌合多肽的嵌合核苷酸序列。在一些实施方案中,变体Cas9融合多肽通过将变体Cas9多肽与提供亚细胞定位的异源序列(即,异源序列为亚细胞定位序列,例如用于靶向细胞核的核定位信号(NLS);用于靶向线粒体的线粒体定位信号;用于靶向叶绿体的叶绿体定位信号;ER滞留信号等)融合来产生。在一些实施方案中,异源序列可提供便于追踪和/或纯化的标签(即,异源序列为可检测的标记物)(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。在一些实施方案中,异源序列可提供增加的或减小的稳定性(即,异源序列为稳定性控制肽,例如降解决定子(degron),所述降解决定子在一些情况下为可控制的(例如,温度敏感的或药物可控制的降解决定子序列,参见下文))。在一些实施方案中,异源序列可提供从靶DNA的增加的或减少的转录(即,异源序列为转录调节序列,例如转录因子/激活物或其片段、募集转录因子/激活物的蛋白质或其片段、转录阻抑物或其片段、募集转录阻抑物的蛋白质或其片段、小分子/药物反应性转录调节物等)。在一些实施方案中,异源序列可提供结合结构域(即,异源序列为蛋白质结合序列,例如,以提供嵌合dCas9多肽结合感兴趣的另一种蛋白质的能力,所述蛋白质例如DNA或组蛋白修饰蛋白、转录因子或转录阻抑物、募集蛋白等)。
[0512] 提供增加的或减小的稳定性的适合的融合配偶体包括但不限于降解决定子序列。本领域普通技术人员容易将降解决定子理解为控制其作为一部分的蛋白质的稳定性的氨基酸序列。例如,包含降解决定子序列的蛋白质的稳定性至少部分地通过降解决定子序列来控制。在一些情况下,适合的降解决定子为组成型以使得降解决定子独立于实验控制对蛋白质稳定性施加影响(即,降解决定子不为药物可诱导的、温度可诱导的等)。在一些情况下,降解决定子为变体Cas9多肽提供可控制的稳定性以使得变体Cas9多肽可取决于所希望的条件“存在(turn on)”(即,稳定)或“消失(turn off)”(即,不稳定、降解)。例如,如果降解决定子为温度敏感的降解决定子,变体Cas9多肽可在阈值温度(例如,42℃、41℃、40℃、
39℃、38℃、37℃、36℃、35℃、34℃、33℃、32℃、31℃、30℃等)以下有作用(即“存在”,稳定),但在阈值温度以上没有作用(即,“消失”,降解)。作为另一个实例,如果降解决定子为药物可诱导的降解决定子,药物的存在或不存在可将蛋白质从“消失”(即,不稳定)状态转换至“存在”(即,稳定)状态或反之亦然。示例性药物可诱导的降解决定子源自FKBP12蛋白。
降解决定子的稳定性通过存在或不存在结合降解决定子的小分子来控制。
[0513] 适合的降解决定子的实例包括但不限于通过Shield-1、DHFR、植物生长素和/或温度来控制的那些降解决定子。适合的降解决定子的非限制性实例为本领域中已知的(例如,Dohmen等,Science,1994.263(5151):第1273-1276页:Heat-inducible degron:a method for constructing temperature-sensitive mutants;Schoeber等,Am J Physiol Renal Physiol.2009 Jan;296(1):F204-11:Conditional fast expression and function of multimeric TRPV5channels using Shield-1;Chu等,Bioorg Med Chem Lett.2008 Nov 15;18(22):5941-4:Recent progress with FKBP-derived destabilizing domains;
Kanemaki,Pflugers Arch.2012 Dec 28:Frontiers of protein expression control with conditional degrons;Yang等,Mol Cell.2012 Nov 30;48(4):487-8:Titivated for destruction:the methyl degron;Barbour等,Biosci Rep.2013 Jan 18;33(1).:
Characterization of the bipartite degron that regulates ubiquitin-independent degradation of thymidylate synthase;以及Greussing等,J Vis Exp.2012 Nov 10;
(69):Monitoring of ubiquitin-proteasome activity in living cells using a Degron(dgn)-destabilized green fluorescent protein(GFP)-based reporter protein;所有所述参考文献均以引用的方式特此整体并入)。
[0514] 示例性降解决定子序列已在细胞和动物中良好地表征和测试。因此,将dCas9融合至降解决定子序列产生“可调的”和“可诱导的”dCas9多肽。可以任何希望的组合使用本文描述的任何融合配偶体。作为说明这点的一个非限制性实例,dCas9融合蛋白可包含用于检测的YFP序列、用于稳定性的降解决定子序列以及增加靶DNA的转录的转录激活物序列。此外,可用于dCas9融合蛋白的融合配偶体的数目不受限制。在一些情况下,dCas9融合蛋白包含一个或多个(例如,两个或更多个、三个或更多个、四个或更多个或五个或更多个)异源序列。
[0515] 适合的融合配偶体包括但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性的多肽,任何所述活性可在直接修饰DNA(例如,DNA甲基化)或修饰与DNA相关的多肽(例如,组蛋白或DNA结合蛋白)下检测。另外适合的融合配偶体包括但不限于边界元件(例如,CTCF)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白A、核纤层蛋白B等)以及蛋白质对接元件(例如,FKBP/FRB、Pil1/Aby1等)。
[0516] 用于本发明变体Cas9定点多肽的各种另外适合的融合配偶体(或其片段)的实例包括但不限于在图54中列出的那些。
[0517] 在一些实施方案中,本发明定点修饰多肽可为密码子优化的。此类型的优化为本领域中已知的并且需要外源DNA突变以模拟意图的宿主生物或细胞的密码子偏好同时编码相同蛋白质。因此,改变密码子,但编码蛋白质仍未变。例如,如果所意图的靶细胞为人细胞,人密码子优化的dCas9(或dCas9变体)将为适合的定点修饰多肽。作为另一个非限制性实例,如果意图的宿主细胞为小鼠细胞,则小鼠密码子优化的Cas9(或变体,例如酶失活的变体)将为适合的Cas9定点多肽。虽然不要求密码子优化,但在某些情况下它为可接受的并且可为优选的。
[0518] 宿主细胞
[0519] 可采用本公开调节转录的方法来体内和/或离体和/或体外诱导有丝分裂或有丝分裂后细胞中的转录调节。因为靶向DNA的RNA通过杂交靶DNA来提供特异性,所以有丝分裂和/或有丝分裂后细胞可为任何各种宿主细胞,其中适合的宿主细胞包括但不限于细菌细胞;古细菌细胞;单细胞真核生物;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻等;真菌细胞;动物细胞;来自无脊椎动物(例如,昆虫、刺胞动物、棘皮动物、线虫等)的细胞;真核寄生虫(例如,疟原虫,例如恶性疟原虫(Plasmodium falciparum);肠虫等);来自脊椎动物(例如,鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞;哺乳动物细胞,例如啮齿动物细胞、人细胞、非人灵长类动物细胞等。适合的宿主细胞包括天然存在的细胞;遗传修饰的细胞(例如,在实验室例如通过“人手”遗传修饰的细胞);以及以任何方式体外操纵的细胞。在一些情况下,宿主细胞为分离的。
[0520] 任何类型的细胞可为感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导的多能干(iPS)细胞、生殖细胞;体细胞,例如成纤维细胞、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞,例如1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎等)。细胞可来自已建立的细胞系或它们可为原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指源自受试者并且允许在体外生长有限次数的传代(即,使培养物分裂)的细胞和细胞培养物。例如,原代培养物包括可传代0次、1次、2次、4次、5次、10次或15次但没有传代通过转折期的足够次数的培养物。原代细胞系在体外可维持小于10代。在许多实施方案中,靶细胞为单细胞生物或在培养物中生长。
[0521] 如果细胞为原代细胞,此类细胞可通过任何合宜方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等的细胞通过活组织检查最方便地收获。适当的溶液可用于分散或悬浮所收获的细胞。此种溶液将通常为方便地用胎牛血清或其它天然存在的因子补充、连同低浓度(例如,5-25mM)可接受的缓冲液的平衡盐溶液,例如生理盐水、磷酸盐缓冲盐水(PBS)、汉克平衡盐溶液等。合宜的缓冲液包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。细胞可立即使用或它们可储藏、冷冻较长的一段时间、解冻并且能够重新使用。在此类情况下,细胞将通常在10%二甲亚砜(DMSO)、50%血清、40%缓冲介质或如通常用于本领域中在此类冷冻温度下保存细胞的一些其它此种溶液中冷冻并且以如本领域中通常已知用于解冻被冷冻的培养的细胞的方式解冻。
[0522] 将核酸引入到宿主细胞中
[0523] 靶向DNA的RNA或包含编码所述靶向DNA的RNA的核苷酸序列的核酸可通过任何各种熟知的方法引入到宿主细胞中。类似地,其中本发明方法涉及将包含编码变体Cas9定点多肽的核苷酸序列的核酸引入到宿主细胞中,这样的核酸可通过任何各种熟知的方法引入到宿主细胞中。
[0524] 将核酸引入到宿主细胞中的方法为本领域中已知的,并且任何已知的方法可用来将核酸(例如,表达构建体)引入到干细胞或祖细胞中。适合的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见,例如Panyam等Adv Drug Deliv Rev.2012 Sep 13.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0525] 核酸
[0526] 本公开提供分离的核酸,其包含编码本发明靶向DNA的RNA的核苷酸序列。在一些情况下,本发明核酸还包含编码变体Cas9定点多肽的核苷酸序列。
[0527] 在一些实施方案中,本发明方法涉及将一种或多种核酸引入到宿主细胞(或宿主细胞群)中,所述核酸包含编码靶向DNA的RNA和/或变体Cas9定点多肽的核苷酸序列。在一些实施方案中,包含靶DNA的细胞为体外的。在一些实施方案中,包含靶DNA的细胞为体内的。包含编码靶向DNA的RNA和/或定点多肽的核苷酸序列的适合的核酸包括表达载体,其中包含编码靶向DNA的RNA和/或定点多肽的核苷酸序列的表达载体为“重组表达载体”。
[0528] 在一些实施方案中,重组表达载体为病毒构建体,例如重组腺伴随病毒构建体(参见,例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体、重组逆转录病毒构建体等。
[0529] 适合的表达载体包括但不限于病毒载体(例如基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见,例如Li等,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;
Sakamoto等,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;
WO 94/28938;WO 95/11984和WO 95/00655);腺伴随病毒(参见,例如Ali等,Hum Gene Ther 
9:81 86,1998;Flannery等,PNAS 94:6916 6921,1997;Bennett等,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等,Gene Ther 4:683 690,1997;Rolling等,Hum Gene Ther 10:641 648,1999;Ali等,Hum Mol Genet 5:591 594,1996;Srivastava的WO 93/
09239;Samulski等,J.Vir.(1989)63:3822-3828;Mendelson等,Virol.(1988)166:154-
165;以及Flotte等,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人免疫缺陷病毒(参见,例如Miyoshi等,PNAS 94:10319 23,1997;Takahashi等,J Virol 73:7812 7816,
1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。
[0530] 众多适合的表达载体为本领域技术人员已知并且许多为商业上可获得的。通过实例的方式对于真核宿主细胞提供以下载体:pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG以及pSVLSV40(Pharmacia)。然而,可使用任何其它载体,只要所述载体与宿主细胞相容。
[0531] 取决于所使用的宿主/载体系统,可在表达载体中使用任何许多适合的转录和翻译控制元件,包括组成型和诱导型启动子、转录增强子元件、转录终止子等(参见,例如Bitter等(1987)Methods in Enzymology,153:516-544)。
[0532] 在一些实施方案中,编码靶向DNA的RNA和/或变体Cas9定点多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,如启动子。转录控制元件可在真核细胞(例如,哺乳动物细胞)或原核细胞(例如,细菌或古细菌细胞)中起作用。在一些实施方案中,编码靶向DNA的RNA和/或变体Cas9定点多肽的核苷酸序列可操作地连接至允许编码靶向DNA的RNA和/或变体Cas9定点多肽的核苷酸序列在原核细胞和真核细胞中表达的多个控制元件。
[0533] 启动子可为组成型活性启动子(即,在活性/“ON”状态下组成型的启动子),它可为诱导型启动子(即,通过外界刺激例如存在具体温度、化合物或蛋白质控制的其状态为活性/“ON”或非活性/“OFF”的启动子。),它可为空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可为时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。
[0534] 适合的启动子可源自病毒并且可因此称为病毒启动子,或它们可源自任何生物,包括原核生物或真核生物。适合的启动子可用来通过任何RNA聚合酶(例如,pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复(LTR)启动子;腺病毒主要晚期启动子(Ad MLP);单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如,Xia等,Nucleic Acids Res.2003 Sep 1;31(17))、人H1启动子(H1)等。
[0535] 诱导型启动子的实例包括但不限于T7RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子(例如,Tet-ON、Tet-OFF等)、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。诱导型启动子可因此通过包括但不限于多西环素;RNA聚合酶,例如T7RNA聚合酶;雌激素受体;雌激素受体融合等分子来调节。
[0536] 在一些实施方案中,启动子为空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等)以使得在多细胞生物中,启动子在特定细胞子集中为活性的(即,“ON”)。空间限制的启动子还可称为增强子、转录控制元件、控制序列等。可使用任何合宜的空间限制的启动子并且适合的启动子(例如,脑特异性启动子、驱动神经元子集中的表达的启动子、驱动种系中的表达的启动子、驱动肺中的表达的启动子、驱动肌肉内的表达的启动子、驱动胰腺的胰岛细胞中的表达的启动子)的选择将取决于生物。例如,对于植物、苍蝇、蠕虫、哺乳动物、小鼠等已知各种空间限制的启动子。因此,空间限制的启动子可用来取决于生物调节各种各样不同组织和细胞类型中的编码本发明定点多肽的核酸的表达。一些空间限制的启动子还为时间限制的以使得启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态。
[0537] 出于说明的目的,空间限制的启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间限制的启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见,例如EMBL HSENO2、X51956);芳香族氨基酸脱羧酶(AADC)启动子;神经丝启动子(参见,例如GenBank HUMNFL、L04147);突触蛋白启动子(参见,例如GenBank HUMSYNIB、M55301);thy-1启动子(参见,例如Chen等(1987)Cell 51:7-19;和Llewellyn等(2010)Nat.Med.16(10):1161-1166);血清素受体启动子(参见,例如GenBank S62283);酪氨酸羟化酶启动子(TH)(参见,例如Oh等(2009)Gene Ther 16:437;Sasaoka等(1992)Mol.Brain Res.16:274;Boundy等(1998)J.Neurosci.18:9989;和Kaneda等(1991)Neuron 6:583-594);GnRH启动子(参见,例如Radovick等(1991)Proc.Natl.Acad.Sci.USA 88:3402-
3406);L7启动子(参见,例如Oberdick等(1990)Science 248:223-226);DNMT启动子(参见,例如Bartge等(1988)Proc.Natl.Acad.Sci.USA 85:3648-3652);脑啡肽启动子(参见,例如Comb等(1988)EMBO J.17:3793-3805);髓磷脂碱性蛋白(MBP)启动子;Ca2+-钙调蛋白依赖型蛋白激酶II-α(CamKIIα)启动子(参见,例如Mayford等(1996)Proc.Natl.Acad.Sci.USA 
93:13250;和Casanova等(2001)Genesis 31:37);CMV增强子/血小板来源的生长因子-β启动子(参见,例如Liu等(2004)Gene Therapy 11:52-60)等。
[0538] 脂肪细胞特异性空间限制的启动子包括但不限于aP2基因启动子/增强子,例如人aP2基因的从-5.4kb至+21bp的区域(参见,例如Tozzo等(1997)Endocrinol.138:1604;Ross等(1990)Proc.Natl.Acad.Sci.USA 87:9590;和Pavjani等(2005)Nat.Med.11:797);葡萄糖转运蛋白-4(GLUT4)启动子(参见,例如Knight等(2003)Proc.Natl.Acad.Sci.USA 100:14725);脂肪酸移位酶(FAT/CD36)启动子(参见,例如Kuriki等(2002)
Biol.Pharm.Bull.25:1476;和Sato等(2002)J.Biol.Chem.277:15703);硬脂酰-辅酶A去饱和酶-1(SCD1)启动子(Tabor等(1999)J.Biol.Chem.274:20603);瘦素启动子(参见,例如Mason等(1998)Endocrinol.139:1013;和Chen等(1999)Biochem.Biophys.Res.Comm.262:
187);脂联素启动子(参见,例如Kita等(2005)Biochem.Biophys.Res.Comm.331:484;和Chakrabarti(2010)Endocrinol.151:2408);降脂素启动子(参见,例如Platt等(1989)Proc.Natl.Acad.Sci.USA 86:7490);抵抗素启动子(参见,例如Seo等(2003)
Molec.Endocrinol.17:1522)等。
[0539] 心肌细胞特异性空间限制的启动子包括但不限于源自以下基因的控制序列:肌球蛋白轻链-2、α-肌球蛋白重链、AE3、心肌肌钙蛋白C、心肌肌动蛋白等。Franz等(1997)Cardiovasc.Res.35:560-566;Robbins等(1995)Ann.N.Y.Acad.Sci.752:492-505;Linn等(1995)Circ.Res.76:584-591;Parmacek等(1994)Mol.Cell.Biol.14:1870-1885;Hunter等(1993)Hypertension 22:608-617;以及Sartorelli等(1992)Proc.Natl.Acad.Sci.USA 89:4047-4051。
[0540] 平滑肌特异性空间限制的启动子包括但不限于SM22α启动子(参见,例如Akyürek等(2000)Mol.Med.6:983;和美国专利号7,169,874);平滑素(smoothelin)启动子(参见,例如WO 2001/018048);α-平滑肌肌动蛋白启动子等。例如,在其内放有两个CArG元件的SM22α启动子的0.4kb区域已显示出介导血管平滑肌细胞特异性的表达(参见,例如Kim等(1997)Mol.Cell.Biol.17,2266-2278;Li等(1996)J.Cell Biol.132,849-859;和Moessler等(1996)Development 122,2415-2425)。
[0541] 光感受器特异性空间限制的启动子包括但不限于视紫红质启动子;视紫红质激酶启动子(Young等(2003)Ophthalmol.Vis.Sci.44:4076);β磷酸二酯酶基因启动子(Nicoud等(2007)J.Gene Med.9:1015);色素性视网膜炎基因启动子(Nicoud等(2007)同上);光感受器间视网膜样结合蛋白(IRBP)基因增强子(Nicoud等(2007)同上);IRBP基因启动子(Yokoyama等(1992)Exp Eye Res.55:225)等。
[0542] 文库
[0543] 本公开提供靶向DNA的RNA的文库。本公开提供包含编码靶向DNA的RNA的核苷酸的核酸文库。包含编码靶向DNA的RNA的核苷酸的核酸的本发明文库可包含重组表达载体的文库,所述重组表达载体包含编码靶向DNA的RNA的核苷酸。
[0544] 本发明文库可包含约10个单独成员至约1012个单独成员;例如,本发明文库可包含约10个单独成员至约102个单独成员、约102个单独成员至约103个单独成员、约103个单独成员至约105个单独成员、约105个单独成员至约107个单独成员、约107个单独成员至约109个单独成员、或约109个单独成员至约1012个单独成员。
[0545] 本发明文库的“单独成员”与文库的其它成员在靶向DNA的RNA的DNA靶向区段的核苷酸序列上不同。因此,例如,本发明文库的每个单独成员均可包含与文库的所有其它成员相同或大致上相同的蛋白质结合区段的核苷酸序列;并且可包含与文库的所有其它成员相同或大致上相同的转录终止区段的核苷酸序列;但与文库的其它成员在靶向DNA的RNA的DNA靶向区段的核苷酸序列上不同。以此方式,文库可包含结合不同靶核酸的成员。
[0546] 实用性
[0547] 根据本公开用于调节转录的方法可用于各种应用中,也提供了所述应用。应用包括研究应用;诊断应用;工业应用以及治疗应用。
[0548] 研究应用包括例如确定靶核酸的减少的或增加的转录对例如下游基因的发展、代谢、表达等的作用。
[0549] 可使用本发明转录调节方法进行高通量基因组分析,其中仅靶向DNA的RNA的DNA靶向区段需要改变,而蛋白质结合区段和转录终止区段可(在一些情况下)保持恒定。包含用于基因组分析的多个核酸的文库(例如,本发明文库)将包括:可操作地连接至编码靶向DNA的RNA的核苷酸序列的启动子,其中每个核酸均将包括不同的DNA靶向区段、共同的蛋白质结合区段和共同的转录终止区段。芯片可含有超过5x 104个独特的靶向DNA的RNA。应用将包括大规模表型分析、基因对功能映射以及宏基因组分析。
[0550] 本文公开的本发明方法可用于代谢工程化的领域中。因为转录水平可通过如本文所公开设计适当的靶向DNA的RNA来有效和可预测地控制,所以代谢途径(例如,生物合成途径)的活性可为精确控制的并且通过控制感兴趣的代谢途径内的特定酶的水平(例如,经过增加的或减少的转录)来调节。感兴趣的代谢途径包括用于化学品(精细化学品、燃料、抗生素、毒素、激动剂、拮抗剂等)和/或药物生产的代谢途径。
[0551] 感兴趣的生物合成途径包括但不限于(1)甲羟戊酸途径(例如,HMG-辅酶A还原酶途径)(将乙酰基-辅酶A转化成焦磷酸二甲基烯丙酯(DMAPP)和焦磷酸异戊烯酯(IPP),所述物质用于包括类萜/类异戊二烯等各种各样生物分子的生物合成)、(2)非甲羟戊酸途径(即,“2-C-甲基-D-赤藓糖醇4-磷酸酯/1-脱氧-D-木酮糖5-磷酸酯途径”或“MEP/DOXP途径”或“DXP途径”)(还替代地通过经过甲羟戊酸途径的替代途径将丙酮酸酯和甘油醛3-磷酸酯转化成DMAPP和IPP来产生DMAPP和IPP)、(3)聚酮化合物合成途径(经过各种聚酮化合物合成酶产生各种聚酮化合物)。聚酮化合物包括用于化疗的天然存在的小分子(例如,四环素和大环内酯)并且工业上重要的聚酮化合物包括雷帕霉素(rapamycin)(免疫抑制剂)、红霉素(erythromycin)(抗生素)、洛伐他汀(lovastatin)(抗胆固醇药物)以及埃博霉素B(epothilone B)(抗癌药物))、(4)脂肪酸合成途径、(5)DAHP(3-脱氧-D-阿拉伯-庚酮糖酸7-磷酸)合成途径、(6)产生有潜力生物燃料(如短链醇和烷烃、脂肪酸甲酯和脂肪醇、类异戊二烯等)的途径等。
[0552] 网络和级联
[0553] 本文公开的方法可用来设计控制的整合网络(即,一个级联或多个级联)。例如,本发明靶向DNA的RNA/变体Cas9定点多肽可用来控制(即,调节,例如增加、减少)另一种靶向DNA的RNA或另一种本发明变体Cas9定点多肽的表达。例如,第一靶向DNA的RNA可被设计成靶向第二嵌合dCas9多肽的转录调节,所述第二嵌合dCas9多肽具有与第一变体Cas9定点多肽不同的功能(例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶、脱乙酰基酶等)。另外,因为不同dCas9蛋白(例如,源自不同物种)可需要不同Cas9柄(即,蛋白质结合区段),第二嵌合dCas9多肽可源自与以上第一dCas9多肽不同的物种。因此,在一些情况下,可选择第二嵌合dCas9多肽以使得它可不与第一靶向DNA的RNA相互作用。在其它情况下,可选择第二嵌合dCas9多肽以使得它确实与第一靶向DNA的RNA相互作用。在一些此类情况下,两个(或更多个)dCas9蛋白的活性可竞争(例如,如果多肽具有相反活性)或可协同(例如,如果多肽具有类似或协同活性)。同样,如上所述,网络中的任何复合物(即,靶向DNA的RNA/dCas9多肽)可被设计成控制其它靶向DNA的RNA或dCas9多肽。因为本发明靶向DNA的RNA和本发明变体Cas9定点多肽可靶向任何希望的DNA序列,本文描述的方法可用来控制和调节任何希望的靶标的表达。可设计的整合网络(即,相互作用级联)在非常简单至非常复杂的范围内,并且不受限制。
[0554] 在其中两个或更多个组分(例如,靶向DNA的RNA、激活物-RNA、靶向物-RNA或dCas9多肽)各自均处于另一个靶向DNA的RNA/dCas9多肽复合物的调节控制之下的网络中,网络的一个组分的表达水平可影响网络的另一个组分的表达水平(例如,可增加或减少表达)。通过此机制,一个组分的表达可影响相同网络中的不同组分的表达,并且网络可包括增加其它组分表达的组分以及减少其它组分表达的组分的混合物。如将由本领域技术人员所容易地理解,一个组分的表达水平如何可影响一个或多个不同组分的表达水平的上述实例是出于说明目的并不是限制性的。当一个或多个组分被修饰(如上所述)为可操纵的(即,在实验控制之下,例如温度控制;药物控制,即,药物可诱导的控制;光控制等)时,可任选地将另一个复杂的层引入到网络中。
[0555] 作为一个非限制性实例,第一靶向DNA的RNA可结合第二靶向DNA的RNA的启动子,所述启动子控制靶治疗基因/代谢基因的表达。在这样的情况下,第一靶向DNA的RNA的有条件表达间接激活了治疗基因/代谢基因。此类型的RNA级联例如有用于简单地将阻抑物转化成激活物,并且可用来控制靶基因表达的逻辑或动力学。
[0556] 本发明转录调节方法还可用于药物发现和靶标确认。
[0557] 试剂盒
[0558] 本公开提供用于执行本发明方法的试剂盒。本发明试剂盒包含:a)本公开的靶向DNA的RNA或包含编码靶向DNA的RNA的核苷酸序列的核酸,其中靶向DNA的RNA包含:i))第一区段,其包含与靶DNA中的靶序列互补的核苷酸序列;ii))第二区段,其与定点多肽相互作用;以及iii)转录终止子;以及b)缓冲液。在一些情况下,包含编码靶向DNA的RNA的核苷酸序列的核酸还包含编码变体Cas9定点多肽的核苷酸序列,所述变体Cas9定点多肽相对于野生型Cas9表现出减小的脱氧核糖核酸内切酶活性。
[0559] 在一些情况下,本发明试剂盒还包含相对于野生型Cas9表现出减小的脱氧核糖核酸内切酶活性的变体Cas9定点多肽。
[0560] 在一些情况下,本发明试剂盒还包含核酸,所述核酸包含编码相对于野生型Cas9表现出减小的脱氧核糖核酸内切酶活性的变体Cas9定点多肽的核苷酸序列。
[0561] 本公开试剂盒可还包括一种或多种额外试剂,其中此类额外试剂可选自:缓冲液;洗涤缓冲液;对照试剂;对照表达载体或RNA多核苷酸;用于从DNA体外产生变体Cas9定点多肽的试剂等。在一些情况下,包括在本发明试剂盒中的变体Cas9定点多肽为如上所述的融合变体Cas9定点多肽。
[0562] 本发明试剂盒的组分可处于单独的容器中;或可合并在单个容器中。
[0563] 除了以上提到的组分,本发明试剂盒可还包括用于使用试剂盒的组分来实践本发明方法的说明书。用于实践本发明方法的说明书通常记录在适合的记录介质上。例如,可在衬底如纸或塑料等上印刷说明书。因此,说明书可作为包装插入物存在于试剂盒中,试剂盒容器的标签或其组件(即,与包装或分装相关)中。在其它实施方案中,说明书作为存在于适合的计算机可读存储介质例如CD-ROM、磁盘、闪存驱动器等上的电子存储数据文档存在。在又其它实施方案中,实际的说明书不存在于试剂盒中,但提供了用于例如经过互联网从远程资源获得说明书的装置。此实施方案的实例为包括网址的试剂盒,在所述网址中可查看说明书和/或从所述网址可下载说明书。与说明书一样,用于获得说明书的此装置记录在适合的衬底上。实施例
[0564] 提出以下实施例以便为本领域普通技术人员提供如何进行和使用本发明的完整公开和描述,并且不意图限制发明人所认为的本发明范围,也不代表以下实验为所进行的所有或仅有的实验。已做出努力确保关于所使用的数字的正确性(例如,量、温度等),但应该考虑一些实验误差和偏差。除非另外指出,否则份数为重量份,分子量为平均分子量,温度以摄氏度计,并且压力在大气下或接近大气。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,微微升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌肉内的(肌肉内地);i.p.,腹膜内的(腹膜内地);s.c.,皮下的(皮下地)等。
[0565] 实施例1:使用Cas9在靶DNA中产生修饰。
[0566] 材料和方法
[0567] 细菌菌株和培养条件
[0568] 在THY培养基(用0.2%酵母萃取物(Oxoid)补充的Todd Hewitt肉汤(THB,Bacto,Becton Dickinson))中或在用3%绵羊血补充的TSA(胰酶解酪蛋白大豆琼脂,BBL,Becton Dickinson)上培养的酿脓链球菌在没有振荡情况下、在用5%CO2补充的大气下、在37℃下孵育。在Luria-Bertani(LB)培养基和琼脂中培养的大肠杆菌在振荡情况下在37℃下孵育。当需要时,以下列最终浓度向培养基添加适合的抗生素:氨苄西林(ampicillin),针对大肠杆菌为100μg/ml;氯霉素(chloramphenicol),针对大肠杆菌为33μg/ml;卡那霉素(kanamycin),针对大肠杆菌为25μg/ml并且针对酿脓链球菌为300μg/ml。通过使用酶标仪(SLT Spectra Reader)在620nm处测量培养物等分试样的光学密度来周期性监测细菌细胞生长。
[0569] 细菌细胞的转化
[0570] 根据标准热休克方案进行质粒DNA转化到大肠杆菌细胞中。如先前所述稍加一些修改进行酿脓链球菌的转化。如先前所述基本上执行了为了监测质粒维持方面的体内CRISPR/Cas活性所进行的转化测定。简而言之,酿脓链球菌的电感受态细胞均化为相同细胞密度并且用500ng的质粒DNA电穿孔。每个转化进行两至三次,并且用不同批次感受态的细胞独立地进行实验三次用于统计分析。转化效率计算为CFU(集落形成单位)/μg的DNA。用无菌水和骨架载体pEC85进行对照转化。
[0571] DNA操纵
[0572] 根据标准技术稍加少许修改进行DNA操纵,包括DNA制备、扩增、消化、连接、纯化、琼脂糖凝胶电泳。如先前所述构建用于体外裂解和酿脓链球菌转化测定的原型间隔区质粒(4)。用于体外裂解测定的另外基于pUC19的原型间隔区质粒通过连接pUC19中的消化的EcoRI位点与BamHI位点之间的退火寡核苷酸来产生。先前已描述了含有GFP基因的质粒(41)。试剂盒(Qiagen)用于DNA纯化和质粒制备。使用 II XL试剂盒(Stratagene)或QuikChange定点诱变试剂盒(Agilent)进行质粒诱变。VBC-Biotech Services、Sigma-Aldrich和Integrated DNA Technologies提供合成寡核苷酸和RNA。
[0573] 用于体外转录模板的寡核苷酸
[0574] 用于体外转录的酿脓链球茵的II-A型CRISPR tracrRNA和crRNA的模板(针对tracrRNA-在chr.DNA SF370上的PCR;针对crRNA-退火两个寡核苷酸)
[0575] T7-tracrRNA(75nt)
[0576] OLEC1521(F5'tracrRNA):SEQ ID NO:340
[0577] OLEC1522(R3'tracrRNA):SEQ ID NO:341
[0578] T7-crRNA(模板)
[0579] OLEC2176(F crRNA-sp1):SEQ ID NO:342
[0580] OLEC2178(R crRNA-sp1):SEQ ID NO:343
[0581] OLEC2177(F crRNA-sp2):SEQ ID NO:344
[0582] OLEC2179(R crRNA-sp2):SEQ ID NO:345
[0583] 用于体外转录的脑膜炎奈瑟氏茵tracrRNA和工程化的crRNA-sp2的模板(针对tracrRNA-chr.DNA Z2491上的PCR;针对crRNA-退火两个寡核苷酸)
[0584] T7-tracrRNA
[0585] OLEC2205(F预测5’):SEQ ID NO:346
[0586] OLEC2206(R预测3’):SEQ ID NO:347
[0587] T7-crRNA(模板)
[0588] OLEC2209(Fsp2(speM)+N.m.重复):SEQ ID NO:348
[0589] OlEC2214(Rsp2(speM)+N.m.重复):SEQ ID NO:349
[0590] 用于体外转录的无害李斯特氏茵tracrRNA和工程化的crRNA-sp2的模板(针对tracrRNA-chr.DNA Clip11262上的PCR;针对crRNA-退火两个寡核苷酸)
[0591] T7-tracrRNA
[0592] OLEC2203(F预测5’):SEQ ID NO:350
[0593] OLEC2204(R预测3’):SEQ ID NO:351
[0594] T7-crRNA(模板)
[0595] OLEC2207(F sp2(speM)+L.in.重复):SEQ ID NO:352
[0596] OLEC2212(R sp2(speM)+L.in.重复):SEQ lD NO:353
[0597] 用于体外和体内研究的用原型间隔区构建质粒的寡核苷酸
[0598] 在体外和在酿脓链球菌中的用于speM(间隔区2(II-A型CRISPR,SF370;来自MGAS8232的原型间隔区原噬茵体 )分析的质粒(模板:chr.DNA MGAS8232或含有speM片段的质粒)
[0599] pEC287
[0600] OLEC1555(F speM):SEQ ID NO:354
[0601] OLEC1556(R speM):SEQ ID NO:355
[0602] pEC488
[0603] OLEC2145(F speM):SEQ ID NO:356
[0604] OLEC2146(R speM):SEQ ID NO:357
[0605] pEC370
[0606] OLEC1593(F pEC488原型间隔区2 A22G):SEQ ID NO:358
[0607] OLEC1594(R pEC488原型间隔区2 A22G):SEQ ID NO:359
[0608] pEC371
[0609] OLEC1595(F pEC488原型间隔区2 T10C):SEQ ID NO:360
[0610] OLEC1596(R pEC488原型间隔区2 T10C):SEQ ID NO:361
[0611] pEC372
[0612] OLEC2185(F pEC488原型间隔区2 T7A):SEQ ID NO:362
[0613] OLEC2186(R pEC488原型间隔区2 T7A):SEQ ID NO:363
[0614] pEC373
[0615] OLEC2187(F pEC488原型间隔区2 A6T):SEQ ID NO:364
[0616] OLEC2188(R pEC488原型间隔区2 A6T):SEQ ID NO:365
[0617] pEC374
[0618] OLEC2235(F pEC488原型间隔区2 A5T):SEQ ID NO:366
[0619] OLEC2236(R pEC488原型间隔区2 A5T):SEQ ID NO:367
[0620] pEC375
[0621] OLEC2233(F pEC488原型间隔区2 A4T):SEQ ID NO:368
[0622] OLEC2234(R pEC488原型间隔区2 A4T):SEQ ID NO:369
[0623] pEC376
[0624] OLEC2189(F PEC488原型间隔区2 A3T):SEQ ID NO:370
[0625] OLEC2190(R pEC488原型间隔区2 A3T):SEQ ID NO:371
[0626] pEC377
[0627] OLEC2191(F pEC488原型间隔区2 PAMG1C):SEQ ID NO:372
[0628] OLEC2192(R pEC488原型间隔区2 PAMG1C):SEQ ID NO:373
[0629] pEC378
[0630] OLEC2237(F pEC488原型间隔区2 PAM GG1,2CC):SEQ ID NO:374
[0631] OLEC2238(R pEC488原型间隔区2 PAMGG1,2CC):SEQ ID NO:375
[0632] 在体外和在酿脓链球菌中的用于SPy_0700(间隔区1(II-A型CRISPR,SF370;来自SF370的原型间隔区原噬茵体 )分析的质粒(模板:chr.DNA SF370或含有SPy_0700片段的质粒)
[0633] pEC489
[0634] OLEC2106(F SPy_0700):SEQ ID NO:376
[0635] OLEC2107(R Spy_0700):SEQ ID NO:377
[0636] pEC573
[0637] OLEC2941(F PAMTG1,2GG):SEQ ID NO:378
[0638] OLEC2942(R PAMTG1,2GG):SEQ ID NO:379
[0639] 用于通过测序分析验证质粒构建体和切割位点的寡核苷酸
[0640] ColEl(pEC85)
[0641] oliRN228(R测序):SEQ ID NO:380
[0642] speM(pEC287)
[0643] OLEC1557(F测序):SEQ ID NO:381
[0644] OLEC1556(R测序):SEQ ID NO:382
[0645] repDEG-pAMβ1(pEC85)
[0646] OLEC787(F测序):SEQ ID NO:383
[0647] 用于体外裂解测定的寡核苷酸
[0648] crRNA
[0649] 间隔区1 crRNA(1-42):SEQ ID NO:384
[0650] 间隔区2 crRNA(1-42):SEQ ID NO:385
[0651] 间隔区4 crRNA(1-42):SEQ ID NO:386
[0652] 间隔区2 crRNA(1-36):SEQ ID NO:387
[0653] 间隔区2 crRNA(1-32):SEQ ID NO:388
[0654] 间隔区2 crRNA(11-42):SEQ IDNO:389
[0655] tracrRNA
[0656] (4-89):SEQ ID NO:390
[0657] (15-89):SEQ ID NO:391
[0658] (23-89):SEQ ID NO:392
[0659] (15-53):SEQ ID NO:393
[0660] (15-44):SEQ ID NO:394
[0661] (15-36):SEQ ID NO:395
[0662] (23-53):SEQ ID NO:396
[0663] (23-48):SEQ ID NO:397
[0664] (23-44):SEQ ID NO:398
[0665] (1-26):SEQ ID NO:399
[0666] 嵌合RNA
[0667] 间隔区1-嵌合体A:SEQ ID NO:400
[0668] 间隔区1-嵌合体B:SEQ ID NO:401
[0669] 间隔区2-嵌合体A:SEQ IDNO:402
[0670] 间隔区2-嵌合体B:SEQ ID NO:403
[0671] 间隔区4-嵌合体A:SEQ ID NO:404
[0672] 间隔区4-嵌合体B:SEQ ID NO:405
[0673] GFP1:SEQ ID NO:406
[0674] GFP2:SEQ ID NO:407
[0675] GFP3:SEQ ID NO:408
[0676] GFP4:SEQ ID NO:409
[0677] GFP5:SEQ ID NO:410
[0678] 作为用于裂解测定的底物的DNA寡核苷酸(原型间隔区以粗体表示,PAM以下划线表示)
[0679] 原型间隔区1-互补-WT:SEQ ID NO:411
[0680] 原型间隔区1-非互补-WT:SEQ ID NO:412
[0681] 原型间隔区2-互补-WT:SEQ ID NO:413
[0682] 原型间隔区2-非互补-WT:SEQ ID NO:414
[0683] 原型间隔区4-互补-WT:SEQ ID NO:415
[0684] 原型间隔区4-非互补-WT:SEQ ID NO:416
[0685] 原型间隔区2-互补-PAM1:SEQ ID NO:417
[0686] 原型间隔区2-非互补-PAM1:SEQ ID NO:418
[0687] 原型间隔区2-互补-PAM2:SEQ ID NO:419
[0688] 原型间隔区2-非互补-PAM2:SEQ ID NO:410
[0689] 原型间隔区4-互补-PAM1:SEQ ID NO:421
[0690] 原型间隔区4-非互补-PAM1:SEQ ID NO:422
[0691] 原型间隔区4-互补-PAM2:SEQ ID NO:423
[0692] 原型间隔区4-非互补-PAM2:SEQ ID NO:424
[0693] 体外转录和纯化RNA
[0694] 使用T7快速体外转录试剂盒(Epicentre,Illumina company)和带有T7启动子序列的PCR产生的DNA模板体外转录RNA。在使用之前凝胶纯化RNA并且检查品质。以上描述了用于从酿脓链球菌SF370、无害李斯特氏菌Clip 11262和脑膜炎奈瑟氏菌A Z2491制备RNA模板的引物。
[0695] 蛋白质纯化
[0696] 编码Cas9的序列(残基1-0368)从酿脓链球菌SF370的基因组DNA中PCR扩增而来并且使用不依赖连接的克隆(LIC)插入到定制的基于pET的表达载体中。所得到的融合构建体含有N-末端六组氨酸-麦芽糖结合蛋白(His6-MBP)标签,接着为含有烟草蚀刻病毒(TEV)蛋白酶裂解位点的肽序列。蛋白质在大肠杆菌菌株BL21 Rosetta 2(DE3)(EMD BiOSCiences)中表达,在用0.2mM IPTG诱导之后在2xTY培养基中在18℃下生长16h。通过亲和色谱、离子交换色谱和大小排阻色谱步骤的组合来纯化蛋白质。简而言之,在均质机(Avestin)中将细胞溶解在20mM Tris pH 8.0、500mM NaCl、1mM TCEP(用蛋白酶抑制剂混合物(Roche)补充)中。使澄清的溶解产物分批结合至Ni-NTA琼脂糖(Qiagen)。用20mM Tris pH 8.0、500mM NaCl彻底洗涤树脂并且用20mM Tris pH 8.0、250mM NaCl、10%甘油洗脱结合的蛋白质。通过用TEV蛋白酶裂解去除His6-MBP亲和标签,同时用20mM HEPES pH 7.5、150mM KCl、1mM TCEP、10%甘油透析蛋白质过夜。通过在5ml SP Sepharose HiTrap柱(GE Life Sciences)上纯化、用100mM–1M KCl线性梯度洗脱从融合标签中分离出裂解的Cas9蛋白。通过大小排阻色谱法用20mM HEPES pH 7.5、150mM KCl和1mM TCEP在Superdex 200 16/60柱上进一步纯化蛋白质。将洗脱的蛋白质浓缩至大约8mg/ml,在液氮中快速冷冻并且储藏在-80℃下。使用QuikChange定点诱变试剂盒(Agilent)产生Cas9D10A、H840A和D10A/H840A点突变体并且通过DNA测序确认。根据针对野生型Cas9蛋白相同的工序纯化蛋白质。
[0697] 来自嗜热链球菌(LMD-9、YP_820832.1)、无害李斯特氏菌(Clip11262、NP_472073.1)、空肠弯曲杆菌(Campylobacter jejuni)(亚种菌NCTC 11168、YP_002344900.1)以及脑膜炎奈瑟氏菌(Z2491、YP_002342100.1)的Cas9直向同源物在BL21Rosetta(DE3)pLysS细胞(Novagen)中表达如His6-MBP(脑膜炎奈瑟氏菌和空肠弯曲杆菌)、His6-硫氧还蛋白(无害李斯特氏菌)和His6-GST(嗜热链球菌)融合蛋白,并且基本上如针对酿脓链球菌Cas9具有以下修改来纯化。由于共同纯化核酸的量大,在凝胶过滤之前通过另外的肝素琼脂糖步骤纯化所有四种Cas9蛋白,用100mM–2M KCl线性梯度洗脱结合的蛋白质。这成功地从空肠弯曲杆菌、脑膜炎奈瑟氏菌和无害李斯特氏菌蛋白中去除核酸污染,但不能从嗜热链球菌Cas9制剂中去除共同纯化的核酸。在20mM HEPES pH 7.5、150mM KCl和1mM TCEP中将所有蛋白质浓缩至1-8mg/ml,在液N2中快速冷冻并且储藏在-80℃下。
[0698] 质粒DNA裂解测定
[0699] 在通过加热至95℃并且缓慢冷却下降至室温的反应之前预退火合成或体外转录的tracrRNA和crRNA。在37℃下用具有或不具有10mM MgCl2的Cas9质粒裂解缓冲液(20mM HEPES pH 7.5、150mM KCl、0.5mM DTT、0.1mM EDTA)中的纯化的Cas9蛋白(50-500nM)和tracrRNA:crRNA双链体(50-500nM,1:1)将天然或限制消化线性化的质粒DNA(300ng(大约8nM))孵育60min。用含有250mM EDTA的5X DNA载荷缓冲液停止反应,通过0.8%或1%琼脂糖凝胶电泳分辨并且通过溴化乙锭染色可视化。对于Cas9突变裂解测定,在载荷于琼脂糖凝胶之前用5X SDS载荷缓冲液(30%甘油、1.2%SDS、250mM EDTA)停止反应。
[0700] 依赖金属的裂解测定
[0701] 在37℃下用Cas9(50nM)将原型间隔区2质粒DNA(5nM)孵育1h,所述Cas9用1mM、5mM或10mM MgCl2、1mM或10mM的MnCl2、CaCl2、ZnCl2、CoCl2、NiSO4或CuSO4补充的裂解缓冲液(20mM HEPES pH 7.5、150mM KCl、0.5mM DTT、0.1mM EDTA)中的50nM tracrRNA:crRNA-sp2预孵育。通过添加5X SDS载荷缓冲液(30%甘油、1.2%SDS、250mM EDTA)停止反应,通过1%琼脂糖凝胶电泳分辨并且通过溴化乙锭染色可视化。
[0702] 单转换测定
[0703] 在37℃下在裂解缓冲液(20mM HEPES pH 7.5、150mM KCl、10mM MgCl2、0.5mM DTT、0.1mM EDTA)中将Cas9(25nM)预孵育15min,其中双链体的tracrRNA:crRNA-sp2(25nM,1:1)或两个RNA(25nM)没有预退火并且通过添加原型间隔区2质粒DNA(5nM)开始反应。在37℃下孵育反应混合物。在限定的时间间隔下,从反应中取出样品,添加5X SDS载荷缓冲液(30%甘油、1.2%SDS、250mM EDTA)停止反应并且通过1%琼脂糖凝胶电泳和溴化乙锭染色监测裂解。对没有预孵育Cas9和RNA情况下的单转换动力学做出相同操作,其中将原型间隔区2质粒DNA(5nM)混合在具有没有预退火的双链体tracrRNA:crRNA-sp2(25nM)或两个RNA(25nM)的裂解缓冲液中,并且通过添加Cas9(25nM)开始反应。通过密度测定法分析裂解百分比并且针对时间绘制三个独立实验平均值的曲线图。通过非线性回归分析拟合数据并且-1
计算裂解速率(kobs[min ])。
[0704] 多转换测定
[0705] 在37℃下将Cas9(1nM)在具有预退火的tracrRNA:crRNA-sp2(1nM,1:1)的裂解缓冲液(20mM HEPES pH 7.5、150mM KCl、10mM MgCl2、0.5mM DTT、0.1mM EDTA)中预孵育15min。通过添加原型间隔区2质粒DNA(5nM)开始反应。在限定的时间间隔下,取出样品并且通过添加5X SDS载荷缓冲液(30%甘油、1.2%SDS、250mM EDTA)停止反应。通过1%琼脂糖凝胶电泳分辨裂解反应,用溴化乙锭染色并且通过密度测定法分析裂解百分比。针对时间(min)绘制四个独立实验结果的曲线图。
[0706] 寡核苷酸DNA裂解测定
[0707] 通过用5个单位T4多核苷酸激酶(New England Biolabs)和大约3–6pmol(大约20–40mCi)[γ-32P]-ATP(Promega)在1X T4多核苷酸激酶反应缓冲液中、在37℃下孵育30min来在50μL反应物中放射性标记DNA寡核苷酸(10pmol)。在热灭活(65℃持续20min)之后,通过Illustra MicroSpin G-25柱(GE Healthcare)纯化反应物以去除未并入的标记物。通过用等摩尔量未标记的互补寡核苷酸在95℃下退火标记的寡核苷酸3min来产生双链体底物(100nM),接着缓慢冷却至室温。对于裂解测定,通过加热至95℃来退火tracrRNA和crRNA持续30s,接着缓慢冷却至室温。用总体积9μl的裂解测定缓冲液(20mM HEPES pH 7.5、100mM KCl、5mM MgCl2、1mM DTT、5%甘油)中的退火的tracrRNA:crRNA双链体(500nM)预孵育Cas9(500nM最终浓度)。通过添加1μl靶DNA(10nM)开始反应并且在37℃下孵育1h。通过添加20μl载荷染料(5mM EDTA、0.025%SDS、5%甘油甲酰胺溶液)淬灭反应并且加热至95℃持续
5min。在含有7M尿素的12%变性聚丙烯酰胺凝胶上分辨裂解产物并且通过磷光成像(Storm,GE Life Sciences)可视化。使用已预退火并且在8%天然丙烯酰胺凝胶上纯化的DNA双链体底物进行测试PAM要求的裂解测定(图13B),并且随后在两个5’端放射性标记。如上建立并分析反应。
[0708] 电泳迁移率变动测定
[0709] 通过使每条链(10nmol)混合在去离子水中、加热至95℃持续3min并且缓慢冷却至室温来形成靶DNA双链体。在含有1X TBE的8%天然凝胶上纯化所有DNA。通过UV遮蔽可视化DNA带、切除并且通过使凝胶片浸泡在经过DEPC处理的H2O中洗脱。洗脱的DN A在经过DEPC处理的H2O中乙醇沉淀并溶解。DNA样品在37℃下使用T4多核苷酸激酶(New England Biolabs)用[γ-32P]-ATP 5’端标记30min。PNK在65℃下热变性20min,并且使用Illustra MicroS pin G-25柱(GE Healthcare)去除未并入的放射性标记物。在总体积10μl的含有20mM HEPES pH 7.5、100mM KCl、5mM MgCl2、1mM DTT和10%甘油的缓冲液中进行结合测定。用等摩尔量的预退火tracrRNA:crRNA双链体编程Cas9D10A/H840A双突变体并且从
100pM滴定至1μM。添加放射性标记的DNA至最终浓度为20pM。在37℃下孵育样品1h并且在4℃下在含有1X TBE和5mM MgCl2的8%天然聚丙烯酰胺凝胶上分辨。干燥凝胶并且通过磷光成像可视化DNA。
[0710] DNA和蛋白质序列的计算机分析
[0711] 载体NTI包(Invitrogen)用于DNA序列分析(载体NTI)和蛋白质的对比序列分析(AlignX)。
[0712] RNA结构和共折叠的计算机建模
[0713] 使用Vienna RNA包算法进行计算机预测(42,43)。分别用RNA折叠和RNA共折叠预测RNA二级结构和共折叠模型并且用VARNA可视化(44)。
[0714] 结果
[0715] 细菌和古细菌已进化出RNA介导的适应性防御系统,所述系统称为保护生物不受病毒和质粒侵入的成簇规律间隔的短回文重复序列(CRISPR)/CRISPR相关的(Cas)(1-3)。我们表明在这些系统的子集中,与反式激活crRNA(tracrRNA)碱基配对的成熟crRNA形成二RNA结构,所述二RNA结构指导CRISPR相关的蛋白质Cas9在靶DNA中引入双链(ds)断裂。在与crRNA导向序列互补的位点上,Cas9HNH核酸酶结构域裂解互补链,而Cas9RuvC样结构域裂解非互补链。当工程化为单RNA嵌合体时,二元tracrRNA:crRNA还指导序列特异性Cas9dsDNA裂解。这些研究显示核酸内切酶家族使用二元RNA用于位点特异性DNA裂解并且强调开发用于RNA可编程基因组编辑的系统的能力。
[0716] CRISPR/Cas防御系统依靠小RNA用于序列特异性检测并且使外来核酸沉默。CRISPR/Cas系统由安排在操纵子和CRISPR阵列中的cas基因构成,所述阵列由与相同重复序列间隔的基因组靶向序列(称为间隔区)组成(1–3)。CRISPR/Cas介导的免疫用三步发生。
在适应性阶段,具有一个或多个CRISPR基因座的细菌和古细菌通过将外来序列(原型间隔区)的短片段在CRISPR阵列的近端整合到宿主染色体中来响应于病毒或质粒挑战(1–3)。在表达和干扰阶段,重复间隔区元件转录到前体CRISPR RNA(pre-crRNA)分子中接着酶裂解产生了可与侵入病毒或质粒靶标的互补原型间隔区序列配对的短crRNA(4–11)。通过crRNA进行的靶标识别凭借在具有crRNA的复合物中起作用的Cas蛋白来指导外来序列的沉默(10,12–20)。
[0717] 存在三种类型的CRISPR/Cas系统(21–23)。I型和III型系统共有一些总体特征:专门的Cas核酸内切酶加工pre-crRNA,并且一旦成熟,每个crRNA均组装到能够识别和裂解与crRNA互补的核酸的大型多Cas蛋白复合物中。相比之下,II型系统通过不同机制加工precrRNA,其中与pre-crRNA中的重复序列互补的反式激活crRNA(tracrRNA)通过Cas9(之前为Csn1)蛋白存在下的双链(ds)RNA特异性核糖核酸酶RNA酶III触发加工(图15)(4,24)。Cas9被认为是负责外来DNA的crRNA引导沉默的专用蛋白质(25–27)。
[0718] 我们表明在II型系统中,Cas9蛋白构成要求在激活tracrRNA与靶向crRNA之间形成碱基配对结构以裂解靶dsDNA的酶家族。位点特异性裂解发生在通过crRNA与靶原型间隔区DNA之间碱基配对互补性确定的位置上,并且短基序[称为原型间隔区相邻基序(PAM)]与靶DNA中的互补区并置。我们的研究进一步展示了Cas9核酸内切酶家族可用单RNA分子编程以裂解特异性DNA位点,从而促进简单通用的RNA导向系统向产生用于基因组靶向和编辑的dsDNA断裂发展。
[0719] Cas9为通过两个RNA引导的DNA核酸内切酶
[0720] Cas9(II型系统的特征标志蛋白)已假设涉及crRNA成熟和crRNA导向DNA干扰(图15)(4,25–27)。Cas9涉及crRNA成熟(4),但它直接参与靶DNA破坏尚未研究。为了测试Cas9是否并如何能够进行靶DNA裂解,我们使用过度表达系统来纯化源自病原体酿脓链球菌的Cas9蛋白(图16,参见补充材料和方法)并且测试其裂解质粒DNA或带有与成熟crRNA互补的原型间隔区序列的寡核苷酸双链体以及真实PAM的能力。我们发现单独地成熟crRNA不能够指导Cas9催化的质粒DNA裂解(图10A和图17A)。然而,添加可与crRNA的重复序列配对并且在此系统中为crRNA成熟必不可少的tracrRNA触发Cas9来裂解质粒DNA(图10A和图17A)。裂解反应需要镁和存在与DNA互补的crRNA序列;能够tracrRNA碱基配对但含有非同源靶DNA结合序列的crRNA不能支持Cas9催化的质粒裂解(图10A;图17A,crRNA-sp2与crRNA-sp1比较;以及图18A)。我们用短线性dsDNA底物获得类似的结果(图10B和图17B以及图17C)。因此,反式激活tracrRNA为具有两个关键功能的小非编码RNA:通过酶RNA酶III触发pre-crRNA加工(4)和随后通过Cas9激活crRNA引导DNA裂解。
[0721] 通过tracrRNA:crRNA引导的Cas9进行的质粒和短线性dsDNA裂解为位点特异性的(图10C至图10E和图19A以及图19B)。质粒DNA裂解在PAM序列上游的三个碱基对位置上产生平端(图10C和图10E以及图19A和图19C)(26)。类似地,在短dsDNA双链体内,与crRNA中的靶标结合序列互补的DNA链(互补链)在PAM上游的三个碱基对位点上裂解(图10D和图10E以及图19B和图19C)。非互补DNA链在PAM上游的三至八个碱基对内的一个或多个位点上裂解。另外的研究显示非互补链最先被核酸内切酶裂解并且随后通过3′-5′核酸内切酶活性修剪(图18B)。在单转换条件下由Cas9进行的裂解速率在0.3min-1至1min-1范围内,与限制性核酸内切酶的裂解速率相当(图20A),而用五倍摩尔过量的底物DNA孵育野生型(WT)Cas9-tracrRNA:crRNA复合物证明了二元RNA引导Cas9为多转换酶(图20B)。与CRISPR I型级联复合物(18)相比,Cas9裂解线性化质粒和超螺旋质粒(图10A和图11A)。因此,侵入质粒原则上可通过用不同crRNA编程的Cas9蛋白裂解多次。
[0722] 图10(A)在存在或不存在75个核苷酸tracrRNA下用42个核苷酸crRNA-sp2(含有间隔区2序列的crRNA)编程Cas9。将复合物添加至带有与间隔区2互补的序列和功能PAM的环状或XhoI线性化的质粒DNA。crRNA-sp1,特异性对照;M,DNA标志物;kbp,千碱基对。参见图17A。(B)用crRNA-sp2和tracrRNA(核苷酸4至89)编程Cas9。用具有与间隔区2互补的序列和功能PAM的双链或单链DNA孵育复合物(4)。5′-放射性标记DNA的互补链或非互补链并且用未标记的配偶体链退火。nt,核苷酸。参见图17B和图17C。(C)测序分析来自图10A的裂解产物。在测序反应中引物延伸终止指示裂解位点的位置。3′末端A突出端(星号)为测序反应的人工产物。参见图19A和图19C。(D)沿着源自靶DNA双链体的互补链和非互补链的5′端标记的尺寸标志物分析来自图10B的裂解产物。M,标志物;P,裂解产物。参见图19B和图19C。(E)tracrRNA、crRNA-sp2和原型间隔区2DNA序列的示意性图示。表示了与tracrRNA(上划线)和原型间隔区DNA(下划线)互补的crRNA区。标记PAM序列;通过白色填充的箭头(C)、黑色填充的箭头[(D),互补链]以及黑条[(D),非互补链]表示绘图于(C)和(D)中的裂解位点。
[0723] 图15描绘II型RNA介导的CRISPR/Cas免疫途径。表达和干扰步骤表示在绘图中。II型CRISPR/Cas基因座由以下构成:编码蛋白质Cas9、Cas1、Cas2和Csn2的四个基因的操纵子、由前导序列接着为穿插独特基因组靶向间隔区(菱形)的相同重复序列(黑色矩形)组成的CRISPR阵列以及编码反式激活tracrRNA的序列。在这里表示了酿脓链球菌SF370(登记号NC_002737)的II型CRISPR/Cas基因座(4)。指示了在此基因座中实验证实的启动子和转录终止子(4)。CRISPR阵列转录为经历对II型系统有特异性的成熟过程的前体CRISPR RNA(pre-crRNA)分子(4)。在酿脓链球菌SF370中,tracrRNA转录为具有171nt和89nt长度的两个主要转录物,所述转录物与pre-crRNA的每个重复均具有互补性。第一加工事件涉及tracrRNA与pre-crRNA配对,在Cas9蛋白存在下形成被持家核糖核酸内切酶RNA酶III识别和裂解的双链体RNA。双链体RNA的RNA酶III介导的裂解产生75nt加工的tracrRNA和66nt中间体crRNA,其由含有一个间隔区的序列、侧翼为重复序列的部分的中心区组成。通过未知核糖核酸酶介导的第二加工事件导致长度为39nt至42nt的成熟crRNA形成,其由5’末端间隔区来源的导向序列和重复序列来源的3’末端序列组成。在第一加工事件和第二加工事件之后,成熟tracrRNA仍保持与成熟crRNA配对并且结合Cas9蛋白。在此三元复合物中,二元tracrRNA:crRNA结构用作指导核酸内切酶Cas9至同源靶DNA的导向RNA。由Cas9-tracrRNA:crRNA复合物进行的靶识别通过扫描侵入DNA分子的靶DNA中的原型间隔区序列与crRNA中的间隔区来源的序列之间的同源性来开始。除了DNA原型间隔区-crRNA间隔区互补性以外,DNA靶向需要存在与原型间隔区相邻的短基序(NGG,其中N可为任何核苷酸)(原型间隔区相邻基序-PAM)。在二元RNA与原型间隔区序列之间配对之后,形成R-环并且Cas9随后在DNA中引入双链断裂(DSB)。通过Cas9进行的靶DNA裂解需要在蛋白质中有两个催化结构域。在相对于PAM的特异性位点上,HNH结构域裂解DNA的互补链而RuvC样结构域裂解非互补链。
[0724] 图16(A)酿脓链球菌Cas9在大肠杆菌中表达为含有N末端His6-MBP标签的融合蛋白并且通过亲和色谱、离子交换色谱和大小排阻色谱步骤的组合来纯化。在亲和纯化步骤之后通过TEV蛋白酶裂解来去除亲和标签。示出最终大小排阻色谱法步骤在Superdex 200(16/60)柱上的色谱图。如通过280nm和260nm处的吸光度比所判断,Cas9呈没有污染核酸的单个单体峰洗脱。插图;洗脱的级分通过在10%聚丙烯酰胺凝胶上的SDS-PAGE来分辨并且用SimplyBlue Safe Stain(Invitrogen)染色。(B)纯化的Cas9直向同源物的SDS-PAGE分析。如在补充材料和方法中所述来纯化Cas9直向同源物。在4%-20%梯度聚丙烯酰胺凝胶上分析2.5μg的各纯化的Cas9并且用SimplyBlue Safe Stain染色。
[0725] 图17(还参见图10)。原型间隔区1序列源自酿脓链球菌SF370(M1)SPy_0700,酿脓链球菌SF370crRNAsp1的靶标(4)。在这里,通过使PAM从非功能序列(TTG)改变成功能序列(TGG)来操纵原型间隔区1序列。原型间隔区4序列源自酿脓链球菌MGAS10750(M4)MGAS10750_Spy1285,酿脓链球菌SF370crRNA-sp4的靶标(4)。(A)通过同源tracrRNA:crRNA双链体引导的原型间隔区1质粒DNA裂解。通过琼脂糖凝胶电泳分辨裂解产物并且通过溴化乙锭染色可视化。M,DNA标志物;指示碱基对中的片段大小。(B)通过同源tracrRNA:crRNA-sp1双链体引导的原型间隔区1寡核苷酸DNA裂解。通过变性聚丙烯酰胺凝胶电泳来分辨裂解产物并且通过磷光成像可视化。指示核苷酸中的片段大小。(C)通过同源tracrRNA:
crRNA-sp4双链体引导的原型间隔区4寡核苷酸DNA裂解。通过变性聚丙烯酰胺凝胶电泳来分辨裂解产物并且通过磷光成像可视化。指示核苷酸中的片段大小。(A,B,C)如在图10A中所述进行(A)中的实验;如在图10B中所述进行(B)和(C)中的实验。(B,C)以下示出tracrRNA:crRNA靶DNA相互作用的示意图。分别以上划线和下划线示出与tracrRNA和原型间隔区DNA互补的crRNA区。标记了PAM序列。
[0726] 图18(还参见图10)。(A)在不同浓度Mg2+、Mn2+、Ca2+、Zn2+、Co2+、Ni2+或Cu2+存在下用与tracrRNA:crRNA-sp2复合的Cas9孵育原型间隔区2质粒DNA。通过琼脂糖凝胶电泳分辨裂解产物并且通过溴化乙锭染色可视化。指示质粒形式。(B)在两个5’端上放射性标记之前退火含有PAM基序的原型间隔区4寡核苷酸DNA双链体并且凝胶纯化。用tracrRNA(核苷酸23-89)和crRNAsp4(500nM最终浓度,1:1)编程的Cas9孵育双链体(10nM最终浓度)。在指定时间点(min)下,用含有0.025%SDS和5mM EDTA的甲酰胺缓冲液淬灭10μl裂解反应的等分试样,并且通过如在图10B中所述的变性聚丙烯酰胺凝胶电泳来分析。指示核苷酸中的大小。
[0727] 图19(A)绘图原型间隔区1质粒DNA裂解。通过如在图10C中所述的测序来分析来自图17A的裂解产物。指出3′末端A突出端(星号)为测序反应的人工产物。(B)绘图原型间隔区4寡核苷酸DNA裂解。通过变性聚丙烯酰胺凝胶电泳沿着源自原型间隔区4双链体DNA的互补链和非互补链的5’端标记寡核苷酸尺寸标志物来分析来自图17C的裂解产物。M,标志物;P,裂解产物。泳道1-2:互补链。泳道3-4:非互补链。指示核苷酸中的片段大小。(C)tracrRNA、crRNA-sp1和原型间隔区1DNA序列(上方)和tracrRNA、crRNAsp4和原型间隔区4DNA序列(下方)的示意性图示。tracrRNA:crRNA形成通过crRNA-原型间隔区DNA配对定向至互补原型间隔区DNA的二元RNA结构。分别以上划线和下划线示出与tracrRNA和原型间隔区DNA互补的crRNA区。绘图于(A)(上方)和(B)(下方)中的互补DNA链和非互补DNA链中的裂解位点分别用箭头(A和B,互补链)和黑条(B,非互补链)在序列上表示。
[0728] 图20(A)在不同RNA预退火和蛋白质-RNA预孵育条件下的Cas9单转换动力学。用预退火的tracrRNA:crRNA-sp2预孵育的Cas9(○)、没有用预退火的tracrRNA:crRNA-sp2预孵育的Cas9(●)、用没有预退火的tracrRNA和crRNA-sp2预孵育的Cas9(□)或没有用没有预退火的RNA预孵育的Cas9(■)孵育的原型间隔区2质粒DNA。以依赖时间的方式监测裂解活性并且通过琼脂糖凝胶电泳接着溴化乙锭染色来分析。针对时间(min)绘制来自三个独立实验的裂解平均百分比并且用非线性回归拟合。在表中示出计算的裂解速率(kobs)。结果表明Cas9与RNA结合在所测试的条件下不为速率限制的。指示质粒形式。所获得的kobs值与通常为1-10/min数量级的限制性核酸内切酶的kobs值相当(45-47)。(B)Cas9为多转换核酸内切酶。载荷有双链体tracrRNA:crRNA-sp2(1nM,1:1:1–用灰色线在图形上指示)的Cas9用5倍过量的天然原型间隔区2质粒DNA孵育。通过在指定时间间隔(0min至120min)下从反应中取出样品来监测裂解,接着琼脂糖凝胶电泳分析(上方)和确定裂解产物量(nM)(下方)。指示三个独立实验的标准偏差。在研究的时间间隔下,1nM Cas9能够裂解大约2.5nM质粒DNA。
[0729] 每个Cas9核酸酶结构域均裂解一个DNA链
[0730] Cas9含有与HNH和RuvC核酸内切酶同源的结构域(图11A和图3)(21–23,27,28)。我们设计和纯化在HNH或RuvC样结构域的催化残基中含有失活点突变的Cas9变体(图11A和图3)(23,27)。用于天然质粒DNA孵育这些变体Cas9蛋白显示二元RNA引导的突变体Cas9蛋白产生带切口的开环质粒,而WT Cas9蛋白-tracrRNA:crRNA复合物产生线性DNA产物(图10A和图11A以及图17A和图25A)。此结果指示Cas9 HNH和RuvC样结构域各自均裂解一个质粒DNA链。为了确定靶DNA的哪条链被每个Cas9催化结构域裂解,我们用在其5′端上放射性标记互补链或非互补链的短dsDNA底物孵育突变体Cas9-tracrRNA:crRNA复合物。所得到的裂解产物指示Cas9 HNH结构域裂解互补DNA链,而Cas9 RuvC样结构域裂解非互补DNA链(图
11B和图21B)。
[0731] 图11(A)(上方)示出结构域突变位置的Cas9结构域结构的示意性图示。D10A,Asp10→Ala10;H840A;His840→Ala840。如在图10A中所述测定WT或核酸酶突变体Cas9蛋白与tracrRNA:crRNA-sp2的复合物的核酸内切酶活性。(B)如在图10B中所述测试WT Cas9或核酸酶结构域突变体与tracrRNA和crRNA-sp2的复合物的活性。
[0732] 图3表示了来自酿脓链球菌的Cas9的氨基酸序列(SEQ ID NO:8)。来自各种各样物种的Cas9/Csn1蛋白具有包括与HNH和RuvC核酸内切酶同源的基序的2个结构域。(A)针对酿脓链球菌Cas9/Csn1示出基序1-4(在序列左侧标上基序号)。以上划线示出三个预测的RuvC样基序(1,2,4)以及预测的HNH基序(3)。在此研究中被Ala取代的残基Asp10和His840通过序列上的星号来突出显示。加下划线的残基为来自不同物种的Cas9蛋白之中高度保守的。加下划线的残基中的突变可能对Cas9活性具有功能性结果。指出在本研究中实验展示了两种核酸酶样活性的结合(图11和图21)。(B)针对酿脓链球菌Cas9/Csn1描绘包括基序1-4的结构域1(氨基酸7-166)和结构域2(氨基酸731-1003)。关于另外信息参考表1和图5。
[0733] 图21通过在HNH或RuvC样结构域中含有突变的同源tracrRNA:crRNA引导Cas9突变体进行的原型间隔区DNA裂解。(A)原型间隔区1质粒DNA裂解。如在图11A中所述进行实验。指示碱基对中的质粒DNA构型和大小。(B)原型间隔区4寡核苷酸DNA裂解。如在图11B中所述进行实验。指示核苷酸中的大小。
[0734] 用于靶DNA结合和裂解的二元RNA要求
[0735] tracrRNA可为用于靶DNA结合和/或刺激靶识别下游Cas9的核酸酶活性所需要的。为了在这些可能性之间加以区别,我们使用了电泳迁移率变动测定来监测通过存在或不存在crRNA和/或tracrRNA情况下的催化失活Cas9进行的靶DNA结合。添加tracrRNA大致上增强了由Cas9进行的靶DNA结合,而我们用单独地Cas9或Cas9-crRNA几乎没有观察到特异性DNA结合(图22)。这表明tracrRNA为靶DNA识别所需要的,可能通过恰当定向crRNA用于与靶DNA的互补链相互作用。预测的tracrRNA:crRNA二级结构包括crRNA的3′末端上的22个核苷酸与接近成熟tracrRNA的5′端的区段之间的碱基配对(图10E)。此相互作用产生其中crRNA的5′末端20个核苷酸(其在不同crRNA中的序列中有所改变)可供靶DNA结合使用的结构。
crRNA碱基配对区下游的大部分tracrRNA自由形成另外的RNA结构和/或与Cas9或靶DNA位点相互作用。为了确定tracrRNA的整个长度是否为位点特异性Cas9催化的DNA裂解所必需的,我们测试了使用全长成熟(42个核苷酸)crRNA和在其5′或3′端上缺乏序列的各种tracrRNA截短形式而重构的Cas9-tracrRNA:crRNA复合物。使用短靶dsDNA测试这些复合物的裂解。保留天然序列的核苷酸23至48的tracrRNA的大致上截短的形式能够支持有力的二元RNA引导Cas9催化的DNA裂解(图12A和图12C以及图23A和图23B)。从任一端截短crRNA显示在tracrRNA存在情况下Cas9催化的裂解可用失去3′末端10个核苷酸的crRNA来触发(图
12B和图12C)。相比之下,从crRNA的5′端缺失10个核苷酸使由Cas9进行的DNA裂解消失(图
12B)。我们还分析了来自各种细菌种类的Cas9直向同源物支持酿脓链球菌tracrRNA:crRNA引导的DNA裂解的能力。与密切相关的酿脓链球菌Cas9直向同源物相比,更多不太相关的直向同源物在裂解反应中没有作用(图24)。类似地,通过源自更远系统的tracrRNA:crRNA双链体引导的酿脓链球菌Cas9不能有效裂解DNA(图24)。DNA的二元RNA引导的裂解的种类特异性表明Cas9、tracrRNA和crRNA重复序列的共同进化以及在二元RNA中存在仍然未知的结构和/或序列对形成具有特异性Cas9直向同源物的三元复合物而言是关键的。
[0736] 为了研究细菌细胞中的II型CRISPR/Cas免疫性的原型间隔区序列要求,我们分析了一系列含有原型间隔区的质粒DNA,所述质粒DNA具有用于在酿脓链球菌中转化之后维持并且能够在体外由Cas9裂解的核苷酸突变。与在原型间隔区的5′端处引入的点突变相比,接近PAM和Cas9裂解位点的区域中的突变在体内不为耐受性的并且在体外导致减小的质粒裂解效率(图12D)。我们的结果与在来自体内嗜热链球菌的II型CRISPR系统中选择的原型间隔区逃逸突变体的先前报道一致(27,29)。此外,质粒维持和裂解结果暗示位于原型间隔区序列的3′端处的“种子”区的存在,所述原型间隔区对与crRNA相互作用和随后由Cas9进行的裂解而言是关键的。为了支持这个观点,Cas9增强互补DNA链与crRNA杂交;此增强在crRNA靶向序列的3′末端区中最强(图25A-图25C)。证实此发现,有效靶裂解需要在crRNA与接近PAM的靶DNA位点之间有一段连续的至少13个碱基对,而在原型间隔区的5′末端区中的高达至六个连续错配为耐受性的(图12E)。这些发现表明在Argonaute蛋白(30,31)和级联和Csy CRISPR复合物(13,14)中用于靶核酸识别的先前观察到的种子序列要求。
[0737] 图12(A)使用42个核苷酸crRNA-sp2和截短的tracrRNA构建体重构Cas9-tracrRNA:crRNA复合物并且如在图10B中所述测定裂解活性。(B)如在(A)中所述测定用全长tracrRNA和crRNA-sp2截短物编程的Cas9的活性。(C)tracrRNA和crRNA的最小区能够引导Cas9介导的DNA裂解(阴影区)。(D)如在图10A中所述,含有WT或具有指示的点突变的突变体原型间隔区2序列的质粒在体外通过编程的Cas9来裂解并且用于WT或pre-crRNA缺乏的酿脓链球菌的转化测定。将转化效率计算为集落形成单位(CFU)/微克质粒DNA。误差棒表示三次生物重复实验的SD。(E)含有WT和具有不同程度crRNA-靶DNA错配的突变体原型间隔区
2插入物的质粒(下方)在体外通过编程的Cas9来裂解(上方)。用XmnI进一步消化裂解反应。
1880bp和800bp片段为Cas9产生的裂解产物。M,DNA标志物。
[0738] 图22使用单独地原型间隔区4靶DNA双链体和Cas9(含有核酸酶结构域失活突变D10A和H840)或在crRNA-sp4、tracrRNA(75nt)存在下或这两者来进行电泳迁移率变动测定。在两个5’端处放射性标记靶DNA双链体。将Cas9(D10/H840A)和复合物从1nM滴定至1μM。通过8%天然聚丙烯酰胺凝胶电泳分析结合并且通过磷光成像可视化。指出单独地Cas9结合具有中等亲和力的靶DNA。此结合不受crRNA添加的影响,表明这代表与dsDNA的序列非特异性相互作用。此外,此相互作用可通过不存在crRNA情况下单独地tracrRNA来产生。在存在crRNA和tracrRNA情况下,大致上增强了靶DNA结合并且产生具有相异电泳迁移率的种类,从而表明特异性靶DNA识别。
[0739] 图23涵盖crRNA配对区的一部分和下游区的一部分的tracrRNA片段足以通过Cas9指导原型间隔区寡核苷酸DNA的裂解。通过用成熟同源crRNA和各种tracrRNA片段引导的Cas9进行的(A)原型间隔区1寡核苷酸DNA裂解和(B)原型间隔区4寡核苷酸DNA裂解。(A,B)指示核苷酸中的大小。
[0740] 图24当通过来自酿脓链球菌的tracrRNA:crRNA靶向时,与来自酿脓链球菌的Cas9相似,来自革兰氏阳性菌无害李斯特氏菌和嗜热链球菌的密切相关Cas9直向同源物裂解原型间隔区DNA。然而,在相同条件下,没有观察到通过来自革兰氏阴性菌空肠弯曲杆菌和脑膜炎奈瑟氏菌的较不密切相关的Cas9直向同源物进行的DNA裂解。Spy,酿脓链球菌SF370(登记号NC_002737);Sth,嗜热链球菌LM D-9(STER_1477Cas9直向同源物;登记号NC_008532);Lin,无害李斯特氏菌Clip11262(登记号NC_003212);Cje,空肠弯曲杆菌NC TC 
11168(登记号NC_002163);Nme,脑膜炎奈瑟氏菌A Z2491(登记号NC_003116)。(A)原型间隔区质粒DNA的裂解。使原型间隔区2质粒DNA(300ng)受到通过由来自不同种类的杂交tracrRNA:crRN A-sp2双链体(500nM,1:1)引导的不同Cas9直向同源物(500nM)进行的裂解。为了设计RNA双链体,我们基于先前出版的RNA印迹数据从无害李斯特氏菌和脑膜炎奈瑟氏菌预测tracrRNA序列(4)。二元杂交RNA双链体由种类特异性tracrRNA和异源crRNA组成。将异源crRNA序列工程化成在5’端处含有酿脓链球菌DNA靶向sp2序列,其融合至3’端处的无害李斯特氏菌或脑膜炎奈瑟氏菌tracrRNA结合重复序列。来自嗜热链球菌和无害李斯特氏菌,但并非来自脑膜炎奈瑟氏菌或空肠弯曲杆菌的Cas9直向同源物可通过酿脓链球菌tra crRNA:crRNA-sp2来引导以裂解原型间隔区2质粒DNA,虽然效率稍微有所减小。类似地,杂交无害李斯特氏菌tracrRNA:crRNA-sp2可引导酿脓链球菌Cas9高效率地裂解靶DNA,而杂交脑膜炎奈瑟氏菌tracrRNA:crRNA-sp2通过酿脓链球菌Cas9仅触发轻微的DNA裂解活性。作为对照,当通过同源杂交tracrRNA:crRNA-sp2引导时,脑膜炎奈瑟氏菌和无害李斯特氏菌Cas9直向同源物裂解原型间隔区2质粒DNA。指出如上所提到,仅预测脑膜炎奈瑟氏菌的tracrRNA序列并且通过RNA测序还尚未证实。因此,低效率的裂解可为Cas9直向同源物低活性或使用非优化设计的tracrRNA序列的结果。(B)原型间隔区寡核苷酸DNA的裂解。用未标记的非互补链寡核苷酸(原型间隔区1)(10nM)预退火的5’端放射性活性标记的互补链寡核苷酸(10nM)(左)或用未标记的互补链寡核苷酸(10nM)预退火的5’端放射性活性标记的非互补链寡核苷酸(10nM)(右)(原型间隔区1)受到通过由来自酿脓链球菌的tracrRNA:
crRNA-sp1双链体(500nM,1:1)引导的各种Cas9直向同源物(500nM)进行的裂解。来自嗜热链球菌和无害李斯特氏菌,但并非来自脑膜炎奈瑟氏菌或空肠弯曲杆菌的Cas9直向同源物可通过酿脓链球菌同源二元RNA来引导以裂解原型间隔区寡核苷酸DNA,虽然效率有所减小。指出互补DNA链上的裂解位点对于所有三种直向同源物而言是相同的。非互补链的裂解发生在相异位置上。(C)Cas9直向同源物的氨基酸序列同一性。酿脓链球菌、嗜热链球菌和无害李斯特氏菌Cas9直向同源物共有高百分比的氨基酸同一性。相比之下,空肠弯曲杆菌和脑膜炎奈瑟氏菌Cas9蛋白在序列和长度(短大约300-400个氨基酸)上不同。(D)工程化的种类特异性异源crRNA序列与来自酿脓链球菌(实验证实的,(4))、无害李斯特氏菌(预测的)或脑膜炎奈瑟氏菌(预测的)的对应tracrRNA直向同源物共折叠。追踪和标记tracrRNA、crRNA间隔区2片段和crRN A重复片段。无害李斯特氏菌和酿脓链球菌杂交tracrRNA:
crRNA-sp2双链体共有非常类似的结构特征,虽然与脑膜炎奈瑟氏菌杂交tracr RNA:crRNA相异。连同以上在(A)和(B)中描述的裂解数据一起,共折叠预测将表明通过Cas9-tracrRNA:crRNA进行的靶DNA的种类特异性裂解由tracrRNA:crRNA双链体中仍然未知的结构特征决定,所述tracrRNA:crRNA双链体通过同源Cas9直向同源物特异性识别。预测了在(A)和(B)中观察到的种类特异性裂解发生在Cas9结合二元tra crRNA:crRNA的水平下。靶DNA的二元RNA引导的Cas9裂解可为种类特异性的。取决于Cas9蛋白和tracrRNA:crRNA双链体之中的多样性/发展程度,Cas9和二元RNA直向同源物为部分可互换的。
[0741] 图25分析了与涵盖DNA靶向区和tracrRNA结合区的crRNA中的区互补的一系列8核苷酸DNA探针在tracrRNA:crRNA双链体和Cas9-tracrRNA:crRNA三元复合物背景下与crRNA杂交的能力。(A)在测定中使用的DNA探针的序列及其在crRNA-sp4中的结合位点的示意性图示。(B-C)使用tracrRNA:crRNA-sp4或Cas9-tracrRNA:crRN A-sp4进行的靶DNA探针的电泳迁移率变动测定。在实验中使用了t racrRNA(15-89)构建体。在16%天然聚丙烯酰胺凝胶上分析双链体或复合物与靶寡核苷酸DNA的结合并且通过磷光成像可视化。
[0742] 短序列基序决定R-环形成
[0743] 在多个CRISPR/Cas系统中,自身抗非自身识别已显示涉及在外来基因组中保存的短序列基序,称为PAM(27,29,32–34)。PAM基序仅有几个碱基对长度,并且其精确序列和位置根据CRISPR/Cas系统类型而改变(32)。在酿脓链球菌II型系统中,PAM与靶DNA内的NGG共有序列一致,所述PAM含有在crRNA结合序列下游出现一个碱基对的两个G:C碱基对(4)。转化测定展示了GG基序为通过细菌细胞中的CRISPR/Cas进行的原型间隔区质粒DNA消除所必不可少的(图26A),与嗜热链球菌中的先前观察一致(27)。基序还为通过tracrRNA:crRNA引导的Cas9进行的体外原型间隔区质粒裂解所必不可少的(图26B)。为了确定PAM在通过Cas9-tracrRNA:crRNA复合物进行的靶DNA裂解中的作用,我们测试了一系列在互补链或非互补链或两者上的PAM序列中含有突变的dsDNA双链体(图13A)。与通过I型CRISPR/Cas系统的互补链PAM识别相比,使用这些底物的裂解测定显示Cas9催化的DNA裂解对DNA非互补链上的PAM序列中的突变特别敏感(18,34)。靶单链DNA的裂解不受PAM基序突变的影响。这个观察表明PAM基序仅在靶dsDNA背景下需要并且因此可需要来沉默双链体解旋、链侵入和形成R-环结构。当我们使用不同的crRNA-靶DNA对(crRNA-sp4和原型间隔区4DNA),由于存在标准PAM但不存在于原型间隔区2靶DNA中而选择时,我们发现PAM的两个G核苷酸为有效Cas9催化的DNA裂解所需要的(图13B和图26C)。为了确定PAM是否对将Cas9-tracrRNA:crRNA复合物募集至正确靶DNA位点起作用,我们通过天然凝胶迁移率变动测定分析了复合物对靶DNA序列的结合亲和力(图13C)。PAM序列中任一G的突变会大致上减小Cas9-tracrRNA:crRNA对靶DNA的亲和力。此发现说明了PAM序列对通过Cas9进行的靶DNA结合的作用。
[0744] 图13(A)如在图10B中所述测试二元RNA编码的Cas9的活性。用直线指示靶DNA中的WT和突变体PAM序列。(B)用tracrRNA:c rRNA-sp4(核苷酸23至89)编程的Cas9孵育含有WT和突变体PA M基序的原型间隔区4靶DNA双链体(在两个5′端处标记)。在指定的时间点(以分钟计)下,取得裂解反应的等分试样并且如在图10B中所述进行分析。(C)使用RNA编程的Cas9(D10A/H840A)和含有WT和突变的PAM基序的原型间隔区4靶DNA双链体[与(B)中相同]进行电泳迁移率变动测定。将Cas9(D10A/H840A)–RNA复合物从100pM滴定至1mM。
[0745] 图26(A)原型间隔区2质粒DNA中的PAM序列突变使通过细菌细胞中的II型CRISPR/Cas系统进行的质粒维持干扰消失。将具有功能性或突变的PAM的野生型原型间隔区2质粒转化成如在图12D中所述的野生型(菌株SF370,又称为EC904)和缺乏pre-crRNA的突变体(EC1479)酿脓链球菌。通过体内II型CRISPR/Cas系统,PAM突变不为耐受性的。示出三个生物重复实验的平均值和标准偏差。(B)原型间隔区质粒DNA中的PAM序列突变使通过Cas9-tracrRNA:crRNA进行的裂解消失。使具有功能性或突变的PAM的野生型原型间隔区2质粒受到如在图10A中所述的Cas9裂解。PAM突变体质粒不被Cas9-tracrRNA:crRNA复合物裂解。(C)标准PAM序列的突变使通过细菌细胞中的II型CRISPR/Cas系统进行的质粒维持干扰消失。用tracrRNA和crRNA-sp2编程的Cas9裂解具有功能性或突变的PAM的野生型原型间隔区
4质粒。在XmnI限制性核酸内切酶存在下进行裂解反应以使Cas9裂解产物可视化为两个片段(大约1880bp和大约800bp)。指示碱基对中的片段大小。
[0746] Cas9可用单个嵌合RNA编程
[0747] tracrRNA:crRNA双链体的可能的二级结构的检验(图10E和图12C)表明可在单个嵌合RNA中捕获位点特异性Cas9催化的DNA裂解所需要的特征的可能性。虽然tracrRNA:crRNA靶选择机制在自然中有效地工作,但单个RNA引导的Cas9的可能性由于其用于编程的DNA裂解和基因组编辑的潜在用途而吸引人(图1A-图1B)。我们设计在5′端含有靶识别序列接着为保持发生在tracrRNA与crRNA之间的碱基配对相互作用的发夹结构的嵌合RNA的两个形式(图14A)。此单个转录物有效地将crRNA的3′端融合至tracrRNA的5′端,从而模拟通过Cas9引导位点特异性DNA裂解所需要的二元RNA结构。在使用质粒DNA的裂解测定中,我们观察到较长的嵌合RNA能够以类似于截短的tracrRNA:crRNA双链体所观察到的方式引导Cas9催化的DNA裂解(图14A和图27A和图27C)。较短的嵌合RNA在此测定中不能有效地工作,从而证实超过tracrRNA:crRNA碱基配对相互作用的5至12个位置的核苷酸对有效Cas9结合和/或靶识别是重要的。我们在使用短dsDNA作为底物的裂解测定中获得类似的结果,从而进一步表明靶DNA中的裂解位点的位置与使用二元tracrRNA:crRNA作为引导件所观察到的位置相同(图14B和图27B和图27C)。最后,为了确立嵌合RNA的设计是否可为广泛应用的,我们工程化五种不同的嵌合引导RNA来靶向编码绿色荧光蛋白(GFP)的基因部分(图28A至图
28C)并且测试其在体外针对携带GFP编码序列的质粒的功效。在所有五种情况下,用这些嵌合RNA编程的Cas9在正确的靶位点上有效裂解质粒(图14C和图28D),从而表明嵌合RNA的合理设计为有力的并且原则上可实现感兴趣的任何DNA序列的靶向,所述DNA序列具有超过存在与靶序列相邻的GG二核苷酸的一些约束。
[0748] 图1靶向DNA的RNA包含单链“DNA靶向区段”和“蛋白质结合区段”,所述“蛋白质结合区段”包含一段双链RNA。(A)靶向DNA的RNA可包含两个单独的RNA分子(称为“双分子”或“二分子”靶向DNA的RNA)。双分子靶向DNA的RNA包含“靶向物-RNA”和“激活物-RNA”。(B)靶向DNA的RNA可包含单个RNA分子(称为“单分子”靶向DNA的RNA)。单分子靶向DNA的RNA包含“接头核苷酸”。
[0749] 图14(A)具有原型间隔区4靶序列和WT PAM的质粒受到通过用tracrRNA(4-89):crRNA-sp4双链体或通过用GAAA四环将crRNA的3′端连接至tracrRNA的5′端来构建的体外转录嵌合RNA编码的Cas9进行的裂解。通过用XmnI限制性绘图来分析裂解反应。嵌合RNA A和嵌合RNA B的序列示出具有DNA靶向(下划线)、crRNA重复来源的序列(上划线)以及tracrRNA来源的(虚线下划线)序列。(B)如在图10B中所述进行原型间隔区4DNA双链体裂解反应。(C)设计成靶向GFP基因的五种嵌合RNA用来编程Cas9以裂解含有GFP基因的质粒。如在图12E中所述进行质粒裂解反应,除了在Cas9裂解之后用AvrII限制性绘图质粒DNA。
[0750] 图27(A)单个嵌合RNA引导同源原型间隔区质粒DNA(原型间隔区1和原型间隔区2)的Cas9催化的裂解。在XmnI限制性核酸内切酶存在下进行裂解反应以使Cas9裂解产物可视化为两个片段(大约1880bp和大约800bp)。指示碱基对中的片段大小。(B)单个嵌合RNA引导同源原型间隔区寡核苷酸DNA(原型间隔区1和原型间隔区2)的Cas9催化的裂解。指示核苷酸中的片段大小。(C)用于实验中的嵌合RNA的示意性图示。嵌合RNA A和嵌合RNA B的序列示出具有crRNA的5’原型间隔区DNA靶向序列(下划线)、crRNA的tracrRNA结合序列(上划线)以及tracrRNA来源的序列(虚线下划线)。
[0751] 图28(A)GFP表达质粒pCFJ127的示意性图示。用黑色箭头指示GFP开放阅读框的靶向部分。(B)靶区的序列特写。用灰色条示出被嵌合RNA靶向的序列。用方框示出PAM二核苷酸。独特SalI限制性位点位于靶基因座上游的60bp处。(C)左:连同其相邻PAM基序一起示出靶DNA序列。右:嵌合引导RNA的序列。(D)如所指示,通过用嵌合RNA GFP1-5编程的Cas9来裂解pCFJ127。另外用SalI消化质粒并且通过在3%琼脂糖凝胶上的电泳分析反应,并且通过用SYBR Safe染色可视化。
[0752] 结论
[0753] 鉴定DNA干扰机制,涉及指导Cas9核酸内切酶在靶DNA中引入位点特异性双链断裂的二元RNA结构。tracrRNA:crRNA引导的Cas9蛋白利用了相异核酸内切酶结构域(HNH和RuvC样结构域)来裂解靶DNA中的两个链。通过Cas9进行的靶识别需要crRNA中的种子序列和DNA靶标中相邻crRNA结合区的含有GG二核苷酸的PAM序列。我们进一步表明Cas9核酸内切酶可用工程化为单一转录物的引导RNA编程以靶向和裂解感兴趣的任何dsDNA序列。系统为有效通用的并且可通过改变引导嵌合RNA中的DNA靶标结合序列来编程。锌指核酸酶和转录激活物样效应子核酸酶作为工程化以操纵基因组的人工酶引起人们相当大的兴趣(35–38)。这代表促进基因靶向和基因组编辑应用的基于RNA编程的Cas9的替代方法。
[0754] 引用文献
[0755] 1.B.Wiedenheft,S.H.Sternberg,J.A.Doudna,Nature482,331(2012).[0756] 2.D.Bhaya,M.Davison,R.Barrangou,Annu.Rev.Genet. 45,273(2011).[0757] 3.M.P.Terns,R.M.Terns,Curr.Opin.Microbiol.14,321(2011).
[0758] 4.E.Deltcheva et al.,Nature 471,602(2011).
[0759] 5.J.Carte,R.Wang,H.Li,R.M.Terns,M.P.Terns,Genes Dev.22,3489(2008).[0760] 6.R.E.Haurwitz,M.Jinek,B.Wiedenheft,K.Zhou,J.A.Doudna,Science 329,1355(2010).
[0761] 7.R.Wang,G.Preamplume,M.P.Terns,R.M.Terns,H.Li,Structure 19,257(2011).
[0762] 8.E.M.Gesner,M.J.Schellenberg,E.L.Garside,M.M.George,A.M.Macmillan,Nat.Struct.Mol.Biol.18,688(2011).
[0763] 9.A.Hatoum-Aslan,I.Maniv,L.A.Marraffini,Proc.Natl.Acad.Sci.U.S.A.108,21218(2011).
[0764] 10.S.J.J.Brouns et al.,Science 321,960(2008).
[0765] 11.D.G.Sashital,M.Jinek,J.A.Doudna,Nat.Struct.Mol.Biol.18,680(2011).[0766] 12.N.G.Lintner et al.,J.Biol.Chem.286,21643(2011).
[0767] 13.E.Semenova et al.,Proc.Natl.Acad.Sci.U.S.A.108,10098(2011).[0768] 14.B.Wiedenheft et al.,Proc.Natl.Acad.Sci.U.S.A.108,10092(2011).[0769] 15.B.Wiedenheft et al.,Nature 477,486(2011).
[0770] 16.C.R.Hale et al.,Cell 139,945(2009).
[0771] 17.J.A.L.Howard,S.Delmas,I. E.L.Bolt,Biochem.J.439,85(2011).[0772] 18.E.R.Westra et al.,Mol.Cell 46,595(2012).
[0773] 19.C.R.Hale et al.,Mol.Cell 45,292(2012).
[0774] 20.J.Zhang et al.,Mol.Cell 45,303(2012).
[0775] 21.K.S.Makarova et al.,Nat.Rev.Microbiol.9,467(2011).
[0776] 22.K.S.Makarova,N.V.Grishin,S.A.Shabalina,Y.I.Wolf,E.V.Koonin,Biol.Direct 1,7(2006).
[0777] 23.K.S.Makarova,L.Aravind,Y.I.Wolf,E.V.Koonin,Biol.Direct 6,38(2011).[0778] 24.S.Gottesman,Nature 471,588(2011).
[0779] 25.R.Barrangou et al.,Science 315,1709(2007).
[0780] 26.J.E.Garneau et al.,Nature 468,67(2010).
[0781] 27.R.Sapranauskas et al.,Nucleic Acids Res.39,9275(2011).
[0782] 28.G.K.Taylor,D.F.Heiter,S.Pietrokovski,B.L.Stoddard,Nucleic Acids Res.39,9705(2011).
[0783] 29.H.Deveau et al.,J.Bacteriol.190,1390(2008).
[0784] 30.B.P.Lewis,C.B.Burge,D.P.Bartel,Cell 120,15(2005).
[0785] 31.G.Hutvagner,M.J.Simard,Nat.Rev.Mol.CellBiol.9,22(2008).
[0786] 32.F.J.M.Mojica,C. J. C.Almendros,Microbiology 155,733(2009).
[0787] 33.L.A.Marraffini,E.J.Sontheimer,Nature 463,568(2010).
[0788] 34.D.G.Sashital,B.Wiedenheft,J.A.Doudna,Mol.Cell 46,606(2012).[0789] 35.M.Christian et al.,Genetics 186,757(2010).
[0790] 36.J.C.Miller et al.,Nat.Biotechnol.29,143(2011).
[0791] 37.F.D.Urnov,E.J.Rebar,M.C.Holmes,H.S.Zhang,P.D.Gregory,Nat.Rev.Genet.11,636(2010).
[0792] 38.D.Carroll,Gene Ther.15,1463(2008).
[0793] 39.J.Sambrook,E.F.Fritsch,T.Maniatis,Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY,ed.2,1989).[0794] 40.M.G.Caparon,J.R.Scott,Genetic manipulation of pathogenic streptococci.Methods Enzymol.204,556(1991).doi:10.1016/0076-6879(91)04028-M Medline
[0795] 41.C. -Jensen et al.,Single-copy insertion of transgenes in Caenorhabditis elegans.Nat.Genet.40,1375(2008).doi:10.1038/ng.248Medline[0796] 42.R.B.Denman,Using RNAFOLD to predict the activity of small 
catalytic RNAs.Biotechniques 15,1090(1993).Medline
[0797] 43.I.L.Hofacker,P.F.Stadler,Memory efficient folding algorithms for circular RNA secondary structures.Bioinformatics 22,1172(2006).doi:10.1093/bioinformatics/bt1023Medline
[0798] 44.K.Darty,A.Denise,Y.Ponty,VARNA:Interactive drawing and editing of the RNA secondary structure.Bioinformatics 25,1974(2009).doi:10.1093/bioinformatics/btp250Medline
[0799] 实施例2:人细胞中的RNA编程的基因组编辑
[0800] 以下提供的数据展示可使Cas9表达和定位于人细胞的细胞核,并且在人细胞中它与单引导RNA(“sgRNA”;涵盖Cas9结合和DNA靶位点识别所需要的特征)组装。这些复合物可产生双链断裂并且刺激与sgRNA序列互补的位点处的基因组DNA中的非同源末端连接(NHEJ)修复和需要Cas9和sgRNA的活性。在其3’端处的RNA序列的延长增强了活细胞中的DNA靶向活性。此外,使用来自转染的细胞的萃取物的实验显示sgRNA组装到Cas9中为Cas9介导的DNA裂解的限制因素。这些结果展示RNA编程的基因组编辑在活细胞中和在体内工作。
[0801] 材料和方法
[0802] 质粒设计和构建
[0803] 融合至HA表位(氨基酸序列DAYPYDVPDYASL(SEQ ID NO:274))、核定位信号(氨基酸序列PKKKRKVEDPKKKRKVD(SEQ ID NO:275))的编码酿脓链球菌Cas9的序列(残基1-1368)为密码子优化用于人表达并且通过GeneArt合成。DNA序列为SEQ ID NO:276并且蛋白质序列为SEQ ID NO:277。不依赖连接的克隆(LIC)用来将此序列插入到pcDNA3.1来源的GFP和mCherry LIC载体(分别获自UC Berkeley MacroLab的载体6D和6B)中,产生在CMV启动子控制之下表达的Cas9-HA-NLS-GFP和Cas9-HA-NLS-mCherry融合。使用表达载体pSilencer 2.1-U6 puro(Life Technologies)和pSuper(Oligoengine)表达引导sgRNA。通过退火互补寡核苷酸以形成RNA编码DNA序列并且在pSilencer 2.1-U6 puro中的BamHI与HindIII位点和pSuper中的BglII与HindIII位点之间连接退火的DNA片段来产生RNA表达构建体。
[0804] 细胞培养条件和DNA转染
[0805] 在具有5%CO2的37℃湿润培养箱中,将HEK293T细胞维持在用10%胎牛血清(FBS)补充的达尔伯克改良伊格尔培养基(DMEM)中。用建议的方案使用X-tremeGENE DNA转染试剂(Roche)或Turbofect转染试剂(Thermo Scientific),用质粒DNA瞬时转染细胞。简而言之,使用0.5μg的Cas9表达质粒和2.0μg的RNA表达质粒在6孔板中以60%-80%汇合转染HEK293T细胞。基于通过荧光显微镜法所观察到的GFP阳性细胞的分数,估算对于Tubofect的转染效率为30%-50%(图29E和图37A-图37B)并且对于X-tremegene的转染效率为80%-90%(图31B)。转染后48小时,用磷酸盐缓冲盐水(PBS)洗涤细胞并且通过施加250μl溶解缓冲液(用Roche蛋白酶抑制剂混合物补充的20mM Hepes pH 7.5、100mM氯化钾(KCl)、5mM氯化镁(MgCl2)、1mM二硫苏糖醇(DTT)、5%甘油、0.1%Triton X-100)溶解,然后在4℃下振荡
10min。将所得到的细胞溶解产物分成等分试样用于进一步分析。根据制造商的方法使用DNeasy血和组织试剂盒(Qiagen)从200μl细胞溶解产物中分离出基因组DNA。
[0806] Cas9表达的蛋白质印迹分析
[0807] 收获用Cas9-HA-NLS-GFP表达质粒转染的HEK293T并且如上所述在转染后48小时溶解。在10%SDS聚丙烯酰胺凝胶上对5ul的溶解产物电泳,在PVDF膜上印迹并且用HRP缀合的抗HA抗体(Sigma,用1x PBS 1:1000稀释)探测。
[0808] Surveyor测定
[0809] 如先前所述进行Surveyor测定[10,12,13]。简而言之,使用高保真聚合酶Herculase  II融合DNA聚合酶(Agilent  Technologies)和正向引物5’-GCAGCAGAAGAAGCCTTTGT-3’(SEQ ID NO://)以及反向引物5’-TTCCTCCTCTCCCTCCTCTC-3’(SEQ ID NO://)从200ng的基因组DNA中PCR扩增人网格蛋白轻链A(CLTA)基因座。然后通过加热至95℃使300ng的360bp扩增子变性并且使用热阻断以随机再杂交野生型和突变体DNA链来缓慢再退火。然后在42℃下用Cel-1核酸酶(Surveyor试剂盒,Transgenomic)孵育样品
1小时。Cel-1识别和裂解含有错配(野生型:突变体杂交)的DNA螺旋。在10%丙烯酰胺凝胶上分离Cel-1核酸酶消化产物并且通过用SYBR Safe(Life Technologies)染色可视化。使用ImageLab软件(Bio-Rad)进行裂解带的定量。通过将裂解产物(160bp-200bp)的平均强度除以未裂解PCR产物(360bp)和裂解产物的强度总和来确定裂解百分比。
[0810] 体外转录
[0811] 使用重组T7RNA聚合酶和通过如先前所述退火互补合成寡核苷酸产生的DNA模板来体外转录引导RNA[14]。通过在7M尿素变性丙烯酰胺凝胶上电泳来纯化RNA,乙醇沉淀并且溶解于经过DEPC处理的水中。
[0812] RNA印迹分析
[0813] 使用mirVana小RNA分离试剂盒(Ambion)从HEK293T细胞中纯化RNA。对于每个样品,在RNA载荷缓冲液(0.5X TBE(pH7.5)、0.5mg/ml溴酚蓝、0.5mg二甲苯蓝和47%甲酰胺)中在70℃下变性10min之后在10%尿素-PAGE凝胶上分离800ng的RNA。在0.5X TBE缓冲液中在10W下电泳直到溴酚蓝染料到达凝胶底部之后,在0.5X TBE中在20伏特下在Nytran膜上电印迹样品1.5小时。用UV交联剂(Strategene)将转移的RNA交联在Nytran膜上并且在45℃下在含有40%甲酰胺、5X SSC、3X Dernhardt’s(各0.1%的聚蔗糖、聚乙烯吡咯烷酮和BSA)和200μg/ml鲑鱼精子DNA的缓冲液中预杂交3小时。在用1百万cpm/ml的5’-32P标记的反义DNA寡探针补充的预杂交缓冲液中孵育预杂交的膜过夜。在用SSC缓冲液若干次洗涤(用0.2X SCC最后洗涤)之后,使膜磷光成像。
[0814] 体外裂解测定
[0815] 如上所述制备细胞溶解产物并且用CLTA-RFP供体质粒孵育[10]。在20μl总体积并且含有10μl溶解产物、2μl 5x裂解缓冲液(100mM HEPES pH 7.5、500mM KCl、25mM MgCl2、5mM DTT、25%甘油)和300ng质粒情况下进行裂解反应。在指示的地方,用10pmol体外转录的CLTA1 sgRNA补充反应。在37℃下孵育反应一小时并且随后在37℃下用10U的XhoI(NEB)再消化30min。通过添加蛋白酶K(Thermo Scientific)停止反应并且在37℃下孵育15min。
通过在1%琼脂糖凝胶上电泳来分析裂解产物并且用SYBR Safe染色。大约2230bp和大约
3100bp片段的存在指示了Cas9介导的裂解。
[0816] 结果
[0817] 为了测试Cas9是否可被编程以裂解活细胞中的基因组DNA,连同设计成靶向人网格蛋白轻链(CLTA)基因的sgRNA一起共表达Cas9。使用ZFN先前已靶向和编辑了CLTA基因组基因座[10]。我们首先测试酿脓链球菌Cas9蛋白和sgRNA的人密码子优化的形式在人HEK293T细胞中的表达。160kDa Cas9蛋白表达为带有HA表位、核定位信号(NLS)和附着于Cas9的C末端的绿色荧光蛋白(GFP)的融合蛋白(图29A)。用编码GFP融合的Cas9的载体转染的细胞分析展现出丰富的Cas9表达和核定位(图29B)。蛋白质印迹证实了Cas9蛋白在来自这些细胞的萃取物中极大地表达为完整的(图29A)。为了编程Cas9,我们表达带有与靶DNA序列互补的5’末端20个核苷酸序列和Cas9结合所需要的42个核苷酸3’末端茎环结构的sgRNA(图29C)。此3’末端序列对应于先前用来体外编程Cas9的最小茎-环结构[8]。通过人U6(RNA聚合酶III)启动子驱动此sgRNA的表达[11]。从用U6启动子驱动的sgRNA质粒表达载体转染的细胞中萃取的RNA的RNA印迹分析显示确实表达了sgRNA并且通过Cas9存在增强了其稳定性(图29D)。
[0818] 图29展示Cas9和引导RNA在人细胞中的共表达使在靶基因座处产生双链DNA断裂。(A)上方;Cas9-HA-NLS-GFP表达构建体的示意图。下方;通过使用抗HA抗体的蛋白质印迹法分析来自用Cas9表达质粒转染的HEK293T细胞的溶解产物。(B)表达Cas9-HA-NL S-GFP的HEK293T细胞的荧光显微镜法。(C)设计靶向人CLTA基因座的单引导RNA(sgRNA,即单分子靶向DNA的RNA)。上方;人CLTA基因的外显子7中的sgRNA靶位点的示意图。与CLTA1 sgR NA的引导区段杂交的靶序列由“CLTA1 sgRNA”指示。由箭头标志G G二核苷酸原型间隔区相邻基序(PAM)。黑线指代对照ZFN蛋白的D NA结合区。CLTA开放阅读框的翻译终止密码子用虚线标志来供于参考。中间;sgRNA表达构建体的示意图。RNA在U6 Pol III启动子和用作Pol III转录终止子信号的聚胸苷酸序列的控制之下表达。下方;通过Cas9进行的靶DNA的sgRNA引导的裂解。sgRNA由20nt 5’末端引导区段接着是Cas9结合所需要的42nt茎-环结构组成。
在靶DNA解旋并且在sgRNA的引导区段与靶DNA之间形成双链体时,两个靶DNA链的Cas9介导的裂解发生。这取决于靶DNA中的靶序列下游的PAM基序(适用于所使用的Cas9,例如GG二核苷酸,参见以上实施例1)的存在。指出相对于上图靶序列反转。(D)H EK239T细胞中的sgRNA表达的RNA印迹分析。(E)从表达Cas9和/或CLTA sgRNA的HEK293T细胞中分离的基因组DNA的Surveyor核酸酶测定。先前用来靶向CLTA基因座的ZFN构建体[10]用作用于检测通过非同源末端连接进行的DSB诱导的DNA修复的阳性对照。
[0819] 接下来我们研究位点特异性DSB是否在用Cas9-HA-NLS-mCher ry和CLTA1 sgRNA转染的HEK293T细胞中产生。为了做到这一点,我们使用Surveyor核酸酶测定来探测由通过DSB诱导的NHEJ进行的不完整修复引起的基因座中的微小插入和缺失[12]。通过PCR扩增被Cas9:sgRNA靶向的基因组DNA区并且使所得到的产物变性并且再退火。用错配识别核酸内切酶Cel-1孵育再杂交的PCR产物并且在丙烯酰胺凝胶上分辨以鉴定Cel-1裂解带。因为通过NHEJ进行的D NA修复通常由DSB诱导,所以Surveyor测定中的阳性信号指示基因组DNA裂解已发生。使用此测定,我们检测到被CLTA1 sgRNA靶向的位置上的CLTA基因座的裂解(图29E)。在CLTA基因座中靶向相邻位点的一对ZFN在这些实验中提供阳性对照[10]。
[0820] 为了确定Cas9或sgRNA表达是否为观察到的基因组编辑反应中的限制因素,用具有被CLTA1 sgRNA靶向的CLTA基因片段的质粒DNA孵育从转染细胞中制备的溶解产物。在单独地使用从用Cas9-HA-NLS-GFP表达载体转染的细胞中制备的溶解产物孵育时没有观察到质粒DNA裂解,与Surveyor测定结果一致。然而,当用体外转录的CLTA1 sgRNA补充溶解产物时检测到有力的质粒裂解(图30A)。此外,从用Cas9和sgRNA表达载体转染的细胞中制备的溶解产物支持质粒裂解,而来自用单独地sgRNA编码载体转染的细胞的溶解产物不支持质粒裂解(图30A)。这些结果表明人细胞中的Cas9功能的限制因素可为与sgRNA组装。我们通过分析来自存在和不存在添加的外源sgRNA之前转染的细胞的溶解产物中的质粒裂解直接测试了这种可能性。显然,当外源sgRNA添加至来自用Cas9和sgRNA表达载体转染的细胞的溶解产物时,观察到DNA裂解活性大致上增加(图30B)。此结果表明HEK293T细胞中的Cas9功能的限制因素为sgRNA的表达或其载荷到Cas9中。
[0821] 图30B展示细胞溶解产物含有活性Cas9:sgRNA并且支持位点特异性DNA裂解。(A)用含有PAM和与CLTA1 sgRNA互补的靶序列的质粒DNA孵育来自用左边指示的质粒转染的细胞的溶解产物;在指示的地方,用10pmol体外转录的CLTA1 sgRNA补充反应;用XhoI进行的二级裂解产生大约2230bp和大约3100bp片段的指示Cas9介导的裂解的片段。使用来自用ZFN表达构建体转染的细胞的溶解产物的对照反应显示相对于CLTA1靶位点反映ZFN靶位点偏移的稍微不同大小的片段。(B)如在(A)中不存在或存在体外转录的CLTA1 sgRNA情况下,用靶质粒DNA孵育来自用Cas9-GFP表达质粒和在指示的地方用CLTA1 sgRNA表达质粒转染的细胞的溶解产物。
[0822] 作为增强活细胞中Cas9:sgRNA组装件的方法,我们接下来测试了延长引导RNA的假定Cas9结合区的作用。CLTA1 sgRNA的两个新形式被设计成在模拟crRNA与tracrRNA之间的碱基配对相互作用的螺旋中包括另外的六个或十二个碱基对(图31A)。另外,基于酿脓链球菌tracrRNA的天然序列通过五个核苷酸来延长引导RNA的3’端[9]。连同Cas9-HA-NLS-GFP表达载体将U6或H1Pol III启动子控制之下的编码这些3’延长的sgRNA的载体转染到细胞中,并且使用Surveyor测定测试位点特异性基因组裂解(图31B)。结果证实裂解需要Cas9和CLTA1 sgRNA,而在单独表达Cas9或sgRNA时不发生裂解。此外,如通过Cel-1核酸酶裂解所检测,我们大致上观察到NHEJ的频率增加,而用对照ZFN对获得的NHEJ诱变的频率很大程度上没有变化。
[0823] 图31展示sgRNA构建体的3’延长增强了位点特异性NHEJ介导的诱变。(A)设计用于CLTA1 sgRNA表达(上方)的构建体来产生含有原始Cas9结合序列的转录物(v1.0)或通过4个碱基对(v2.1)或10个碱基对(v2.2)延长的dsRNA双链体。(B)从表达Cas9和/或CLTA sgRNA v1.0、v2.1或v2.2的HEK293T细胞中分离的基因组DNA的Surveyor核酸酶测定。先前用来靶向CLTA基因座的ZFN构建体[10]用作用于检测通过非同源末端连接进行的DSB诱导的DNA修复的阳性对照。
[0824] 因此,结果提供用于使Cas9实现为各种各样基因组编辑应用的容易分子工具的框架。此系统的有力特征为在相同细胞中用多个sgRNA编码Cas9,增加单个基因座上的靶向频率或作为同时靶向若干个基因座的方法的潜力。此类策略将广泛应用于全基因组实验和大规模研究工作如开发多基因疾病模型。
[0825] 实施例3:II型CRISPR-Cas免疫系统的tracrRNA和Cas9家族
[0826] 我们通过筛选与Cas9同源的序列、II型系统的特征标志蛋白来搜寻目前存在于公共可获得的细菌基因组中的所有假定II CRISPR-Cas基因座。我们从鉴定的Cas9直向同源物的多序列比对中构建了系统树。在不同Cas9子群中分析了相关的II型系统的cas操纵子的CRISPR重复长度和基因组织。提出II型基因座的子类并且基于75个代表性Cas9直向同源物的选择进一步分成亚群。然后我们主要通过检索CRISPR重复序列和筛选cas基因内或附近的抗重复和选择的II型基因座的CRISPR阵列来预测tracrRNA序列。进行了序列和选择的tracrRNA直向同源物的预测结构的对比分析。最后,我们确定了来自五种细菌种类的tracrRNA和crRNA的表达和加工特征(profil e)。
[0827] 材料和方法
[0828] 细菌菌株和培养条件
[0829] 使用以下培养基使细菌在板上生长:针对变异链球菌(UA159)为用3%绵羊血补充TM的TSA(胰蛋白酶大豆琼脂,Trypticase 大豆琼脂(TSA II)BD BBL,Becton Dickinson)和针对无害李斯特氏菌(Clip11262)为BHI(脑心浸液,BD BactoTM脑心浸液,Becton Dickinson)琼脂。当在液体培养物中培养时,针对变异链球菌使用0.2%酵母萃取物补充的THY培养基(Todd Hewitt肉汤(THB,Bacto,Becton Dickinson)、针
对无害李斯特氏菌使用BHI肉汤、针对脑膜炎奈瑟氏菌(A Z2491)使用含有1%维生素混合物VX(Difco,Becton Dickinson)的BHI液体培养基、针对空肠弯曲杆菌(NCTC 11168;
ATCC700819)使用包括1%维生素混合物VX的MH(Mueller Hinton肉汤,Oxoid)肉汤以及针对弗朗西丝菌(U112)使用TSB(胰蛋白酶大豆肉汤,BD BBLTM TrypticaseTM大豆肉汤)。在不振荡情况下在37℃、5%CO2下孵育变异链球菌。在振荡情况下,在37℃下使无害李斯特氏菌、脑膜炎奈瑟氏菌和弗朗西丝菌的菌株有氧生长。在使用campygen(Oxoid)气氛的微需氧条件中,在37℃下使空肠弯曲杆菌生长。细菌细胞生长之后使用酶标仪(BioTek 
PowerWaveTM)在固定时间间隔下测量培养物在620nm处的光学密度(OD620nm)。
[0830] 细菌小RNA文库的测序。
[0831] 培养空肠弯曲杆菌NCTC 11168(ATCC 700819)、弗朗西丝菌U 112、无害李斯特氏菌Clip11262、脑膜炎奈瑟氏菌A Z2491以及变异链球菌UA159直到对数生长期的中期并且用TRIzol(Sigma-Aldric h)萃取总RNA。用TURBOTM DNA酶(Ambion)处理来自每种菌株的10μg总RNA以去除任何残余基因组DNA。根据制造商的说明通过针对革兰阳性菌或革兰阴性菌(Epicentre)使用Ribo-ZeroTM rRNA Re moval 来去除核糖体RNA。在用RNA Clean&ConcentratorTM-5试剂盒(Zymo Research)纯化之后,根据制造商的说明使用Script MinerTM小RNA-Seq文库制备试剂盒(Multiplex, 相容的)制备文库。用烟草酸焦磷酸酶(TAP)(Epicentre)处理RNA。来自RNA Clean&ConcentratorTM-5(Zymo Research)的柱用于后续RNA纯化并且 高保真DNA聚合酶(New England Biolabs)用于PCR扩
增。向每个文库添加具体用户定义的条形码(RNA-Seq条形码引物( 相容的)
Epicentre)并且在Vienna Biocenter,Vienna,Austria的下一代测序(Next Generation Sequencing)(CSF NGS单元;在网络上以“csf.”接着为“ac.at”)设备上对样品测序(Illumina单端测序)。
[0832] tracrRNA和crRNA测序数据的分析
[0833] 使用illumina2bam工具分解RNA测序读取并且通过(i)去除Illumina衔接子序列(cutadapt 1.0)和(ii)去除3'端上的15nt来修剪以改进读取品质。在去除短于15nt读取之后,通过允许对空肠弯曲杆菌(GenBank:NC_002163)、弗朗西丝菌(GenBank:NC_008601)、脑膜炎奈瑟氏菌(GenBank:NC_003116)、无害李斯特氏菌(GenBank:NC_003212)以及变异链球菌(GenBank:NC_004350)2个错配的Bowtie使cDNA读取与其各自基因组比对。使用BEDTools第2.15.0版分别针对两个DNA链在每个核苷酸位置上计算读取覆盖率。创建含有每百万读取覆盖率的归一化波形文档并且使用整合基因组学观测器(IGV)工具(“www.”接着为“broadinstitute.org/igv/”)可视化(图36)。使用SAMTools flagstat80,基于针对空肠弯曲杆菌总绘图的9914184读取、针对弗朗西丝菌48205读取、针对脑膜炎奈瑟氏菌13110087读取、无害李斯特氏菌161865读取以及针对变异链球菌1542239读取计算绘图的读取比例。创建含有在每个单核苷酸位置上开始(5')和结束(3')的读取数的文档并且用IGV可视化。
针对每个tracrRNA直向同源物和crRNA,使用SAMtools计算检索的读取总数。
[0834] Cas9序列分析、多序列比对和引导树构建
[0835] 位置特异性迭代(PSI)-BLAST程序用来在NCBI非冗余数据库中检索Cas9家族的同源物。弃去短于800个氨基酸的序列。BLASTClust程序设定具有0.8的覆盖截切长度并且0.8的覆盖率阈值分数(除以比对长度的位分数)用来群集剩下来的序列(图38)。此工序产生78个群集(那些群集中的48个仅通过一个序列来表示)。一个代表(或罕见地几个代表)选自每个群集并且使用具有缺省参数的MUSCLE程序构建这些序列的多比对,接着基于使用PSI-BLAST和HHpred程序获得的局部比对进行手动校正。稍微更多的序列为不可比对的并且还从最终比对中排除。具有272个信息位置的确信对比嵌段用来使用具有缺省参数的FastTree程序进行最大可能性树重构:JTT进化模型、具有20个速率分类的离散γ模型。相同程序用来计算自展值。
[0836] 图38描绘根据BLASTclust群集程序分组的序列。仅选择长于800个氨基酸的序列用于BLASTclust分析(参见材料和方法)。使用具有cas9直向同源物基因的代表性菌株。一些序列并不群集,但由于在其紧靠附近存在保守的基序和/或其它cas基因而验证为Cas9序列。
[0837] CRISPR-Cas基因座的分析
[0838] 使用CRISPRFinder工具从CRISPRdb数据库中检索或预测CRISPR重复序列(Grissa I等,BMC Bioinformatics 2007;8:172;Grissa I等,Nucleic Acids Res 2007)。使用BLASTp算法鉴定cas基因和/或用KEGG数据库验证(在网络上以“www.”接着为kegg.jp/)。
[0839] 计算机预测和分析tracrRNA直向同源物
[0840] 使用Vector 软件(Invitrogen)通过筛选另外的简并重复序列来鉴定假定的抗重复,所述另外的简并重复序列不属于允许高达至15个错配的各自基因组两个链上的重复-间隔区阵列。分别使用BDGP神经网络启动子预测程序(“www.”接着为fruitfly.org/seq_tools/promot er.html)和TransTermHP软件预测转录启动子和rho独立型终止子。使用具有缺省参数的MUSCLE程序进行多序列比对。使用Vienna RN A包2.0的RNAalifold算法分析比对的保守结构基序的存在。
[0841] 结果
[0842] II型CRISPR-Cas系统广泛存在于细菌中。
[0843] 除了tracrRNA编码DNA和重复-间隔区阵列以外,II型CRISP R-Cas基因座通常由组织在操纵子中的三至四个cas基因构成(图32A-图32B)。Cas9为II型特征的签名蛋白(signature protein)并且涉及表达和干扰步骤。Cas1和Cas2为所有CRISPR-Cas系统共有的核心蛋白并且暗含在间隔区获得物中。Csn2和Cas4仅存在于II型系统子集中并且表明起衔接作用。为了检索最大数目的含有tracrRNA的II型CRISPR-Cas基因座,我们首先筛选公共可获得的基因组的与已经注释的Cas9蛋白同源的序列。在203种细菌种类中鉴定出235个Cas9直向同源物。选择代表所有检索的Cas9直向同源物的75个各种各样序列集用于进一步分析(图32、图38以及材料和方法)。
[0844] 图32描绘(A)来自各种生物的代表性Cas9序列的系统发生树以及(B)代表性Cas9基因座构造。指示针对每个结点计算的自展值。相同颜色的分枝代表选择的类似Cas9直向同源物的子群集。针对每个子群集示出以核苷酸为单位的CRISPR重复长度、以氨基酸(aa)为单位的平均Cas9蛋白质大小以及共有序列基因座构造。*-gi|116628213**-gi|116627542 -gi|34557790 -gi|34557932。II-A型特征在于cas9-csx12、cas1、cas2、cas4。
II-B型特征在于cas9、cas1、cas2,接着为csn2变体。II-C型特征在于保守cas9、cas1、cas2操纵子(还参见图38)。
[0845] 接下来,我们进行选择的Cas9直向同源物的多序列比对。对比分析显示出氨基酸组成和蛋白质大小的高多样性。Cas9直向同源物仅共有几个相同氨基酸并且所有检索的序列具有与中心HNH核酸内切酶结构域和分开的RuvC/RNA酶H结构域相同的结构域构造。Cas9蛋白的长度在984个(空肠弯曲杆菌)至1629个(新凶手弗朗西丝菌)氨基酸范围内,其中大小通常为大约1100个或大约1400个氨基酸。由于Cas9序列的高多样性,尤其在结构域间区的长度方面,我们仅选择比对良好的、制备的比对的信息位置来重构分析的序列的系统发生树(图32以及材料和方法)。Cas9直向同源物分成具有一些离群序列的三大单源群集。所观察到的Cas9树的拓扑学与目前II型基因座的分类、与先前定义的II-A型和II-B型形成分开、单源群集一致。为了进一步表征群集,我们详细检查了所有列出的菌株的cas操纵子组成和CRISPR重复序列。
[0846] Cas9子群集反映II型CRISPR-Cas基因座构造的多样性
[0847] 选择的II型基因座的更深分析显示出Cas9直向同源物序列的群集与CRISPR重复长度的多样性相关。对于大多数II型CRISPR-Cas系统,重复长度为36个核苷酸(nt),其中对于两个Cas9树子群集具有一些变化。在包含编码长Cas9直向同源物的基因座的II-A型群集(图32)(先前称为Csx12)中,CRISPR重复为37nt长。由来自属于拟杆菌门的细菌的序列构成的小子群集(图32)特征在于不寻常的长CRISPR重复,大小高达至48nt。此外,我们注意到Cas9序列的子群集与相异cas操纵子构造相关,如在图32中所描绘。第三大群集(图32)和离群基因座(图32)除了后面讨论的一些不完整基因座之外主要由最小操纵子组成,所述最小操纵子由cas9、cas1和cas2基因构成。两个第一主要群集的所有其它基因座与特异于II-A型或csn2样、特异于II-B型的第四基因(主要为cas4)相关(图32)。我们鉴定出类似于II-B型酿脓链球菌CRISPR01和嗜热链球菌CRISPR3基因座内的编码Csn2蛋白更短变体Csn2a的基因(图32)。发现Csn2的更长变体Csn2b与类似于II-B型嗜热链球菌CRISPR1的基因座相关(图32)。有趣地,我们鉴定出编码与先前描述的Csn2变体没有明显序列相似性的蛋白质的另外假定cas基因。那些未表征的蛋白质之一排除与支原体物种的II-B型基因座相关(图32和图33)。发现其它两个编码于葡萄球菌物种的II-B型基因座中(图33)。在所有情况下,cas操纵子构造多样性因此与Cas9序列的子群集一致。这些特征连同分成三大相异单源群集的Cas9树的一般拓扑学引领我们提出新的将II型CRISPR-Cas系统进一步分到三个子类型中。II-A型与Csx12样Cas9和Cas4相关,II-B型与Csn2样相关并且II-C型仅含有cas9、cas1和cas2基因的最小集,如在图32中所描绘。
[0848] 图33描绘来自选择的细菌物种的II型CRISPR-Cas的构造。竖直条对编码属于相同树子群集的Cas9直向同源物的基因座分组(与图32相比)。水平黑条,前导序列;黑色矩形和菱形,重复-间隔区阵列。通过指示假定tracrRNA直向同源物转录方向的箭头来表示预测的抗重复。指出对于没有实验验证的基因座,CRISPR重复-间隔区阵列在这里被认为从与cas操纵子相同的链中转录。因此指示假定tracrRNA直向同源物的转录方向。
[0849] 新型tracrRNA直向同源物的计算机预测
[0850] 筛选基于75个代表性Cas9直向同源物更早选择的II型基因座的假定tracrRNA直向同源物的存在。我们先前在限制数目的tracrRNA序列上进行的分析显示出CRISPR-Cas基因座内的tracrRNA序列或其定位似乎为保守的。然而,如上所提到,tracrRNA还特征在于能够与每个pre-crRNA重复碱基配对以形成tracrRNA:precrRNA重复双链体的抗重复序列,所述tracrRNA:precrRNA重复双链体在Cas9存在下通过RNA酶III裂解。为了预测新型tracrRNA,我们利用此特征并且使用以下工作流程:(i)筛选CRISPR-Cas基因座内的潜在抗重复(与CRISPR重复碱基配对的序列),(ii)选择位于基因间区中的抗重复,(iii)验证CRISPR抗重复:重复碱基配对以及(iv)预测与鉴定的tracrRNA相关的启动子和Rho独立型转录终止子。
[0851] 为了筛选假定的抗重复,我们从CRISPRdb数据库检索重复序列,或当信息不可获得时,我们使用CRISPRfinder软件预测重复序列。在我们先前的研究中,我们实验显示重复-间隔区阵列的转录方向与cas操纵子的转录方向相比在基因座之中变化。这里RNA测序分析证实了此观察。在一些分析的基因座中,即在弗朗西丝菌、脑膜炎奈瑟氏菌和空肠弯曲杆菌中,重复-间隔区阵列以与cas操纵子相反的方向转录(参见段落‘深度RNA测序验证新型tracrRNA直向同源物的表达’和图33以及图34),而在酿脓链球菌、变异链球菌、嗜热链球菌和无害李斯特氏菌中,阵列和cas操纵子以相同方向转录。仅存在II型重复-间隔区阵列表达数据至今可获得。为了预测其它重复-间隔区阵列的转录方向,我们认为根据先前观察的阵列的最后重复通常为突变的。此评论与目前间隔区获得模型一致,其中通常阵列的第一重复在衔接阶段过程中插入间隔区序列时复制。对于37个重复间隔区阵列,我们能够在阵列的假定末端上鉴定出突变重复。我们观察到针对脑膜炎奈瑟氏菌和空肠弯曲杆菌重复-间隔区阵列的转录预测取向将与实验(RNA测序和RNA印迹分析)确定的取向相反。因为预测的取向在群集内不一致并且因为在大多数情况下我们可在阵列的两端处检测到潜在的启动子,所以如果没有另外验证,我们认为重复-间隔区阵列的转录在与cas操纵子转录相同的方向上。
[0852] 图34描绘在选择的II型CRISPR Cas系统中共同加工的tracrRNA和pre-crRNA。示出具有tracrRNA和pre-crRNA转录的验证位置和方向的CRISPR基因座构造。上方序列,pre-crRNA重复;下方序列,与crRNA重复碱基配对的tracrRNA序列。如通过RNA测序所显示出的假定RNA加工位点用箭头指示。对于每个基因座,箭头大小表示检索的5’端和3’端的相对量(还参见图37)。
[0853] 图37列出通过对所研究的细菌物种测序检出的所有tracrRNA直向同源物和成熟crRNA,包括坐标(感兴趣的区域)和对应的cDNA序列(5'至3')。箭头表示转录方向(链)。指示cDNA读取数(使用SAMtools计算的)、覆盖数(绘图的读取百分比)以及与每个转录物相关的主要末端。展示出每个转录物的5'端和3'端周围每个核苷酸位置上开始或停止的读取数。指示每个crRNA成熟形式的大小。根据CRISPRdb,分配至每个crRNA种类的数与pre-crRNA中的间隔区序列位置对应。分配至每个tracrRNA种类的数与相同转录物的不同形式对应。
[0854] 然后我们筛选所选择的CRISPR-Cas基因座,所述基因座包括位于不属于重复-间隔区阵列的可能重复序列的两个链上游和下游1kb的序列,允许高达至15个错配。平均我们每个基因座找到一至三个简并重复序列(这将与tracrRNA直向同源物的抗重复对应)并且选择位于基因间区内的序列。在四个通常定位中找到假定抗重复:cas9基因的上游、cas9与cas1之间的区域以及重复-间隔区阵列的上游或下游(图33)。针对每个检索的序列,我们通过预测可能的RNA:RNA相互作用并且尤其关注具有较长和完美互补区的候选物来验证重复与抗重复之间形成的碱基配对程度(图44),所述候选物形成用于RNA酶III加工的优化双链结构。为了预测侧翼为抗重复的启动子和转录终止子,我们分别基于我们先前的观察26来设定包括在位于抗重复序列上游最大200nt和下游100nt的区域内的假定转录起始位点和终止位点。如上所提到,缺乏II型系统的大多数重复-间隔区阵列的转录方向的实验信息。计算机启动子预测算法经常得到错误的阳性结果并且指向将导致从两个链转录重复-间隔区阵列的假定启动子。在一些情况下,我们不能预测转录终止子,即使可实验验证tracrRNA直向同源物表达,如空肠弯曲杆菌基因座所举例说明(参见段落‘深度RNA测序验证新型tracrRNA直向同源物的表达’)。我们建议仅将启动子和转录终止子预测认为是一种支持,并且不为上述准则的必不可少的步骤。
[0855] 图44描绘选择的细菌种类中的预测的pre-crRNA重复:tracrRNA抗重复碱基配对。bCRISPR基因座属于II型(Nmeni/CASS4)CRISPR-Cas系统。命名法是根据CRISPR数据库c(CRISPRdb)。指出嗜热链球菌LMD-9和产琥珀酸沃林氏菌含有两个II型基因座。上方序列,pre-crRNA重复共有序列(5’至3’);下方序列,退火至重复的tracrRNA同源物序列(抗重复;
3’至5’)。指出所给出的重复序列基于CRISPR重复-间隔区阵列从与cas操纵子相同的链转录的假设。对于本研究中实验验证的序列,考虑RNA测序数据来确定碱基配对。参见图33。d在土拉热弗朗西丝菌亚种、产琥珀酸沃林氏菌以及γ蛋白细菌HTCC5015型II-A基因座中鉴定出两个可能的抗重复。上方序列配对,假定前导序列内的抗重复;下方序列配对,重复间隔区阵列下游的抗重复。参见图33。e在华德萨特菌(S.wadsworthensis)II-A型基因座中鉴定出两个可能的抗重复。上方序列配对,抗重复;下方序列配对,假定前导序列内的抗重复,参见图33。f在加氏乳杆菌(L.gasseri)II-B型基因座中鉴定出两个可能的抗重复。上方序列配对,cas9上游的抗重复;下方序列配对,cas9与cas1基因之间的抗重复。参见图33。g在空肠弯曲杆菌II-C型基因座中鉴定出两个可能的抗重复。上方序列配对,cas9上游的抗重复;下方序列配对,重复-间隔区阵列下游的抗重复。参见图33。h在深红发癣菌(R.rubrum)II-C型基因座中鉴定出两个可能的抗重复。上方序列配对,重复-间隔区阵列下游的抗重复;下方序列配对,cas1上游的抗重复。参见图33。
[0856] 过多的tracrRNA直向同源物
[0857] 我们针对早期选择的75个基因座中的56个预测了假定tracrRNA直向同源物。在图33中描绘了预测的结果。如已经所提到,在此图中指示的tracrRNA转录方向为假设的并且基于重复-间隔区阵列转录的指示方向。如先前所述,编码假定tracrRNA直向同源物的序列在cas操纵子上游、在其内和下游以及重复间隔区阵列的下游鉴定出,包括通常见于II-A型基因座的假定前导序列(图33)。然而,我们观察到CRISPR-Cas基因座内的具有类似定位的抗重复可以不同方向转录(如当比较例如鼠李糖乳杆菌(Lactobacillus rhamnosus)和直肠真杆菌(Eubacterium rectale)或运动支原体和酿脓链球菌或脑膜炎奈瑟氏菌所观察)(图33)。显然,分组在Cas9引导树的相同子群集内的基因组相对于tracrRNA编码基因的位置共有共用构造。我们在II-A型基因座中的重复-间隔区阵列周围鉴定出抗重复,并且具有若干显著假定tracrRNA除外的大多数II-B型和II-C型中的cas9基因上游位于II-B型三个相异子群集中的cas9与cas1之间。
[0858] 一些II型CRISPR-Cas基因座具有缺陷的重复-间隔区阵列和/或tracrRNA直向同源物
[0859] 对于六个II型基因座(核粒梭杆菌(Fusobacterium nucleatum)、氨基酸单胞菌(Aminomonas paucivorans)、鼬鼠螺杆菌(Helicobacter mustelae)、固氮螺菌(Azospirillum sp.)、栖瘤胃拟杆菌(Prevotella ruminicola)和肠道细菌(Akkermansia muciniphila)),我们鉴定出具有与重复序列弱碱基配对或位于开放阅读框内的潜在抗重复。显然,在这些基因座中鉴定出在氨基酸单胞菌中编码假定ATP酶的基因的开放阅读框内的弱抗重复、固氮螺菌B510中的cas9基因的前100nt内的强抗重复以及与肠道细菌中的cas9和cas1重叠的强抗重复(图33)。针对十二个另外基因座(消化链球菌(Peptoniphilus duerdenii)、尖锐粪球菌(Coprococcus catus)、肠道氨基酸球菌(Acidaminococcus intestini)、粪球菌(Catenibacterium mitsuokai)、伪中间葡萄球菌(Staphylococcus pseudintermedius)、泥杆菌(Ilyobacter polytropus)、变形菌(Elusimicrobium minutum)、脆弱拟杆菌(Bacteroides fragilis)、解纤维热酸菌(Acidothermus 
cellulolyticus)、白喉棒杆菌(Corynebacterium diphteriae)、长双歧杆菌
(Bifidobacterium longum)以及齿双歧杆菌(Bifidobacterium dentium)),我们不能检测任何假定抗重复。不存在pre-crRNA表达并且在这些CRISPR-Cas基因座中加工的可获得信息。因此,不存在清楚定义的tracrRNA直向同源物的II型系统的功能性仍待解决。对于七个分析的基因座,我们不能鉴定出任何重复间隔区阵列(肠道菌群(Parasutterella excrementihominis)、蜡状芽孢杆菌(Bacillus cereus)、白色瘤胃球菌(Ruminococcus albus)、沼泽红假单胞菌(Rhodopseudomonas palustris)、汉堡硝化杆菌(Nitrobacter hamburgensis)、野生大豆根瘤菌(Bradyrhizobium sp.)以及彩虹普雷沃菌(Prevotella micans))(图33)并且在三个这些基因座(野生大豆根瘤菌BTAi1、汉堡硝化杆和蜡状芽孢杆菌)中,我们检测到呈单个基因的cas9,其中在附近没有其它cas基因。对于这三个基因座,我们不能预测cas9基因上游或下游的任何小RNA序列。在白色瘤胃球菌和肠道菌群情况下,含有cas9的基因组重叠群太短而不允许预测重复间隔区阵列。
[0860] 深度RNA测序验证新型tracrRNA直向同源物的表达
[0861] 为了验证计算机tracrRNA预测并且确定tracrRNA:pre-crRNA共同加工形式,通过深度测序来分析来自选择的革兰阳性(变异链球菌和无害李斯特氏菌)和革兰阴性(脑膜炎奈瑟氏菌、空肠弯曲杆菌和弗朗西丝菌)细菌的RNA。检索tracrRNA直向同源物和加工的crRNA的序列(图36和图37)。与先前出版的在酿脓链球菌26中的不同tracrRNA测序数据一致,tracrRNA直向同源物高度表示在文库中,在总绘图读取的0.08%至6.2%范围内。加工的tracrRNA还比原代转录物更丰富,在tracrRNA读取总量的66%至大于95%范围内(图36和图37)。
[0862] 图36描绘通过深度RNA测序显现出的细菌tracrRNA直向同源物和crRNA的表达。tracrRNA直向同源物和选择的细菌菌株的crRNA的表达特征通过条形图沿着对应基因组表示(从整合基因组学观测器(IGV)工具捕获的图像)。空肠弯曲杆菌(GenBank:NC_002163)、新凶手弗朗西丝菌(GenBank:NC_008601)、脑膜炎奈瑟氏菌(GenBank:NC_003116)、无害李斯特氏菌(GenBank:NC_003212)以及变异链球菌(GenBank:NC_004350)。给出基因组坐标。ab
使用BEDTools-2.15.0版本计算的序列覆盖(以每百万读取给出的标度)。指示在每个核苷酸位置上开始(5')和结束(3')的读取分布(以读取数给出的标度)。上图对应来自正链的转录物并且下图对应来自负链的转录物。在轴向下方呈现的阴性覆盖值和峰指示来自基因组负链的转录物。针对所有RNA绘制读取的主要5’端和3’端。指出在无害李斯特氏菌cDNA文库的低品质给定条件下,针对crRNA缩短读取,并且主要由于RNA降解,观察到tracrRNA的3'端处的读取累积。
[0863] 为了评价tracrRNA原代转录物的5’端,我们分析了tracrRNA的所有5’端读取的丰度并且检索预测的抗重复序列5’端上游或附近的最主要读取。使用启动子预测算法进一步证实tracrRNA直向同源物的5’端。鉴定出的来自变异链球菌、无害李斯特氏菌和脑膜炎奈瑟氏菌的tracrRNA的5’端与tracrRNA表达的计算机预测和RNA印迹分析相关26。在抗重复序列中间鉴定出空肠弯曲杆菌tracrRNA的最主要5’端。在五个核苷酸上游检测到与计算机预测相关并且提供与CRISPR重复序列相互作用的较长序列的另外假定5’端。我们从弗朗西丝菌文库检索出相对少量的读取,所述文库对应几乎专门地加工转录物。原代转录物的非常少量读取的分析提供对应强计算机启动子预测的5’端。弗朗西丝菌tracrRNA的RNA印迹探测进一步证实预测的有效性,显示长度为大约90nt的转录物的低丰度。结果列于表2中。针对所有检测的物种,除了脑膜炎奈瑟氏菌,将原代tracrRNA转录物鉴定为长度75nt至100nt的单个小RNA种类。在脑膜炎奈瑟氏菌的情况下,我们发现大约110nt的主要原代tracrRNA形式和大约170nt的假定较长转录物,所述假定较长转录物通过非常少量的读取表示并且通过RNA印迹分析先前检测为弱带。
[0864] 表2.选择的tracrRNA直向同源物
[0865]
[0866] a计算机预测嗜热链球菌、多杀巴氏杆菌和运动支原体的tracrRNA直向同源物。
[0867] bRNA-seq,通过RNA测序显现出(表S3);第一读取,通过测序检索的第一5’端位置;最主要,根据RNA-seq数据的丰富5’端;预测,转录起始位点的计算机预测;下划线,选择用于待比对的原代tracrRNA的5’端。
[0868] c根据RNA-seq数据的估算的3’端和转录终止子预测。
[0869] tracrRNA和pre-crRNA共同加工位点位于抗重复:重复区中。
[0870] 我们通过分析预测的抗重复序列内的丰富tracrRNA 5’端和丰富成熟crRNA 3’端来检测加工的tracrRNA转录物(图34和图45)。在所有物种中,我们鉴定出可通过RNA酶III由tracrRNA:pre-crRNA重复双链体的共同加工产生的tracrRNA直向同源物的主要5’端。我们还鉴定出通过假定修剪最可能由第二成熟事件产生的crRNA的加工的5’端,与先前观察一致。值得注意,在酿脓链球菌、变异链球菌和无害李斯特氏菌的密切相关的RNA对中,我们在抗重复序列中间观察到G:C碱基对周围相同的加工位点。在变异链球菌和无害李斯特氏菌中,我们检测到可表明进一步修剪tracrRNA:crRNA双链体的另外主要的tracrRNA 5’端和crRNA 3’端,其中在RNA酶III催化的第一加工事件之后crRNA的3’端被另外缩短至已经提到的5’端修剪。类似地,在空肠弯曲杆菌中,我们仅发现少量的将符合RNA酶III加工形式的crRNA 3’端并且检索加工的tracrRNA的对应5’端。因此,在通过RNA酶III初始裂解之后tracrRNA:crRNA双链体的假定修整将在成熟crRNA中产生较短的重复来源的部分,从而产生通过用于与核酸内切酶Cas9相互作用和随后靶DNA的裂解的三元G:C碱基配对来稳定的较短tracrRNA:crRNA双链体。脑膜炎奈瑟氏菌RNA双链体似乎在两个原代位点上加工进一步为CRISPR重复的3’端,从而在成熟crRNA中产生长重复来源的部分和稳定RNA:RNA相互作用,尽管中心凸出在双链体内。有趣地,弗朗西丝菌的tracrRNA:pre-crRNA双链体似乎在低互补性区内裂解并且一些检索的丰富tracrRNA的5’端表明其进一步修剪但不需要伴随crRNA修剪。原代转录物大小和加工位点定位不同产生大约65nt至85nt范围内的各种长度的加工tracrRNA。主要加工的tracrRNA转录物的坐标和大小在表2和图37中示出。观察到的tracrRNA和crRNA加工形式与先前提出的两个成熟事件模型一致。一些tracrRNA 5’末端和crRNA 3’末端的假定进一步修剪可源自第二成熟事件或可选地为cDNA文库制备或RNA测序的人工产物。这些加工的性质仍需进一步研究。
[0871] tracrRNA直向同源物的序列为高度多样性的
[0872] 还确定了选择的tracrRNA直向同源物的序列相似性。我们进行了酿脓链球菌(仅89nt形式)、变异链球菌、无害李斯特氏菌和脑膜炎奈瑟氏菌(仅110nt形式)、嗜热链球菌、多杀巴氏杆菌以及运动支原体的原代tracrRNA转录物的多序列比对(表2、图35)。我们在tracrRNA序列中观察到高多样性,但来自密切相关的CRISPR-Cas基因座的序列明显保守。
来自无害李斯特氏菌、酿脓链球菌、变异链球菌和嗜热链球菌的tracrRNA平均共有77%同一性并且来自脑膜炎奈瑟氏菌和多杀巴氏杆菌的tracrRNA根据成对比对共有82%同一性。
与随机RNA序列的同一性相比,分析的tracrRNA序列的平均同一性为56%。此观察进一步证实基于序列相似性的tracrRNA直向同源物的预测可仅在密切相关的基因座的情况下进行。
我们还寻求可能的tracrRNA结构保守,但未能发现任何明显的相似性,除了一个相关变异和保守的转录终止子结构(图35)。
[0873] 图35描绘tracrRNA直向同源物的序列多样性。tracrRNA序列多比对。嗜热链球菌和嗜热链球菌2,分别与SEQ ID NO:41和SEQ ID NO:40Cas9直向同源物相关的tracrRNA。黑色,高度保守;深灰色,保守;浅灰色,弱保守。预测的共有结构描绘于对比上方。箭头指示核苷酸相关变异。通过RNA测序和RNA印迹分析来验证酿脓链球菌SF370、变异链球菌UA159、无害李斯特氏菌Clip11262、空肠弯曲杆菌NCTC 11168、弗朗西丝菌U112以及脑膜炎奈瑟氏菌A Z2491tracrRNA。通过RNA印迹分析来验证嗜热链球菌LMD-9tracrRNA。从CRISPR-Cas基因座与脑膜炎奈瑟氏菌A Z2491的高相似性预测多杀巴氏杆菌Pm70tracrRNA。从转录启动子和终止子的强预测中计算机预测运动支原体163K tracrRNA。
[0874] 实施例4:用于基因表达的序列特异性控制的作为RNA引导平台的再利用CRISPR[0875] 全基因组规模上的靶基因调节为用于询问、扰乱和工程化细胞系统的有力策略。发明人已开发了用于控制基于Cas9(来自II型CRISPR系统的RNA引导DNA核酸内切酶)的基因表达的新方法。此实施例展示当与引导RNA共表达时缺乏核酸内切酶活性的催化死亡的Cas9产生DNA识别复合物,所述DNA识别复合物可特异性地干扰转录延长、RNA聚合酶结合或转录因子结合。称为CRISPR干扰(CRISPRi)的此系统可有效地阻抑大肠杆菌中的靶基因的表达而不具有可检测的脱靶效应。CRISPRi可用来同时阻抑多个靶基因,并且其作用为可逆的。另外,系统可适合用于哺乳动物细胞中的基因阻抑。此RNA引导的DNA识别平台提供选择性扰乱全基因组规模上的基因表达的简单方法。
[0876] 材料和方法
[0877] 菌株和培养基
[0878] 大肠杆菌K-12菌株MG1655用作体内荧光测量的宿主菌株。内源性表达RNAP变体的大肠杆菌MG1655来源的菌株用于所有测序实验,所述RNAP变体具有附着至RpoC亚单位的C-末端的3x-FLAG表位标签。EZ富集已知成分培养基(EZ-RDM,Teknoka)用作用于体内荧光测定的生长培养基。使用标准方案,使用AmpR、CmR或KanR基因作为可选择的标志物来进行遗传转化和转化验证。
[0879] 质粒构建和大肠杆菌基因组克隆
[0880] 分别从先前描述的载体pMJ806和pMJ841中克隆Cas9和dCas9基因。PCR扩增基因并且插入到含有无水四环素(aTc)-诱导型启动子PLtetO-1、氯霉素可选择标志物和p15A复制起点的载体中。将sgRNA模板克隆到含有具有注释转录起始位点的最小合成启动子(J23119)、氨比西林可选择标志物和ColE1复制起点的载体中。可逆PCR用来产生具有新20bp互补区的sgRNA盒。为了将荧光报道基因插入到大肠杆菌基因组中,首先将荧光基因克隆到进入载体上,所述进入载体然后PCR扩增以产生含有nsfA 5’/3’UTR序列、荧光基因和KanR可选择标志物的线性化DNA片段。用含有λ-红色重组蛋白(Exo,β和γ)的温度敏感质粒pKD46转化大肠杆菌MG1655菌株。在30℃下使细胞培养物生长至OD(600nm)为大约0.5,并且添加0.2%阿拉伯糖来诱导λ-红色重组蛋白的表达持续1h。在4℃下收获细胞并且通过电穿孔用于线性化DNA片段的转化。含有正确基因组插入的细胞通过使用50μg/mL卡那霉素来选择。
[0881] 流式细胞计量术和分析
[0882] 在37C和1200r.p.m下,在2mL 96孔深孔板(Costar 3960)中在含有100μg/mL羧苄青霉素和34μg/mL氯霉素的EZ-RDM中培养菌株过夜。然后将1μL此过夜培养物添加至具有与2μM aTc相同抗生素浓度的249μL新鲜EZ-RDM中,所述2μM aTc补充以诱导dCas9蛋白的产生。当细胞生长至对数中期(大约4h)时,使用装备有高通量取样器的LSRII流式细胞计量仪(BD Biosciences)来确定荧光蛋白的水平。用低流速取样细胞直到收集至少20,000个细胞。通过在前向散射-侧向散射曲线图中选通含有60%细胞群的多边形区来使用FCS Express(De Novo软件)分析数据。针对每个实验,测量三次培养物并且其标准偏差指示为误差棒。
[0883] Β-半乳糖苷酶测定
[0884] 为了进行β-半乳糖苷酶测定,将1μL如上所制备的过夜培养物添加至具有与2μM aTc相同抗生素浓度的249μL新鲜EZ-RDM中,所述EZ-RDM具有或不具有1mM异丙基β-D-1-硫代吡喃半乳糖苷(IPTG)。使细胞生长至对数中期。根据说明书使用酵母β-半乳糖苷酶测定试剂盒(Pierce)来测量100uL此培养物的LacZ活性。
[0885] 总RNA的萃取和纯化
[0886] 针对每个样品,在37℃下使大肠杆菌的单克隆培养物在500mL EZ-RDM中从OD(600nm)0.1生长至对数早期(OD 0.45±0.05),在这一点上通过经过0.22μm硝化纤维过滤器(GE)过滤收获细胞并且在液氮中冷冻以同时中止所有转录进程。在用10mM MnCl2和15μM Tagetin转录抑制剂(Epicentre)补充的500μL冷冻溶解缓冲液(20mM Tris pH 8、0.4%Triton X-100、0.1%NP-40、100mM NH4Cl、50U/mL SUPERase·In(Ambion)以及1x蛋白酶抑制剂混合物(完全的,不含EDTA,Roche)存在下,在15Hz下在Qiagen TissueLyser II混合器上粉碎冷冻的细胞(100μg)6次持续3min。
[0887] 通过移液将溶解产物重新悬浮在冰上。添加RQ1DNA酶I(总共110U,Promega)并且在冰上孵育20min。用EDTA(最终25mM)淬灭反应并且通过在4℃下、在20,000g下离心10min来使溶解产物澄清。将溶解产物载荷到PD MiniTrap G-25柱(GE Healthcare)上并且用1mM EDTA补充的溶解缓冲液洗脱。
[0888] 总mRNA纯化
[0889] 使用miRNeasy试剂盒(Qiagen)从澄清的溶解产物中纯化总RNA。使1μg RNA的20μL 10mM Tris pH 7溶液与等体积的2x碱性碎裂溶液(2mM EDTA、10mM Na2CO3、90mM NaHCO3,pH 
9.3)混合并且在95℃下孵育大约25min以产生30nt-100nt范围内的片段。通过添加0.56mL的冰冷沉淀溶液(300mM NaOAc pH 5.5加GlycoBlue(Ambion))停止碎裂反应,并且通过标准异丙醇沉淀纯化RNA。然后使碎裂的mRNA在具有25U T4PNK(NEB)的1x PNK缓冲液(不具有ATP)加0.5U SUPERase·In的50μL反应中去磷酸化,并且经过标准异丙醇沉淀方法用GlycoBlue沉淀。
[0890] 新生的RNA纯化
[0891] 对于新生RNA纯化,将澄清的溶解产物添加至如先前所述的0.5mL抗FLAG M2亲和凝胶(Sigma Aldrich)。在具有回转情况下在4℃下用澄清的溶解产物孵育2.5h之前,用补充有1mM EDTA的溶解缓冲液洗涤亲和凝胶两次。用补充有300mM KCl的溶解缓冲液洗涤免疫沉淀4×10ml,并且用补充有1mM EDTA和2mg/mL 3x-FLAG肽(Sigma Aldrich)的溶解缓冲液洗脱结合的RNAP两次。使用miRNeasy试剂盒(Qiagen)从洗脱液中纯化新生RNA并且使用先前建立的文库产生方案转化为DNA。
[0892] DNA文库制备和DNA测序
[0893] 在Illumina HiSeq 2000上测序DNA文库。使用HTSeq Python包和写在Python中的其它定制软件处理读取。使用Bowtie(前面为“bowtie-bio”的“.sourceforge.net”)和MochiView中产生的RNAP特征(前面为“johnsonlab.ucsf”的“.edu/mochi.html”)将测序的转录物的3′端与参比基因组比对。
[0894] 用于人细胞中的CRISPRi的质粒设计和构建
[0895] 使编码哺乳动物密码子优化的酿脓链球菌Cas9(DNA 2.0)的序列与三个C-末端SV40核定位序列(NLS)融合或融合至侧翼为两个NLS的tagBFP。使用标准不依赖连接的克隆,我们使这两种融合蛋白克隆成MSCV-Puro(Clontech)。使用基于慢病毒U6的表达载体表达引导sgRNA,所述表达载体源自从CMV启动子共表达mCherry的pSico。通过将退火引物插入到基于慢病毒U6的表达载体中来克隆sgRNA表达质粒,所述表达载体通过BstXI和XhoI消化。
[0896] 用于人细胞中的CRISPRi的细胞培养、DNA转染和荧光测量
[0897] 将HEK293细胞维持在10%FBS、2mM谷氨酰胺、100个单位/mL链霉素以及100μg/mL青霉素中的达尔伯克改良伊格尔培养基(DMEM)中。使用标准方案用表达GFP的MSCV逆转录病毒感染HEK293,并且通过使用BD FACS Aria2的流式细胞计量术分选用于稳定的GFP表达。根据制造商建议的方案,在24孔板中使用0.5μg的dCas9表达质粒和0.5μg的RNA表达质粒(针对图45B具有0.25μg的GFP报道蛋白质粒)来使用TransIT-LT1转染试剂(Mirus)瞬时转染表达GFP的HEK293细胞。在转染之后72小时,使细胞胰蛋白酶消化成单一细胞悬浮液。U6载体含有驱动mCherry基因的组成型CMV启动子。使用BD LSRII FACS机器通过选通mCherry阳性群体(mCherry比阴性对照细胞亮>10倍)来分析GFP表达。
[0898] 设计的RNA
[0899] 用于附图中的sgRNA设计:仅列出20个核苷酸匹配区(DNA靶向区段)(除非另外指出):
[0900] 用于图40C中的靶向mRFP的sgRNA(SEQ ID NO:741-746);
[0901] 用于图40D中的靶向启动子的sgRNA(SEQ ID NO:747-751);
[0902] 用于图40D中的靶启动子序列(SEQ ID NO:752);
[0903] 用于图43B中的靶向mRFP的sgRNA(SEQ ID NO:753-760);
[0904] 用于图42B中的靶向sfGFP的sgRNA(gfp)(SEQ ID NO:761);
[0905] 用于图43B中的靶向sfGFP的sgRNA(SEQ ID NO:762-769);
[0906] 用于图43F和图51中的双sgRNA靶向实验(SEQ ID NO:770-778);
[0907] 用于图44B中的靶向lac操纵子的sgRNA(SEQ ID NO:779-787);以及
[0908] 用于图45中的靶向EGFP的sgRNA(SEQ ID NO:788-794)。
[0909] 表3.用于实施例4的附图中的序列(以上列出)
[0910]序列 SEQ ID NO: 序列 SEQ ID NO: 序列 SEQ ID NO:
T1 741 R2 771 crp 783
T2 742 R3 772 cya 784
T3 743 R4 773 A位点 785
NT1 744 R5 774 O位点 786
NT2 745 R6 775 P位点 787
NT3 746 R7 776 eT1 788
P1 747 R8 777 eT2 789
P2 748 R9 778 eNT1 790
P3 749 lacZ 779 eNT2 791
P4 750 lacl 780 eNT3 792
P5 751 lacY 781 eNT4 793
R1 770 lacA 782 eNT5 794
[0911] 结果
[0912] CRISPR(成簇规律间隔的短回文重复序列)系统提供用于靶基因调节的新潜力平台。大约40%的细菌和90%的古细菌具有CRISPR/CRISPR相关的(Cas)系统以赋予对外来DNA元件的抗性。CRISPR系统以序列特异性方式使用小碱基配对RNA来靶向和裂解外来DNA元件。在不同生物中存在各种各样的CRISPR系统,并且最简单的一种为来自酿脓链球菌的II型CRISPR系统:仅编码Cas9蛋白的单个基因和两个RNA(成熟CRISPR RNA(crRNA)和部分互补的反式作用RNA(tracrRNA))为RNA引导沉默外来DNA所必要和充分的(图46)。crRNA的成熟需要tracrRNA和RNA酶III。然而,此需要可通过使用含有模拟tracrRNA-crRNA复合物的设计的发夹的工程化小引导RNA(sgRNA)而忽视。sgRNA与靶DNA之间的碱基配对由于Cas9的核酸内切酶活性引起双链断裂(DSB)。通过sgRNA-DNA碱基配对和与DNA互补区并置的短DNA基序(原型间隔区相邻基序或PAM序列:NGG)来确定结合特异性。因此,CRISPR系统仅需要很少系列的二分子(Cas9蛋白和sgRNA),并且因此具有用作宿主独立型基因靶向平台的潜力。已展示可利用Cas9/CRISPR用于位点选择性RNA引导的基因组编辑(图39A)。
[0913] 图46描绘来自酿脓链球菌的II型CRISPR系统的机制。系统由一系列CRISPR相关的(Cas)蛋白和含有重复间隔区序列的阵列的CRISPR基因座组成。所有重复为相同的并且所有间隔区为不同的并且与靶DNA序列互补。当通过外来DNA元件感染细胞时,CRISPR基因座将转录为长前体转录物,所述长前体转录物将裂解成更小的片段。通过反式作用反义RNA(tracrRNA)和宿主RNA酶III来介导裂解。在裂解之后,一种单一蛋白质Cas9识别和结合crRNA的裂解形式。Cas9引导crRNA至DNA并且扫描DNA分子。通过crRNA与DNA靶标之间碱基配对来稳定复合物。在此情况下,Cas9由于其核酸酶活性引起双链DNA断裂。这通常会去除同源的DNA分子,并且细胞赋予某些DNA群体免疫性。
[0914] 图39描绘CRISPR干扰(CRISPRi)系统的设计。(A)最小干扰系统由单一蛋白和设计的sgRNA嵌合体组成。sgRNA嵌合体由三个结构域(画框区)组成:用于特异性DNA结合的20个核苷酸(nt)互补区、用于Cas9结合(Cas9柄)的42nt发夹以及来源于酿脓链球菌的40nt转录终止子。野生型Cas9蛋白含有核酸酶活性。dCas9蛋白缺乏核酸酶活性。(B)野生型Cas9蛋白结合sgRNA并且形成蛋白质-RNA复合物。复合物通过sgRNA与DNA靶标之间的沃森-克里克碱基配对来结合特异性DNA靶标。在野生型Cas9的情况下,DNA将由于Cas9蛋白的核酸酶活性而裂解。在核酸酶缺乏Cas9的情况下,复合物破坏适当的转录。
[0915] 最小CRISPRi系统由单一蛋白质和RNA组成并且可有效地使转录起始和延长沉默[0916] 为了在大肠杆菌中实施此种CRISPRi平台,野生型酿脓链球菌Cas9基因和sgRNA从细菌载体中表达以确定系统是否可扰乱靶基因座处的基因表达(图40A)。酿脓链球菌CRISPR系统与天然大肠杆菌系统正交。Cas9蛋白在含有p15A复制起点的质粒上从无水四环素(aTc)-诱导型启动子中表达,并且sgRNA在含有ColE1复制起点的质粒上从最小组成型启动子中表达。作为替代策略,使用缺乏DNA裂解的催化死亡的Cas9突变体(dCas9)并且显示Cas9的此形式用作简单的RNA引导的DNA结合复合物。
[0917] 图40展示CRISPRi有效地使转录延长和起始沉默。(A)CRISPRi系统由可诱导Cas9蛋白和设计的sgRNA嵌合体组成。dCas9含有RuvC1和HNH核酸酶结构域的突变。如在图1中所述,sgRNA嵌合体含有三个功能结构域。(B)设计的sgRNA(NT1)和DNA靶标的序列。NT1靶向mRFP编码区的非模板DNA链。仅示出在碱基配对基序(20nt)周围的区域。对碱基配对核苷酸编码并且以上划线示出dCas9结合发夹。以下划线示出PAM序列。(C)CRISPRi以链特异性方式阻断转录延长。将含有mRFP编码基因的基于合成荧光的报道蛋白系统插入到大肠杆菌MG1655基因组(nsfA基因座)中。用dCas9蛋白共表达结合模板DNA链或非模板DNA链的六个sgRNA,其中通过体内荧光测定测量其对靶mRFP的作用。仅有结合非模板DNA链的sgRNA显示沉默(10至300倍)。对照显示具有dCas9蛋白但不具有sgRNA的细胞的荧光。(D)CRISPRi阻断转录起始。设计五种sgRNA来结合大肠杆菌启动子(J23119)周围的不同区。将转录起始位点标记为+1。虚线椭圆形显示覆盖-55至+20的75bp区的起始RNAP复合物。仅有初始RNAP复合物内部的sgRNA靶向区显示阻抑(P1-P4)。不像转录延长阻断,沉默不依赖靶向的DNA链。(E)CRISPRi调节为可逆的。dCas9和sgRNA(NT1)处于aTc-诱导型启动子控制之下。在指数期过程中维持细胞培养物。在时间T=0下,向具有OD=0.001的细胞补充1μM的aTc。在10min内靶mRFP的阻抑开始。荧光信号以与细胞生长一致的方式衰减,表明衰减是由于细胞分裂。在240min里,荧光达到完全阻抑的水平。在T=370min时,将aTc从生长培养基中洗涤掉,并且稀释细胞回到OD=0.001。在50min之后荧光开始增加,并且花费约300min上升至与阳性对照相同的水平。阳性对照:通常不具有诱导物;阴性对照:通常具有1μM aTc诱导物。2C、2D和
2E中的荧光结果表示至少三次生物重复实验的平均值和SEM。还参见图47和图48。
[0918] 与Cas9共表达的sgRNA分子各自均由三个区段组成:20个核苷酸(nt)靶特异性互补区、42nt Cas9结合发夹(Cas9柄)以及源自酿脓链球菌的40nt转录终止子(图40B)。基于红色荧光蛋白(mRFP)的报道蛋白系统将它插入到大肠杆菌MG1655基因组中。
[0919] 野生型Cas9蛋白和靶向mRFP编码序列的sgRNA(NT1)的共表达显著减小转化效率,可能由于基因组上Cas9诱导的双链断裂(图47A)。少量存活集落的测序显示它们所有均在基因组上的靶mRFP位点周围具有序列重排,表明针对野生型Cas9和靶向宿主序列的sgRNA的表达存在强烈选择。含有RuvC1和HNH核酸酶结构域的两个沉默突变(D10A和H841A)的dCas9突变基因(非裂解)减轻了这种致死性,如通过转化效率和大肠杆菌生长速率所验证(图47A&B)。
[0920] 图47与图40相关并且示出与dCas9和sgRNA共同转化的大肠杆菌细胞培养物的生长曲线。(A)用两种质粒转化大肠杆菌细胞的转化效率。一种质粒含有靶向mRFP的基因组拷贝的sgRNA并且另一种质粒含有野生型Cas9或dCas9。野生型Cas9和sgRNA的共同转化为高度毒性的,这可使用dCas9来减轻。(B)设计sgRNA(NT1)来靶向mRFP的编码序列。dCas9和sgRNA的共表达表现出对细胞生长速率几乎没有作用,表明dCas9-sgRNA与DNA相互作用足够强以阻断RNA聚合酶但非DNA聚合酶或细胞复制。结果表示至少三次独立实验的平均值和SEM。
[0921] 为了测试dCas9:sgRNA复合物是否可产生基因表达的高度有效阻抑,设计了结合模板DNA链或非模板DNA链,与mRFP编码序列的不同区互补的sgRNA。结果表明靶向非模板DNA链的sgRNA展示出有效的基因沉默(10至300倍阻抑),而靶向模板链的sgRNA显示很小的作用(图40C)。系统表现出对于大肠杆菌基因组内或高拷贝质粒上的基因类似的阻抑作用(图48)。此外,靶向启动子区还引起有效的基因沉默(图40D)。将sgRNA靶向-35框明显敲除基因表达(P1,大约100倍阻抑),而靶向其它相邻区显示减弱的作用(P2-P4)。在启动子上游约100bp的靶向序列显示没有作用(P5)。不像靶向编码序列,当靶向启动子时,沉默效率不依赖DNA链;靶向模板或非模板链是同等有效的(P2和P3)。
[0922] 图48与图40C相关并且示出CRISPRi可使多拷贝质粒上的报道基因的表达沉默。将mRFP基因克隆到p15A质粒上。dCas9和mRFP特异性sgRNA(NT1)的存在强烈阻抑mRFP(大约300倍)。阻抑作用类似于在基因组中使用mRFP所观察到的阻抑作用(图40C)。沉默仅当sgRNA在非模板DNA链但非模板DNA链上作用时为有效的(T1)。因此,沉默为高度特异性的,如GFP特异性3sgRNA(gfp)显示对mRFP表达没有作用。荧光结果表示至少三次生物重复实验的平均值和SEM。
[0923] CRISPRi基因敲低为可诱导和可逆的
[0924] 不像基因敲除方法,使用基于CRISPRi的基因表达敲低的一个优点为此扰乱应该为可逆的事实。为了测试CRISPRi调节是否可诱导并且随后逆转,将dCas9和mRFP特异性sgRNA(NT1)置于aTc诱导型启动子的控制之下,并且进行响应于诱导物的mRFP的CRISPRi介导的调节的时程测量(图40E)。在时间为零时,用1μM的aTc补充在不具有诱导物情况下生长至指数早期的细胞培养物。数据表明系统可快速响应于诱导物的存在–在添加诱导物分子的10min内荧光报道蛋白信号开始减小。因为mRFP蛋白为稳定的,所以荧光信号减小的速率由于细胞生长受蛋白质稀释限制,如通过类似的细胞倍增时间和荧光半衰期损失(均为大约36min)所见。在240min时,所有细胞均统一地阻抑至与阴性对照相同的水平。在420min时,将诱导物从生长培养基中洗涤掉并且稀释细胞回到较低的OD。在延迟50min之后,mRFP荧光开始增加。总共花费300min使单细胞荧光增加至与阳性对照相同的水平。50min延迟最可能通过dCas9/sgRNA转换率偏移通过稀释通过细胞生长和分裂来确定。总之,这些结果展示dCas9-sgRNA的沉默作用可被诱导和逆转。
[0925] 天然延长转录物测序(NET-Seq)证实了通过阻断转录进行的CRISPRi功能
[0926] dCas9看起来似乎用作可在转录延长过程中阻断RNA聚合酶(RNAP)结合的RNA引导的DNA结合复合物。因为非模板DNA链共有与转录的mRNA相同的序列同一性并且仅有结合非模板DNA链的sgRNA表现出沉默,所以仍存在dCas9:sgRNA复合物与mRNA相互作用并改变其转录或稳定性的可能性。为了区别这些可能性,向大肠杆菌使用最近描述的天然延长转录物测序(NET-seq)方法,其可用来整体体现延长RNA聚合酶的位置特征并且监测dCas9:sgRNA复合物对转录的作用。在此NET-seq方法中,将CRISPRi系统转化到含有FLAG标记的RNAP的大肠杆菌MG1655来源的菌株中。CRISPRi含有结合mRFP编码区的sgRNA(NT1)。标记的RNAP的体外免疫纯化接着与延长RNAP相关的新生转录物的测序允许区别RNAP的暂停位点。
[0927] 这些实验展示sgRNA诱导在sgRNA靶基因座的上游暂停的强烈转录(图41A)。暂停位点与靶位点之间的距离为19bp,其与先前报道的RNAP和其前缘的核苷酸并入之间的大约18bp距离完全一致。此发现与CRISPRi的机制一致,其中转录阻断是由于延长RNAP与dCas9:
sgRNA复合物之间的物理碰撞(图41B)。dCas9:sgRNA复合物与模板链的结合具有很小的阻抑性作用,表明RNAP能够以此具体取向通过复合物读取。在此情况下,sgRNA面向RNAP,其可通过RNAP的解旋酶活性拉开。这些实验已展示CRISPRi利用RNA来直接阻断转录。此机制与RNAi的机制不同,对于所述RNAi,基因表达敲低需要在其翻译之前破坏已经转录的信使RNA。
[0928] 图41展示CRISPRi通过阻断转录延长来起作用。(A)免疫沉淀FLAG标记的RNAP分子并且测序相关的新生mRNA转录物。上图示出不具有sgRNA的细胞中的新生mRFP转录物的测序结果,并且下图示出具有sgRNA的细胞中的结果。在sgRNA存在下,在靶位点上游19bp观察到强烈的转录暂停,在此之后测序读取数急剧下降。(B)基于RNAP与dCas9-sgRNA之间的物理碰撞所提出的CRISPRi机制。RNAP的中心离其前缘的距离为大约19bp,这与我们测量的转录暂停位点与sgRNA碱基配对区的3’端之间的距离十分匹配。暂停的RNAP在遇到dCas9-sgRNA障碍时中断转录延长。
[0929] CRISPRi sgRNA引导的基因沉默为高度特异性的
[0930] 为了评价CRISPRi在全基因组规模上的特异性,进行具有和不具有sgRNA共表达的dCas9转化细胞的整个转录组鸟枪法测序(RNA-seq)(图42A)。在存在靶向mRFP(NT1)的sgRNA情况下,mRFP转录物为仅有的表现出丰度减小的基因。没有其它基因显示测序误差内的在添加sgRNA时的明显表达变化。我们还在具有靶向不同基因的不同sgRNA的细胞上进行了RNA-seq。这些实验中没有一个显示明显的基因变化,除了靶向的基因以外(图49)。因此,sgRNA引导的基因靶向和调节为高度特异性的并且不具有明显的脱靶效应。
[0931] 图42展示CRISPRi系统的靶向特异性。(A)基因组规模mRNA测序(RNA-seq)证实了CRISPRi靶向不具有脱靶效应。使用了结合mRFP编码区的sgRNA NT1。突出显示dCas9、mRFP和sfGFP基因。(B)多sgRNA可独立地使相同细胞中的两个荧光蛋白报道蛋白沉默。每个sgRNA均特异性地阻抑其同源基因而非其它基因。当两个sgRNA存在时,沉默两个基因。误差棒表示来自至少三个生物重复实验的SEM。(C)用于使用两个sgRNA控制两个荧光蛋白的显微图像。上图示出大肠杆菌细胞的明视野图像,中间的图示出RFP通道,并且下图示出GFP小组。一个sgRNA和dCas9的共表达仅使同源荧光蛋白而非其它荧光蛋白沉默。敲低作用为强烈的,因为从具有沉默的某些荧光蛋白的细胞中几乎没有观察到荧光。比例尺,10μm。对照显示不具有任何荧光蛋白报道蛋白的细胞。荧光结果表示至少三次生物重复实验的平均值和SEM。还参见图49。
[0932] 图49与图42A相关并且描绘具有靶向不同基因的sgRNA的细胞的RNA-seq数据。(A)靶向大肠杆菌中的内源lacI基因的启动子的(+/-)sgRNA。使用与在图44A中相同的lacI靶向sgRNA。(B)用于不具有自动抑制的sgRNA(sgRNA阻抑其自身启动子)的细胞的(+/-)1mM IPTG。(C)靶向大肠杆菌中的内源lacZ基因的(+/-)sgRNA。使用与在图44A中相同的靶向lacZ的sgRNA。还向具有靶向lacZ的sgRNA的细胞补充1mM IPTG。
[0933] CRISPRi可用来同时调节多个基因
[0934] CRISPRi系统可允许在没有串扰情况下独立控制多个基因。设想了基于mRFP和sfGFP的双色荧光报道蛋白系统。设计了与每个基因具有相异互补区的两个sgRNA。每个sgRNA的表达仅使同源基因沉默并且对其它没有作用。两个sgRNA的共表达敲低两个基因(图42B&图42C)。这些结果表明sgRNA引导的靶向为特异性的,其中特异性通过其序列同一性决定,并且不受其它sgRNA的存在影响。此行为应该能实现通过CRISPRi进行的同时多重控制多个基因。
[0935] 决定CRISPRi沉默效率的因子
[0936] 为了发现CRISPRi靶向效率的决定子,研究了长度、序列互补性和位置对沉默效率的作用(图43A)。如在图40C中所表明,sgRNA靶序列沿着基因的位置对于效率而言是重要的。sgRNA被进一步设计以覆盖mRFP和sfGFP的全长编码区(sgRNA序列的补充数据)。在所有情况下,阻抑与离转录起始位点的靶距离负相关(图43B)。针对mRFP观察到强线性相关。当sfGFP用作靶标时观察到类似但稍微较弱的相关,也许表明此基因延长中的不同点过程中RNA聚合酶的不同动力学。
[0937] sgRNA含有与靶标互补的20bp区。为了鉴定此碱基配对区的重要性,改变sgRNA NT1的长度(图43C)。虽然从5’端的区域延长不影响沉默,但是截短区域严重减小阻抑。基因沉默所需要的碱基配对区的最小长度为12bp,其中进一步截短导致功能完全丧失。将单一突变引入到sgRNA NT1的碱基配对区中并且测试对沉默的总体作用。从结果中可分辨三个子区域,各自均具有对总体结合和沉默的相异贡献(图43D)。前7个核苷酸的任何单一突变急剧减小阻抑,表明此序列组成用于结合的“种子区”,如先前对于I型和II型CRISPR系统所述。还成对突变相邻核苷酸(图43E和图50)。在大多数情况下,由于双重突变产生的相对阻抑活性相对于单一突变体的作用为倍增的,从而表明错配之间的独立关系。此外,与PAM序列重要性方面的先前结果一致,不正确的PAM使沉默完全消失,甚至具有20bp完全结合区(图43E)。因此,通过PAM(2-bp)和至少12bp sgRNA-DNA段来共同确定CRISPRi系统的特异性,所述段的空间足够大以涵盖针对独特靶位点的大多数细菌基因组。
[0938] 测试了均靶向相同基因的两个sgRNA(图43F和图51)。取决于多个sgRNA的相对位置,观察到相异组合作用。组合两个sgRNA(各自均具有约300倍阻抑)允许总体沉默增加高达至成千倍。组合两个较弱sgRNA(大约5倍)显示当一起使用时具有倍增作用。当使用其靶标重叠的两个sgRNA时观察到抑制的组合作用。这可能由于这两个sgRNA竞争结合相同区。
[0939] 图43描绘影响沉默效率的因子的表征。(A)测量在相同基因上具有不同靶向基因组的sgRNA(远离翻译起始密码子)和具有不同长度的与相同靶基因座碱基配对区的sgRNA(基于NT1)的沉默作用。(B)沉默效率与离翻译起始密码子的靶距离负相关(橙色-mRFP&绿色-sfGFP)。通过使每个sgRNA的阻抑归一化为具有最高阻抑倍变化的sgRNA的阻抑来计算相关阻抑活性。误差棒表示三次生物重复实验的SEM。(C)sgRNA与靶DNA之间的沃森-克里克碱基配对区的长度影响阻抑效率。碱基配对区的延长所有均表现出强烈的沉默作用,并且截短使阻抑急剧减小。用于可检测阻抑的碱基配对区的最小长度为12bp。误差棒表示三次生物重复实验的SEM。(D)将单一错配引入到sgRNA上的每个核苷酸(NT1,图40B)中,测量这些单一错配如何影响阻抑效率。可分辨对总体沉默具有相异重要性的三个子区域。它们显示阶段功能。前7个核苷酸区对于沉默是关键的,并且可能组成用于探测结合DNA靶标的sgRNA的“种子”区。PAM序列(NGG)为沉默不可或缺的。误差棒表示三次生物重复实验的SEM。(E)具有相邻双重错配的sgRNA的沉默作用。用标记在下方的错配位置显示单一错配的sgRNA的相对阻抑活性。显示双重错配sgRNA的实验测量的活性。用白色和用“Com”标记来显示通过倍增两个单一错配的sgRNA的作用来计算的活性。在大多数情况下,双重错配的sgRNA的沉默活性为单一错配的sgRNA的活性的简单倍增(除了图50B以外),表明单一错配之间的独立关系。误差棒表示三次生物重复实验的SEM。(F)使用二元sgRNA来靶向单一mRFP基因的组合沉默作用。使用靶向相同基因的两个sgRNA,总敲低作用可改进至几乎1,000倍。
当两个sgRNA结合相同基因的非重叠序列时,阻抑扩大。当两个sgRNA靶向重叠区时,阻抑抑制。误差棒表示三次生物重复实验的SEM。
[0940] 图50与图43E相关并且描绘具有相邻双重错配的sgRNA的沉默作用。用标记在下方的错配位置显示单一错配的sgRNA的相对阻抑活性。还显示双重错配sgRNA的实验测量的活性。用白色和用“Com”标记来显示通过倍增两个单一错配的sgRNA的作用来计算的活性。荧光结果表示三次生物重复实验的平均值和SEM。
[0941] 图51与图43F相关并且描绘使用两个sgRNA来调节单一基因的组合沉默作用。在所有情况下,非重叠sgRNA显示扩大的沉默作用,并且重叠的sgRNA显示抑制的作用。组合作用不依赖sgRNA是否靶向模板或非模板DNA链。荧光结果表示三次生物重复实验的平均值和SEM。
[0942] 使用CRISPRi基因敲低询问内源调节网络
[0943] 接下来CRISPRi系统用作基因敲低平台来询问内源基因网络。先前询问微生物基因网络的方法大多数依赖于实验室和昂贵的基因组工程化和敲除工序。相比之下,用CRISPRi的基因敲低仅需要设计和合成带有希望基因的20bp互补区的小sgRNA。为了确定这个观点,CRISPRi用来通过设计sgRNA产生大肠杆菌敲低菌株来系统扰乱作为良好表征的大肠杆菌乳糖调节途径的一部分的基因(图44A)。在具有和不具有异丙基β-D-1-硫代吡喃半乳糖苷(IPTG)(抑制lac阻抑物的化学物质(LacI))情况下进行β-半乳糖苷酶测定以测量来自敲低菌株的LacZ表达。在野生型细胞中,添加IPTG诱导LacZ表达。结果显示lacZ特异性的sgRNA可强烈阻抑LacZ表达(图44B)。相反,靶向lacI基因的sgRNA引起LacZ表达激活,甚至在没有IPTG存在下,如将使LacZ表达的直接阻抑物沉默所预期的。
[0944] 已知cAMP-CRP为通过结合启动子上游的顺式调节位点(A位点)进行的LacZ表达的重要激活物。一致地,靶向crp基因或LacZ启动子中的A位点的sgRNA引起阻抑,从而展示使用CRISPRi实验将调节物连接至其顺式调节序列的方法。靶向腺苷酸环化酶基因(cya)仅引起部分阻抑,所述靶向为产生使CRP在LacZ启动子上更有效的cAMP必不可少的。向生长培养基中添加1mM cAMP互补了cya敲低但非crp敲低的作用,表明cya为LacZ的间接调节物。此外,用sgRNA靶向LacI顺式调节位点(O位点)引起抑制,推测因为在此位点上的Cas9复合物结合空间上阻断RNA聚合酶,从而模拟LacI转录阻抑物的行为。靶向已知RNAP结合位点(P位点)也阻断表达。总之,这些研究展示基于CRISPRi的基因敲低方法为询问复合物调节网络中的基因和顺式元件的调节功能(激活或阻抑)提供快速有效的方法(图44C)。
[0945] 图44展示使用CRISPRi基因敲低的复合物调节网络的功能特征。(A)设计sgRNA并且用来敲低lac调节途径中的基因(cya、crp、lacI、lacZ、lacY、lacA)或阻断转录操纵子位点(A/P/O)。LacI为通过结合转录操纵子位点(O位点)引起的lacZYA操作子的阻抑物。lacZ基因编码将乳糖催化成葡萄糖的酶。少量反式作用宿主基因如cya和crp涉及lacZYA系统的激活。cAMP-CRP复合物结合转录操纵子位点(A位点)并且募集结合P位点的RNA聚合酶,其使lacZYA的转录开始。IPTG(抑制LacI功能的化学物质)诱导LacZ表达。(B)不具有(白色)和具有(灰色)IPTG的敲低菌株的β-半乳糖苷酶测定。对照示出不具有CRISPRi扰乱的野生型细胞可通过添加IPTG来诱导。靶向LacZ的sgRNA强烈阻抑LacZ表达,甚至在IPTG存在情况下。当靶向LacI时,LacZ表达为高的,甚至在不具有IPTG情况下。在IPTG存在情况下,靶向cya和crp基因引起LacZ表达水平减小。1mM cAMP的存在拯救了cya敲低但非crp敲低。阻断转录操纵子位点产生LacZ阻抑,表明这些转录操纵子位点为LacZ的重要顺式作用调节位点。在扰乱时,指示LacZ的表达减小(向下箭头)和增加(向上箭头)。误差棒表示三次生物重复实验的SEM。(C)敲低实验允许我们在lac调节回路中突出调节物的作用特征。在2-D图片上示出数据,其中x轴示出不具有IPTG的LacZ活性并且y轴示出其具有IPTG的活性。沿着每个轴的椭圆形分散示出标准偏差。β-半乳糖苷酶测定结果表示三次生物重复实验的平均值和SEM。
对于LacI和LacZ靶向的RNA-seq数据,还参见图49。
[0946] CRISPRi可敲低人细胞中的靶向的基因表达
[0947] 为了测试CRISPRi方法用于使用dCas9-sgRNA复合物阻抑转录的普遍性,在HEK293哺乳动物细胞中测试系统。dCas9蛋白被密码子优化、融合至核定位序列(NLS)的三个拷贝,并且从鼠干细胞病毒(MSCV)逆转录病毒载体中表达。在图40B中示出的相同sgRNA设计用来从RNA聚合酶III U6启动子中表达。在SV40启动子下表达EGFP的报道蛋白HEK293细胞系通过病毒感染产生。使用靶向EGFP编码区的非模板DNA链的sgRNA(eNT2),观察到基因表达的中等但可再现的敲低(46%阻抑,图45A)。阻抑取决于dCas9蛋白和sgRNA,从而暗示阻抑由于dCas9-sgRNA复合物和RNA引导的靶向引起。当从质粒瞬时表达时,相同sgRNA在相同基因上表现出更好的阻抑(63%阻抑,图52)。与细菌系统一致,仅有靶向非模板链的sgRNA表现出阻抑。如离转录起始的距离和局部染色质状态等因素可为决定阻抑效率的关键参数(图52)。dCas9和sgRNA表达、稳定性、核定位以及相互作用的优化将允许进一步改进哺乳动物细胞中的CRISPRi效率。
[0948] 图45展示CRISPRi可阻抑人细胞中的基因表达。(A)HEK293细胞中的CRISPRi系统。经过逆转录病毒感染将SV40-EGFP表达盒插入到基因组中。dCas9蛋白被密码子优化并且与NLS序列的三个拷贝融合。从RNA聚合酶III U6载体表达sgRNA。靶向EGFP的非模板链的dCas9和sgRNA(eNT2)的共转染使荧光减小(大约46%),而单独dCas9或sgRNA的表达显示没有作用。(B)dCas9:sgRNA介导的阻抑取决于靶基因座。设计七种sgRNA来靶向模板或非模板链上的EGFP编码序列的不同区。仅有eNT2和eNT5显示中等阻抑。来自7A和7B的荧光结果表示两次生物重复实验的平均值和误差。
[0949] 图52与图45相关并且示出sgRNA阻抑取决于靶基因座和离转录起始的相对距离。相同sgRNA用来阻抑具有不同启动子的相同EGFP基因。Cas9/sgRNA复合物阻抑从瞬时转染的质粒DNA的转录。转录阻抑的水平稍微优于(63%)针对基因组基因所观察到的转录阻抑水平,并且GFP阴性细胞的百分比在sgRNA存在情况下有所增加。靶基因座具有离转录起始不同的距离。虽然SV40-EGFP显示阻抑,但是LTR-EGFP不具有作用。荧光结果表示两次生物重复实验的平均值和误差。
[0950] CRISPRi有效地和选择性地阻抑靶基因的转录
[0951] CRISPRi系统为用于靶向的基因调节的相对简单的平台。CRISPRi不依赖于复杂宿主因素的存在,但替代地仅需要dCas9蛋白和引导RNA,并且因此为柔性的和高度可设计的。系统可有效地使细菌中的基因沉默。沉默为非常有效的,因为没有检测到脱靶效应。此外,敲低的效率可通过改变靶基因座和sgRNA与靶基因之间的碱基配对程度来调节。这将使产生等位基因系列的亚等位基因成为可能--尤其有用于主要基因研究的特征。系统以可通过设计sgRNA来简单编程的方式、通过直接阻断转录起作用。在机理上,这不同于基于RNAi的沉默,所述基于RNAi的沉默需要破坏已经转录的mRNA。
[0952] 另外,这些dCas9:sgRNA复合物还可通过靶向任何启动子内的关键顺式作用基序、空间上阻断其同源反式作用的转录因子的缔合来调节转录。因此,除了其用作基因敲除工具之外,CRISPRi可用于启动子和其它基因组调节模块的功能绘图。
[0953] CRISPRi可适用于基因组规模分析和调节
[0954] CRISPRi方法基于靶向DNA的RNA的使用,并且仅有DNA靶向区段需要设计用于特异性基因靶标。随着大规模DNA寡核苷酸合成技术的进步,产生大量含有用于基因组靶向的独特20bp区的寡核苷酸为快速廉价的。这些寡核苷酸文库可允许我们靶向大量的单独基因以表示基因功能或靶向基因对以绘图遗传相互作用。此外,CRISPRi可用来同时调节大量基因的表达,因为小尺寸的sgRNA允许一个sgRNA将多个元件连接到相同表达载体中。
[0955] CRISPRi为操纵微生物基因组提供新工具
[0956] 因为CRISPRi平台为紧凑和自含式的,所以它可适用于不同生物。CRISPRi为用于研究非模型生物的有力工具,针对所述非模型生物遗传工程化方法没有良好开发,所述非模型生物包括病原体或工业上有用的生物。不像大多数真核生物,大多数细菌缺乏RNAi机器。因此,目前使用设计的合成RNA进行的内源基因的调节受到限制。CRISPRi可提供用于在微生物中基因扰乱的RNAi样方法。
[0957] 作为用于工程化转录调节网络的平台的CRISPRi
[0958] CRISPRi可用作用于工程化转录调节网络的柔性框架。CRISPRi平台因为其基本上为RNA引导的DNA结合复合物,还提供用于将各种各样调节机器指导至基因组中的特异性位点的柔性框架。除了简单阻断靶基因的转录之外,可能使dCas9蛋白与众多调节结构域偶联以调节不同生物过程并且产生不同功能结果(例如,转录激活、染色质修饰)。
[0959] 在CRISPRi系统中,可能将多个sgRNA连接到转录回路中,其中一个上游sgRNA控制不同下游sgRNA的表达。因为微生物中的RNA分子趋向于短暂的,我们怀疑通过sgRNA调节的遗传程序可显示不同于涉及慢过程如蛋白质表达和降解的回路的快速动力学。总之,CRISPRi系统为适用于各种生物医学研究和临床应用的通用遗传编程平台,所述应用包括基因组规模功能特征、微生物代谢工程化以及细胞重新编程。
[0960] 实施例5:嵌合定点多肽可用来调节(激活或阻抑)人细胞中的转录。
[0961] 我们已展示在人细胞中,包含催化失活Cas9和激活物结构域或阻抑物结构域的融合蛋白可分别增加或减少来自靶DNA的转录。
[0962] 图55我们使人源化催化失活的Cas9与转录激活物结构域VP64融合。(A)为了测试使用此系统的基因激活的效率,我们将控制GFP的GAL4UAS诱导型启动子插入到HEK293(人组织培养细胞)基因组中。(B)GAL4UAS启动子可在酵母来源的蛋白质GAL4存在下诱导。在结合GAL4UAS区的同源导向RNA存在下,dCas9-VP64融合可有效地使GAL4UAS激活20倍。(C)针对dCas9-VP64激活的显微图像。(D)针对dCas9-VP64激活的流式细胞计量术数据。
[0963] 图56我们使人源化催化失活的Cas9与转录阻抑物结构域KRAB融合。(上方)我们设计了10种靶向良好表征的启动子SV40早期启动子的导向RNA和靶向EGFP编码区的一种导向RNA。(下方)使用非嵌合dCas9,我们观察到P9和NT2的gRNA有2至3倍阻抑。使用dCas9-KRAB融合极大地改进了此效率。例如,使用dCas9-KRAB融合,P9和NT2分别显示20倍和15倍阻抑。另外,当使用融合蛋白时P1-P6显示表达明显减少,但当使用非嵌合dCas9时为受限制的阻抑。
[0964] 实施例6:Cas9可使用人工导向RNA(非天然存在)进行靶DNA裂解
[0965] 基于酿脓链球菌crRNA和tracrRNA的天然存在的转录物的蛋白质结合区段、修饰以模拟天然酿脓链球菌crRNA:tracrRNA双链体内的不对称凸出来设计人工crRNA和人工tracrRNA(参见描绘于图57A中的人工(上方)和天然(下方)RNA分子的蛋白质结合结构域中的凸出)。人工tracrRNA序列与天然tracrRNA共有小于50%的同一性。crRNA:tracrRNA蛋白质结合双链体的预测二级结构对于两个RNA对而言相同,但RNA剩余部分的预测结构有很大不同。
[0966] 图57展示与天然存在的tracrRNA和crRNA共有非常少(粗略地50%同一性)的人工序列可与Cas9起作用以裂解靶DNA,只要靶向DNA的RNA的蛋白质结合结构域的结构为保守的。(A)酿脓链球菌tracrRNA和crRNA与人工tracrRNA和crRNA共折叠。(B)酿脓链球菌Cas9和tracrRNA:crRNA直向同源物的组合用来进行质粒DNA裂解测定。Spy–酿脓链球菌,Lin-无害李斯特氏菌,Nme–脑膜炎奈瑟氏菌,Pmu–多杀巴氏杆菌。酿脓链球菌Cas9可通过一些,但并非所有天然存在于选择的细菌种类中的tracrRNA:crRNA直向同源物来引导。明显地,酿脓链球菌Cas9可通过人工tracrRNA:crRNA对引导,所述tracrRNA:crRNA对基于天然存在的靶向DNA的RNA的蛋白质结合区段的结构,使用与CRISPR系统完全不相关的序列来设计。
[0967] 所 使 用 的 人 工“ t r a c r R N A ”( 激 活 物 R N A ) 为 5 ’-GUUUUCCCUUUUCAAAGAAAUCUCCUGGGCACCUAUCUUCUUAGGUGCCCUCCCUUGUUUAAACCUGACCAGUUAACCGGCUGGUUAGGUUUUU-3’(SEQ ID NO:1347)。所使用的人工“crRNA”(靶向物RNA)为:5’-GAGAUUUAUGAAAAGGGAAAAC-3’(SEQ ID NO:1348)。
[0968] 实施例7:非人转基因生物的产生
[0969] 使用本领域普通技术人员已知的合宜方法(例如,(i)在小鼠胚胎干细胞(ES细胞)的靶向基因座(例如,ROSA 26)上基因敲入,接着胚泡注射和产生嵌合小鼠;(ii)将随机整合的转基因注射到受精小鼠卵母细胞的原核中,接着将卵植入到假孕雌性动物中等)产生表达Cas9(未修饰的、修饰成具有减小的酶活性、修饰为用于以上所述任何目的的融合蛋白)的转基因小鼠。Cas9蛋白处于至少在胚胎干细胞中表达的启动子控制之下,并且可另外地处于时间或组织特异性控制(例如,药物可诱导的、通过基于Cre/Lox的启动子系统来控制等)之下。一旦产生一系列转基因Cas9表达小鼠,分离胚胎干细胞并且培养,并且在一些情况下冷冻ES细胞用于未来使用。因为分离的ES细胞表达Cas9(并且在一些情况下表达处于时间控制之下(例如,药物可诱导的),所以新敲出或敲入细胞(并且因此小鼠)通过引入将Cas9靶向所选择的具体基因座的适当设计的靶向DNA的RNA来在基因组中的任何希望的基因座上快速产生。这样的系统及其许多改变用来在所选择的任何基因座上产生新遗传修饰的生物。当修饰的Cas9用来调节转录和/或修饰DNA和/或修饰与DNA相关的多肽时,ES细胞自身(或源自ES细胞(例如,整体小鼠、分化细胞系等)的任何分化细胞)用来通过将适当的靶向DNA的RNA引入到希望的Cas9表达细胞中简单地研究所选择的任何基因(或所选择的任何表达产物或所选择的任何基因组基因座)的性质。
[0970] 虽然已参考其具体实施方案描述了本发明,但本领域技术人员应该理解可做出各种变化并且在不背离本发明的真实精神和范围的情况下可取代等效物。另外,可做出许多修改来使具体情况、材料、物质组成、过程、过程步骤或多个步骤适应于本发明的目的、精神和范围。所有此类修改意图为处于所附权利要求书的范围内。