基因编辑技术是当前生物技术当中极为重要的一环, 大量成果依托基因编辑技术得以实现. 要实现对DNA的编辑, 就需要使用具有特异性识别功能的核酸内切酶对特定序列进行识别切割. 基因编辑技术诞生之初, 人们使用的是一些天然的核酶, 而现在, 人们更倾向于使用一些基于特定目标设计的核酸内切酶(engineered endonuclease), 这被称作EEN技术. 这项技术目前有三类实现方式: 锌指核酶(Zinc-finger nuclease, 简称ZFN)、类转录激活因子效应物核酶(transcription activator-like effector nuclease, 简称TALEN)和当前最为热门的CRISPR-Cas技术.
011. CRISPR-Cas发现历史
正如人类在长久的进化过程中形成了强大的免疫系统一样, 细菌和古菌这样的原核生物也形成了针对外源侵入的DNA的一种, 这种机制是通过细菌(古菌)体内存在的一些成簇存在的具有规律间隔的短重复序列(clustered regularly interspaced short palindromic repeats, 简称CRISPR)以及与这些序列相关的一些蛋白质和核酸构成的CRISPR相关(CRISPR-associated, 简称Cas)系统予以实现的.
1987年, 日本科学家Atsuo Nakata和他的同事Yoshizumi Ishino等人在研究大肠杆菌的
当时他们只是注意到了这一点, 并没有对其进行深入的研究. Mojica在对古菌的研究中也发现了这个现象, 他感觉此现象有着更为深刻的意义, 他的团队经过十多年的研究, 发现这种现象出现在20多种细菌或古菌当中, 是一种普遍存在的现象, 他们将其称作规律间隔重复短序列(short regularly spaced repeats, SRSRs). 并对前人对SRSRs和自己所做研究进行了总结:
紧随其后, Jansen等于2002年发现SRSR只在细菌和古菌当中出现, 在真核生物和病毒当中都没有发现, 他们将具有这种特征的基因座族称作SPIDR(spacers interspersed direct repeats). 考虑到这类现象普遍发生, 而不同的研究人员对不同对象中发现的这类现象给出不同的名称, 为了规范起见, Jansen和Mojica等约定使用CRISPR这个说法来取代之前产生的诸如SRR, SRSR还有SPIDR等说法. 不仅如此, 通过对既往研究的总结, Jansen等人发现CRISPR基因座中存在一些与之相关的基因, 它们被命名为cas基因:
2005年, 持续进行CRISPR研究的发现间隔序列(spacer)不是细菌/古菌天生就有的, 而是来自于质粒或者病毒, 并且存在与间隔序列相同基因序列的质粒或者病毒无法感染具有该间隔序列的细菌/古菌. 同年的也注意到了同样的现象, 因此人们猜测CRISPR其实是一种原核生物的获得性免疫机制, 这被称作CRISPR的免疫假说. 同年八月, 在研究嗜热链球菌的CRISPR时也认为CRISPR的间隔区反映了过去发生的噬菌体和质粒感染, 是一种免疫机制, 可惜他们对该机制的推测是错误的.
受到Mojica免疫假说的启发, 时任酸奶公司研究人员的Rodolphe Barragou及其团队试图用该机制解决嗜热链球菌受噬菌体感染大量死亡的问题. 他们发现在嗜热链球菌的CRISPR阵列(CRISPR-array)中去除或者添加间隔序列会导致不同的噬菌体抵抗性, 从而证明了CRISPR确实是原核生物的一种免疫机制. 这个研究发表在上, 他们发现对于嗜热链球菌而言, Cas蛋白控制了间隔序列的获取与整合, 而间隔序列可以特异性靶向识别再次侵染的噬菌体基因组. 因此他们猜想Cas蛋白在CRISPR实现的免疫过程中起着重要作用, 但是具体什么作用他们没有给出.
自从Barragou等人发现CRISPR的生物学功能以来, 大量研究团队投入到对CRISPR实现的细菌获得性免疫机制的细节的研究上来. 2008年, 在Science上发表了他们在研究大肠杆菌的CRISPR系统的结论. 他们发现来自噬菌体的间隔序列被转录成他们称之为CRISPR RNA的小RNA(简称crRNA), 然后crRNA会引导Cas蛋白结合到外源侵入的病毒核酸上启动免疫反应. 但是具体这个免疫过程是怎样实现的(是结合RNA, DNA还是RNA-RNA复合体, 亦或是RNA-DNA复合体?), 他们没有进一步指出. 同年, 证明了表皮葡萄球菌的CRISPR阵列转录得到的crRNA直接靶向结合DNA, 证明该过程和真核生物中发生的RNA干扰(RNAi)有本质不同. 他们在文章的最后指出, 如果CRISPR机制可以在原生细菌/古菌之外工作的话, 将具有广阔的应用价值. 从后来者的角度看, 这是CRISPR用于基因编辑的萌芽.
2010年, 发现嗜热链球菌的CRISPR/Cas9系统是通过crRNA引导的一种精确的双链断裂(Double strand breaking, DSB)机制实现免疫的, 这种DSB发生在原间隔区附近的短序列(proto-spacer adjacent motif, PAM)的上游. 紧随其后, 于2011年发现CRISPR/Cas系统实现免疫功能除了需要成熟的crRNA参与以外, 还需要反式激活crRNA(tracrRNA)的参与, tracrRNA与crRNA前体中的重复序列是互补的. 同年, 将嗜热链球菌的CRISPR/Cas系统转移到了大肠杆菌之中, 并且该系统在大肠杆菌当中也能够实现免疫功能. 并且他们还证明了对于嗜热链球菌对应的CRISPR/Cas系统而言, cas9是实现基因干扰所需要的唯一的cas基因. 他们的研究还表明在PAM对靶向识别起着重要作用, 因为突变该序列后CRISPR/Cas系统便失去了靶向功能. 这篇文章可以说是划时代的, 因为它利用远缘重建CRISPR/Cas系统的方式有力证明了CRISPR/Cas具有基因治疗的潜力, 结合其作用特征可以猜想可以用来进行基因编辑. 事实上, 在2012年, 首次实现利用CRISPR/Cas系统在体外对DNA进行切割, CRISPR/Cas正式确认为一种基因剪刀, 并且他们对CRISPR/Cas系统实现的基因干扰的全流程进行了详细的分析论述. 这奠定了CRISPR/Cas作为基因编辑工具的理论基础, 因此2020年诺贝尔化学奖被颁发给Doudna和Charpentier这两位生物学家.
至此, CRISPR/Cas作为基因编辑的工具的理论准备以及核心要件(cas9, crRNA, tracrRNA等)皆被发现, 利用CRISPR/Cas进行基因编辑只差临门一脚. 2013年1月3日, 首次实现了利用CRISPR/Cas系统对人类基因组进行的基因编辑. 同刊中也汇报实现了同样的目标, 并且他们将tracrRNA-crRNA复合体命名为向导RNA(guide RNA, 简称gRNA). 之后不到一个月, 便给出了他们在人源细胞系上利用spCas9实现基因编辑的系统成果. 至此, CRISPR/Cas正式成为一种可以在真核生物中进行基因编辑的工具. 相较于ZFN和TALEN, CRISPR/Cas9作为基因编辑工具只需要设计对应的gRNA, 而ZFN和TALEN则需要对每个双链DNA(double strand DNA, 简称dsDNA)的靶点和非靶点设计特定的蛋白质. 因此, CRISPR/Cas因为其设计的简洁性替代ZFN和TALEN成为基因编辑的宠儿.
02CRISPR分类
在2002年Jansen团队的研究中他们发现了四个cas基因: cas1, cas2, cas3和cas4. 在后续的研究中, 人们发现了很多cas基因, 2011年, 有人建议将其分成三种类型(type), 然后细分为十个亚型:
具有cas3基因的CRISPR系统被称作I型CRISPR, 具有cas9基因的被称作II型CRISPR, 具有cas10的则被称作III型CRISPR. 不过后续的研究发现了更多的CRISPR, 在2015年, Makarova等人进一步将其总结为2类5型16亚型:
到了2020年, 这个分类得到了进一步发展, 现在CRISPR有2类6型50亚型,
截止目前, 对CRISPR/Cas的分类可以参照下图:
03CRISPR/Cas系统实现免疫的各个阶段
从上面的这幅图即可看到, 无论是第1类还是第2类的CRISPR, 其基因座中都含有至少和三个过程有关的基因. 这三个过程分别为适应(Adaptation, A), 表达(Expression, E)和干扰(Interference, I). 而在II, III, IV型CRISPR中还存在信号传输(signal transduction)或者其它辅助(ancillary)阶段. 这里我们只关心所有CRISPR都有的A-E-I三个阶段.
如下所示:
当外源质粒或者噬菌体侵入细菌/古菌之后, 这些原核生物内部的CRISPR/Cas系统便开始工作, 通过一些特定的Cas蛋白将外源DNA的一些基因片段(称作前间隔序列或者原间隔序列, proto-spacer)插入到原本CRISPR阵列当中, 这一过程被叫做适应. 如果该细菌/古菌最终存活下来, 则在下一次该外源DNA侵入的时候细菌/古菌会翻译其CRISPR阵列与相关蛋白, 这个过程称作表达. 接下来crRNA会和相关的Cas蛋白结合形成RNA-Cas蛋白复合体, 该复合体会对入侵DNA进行剪切, 阻断外源DNA的转录, 这个过程被称作干扰.
04适应阶段
正如我们在之前图中看到的那样, 在适应阶段, 无论是哪一种CRISPR/Cas系统, 都有cas1和cas2基因的身影. 他们的翻译产物, Cas1和Cas2蛋白都是酶, 前者根据的研究是一种依赖金属离子的DNA特异性核酸酶, 其金属依赖的核酶活性和序列以及甲基化模式无关, 并且Cas1和其它核酶不同, 它在
通过实验表明当Cas1和Cas2过量表达的时候, 在CRISPR阵列中会添加多段重复序列,
他们通过论证指出Cas1和Cas2在适应过程中起着重要作用. 此外, 上述实验表明这两个蛋白单独作用切割效率不高, 但是它们一同作用的时候会表现出很强的协同作用. 事实上, 在适应阶段, Cas1和Cas2会组装成为一个
05表达阶段
适应阶段完成后, 侵入者的DNA序列被插入到CRISPR阵列的重复序列之间, 变成新的间隔序列.
上述CRISPR阵列经过转录会得到重复序列和间隔序列的互补序列, 这个互补序列被称作pre-crRNA, 但是该序列存储了所有外来侵入者的信息, 因此CRISPR/Cas系统会对该序列进行剪切, 将每个重复序列-间隔序列单元分别切开, 如下图所示, 红色三角表示切割的位点, 切割位点位于重复区内. 下图b和c则分别给出了Class 2(图中展示的是Type I和Type III的模式)和Class 2(图中为Type II的模式)中对pre-crRNA的处理方式.
这里我们详细陈述一下CRISPR/Cas9为代表的Type II类CRISPR/Cas系统的表达过程. 首先, 如前所述, CRISPR阵列转录得到pre-crRNA, 但是在CRISPR/Cas9的基因座上, 在cas操作子之前还有一段序列, 这段序列会单独转录得到tracrRNA. 反式激活crRNA是
如下图所示:
tracrRNA基因转录得到的tracrRNA由茎环结构和单链结构组成, 单链结构和重复序列的一段是互补配对的, 由此也确定了重复序列上的切割位点. 然后脱氧核糖核酸核酶RNase III与Csn蛋白形成的复合体会对各个切割位点进行切割, 另外, tracrRNA的5'端毗邻的一些重复序列也会在修饰过程中被剪切掉, 最终得到一些短的成熟的crRNA. 从上图中可以看到, crRNA的5'端是和原间隔序列互补配对的间隔序列, 而它的3'端则是重复序列的一部分.
06干扰阶段
在表达阶段结束后, pre-crRNA被剪切修饰成成熟的crRNA, 每个crRNA都只含有一段和某种外源DNA的原间隔序列匹配的间隔序列. 在二次入侵的时候, 一旦crRNA上的间隔序列和外源入侵DNA上的原间隔序列产生了匹配(crRNA介导的DNA识别), 则会激活单个的Cas蛋白(Class 2, 比如Cas9)或者Cas复合物(Class 1, 比如Cascade)对外源DNA进行基因干扰, 使外源DNA发生裂解.
对于CRISPR/Cas9系统, 只要根据需要设计crRNA, 然后将其和tracrRNA拼装起来得到sgRNA, 即可使用sgRNA去介导Cas9蛋白实现与crRNA间隔区互补的DNA序列. 在sgRNA中, crRNA用以和目标序列进行匹配, 而tracrRNA则用于招募Cas9蛋白.
07Cas9酶
Cas9酶是一大类Cas9基因翻译的产物, 不同的细菌/古菌给出不同的Cas9蛋白. 如下图所示:
无论是哪种Cas9蛋白, 我们都可以看到它有两个结构域, 这两个结构域一个是类HNH的, 它的作用是切断与gRNA配对的ssDNA(目标链), 而另一个结构域是类RuvC的, 它切割目标链的互补链, 如下所示:
RuvC和HNH结构域都会在PAM序列上游\mathrm{3\,nt}处进行切割. 在前面的图中我们还看到Cas9有两个叶(lobe), 他们分别是\alpha螺旋构成的识别叶(REC叶)和包含了两个核酶结构域(HNH, RuvC)的核酶叶(NUC叶).
上图是化脓链球菌Cas9(SpyCas9)的结构, 图中用紫色标注出来一段富精氨酸的双螺旋, 它将Cas9的两叶连接在了一起. 这里REC叶由三个
08Cas9-sgRNA复合物
Cas9要想识别并切割DNA必须得到gRNA(天然的或者人工合成的)的介导, 也就是说必须得和gRNA结合成为Cas9-gRNA复合物才能实现其功能. Type II的crRNA的间隔序列通常长度为20 nt, 其中3'端靠近PAM序列的10-12 nt的核苷酸被称作种子区(如下图b所示), 种子区的匹配与否对Cas9的结合与切割起着重要作用.
上图中的a图是没有结合sgRNA时的SpyCas9, 而c图则是结合了sgRNA后的SpyCas9, 比较这两个结构我们看到识别叶发生了非常大的构象转化, Hel-III在与sgRNA结合过程中向着HNH结构域发生了极大的偏转. 比较图c和图d, 可以看到, sgRNA的种子区和识别叶的Hel-I和Hel-II比较紧密, 而非种子区则嵌入两叶之间, 这或许可以解释为什么种子区为什么这么重要. 但是还有一个问题在于为什么种子区的长度被限制在间隔序列的一半左右.
上图中的黄色星星表示不同的核酶活性位点, 虚线表示了HNH结构域和目标链的磷酸基团之间的距离. 图a是结合了sgRNA的SpyCas9结构, 图b则是sgRNA叠加了目标DNA链, 图d给出了CTD结构域的PAM识别位点细节. 图e给出的是和sgRNA完美匹配的目标DNA链结合后的结构图. 图f给出的是RuvC和HNH这两个结构域连接处的细节示意图, 图中可以看到它们是通过两个连接子(linker L1和L2)实现的. 图g是Cas9-sgRNA复合体与一段40bp长的dsDNA结合时的冷冻电镜图, 图中小麦色展示的是目标链, 橙色则为sgRNA. 图h借助冷冻电镜给出的密度图重建了非目标链, 通过从PAM近端双链开始与完美的B型双螺旋结构比较, 发现DNA轨迹有150°的弯曲. 图i给出了与ssDNA和PAM结合后的Cas9结构的变化. 从上面的结果中可以看到Cas9结合目标DNA与PAM时没有发生很大的结构变化, 结合前面的结果可知Cas9的结构的巨大变化完全是因为和sgRNA结合导致的.
重新审视下图:
可以看到Cas9和sgRNA之间存在诸多相互作用: 比如sgRNA上repeat-antirepeat双螺旋结构(RAH)、茎环1、图中茎环1和茎环2的连接子区域就和Cas9通过富精氨酸的桥双螺旋还有CTD区域发生直接相互作用. 图c中缺少茎环2还有茎环3, 因此不知道它们和Cas9的作用如何, 不过DNA与Cas9结合的结构表明Cas9和茎环3之间的接触比较弱, 实验表明在缺少茎环1和2之间的连接子时sgRNA还是能够介导DNA切割, 但是效率会降低, 但是缺少茎环1则会直接破坏切割能力. 于是RAH, 茎环1对于Cas9-sgRNA实施功能是必备的, 而连接子, 茎环2和茎环3不是必要的, 但是它们可以增强催化效率和结合的稳定性.
09Cas9-sgRNA复合体的搜索与切割
当Cas9和sgRNA结合形成Cas9-sgRNA复合体之后, Cas9的CTD结构域就变得有序起来, Cas-RNA复合体会进行扩散,
它的CTD结构域就像探头一样去检测经过它的DNA序列, 一旦发现与之匹配的PAM序列, Ca9就会结合到PAM附近开始检索附近潜在的DNA靶序列, 它在PAM附近停留的时间取决于gRNA与目标链(TS)的互补性.
一旦在PAM附近找到了潜在的靶序列(TS), Cas9就会使得目标DNA发生局部解旋, 随后crRNA插入其中并检查剩余的靶序列.
如上图所示, 人们目前已经确定, 至少对于SpyCas9而言, apo-Cas9与DNA直间的相互作用依靠的是随机的碰撞, 它们结合之后会很快分开. 而apo-Cas9与sgRNA结合后形成Cas9 RNP, 使得SpyCas9构象发生很大变化, 允许Cas9沿着dsDNA的TS的5'-3'搜索约27 bp(对应地, 非靶链NTS则是沿着3'-5'进行搜索), 除非在这个区间内检索到了PAM, 否则Cas9会迅速与DNA分离. 一旦Cas9 RNP遇到PAM, 它在DNA的暂留时间就会增加, 它会首先解旋与PAM相邻的前几个核苷酸, 来探索gRNA与之的互补性.
上图a给出了Cas9与PAM结合区域的放大视图, 图b显示了Cas9和PAM的相互作用示意图, 红圈表示的是桥接水分子, 图c给出了大沟里的细节. 并且与PAM上的保守GG碱基的特异性氢键作用用虚线进行表示. PAM双链位于REC和NUC叶之间的正电荷沟当中, 而包含PAM的NTS主要位于CTD当中. PAM(5'-NGG-3')的碱基
在Cas9 RNP识别了PAM之后, 上述PAM与Cas9的相互作用会引起RNP的构象变化, 发生前文所说的PAM临近序列的解旋, 如下图d所示, 在在PAM双螺旋与Cas9结合的结构当中, 在PAM上游可以观察到一个很明显的扭转, 这个结构是CTD中Lys 1107(赖氨酸)- Ser 1109(丝氨酸)环与磷酸基团相互作用导致的, 称其为磷酸锁环. 磷酸锁环会稳定住解旋的靶DNA, 并且使得第一个碱基(下图中为dT1)翻转, 使其与crRNA碱基配对. 而Cas9继续与非靶链(NTS)上的翻转碱基作用, 促进双螺旋解开. 接着, 碱基配对伴随着Cas9的构象发生变化, 促进种子序列前面的gRNA从限制中释放出来, 也形成配对, 如此往返形成crRNA/DNA杂合链, 并将NTS释放出来, 形成R环. 这个过程导致Cas9的构象持续变化, 直到达到有活性的状态(即可以进行切割). 最终, gRNA与TS完全互补使得HNH具有稳定的具有活性的构象, 对TS进行切割, 与此同时, 引起更大的构象变化, 使得NTS进入RuvC结构域被剪切, 在这个过程中, Cas9被牢牢固定在靶序列上, 直到其它的细胞因子过来取代它. 这个机制得到了的支持.
值得注意的是, 在crRNA与DNA结合之前, crRNA的种子区会预先形成A型构象(这是对Type II而言的, Type I会直接预序整个crRNA). 这被称作预序. 至此, CRISPR-Cas9经由gRNA介导的DNA识别和切割机制大致可以由下图予以描述: 在没有结合sgRNA之前, Cas9处于未激活状态, CTD中的PAM识别区域是完全无序的, 接下来sgRNA与Cas9随机碰撞后Cas9与之结合形成Cas9-RNP, 与此同时, sgRNA中种子区域预序为A-form, 方便和PAM临近的碱基进行匹配性检测. Cas9-RNP在空间中随机游走, 其CTD结构域此时开始检测遇到的DNA序列, 大约检测27-29 nt的核酸序列, 如果发现PAM, 则在它附近激活相关核酸酶(RuvC)使其发生局部解旋, 预序了的crRNA顺势插入其中逐步形成R环. HNH结构域发生构象变化, 辅助实现DNA的解旋, 并在gRNA与DNA发生匹配后在PAM上游与RuvC实现对dsDNA的切割.
更多内容请关注我的微信公众号: 与Celeio同行
文中蓝色字块对应内容:
[1] 获得性免疫: 指再次被侵入时产生的免疫应答过程,该免疫过程在首次侵入时不发生.
[2] 回文序列: 指反向互补链和它自身相同的核酸序列.比如ACCTAGGT的反向序列为TGGATCCA,它的互补链为ACCTAGGT,与原序列相同,因此是回文序列.
[3] Mojica2005: J Mol Evol. 2005 Feb;60(2):174-82.
[4] Pourcel2005: Microbiology. 2005 Mar;151(Pt 3):653-663.
[5] Bolotin2005: Microbiology. 2005 Aug;151(Pt 8):2551-2561.
[6] Rodolphe2007: Science. 2007 Mar 23;315(5819):1709-12.
[7] John2008: Science.15 Aug 2008. Vol 321(5891):page 960-964.
[8] Luciano2008: Science 2008, 322(5909),1843.
[9] Sylvain2010: Nature 2010, 468 (7320), 67.
[10] Emmanuelle2011: Nature 2011, 471 (7340), 602.
[11] Virginijus2011: Nucleic Acids Res. 2011, 39(21), 9275.
[12] Doudna2012: Science 2012, 337 (6096), 816.
[13] Zhang2013: Science 2013, 339 (6121), 819.
[14] Doudna2013: Elife 2013, 2, e00471.
[15] Wiedenheft2009: Structure, 17 (2009), pp. 904-912
[16] Beloglazova2008: J. Biol. Chem., 283 (2008), pp. 20361-20371
[17] Gunderson2015: Infect. Immun., 83 (2015), pp. 1008-1018
[18] Ido2012: Nucleic Acids Res. 2012 Jul;40(12):5569-76.
[19] Wang2015: Cell, 163(4):840–853, 2015.
[20] Sternberg2014: Nature. 2014 Mar 6;507(7490):62-7.