ZFN 技术将基因编辑引领进了不再单纯依赖自然发生 DSBs 的时代,但其存在很大的局限性,如成本高、难以实现多靶点编辑等。

而 TALE(transcription activator like effector)基序的发现催生了第二代基因编辑技术——TALENs(TALE nucleases)。TALEN 的构造与 ZFN 类似,由 TALE 基序串联成决定靶向性的 DNA 识别模块,与 FokI 结构域连接而成。与 ZF 基序不同,一个 TALE 基序识别一个碱基对,因此串联的 TALE 基序与所识别的碱基对是一一对应的关系。研究发现,对于相同的靶点 TALENs 有与 ZFNs 相同的切割效率,但是毒性通常比 ZFNs 的低,另外其构建也比 ZFNs 容易。然而,TALENs 在尺寸上要比 ZFNs 大得多,而且有更多的重复序列,其编码基因在大肠杆菌中组装更加困难。

TAL效应因子(TAL effector, TALE)最初是在一种名为黄单胞菌(Xanthomonas sp.)的植物病原体中作为一种细菌感染植物的侵袭策略而被发现的。这些TALE通过细菌 III类分泌系统(bacterial type III secretion system)被注入植物细胞中,通过靶定效应因子特异性的基因启动子来调节转录,来促进细菌的集落形成。由于TALE具有序列特异性结合能力,研究者通过将FokI核酸酶与一段人造TALE连接起来,形成了一类具有特异性基因组编辑功能的强大工具,即TALEN

TALEN的典型结构

典型的 TALEN由**一个包含核定位信号(Nuclear localization signal, NLS)的N端结构域、一个包含可识别特定 DNA序列的典型串联TALE重复序列的中央结构域,以及一个具有FokI核酸内切酶功能的C端结构域**组成。不同类型的TALEN元件识别的特异性DNA序列长度有很大区别。一般来说,天然的TALEN元件识别的特异性DNA序列长度一般为17-18bp;而人工TALEN元件识别的特异性DNA序列长度则一般为14-20bp。

https://bkimg.cdn.bcebos.com/pic/aec379310a55b319f25f6e474aa98226cffc1759

图1 TALEN的结构

图1 TALEN的结构。(A)与靶点DNA(灰色显示,PDB ID:3UGM)结合的TALE蛋白。每一个独立的TALE重复序列元件包含33到35个氨基酸残基,这些TALE重复序列元件能够通过两个高变异度的残基(即重复可变双残基,RVD,棍状显示)来识别一个单一的碱基对。(B)TALE核酸酶(TALEN)形成二聚体结合DNA的动画演示。TALEN目标位点由两个TALE结合位点组成,这两个位点间通过不同长度的间隔区序列(12-20bp)分开。 TALE可以被设计成仅仅识别左半侧位点或右半侧位点。

TALEN技术的原理与步骤

TALEN技术的原理并不复杂,即**通过 DNA识别模块将TALEN元件靶向特异性的DNA位点并结合,然后在FokI核酸酶的作用 下完成特定位点的剪切,并借助于细胞内固有 的同源定向修复(HDR)或非同源末端连接 途径(NHEJ)修复过程完成特定序列的插入 (或倒置)、删失及基因融合**。

https://bkimg.cdn.bcebos.com/pic/8b13632762d0f703dafc79ee01fa513d2697c5b2

TALEN技术的核心原理就是在同一个蛋白(TALEN)上有序地实现引导进入细胞核、靶位点DNA的特异性识别和靶位点DNA的切割这三个不同的功能,这一点在上述TALEN典型结构一节中已作了较为详细的描述。在具体操作中,例如在实验室条件下,实现TALEN的关键就在于完成DNA的特异性识别功能,一般说来分为两个步骤。图3与图4分别以“铂金门”TALEN构建系统(Platinum Gate TALEN construction system)和商业化的easyT体系为例,展示了实验操作中TALEN元件的构建。

https://bkimg.cdn.bcebos.com/pic/7a899e510fb30f2447170031c195d143ad4b0376

图 3 “铂金门”TALEN构建系统TALEN元件构建操作示意图。步骤一,四个或更少的组件被连接到阵列质粒(array plasmid)上;步骤二,构建好的阵列随后被连接到哺乳动物表达载体中;白色和粉色的长方形分别表示在BsaI和Esp3I限制性内切酶切割后留下的粘性末端;蓝色字母代表RVD,红色字母代表non-RVD变化,黄色长方形代表后一半重复。图片来源:Tetsushi Sakuma, Hiroshi Ochiai, Takehito Kaneko, Tomoji Mashimo, Daisuke Tokumasu, et al. (2014) Repeating pattern of non-RVD variations in DNA-binding modules enhances TALEN activity. Science Report, 3(3379): 1-8.

https://bkimg.cdn.bcebos.com/pic/8718367adab44aed03e852d6ba1c8701a18bfb5a

图 4 “easyT”TALEN构建系统TALEN元件构建操作示意图。(A)包含一个长度为18.5个组件的 TALE重复元件的TALEN体系示意图。该TALE重复元件由20个单体单位(monomer unit)组装而成。单体单位的边界在组装过程中发生了移位。(B)TALEN克隆示意图。第一步,由四个单体通过连接反应组装成4聚体;第二步,4聚体(4-mers)进行PCR扩增,琼脂糖凝胶电泳,胶回收并浓缩;最后,在第二次连接反应中,4聚体被组装到TALEN骨架质粒(backbone plasmid)上;黄色和蓝色箭头分别表示4聚体扩增时的正向引物与反向引物。图片来源:Tomonori Katsuyama, Arslan Akmammedov, Makiko Seimiya, Samuel C. Hess, Cem Sievers and Renato Par. (2013) An ef03cient strategy for TALEN-mediated genome engineering in Drosophila. Nucleic Acids Research, 41(17): e163-171.

1.2.1构建TAL靶点识别模块

TAL的DNA特异性识别单位是间隔32个恒定氨基酸残基的二联氨基酸。二联氨基酸与AGCT这4个核苷酸碱基有一一对应的关系:腺嘌呤(A)由NI识别、胸腺嘧啶(T)由NG识别、鸟嘌呤(G)由NN识别,而胞嘧啶(C)则由HD识别。实验操作中,我们通过 靶位点的DNA序列可以反推能特异性识别这一序列的二联氨基酸序列,从而构建TAL靶点识别模块。

1.2.2 TAL靶点识别模块的克隆与表达

根据之前对TALEN结构的介绍,我们需要将上一步骤中根据目标DNA序列构建好的一对TAL靶点识别模块与N端的核定位序列、C端的FokI酶连接起来,才能得到一个完整的TALEN元件。一般来说,我们可以采用专门用于构建TALEN的真核表达载体体系,将一对特异性的TAL靶点识别模块克隆进该载体中,再通过转染等方式导入细胞内。这种体系一般由供体质粒(donor plasmid,提供单基、二联及三联等类型的TAL模块)和骨架质粒(backbone plasmid,用于构建TALEN并表达构建好的TALEN)两类质粒构成,常用的TALEN体系有RCIscript-GoldyTALEN和pC-GoldyTALEN、TAL5-BB和pTAL6-BB及pCS2TAL3-DD和pCS2TALE-RR等。

  1. TALEN技术的应用及近期发展

虽然 TALEN技术的基本原理并不难理解,但其发现过程却较为曲折。从1989年首次发现TAL起,研究者前后历时近21年才研究清楚TAL的工作原理。自2010年正式发明 TALEN技术以来,全球范围内多个研究小组利用体外培养细胞、酵母、拟南芥、水稻、果蝇及斑马鱼等多个动植物体系验证了TALEN的特异性切割活性。