生物有机体的遗传信息都是以基因的形式储存在细胞的遗传物质DNA分子上的,而DNA分子的基本功能之一,就是把它所承载的遗传信息转变为由特定氨基酸顺序构成的多肽或蛋白质(包括酶)分子,从而决定生物有机体的遗传表型。这种从DNA到蛋白质的过程叫做基因的表达(gene expression)。
在大肠杆菌细胞中,参与特定新陈代谢的基因是趋于成簇地集成一个转录单位,即操纵子。在操纵子中,主要的控制片段,包括操纵基因和启动子,是位于它的起始部位。在基因表达过程中,操纵子先转录成多顺反子mRNA,然后再从多顺反子mRNA转译成多肽分子。为了使克隆的外源基因能够在细菌寄主中实现功能表达,就必须使基因置于寄主细胞的转录和mRNA分子的有效转译控制之下。而且在有的情况下,还涉及到表达产物蛋白质分子的转译后修饰的问题。所以,并非所有的基因表达都是始终如一的,有些要受细胞内外环境的调节。
另外,利用各种先进的基因导入技术及细胞培养方法也已成功实现了外源基因在动、植物及酵母等真核宿主细胞中的表达。
利用真核细胞作宿主表达系统的优点是:
① 真核细胞能够识别和除去外源基因中的内含子,剪接加工形成成熟的mRNA。也就是说含有内含子的天然基因在真核细胞中是可以利用的,这是原核细胞办不到的。
② 真核细胞将表达的蛋白糖基化,而大肠杆菌表达的蛋白是没有糖基化的,糖基化对某些表达蛋白的免疫原性影响很大。
但真核细胞作宿主表达系统尚存在以下几个问题: ① 选择标记及选择系统只有少数几个; ② 转化效率低,一般只有10-6~10-4;
③ 外源基因转移并整合到细胞染色体DNA上带有一定的自发性和盲目性,整合的拷贝数和位置都还不能控制;
④ 细胞培养及细胞的挑选要求比较高,手续繁琐费时。此外,细胞大量培养还有不少问题,而且成本较高,利用培养细胞方式大量生产某些表达蛋白,从工艺到成本都要很好地考虑。
第一节 外源基因在原核细胞中的表达 一. 原核生物基因表达的特点
同所有的生命过程一样,外源基因在原核细胞中的表达包括两个主要过程:即DNA转录成mRNA和mRNA翻译成蛋白质。与真核细胞相比,原核细胞的表达有以下特点:
① 原核生物只有一种RNA聚合酶(真核细胞有三种)识别原核细胞的启动子,催化所有RNA的合成。
② 原核生物的表达是以操纵子为单位的。操纵子是数个相关的结构基因及其调控区的结合,是一个基因表达的协同单位。调控区主要分为三个部分:操纵子(operator)、启动子(promotor)及其他有调控功能的部位。
③ 由于原核生物无核膜,所以转录与翻译是偶联的,也是连续进行的。原核生物染色体DNA是裸露的环形DNA,转录成mRNA后,可直接在胞浆中与核糖体结合翻译形成蛋白质。在翻译过程中,mRNA可与一定数目的核糖体结合形成多核糖体。两个核糖体之间有一定长度的间隔,为裸露的mRNA。每个核糖体可独立完成一条肽链的合成,即这种多核糖体可以同时在一条mRNA链上合成多条肽链,大大提高了翻译效率。
④ 原核基因一般不含有内含子(intron),在原核细胞中缺乏真核细胞的转录后加工系统。因此当克隆的含有内含子的真核基因在原核细胞中转录成mRNA前体后,其中内含子部分不能被切除。
⑤ 原核生物基因的控制主要在转录水平,这种控制要比对基因产物的直接控制要慢。对RNA合成的控制有两种方式,一是起始控制(启动子控制),二是终止控制(衰减子控制)。
⑥ 在大肠杆菌mRNA的核糖体结合位点上,含有一个转译起始密码子及同16S核糖体RNA 3,末端碱基互补的序列,即SD序列,而真核基因则缺乏此序列。
从上述特点可以看到,欲将外源基因在原核细胞中表达,必须满足以下条件: ① 通过表达载体将外源基因导人宿主菌,并指导宿主菌的酶系统合成外源蛋白;
② 外源基因不能带有间隔顺序(内含子),因而必须用cDNA或全化学合成基因,而不能用基因组DNA;
③ 必须利用原核细胞的强启动子和S-D序列等调控元件控制外源基因的表达;
④ 外源基因与表达载体连接后,必须形成正确的开放阅读框架(open reading frame,ORF); ⑤ 利用宿主菌的调控系统,调节外源基因的表达,防止外源基因的表达产物对宿主菌的毒害。
二. 基因表达的调控序列
如上所述,由于原核和真核细胞中基因表达的机制是不同的,因此必须详细了解基因表达过程中的各种调控因子,构建高效的表达载体,才能达到高效率、高水平表达外源基因的目的。对原核生物来讲,基因表达的调控序列主要涉及启动子、S-D序列、终止子、衰减子等序列。
1.启动子
启动子是DNA链上一段能与RNA聚合酶结合并能起始mRNA合成的序列,它是基因表达不可缺少的重要调控序列。没有启动子,基因就不能转录。原核生物启动子是由两段彼此分开且又高度保守的核苷酸序列组成,对mRNA的合成极为重要。启动子区域:
(1)Pribnow盒,位于转录起始位点上游5—10bp,一般由6~8个碱基组成,富含A和T,故又称为TATA盒或—10区。启动子来源不同,Pribnow盒的碱基顺序稍有变化。
(2)—35区,位于转录起始位点上游35bp处,故称—35区,一般由10个碱基组成。
启动子有强弱之分,虽然原核细胞仅靠一种RNA聚合酶就能负责所有RNA的合成,但它却不能识别真核基因的启动子。为了表达真核基因,必须将其克隆在原核启动子的下游,才在原核表达系统中被转录。在原核生物表达系统中,通常使用的可调控的强启动子有lac (乳糖启动子)、trp (色氨酸启动子)、PL和PR(λ噬菌体的左向和右向启动子)以及tac(乳糖和色氨酸的杂合启动子)等。
2.S-D序列
mRNA在细菌中的转译效率依赖于是否有核糖体结合位点的存在,即S-D序列以及S-D序列与起始密码子AUG之间的距离。在原核细胞中,当mRNA结合到核糖体上后,翻译或多或少会自动发生。细菌在翻译水平上的调控是不严格的,只有RNA和核糖体的结合才是蛋白质合成的关键。1974年Shine和Dalgarno首先发现,在mRNA上有核糖体的结合位点,它们是起始密码子AUG和一段位于AUG上游3~10 bp处的由 3—9bp组成的序列。这段序列富含嘌呤核苷酸,刚好与16S rRNA 3,末端的富含嘧啶的序列互补,是核糖体RNA的识别与结合位点。根据发现者的名字,命名为Shine-Dalgarno序列,简称S-D序列。
S-D序列与起始密码子之间的距离,是影响mRNA转译成蛋白质的主要因素之一。Marqiusv等发现当lac启动子的S-D序列距AUG为7个核苷酸时,IL-2表达最高,为2581单位;而间隔8个核苷酸时,表达水平降到不足5单位,这说明S-D序列与AUG的距离将显著地影响基因的表达水平。另外,某些蛋白质与S-D序列结合也会影响mRNA与核糖体的结合,从而影响蛋白质的翻译。
3.终止子
在一个基因的3’端或是一个操纵子的3,端往往还有一特定的核苷酸序列,它有终止转录的功能,这一DNA序列称为转录终止子(terminator)。对RNA聚合酶起终止作用的终止子在结构上有一些共同的特点,即有一段富含A/T的区域和一段富含G/C的区域,G/C富含区域又具有回文对称结构,这段终止子转录后形成的RNA具有茎环结构。根据转录终止作用类型,终止子可分为两种,一种只取决于DNA的碱基顺序;另一种需要终止蛋白质(p因子)的参与。在构建表达载体时,为下防止由于克隆的外源基因的表达干扰了载体系统的稳定性,一般都在多克隆位点的下游插入一段很强的核糖体RNA的转录终止子。
4.衰减子
衰减子(attenuator)是指在某些前导序列中带有控制蛋白质合成速率的调节区。在原核生物中,一条mRNA分子常常编码数种不同的多肽链。这种多顺反子mRNA的头一条多肽链合成的起始点,同RNA分子的5,—P末端间的距离可达数百个核苷酸。这段位于编码区之前的不转译的mRNA区段,叫做前导序列(1eader)。此外,在mRNA的3'-OH末端,以及在多顺反子mRNA中含有的长达数百个碱基的顺反子间序列(intercistranic-sequence),即间隔序列(spacer),也发现有不转译的序列。 。
三、几种类型的原核表达载体
在原核细胞中表达外源基因时,由于实验设计的不同,总的来说可产生融合型和非融合型表达蛋白。不与细菌的任何蛋白或多肽融合在一起的表达蛋白称为非融合蛋白。非融合蛋白的优点在于它具有非常接近于真核细胞体内蛋白质的结构,因此表达产物的生物学功能也就更接近于生物体内天然蛋白质。非融合蛋白的最大缺点是容易被细菌蛋白酶所破坏。为了在原核生物细胞中表达出非融合蛋白,可将带有起始密码ATG的真核基因插人到原核启动子和S-D序列的下游,组成一个杂合的核糖体结合区,经转录翻译,得到非融合蛋白。
融合蛋白是指蛋白质的N末端由原核DNA序列或其他DNA序列编码,C端由真核DNA的完整序列编码。这样的蛋白质由一条短的原核多肽或具有其他功能的多肽和真核蛋白质结合在一起,故称为融合蛋白。含原核细胞多肽的融合蛋白是避免细菌蛋白酶破坏的最好措施。而含另外一些多肽的融合蛋白则为表达产物的分离纯化等提供了极大的方便。表达融和型蛋白应非常注意其阅读框架,
其阅读框架应与融和的DNA片段的阅读框架一致,翻译时才不至于产生移码突变。
基因工程的载体有克隆载体和表达载体之分。克隆载体中都有一个松弛型复制子,能带动外源基因在受体细胞中复制扩增,这类载体已经作过介绍。表达载体是适合在受体细胞中表达外源基因的载体。组建这类载体比较困难,但所幸的是目前已有数十种被构建成功,并已商品化出售。下面简要介绍几种常用的原核表达载体。
1.非融合型表达蛋白载体pKK223-3
这个载体是由Brosius等在哈佛大学的Gilbert实验室组建的。在大肠杆菌细胞中,它能极有效地高水平表达外源基因。它具有一个强的tac(trp-lac)启动子。这个启动子是由trp启动子的—35区、lacUV5启动子的—10区、操纵基因及S-D序列组成。紧接tac启动子的是一个取自pUC8的多位点接头,使之很容易把目的基因定位在启动子和S-D序列后。在多位点下游的一段DNA序列中,还包含一个很强的核糖体RNA的转录终止子,目的是为了稳定载体系统。因为上游强的tac启动子控制的转录必须由强终止子抑制,才不至于干扰与载体本身稳定性有关的基因表达。载体的其余部分由pBR322组成。在使用pKK223-3质粒时,应相应地使用一个lacI宿主,如JM l05。
2.分泌型克隆表达载体pinⅢ系统
这个载体系统是以pBR322为基础构建的。它带有大肠杆菌中最强的启动子之一,即Ipp(脂蛋白基因)启动子。在启动子的下游装有lacUV5的启动子及其操纵基因,并且把lac阻遏子的基因(1ac I)也克隆在这个质粒上。这样,目的基因的表达就成为可调节的了。在转录控制的下游再装上人工合成的高效翻译起始顺序(S-D序列及ATG)。作为分泌克隆表达载体中关键的编码信号肽的序列,是取自于大肠杆菌中分泌蛋白的基因ompa (外膜蛋白基因)。在编码顺序下游紧接着的是一段人工合成的多克隆位点片段,其中包括3个单一酶切位点EcoRI,HindⅢ和BamHI。
3.融合型蛋白表达载体pGEX系统
pGEX系统由Pharmacia公司构建,由3种载体pGEX-lXT,pGEX-2T和pGEX-3X以及一种用于纯化表达蛋白的亲和层析介质Glutathione Sepharose 4B组成。载体的组成成分基本上与其他表达载体相似,含有启动子tac及lac操纵基因、S-D序列、lacI阻遏蛋白基因等。这类载体与其他表达载体不同之处在于S-D序列下游是谷胱甘肽巯基转移酶基因,而克隆的外源基因则与谷胱甘肽巯基转移酶基因相连。当进行基因表达时,表达产物为谷胱甘肽巯基转移酶和目的基因产物的融合体。
四、 提高克隆基因表达效率的途径
为了在大肠杆菌中合成某种特殊的真核生物的蛋白质以满足商品生产的广泛需求,仅仅停留在检测水平上的表达是远远不够的,所以,必须设法提高克隆基因的表达效率。就目前所知,有许多因素,诸如启动子的强度、DNA转录起始序列、密码子的选择、mRNA分子的二级结构、转录的终止、质粒的拷贝数以及质粒的稳定性和寄主细胞的生理特征等,都会不同程度地影响到克隆基因的表达效率,而且大多数都是在转译水平上发生影响作用的,因而必须从分析这些因素入手,寻找提高克隆基因表达效率的有效途径。
1.启动子结构对表达效率的影响
为了鉴定出最强的启动子,必须创建出衡量不同启动子转录效率的研究系统。这一系统已由Russell等(1982)创建,他们将任何待测的启动子置于无启动子但处于载体上的半乳糖激酶结构基因(gal K)的前方,根据在Gal K寄主中所合成的半乳糖激酶的水平,衡量启动子的强弱。结果表明,受检启动子的强弱与它们的一致序列(即与-10和-35区序列)相似的程度成正比。进一步的研究表明,—35和—10区之间的距离也是一个重要因素。如果间隔为17个碱基对,启动子表现很强,如果大于17个碱基对,启动子表现较弱。
2.转译起始序列对表达效率的影响
实验证明,连接在S—D序列后面的4个碱基成分的改变会对转译效率发生很大的影响。如果这个区域是由4个A(T)碱基组成,其转译作用最为有效;而当这个区域是由4个C碱基或4个G碱基组成,其转译效率只及最高转译效率的50%或25%。直接位于起始密码子AUG左侧的密码三联体的碱基组成,同样也会对转译的效率发生影响。以β—半乳糖苷酶mRNA的转译为例,当这个三联体碱基组分是UAU或CUU时,其转译最为有效,而如果是UUC,UCA或AGG代替了UAU或CUU,那么它的转译水平将下降20倍。
3.启动子同克隆基因间距离对表达效率的影响
Roberts等(1979)构建了一系列重组质粒,各种质粒之间的区别仅在于启动子和结构基因cro之间的距离不同。将这些不同的重组质粒转化大肠杆菌后,发现cro蛋白质的水平在重组质粒间相差悬殊,最高值比最低值大2000倍。显然,启动子与结构基因间的距离在蛋白质翻译上有巨大作用。进一步的研究还表明:①翻译的起始点和S—D序列必须接近到一定程度;②翻译的起始包括活化的
30S核糖体亚基和mRNA 5’末端区域间的互作,这时mRNA的5’末端已折叠成特殊的二级结构。基因表达水平的改变是mRNA二级结构的反映。
4.转录终止区对克隆基因表达效率的影响
在克隆基因的末端,存在一个转录终止区是十分重要的,其原因有如下几个方面:第一,若干非必须的转录本的合成,会使细胞消耗巨大的能量用于制造大量非必须的蛋白质;第二,在转录本上有可能形成一些不期望其出现的二级结构,从而降低了转译的效率;第三,偶然会出现启动子阻塞现象,也就是说,克隆基因启动子所开始的转录,会干扰另一个必要的基因或调节基因的转译。而转录终止区的存在,可使上述这几种不利的现象得以避免。因为有人已经发现,有些强启动子会通读,干扰质粒的复制,结果使质粒的拷贝数反而下降。所以,在基因内部的适当位置上存在着转录的终止区,就能够保证使质粒的拷贝数(也就是基因的表达效率)控制在一个正常的水平上。
5.质粒拷贝数及稳定性对表达效率的影响
限制蛋白质合成的第一步,是发生在核糖体同mRNA分子结合的过程中的。由于细胞中核糖体的数量与mRNA分子相比是大大超量的,因此,提高克隆基因表达效率的途径之一是增加相应的mRNA分子的数量。怎样才能达到这样的目的呢?影响mRNA分子合成速率的因素有两种:第一种是启动子的强度,这在前面已经作了讨论;第二种是基因的拷贝数。提高基因的拷贝数(即基因的剂量)最简单的办法是,将基因克隆到高拷贝数的质粒载体上。
根据实验观察,随着重组体克隆基因表达水平的上升,寄主细胞的生长速率便会相应地下降,同时形态上也会出现一些明显的变化,例如细胞纤维化和脆弱性增加等。如果细菌由于产生出某种突变而失去了重组质粒,或是经过结构的重排使重组基因无法再行表达,或是质粒的拷贝数大大降低,那么这样的突变菌株便会有很高的生长速度,迅速地成为培养物中的优势菌株。而具有重组质粒的寄主细胞,最终便会被“稀释”掉,使克隆基因无法得到表达。由缺陷性分配引起的质粒丢失现象,叫做质粒分离的不稳定性(segregative instability)。
6.提高翻译水平常用的途径
(1) 调整S-D序列与AUG间的距离 提高外源基因在原核细胞中的表达水平的关键因素之一是调整S-D序列和起始密码子ATG之间的距离,此距离过长、过短都影响真核基因的表达。Marquis人工合成核糖体结合点使S-D序列与起始密码(ATG)的距离为5~9个碱基对,并分别连入7个不同启动子的下游。测试其表达入IL-2的水平,结果发现,在同一种启动子带动下,S-D顺序与ATG间的距离不同,IL-2表达水平可相差2~2000倍。例如在lac启动子带动下,其距离为7个碱基对时,IL-2的表达水平为2581单位,而距离为8个碱基对时,表达水平降至不足5单位。而在PI.启动子带动下,其距离为6个碱基时,IL-2表达水平达9707单位,距离为8个碱基对时,表达水平降至5363单位。这表明根据不同的启动子,调整好S-D序列与起始密码ATG的距离,确实可提高外源基因的表达水平。
(2) 用点突变的方法改变某些碱基 翻译的起始是决定翻译水平高低的一个重要因素。有资料表明,由于紧随起始密码下游的几组密码子不同,可使基因的表达效率相差15~20倍。这主要是改善了翻译的起始和mRNA的二级结构。另外,有人对大肠杆菌各种基因顺序进行了大量分析,根据不同密码子使用频率,将64组密码子分为强、中、弱密码子。如果在不改变编码的氨基酸顺序的条件下,尽量用强密码子取代弱密码子,确有可能提高表达水平。但是,大量的研究表明,含有弱密码子的真核基因是能够在大肠杆菌获得高效表达的。可见,密码子的使用问题并非是影响外源基因在大肠杆菌中表达水平的决定因素。
(3) 增加mRNA的稳定性 多数情况下,细菌的mRNA的半衰期很短,一般仅为1-2min,而外源基因mRNA的半衰期可能更短。若能增加mRNA的稳定性,则有可能提高外源基因的表达水平。研究表明,大肠杆菌的“重复性基因外回文序列”(repetitive extragenic pdindronic sequence)具有稳定mRNA的作用,能防止外切酶的攻击。因此,在外源基因下游插入此序列或其他具有反转重复顺序的DNA片段可起到稳定mRNA、提高表达水平的作用。
7.减轻细胞的代谢负荷
外源基因在细菌中高效表达,必然影响宿主的生长和代谢;而细胞代谢的损伤,又必然影响外源基因的表达。合理地调节好宿主细胞的代谢负荷与外源基因高效表达的关系,是提高外源基因表达水平不可缺少的一个环节。目前常用的方法有:
(1) 诱导表达 使细菌的生长与外源基因的表达分开。将宿主菌的生长与外源基因的表达分开成为两个阶段,是减轻宿主细胞代谢负荷的最为常用的一个方法。一般采用温度诱导或药物诱导。如应用tac启动子时,常用F,tac4的菌株或者将lacI基因克隆在表达质粒中。当宿主菌生长时,lacI产生的阻遏物与lac操纵基因结合,阻碍了外源基因的转录及表达,此时,宿主菌大量生长。当加入诱导物(如IPTG)时,阻遏蛋白不能与操纵基因结合,则外源基因大量转录并高效表达。有人
认为,化学诱导比温度诱导更为方便和有效,并且将相应的阻遏蛋白基因直接克隆到表达载体上,比应用含阻遏蛋白基因的菌株更为有效。
(2) 表达载体的诱导复制 减轻宿主细胞代谢负荷的另一个措施是将宿主菌的生长和表达质粒的复制分开。当宿主菌迅速生长时,抑制质粒的复制;当宿主菌生物量积累到一定水平后,再诱导细胞中质粒DNA的复制,增加质粒的拷贝数,拷贝数的增加必然导致外源基因表达水平的提高。质粒pCll01是温度控制诱导DNA复制最好的例子。用此质粒转化宿主菌,25C时宿主中仅有此质粒10拷贝,宿主细胞大量生长;但当温度升高到37C时,质粒大量复制,每个细胞中质粒拷贝数可高达1000个。
8.提高表达蛋白的稳定性,防止其降解
在大肠杆菌中表达的外源蛋白质往往不够稳定,常被细菌的蛋白酶降解,因而会使外源基因的表达水平大大降低。因此,提高表达蛋白质的稳定性,防止细菌蛋白酶的降解是提高外源基因表达水平的有力措施。
(1) 克隆一段原核序列,表达融合蛋白 这里的融合蛋白是指表达的蛋白质或多肽N末端由原核DNA编码,C末端是由克隆的真核DNA的完整序列编码。这样表达的蛋白是由一条短的原核多肽和真核蛋白结合在一起,故称为融合蛋白。融合蛋白是避免细菌蛋白酶破坏的最好措施。在表达融合蛋白时,为得到正确编码的表达蛋白,在插人外源基因时,其阅读框架与原核DNA片段的阅读框架一致,只有这样,翻译时插入的外源基因才不致产生移码突变。
(2) 采用某种突变菌株,保护表达蛋白不被降解 大肠杆菌蛋白酶的合成主要依赖次黄嘌呤核苷(lon),因此采用lon-缺陷型菌株作受体菌,则使大肠杆菌蛋白酶合成受阻,从而使表达蛋白得到保护。Baker发现大肠杆菌htp R基因的突变株也可减少蛋白酶的降解作用。另外,T4噬菌体的pin基因产物是细菌蛋白酶的抑制剂,将pin基因克隆到质粒中并转化入大肠杆菌中,细菌的蛋白酶便受到抑制,外源基因的表达产物受到保护。
(3) 表达分泌蛋白 表达分泌蛋白是防止宿主菌对表达产物的降解,减轻宿主细胞代谢负荷及恢复表达产物天然构象的最有力措施。在原核表达系统中,人们研究得比较多的主要是大肠杆菌。
大肠杆菌主要由4部分组成:胞质、内膜、外膜及内外膜之间的周间质。一般情况下,所谓“分泌”是指蛋白质从胞质跨过内膜进人周间质这一过程。而蛋白质从胞质跨过内、外膜进人培养液这种情况较为少见,被称为“外排”以区别于“分泌”。蛋白质能够在大肠杆菌中进行分泌,至少要具备3个要素:① 有一段信号肽;
② 在成熟蛋白质内有适当的与分泌相关的氨基酸序列; ③ 细胞内有相应的转运机制。
① 信号肽:信号肽序列对于分泌蛋白质是必需的,其长度一般为15—30个氨基酸。真核生物和原核生物的信号肽在结构上都有以下特征:(a)在氨基末端有一段带正电荷的氨基酸序列,往往是精氨酸或赖氨酸残基,其数目为1—3个;(b)有一个疏水的核心区,含亮氨酸或异亮氨酸残基,位置可以从带正电荷的氨基酸延伸到含切割位点的区域;(c)含有能被信号肽酶水解的切割位点,这个位点常常在丙氨酸之后,有的是在甘氨酸或丝氨酸之后。
原核和真核的信号肽不仅在结构上相似,而且在功能上也具有相似性。Talmage等(1980)发现,细菌的信号肽可以在真核细胞中发生作用,以后他们又发现真核的信号肽序列也能在原核细胞中起作用。这两种信号肽序列在切割位点上具有相似性,细菌的信号肽酶可以切除真核的信号肽。
② 成熟蛋白质内有与分泌相关的氨基酸序列:对于很多蛋白质来说,信号肽对其分泌是必需的,但仅有信号肽还不能完成分泌过程,很多在大肠杆菌中分泌的蛋白质需要其成熟体中的氨基酸序列来引导其到达最终的目的地。缺少这部分相应的氨基酸序列,分泌就不能正常进行,这已被基因融合和基因删除两方面的实验所证实。
③ 细胞内的转运机制:和真核细胞一样,原核细胞内蛋白质的分泌也需要数种细胞内蛋白质的参与。目前已经发现了信号肽酶I、信号肽酶Ⅱ等近20种蛋白质参与了分泌过程。与真核细胞不同的是,在大肠杆菌中,蛋白质的合成和蛋白质的分泌过程有些是同步的,有些则采取了先翻译出蛋白质,然后再分泌出来的翻译后机制。而分泌的能量来源于高能磷酯键的水解或质子的推动力。
通过以上讨论可以看出,并非任何蛋白质都可以在大肠杆菌中得到分泌表达。这主要是由于受所表达的成熟蛋白质的氨基酸序列和构型的限制。由于原核生物和真核生物蛋白质的分泌机制十分相似,真核生物中的分泌蛋白大多能在大肠杆菌中得到很好的分泌表达。还有一些相对分子质量小的多肽也往往能得到分泌表达。但对原属真核细胞的非分泌蛋白,很难在大肠杆菌表达后再分泌到周间质,而最多只能结合到细胞内膜上。因此,欲在大肠杆菌中表达分泌型外源蛋白时,必须首先考虑目的蛋白被分泌的可能性。其次,要考虑到在应用分泌蛋白技术路线时,可能遇到目的蛋白的某些序列被信号肽酶错误识别,以致把目的蛋白切成碎片进而部分或大部分失去生物活性。因此,
要慎用这一技术路线。
第二节 外源基因在真核细胞中的表达
基因的体外重组和表达体系起始于大肠杆菌,迄今,它仍然是常用的体系。随着对真核基因表达和调控研究的深入,证明酵母也可以成为有用的表达体系,甚至植物的原生质体、动物的培养细胞等,都可以像大肠杆菌一样作为受体,这就为基因工程的操作开辟了全新的研究领域,也展示出光明的发展前景。
一、 真核细胞基因克隆载体
1.在酵母细胞中克隆基因常用的载体
酵母是研究真核生物DNA的复制、重组、基因表达以及调控过程等的理想材料,为此,也构建了许多人工质粒载体。根据这些质粒和复制方式不同,把它们分为整合型(YIp)、复制型(YRp)、附加体型(YEp)等。以上3种类型载体的共同特点是:
① 能在大肠杆菌中克隆,并且具有较高的拷贝数。这样可使外源基因转化到酵母细胞之前先在大肠杆菌中扩增;
② 含有在酵母细胞中便于选择的遗传标记。这些标记一般能和大肠杆菌相应的突变体互补,如Leu2+,his+,Ura 3+,Trp+等。有些还携带有用于大肠杆菌的抗生素抗性标记;
③ 含有合适的限制酶切割位点,以便外源基因的插入。
酵母经过处理后,也像大肠杆菌一样能够接受外源重组体的导人。酵母的转化过程一般是先用酶消化细胞壁形成原生质体,经氯化钙和聚乙二醇(PEG)处理,使质粒DNA进入细胞,然后在允许细胞壁再生的选择培养基中培养。
(1)整合型载体(YIp) YIp型载体是由大肠杆菌质粒和酵母的DNA片段构成的,如PYeleul0是由Co1E1质粒和酵母DNA提供的亮氨酸(Leu2+)片段构成。由于leu 2+基因片段不含自主复制起始区,只作为选择标记,所以YIp型载体在酵母细胞中不能自主复制。YIp型载体可经转化作用导人受体细胞,进入细胞后的YIp质粒DNA通过与受体染色体DNA的同源重组,被整合到染色体上,并随染色体一起复制。这样质粒DNA以单拷贝基因形式稳定地遗传。
(2)复制型载体(YRp) YRp型载体是酵母的DNA片段插入到大肠杆菌质粒中构成的。其中酵母DNA片段不但提供了选择标记,还携带来自酵母染色体DNA的自主复制顺序(ARS)。因为它同时含有大肠杆菌和酵母的自主复制基因,所以能在两种细胞中存在和复制。可以在两种截然不同的生物细胞中复制的载体称为穿梭载体(shuttle vector)。穿梭载体在基因工程中广泛使用。
(3)附加体型载体(YEp) YEp型载体一般由大肠杆菌质粒、2um质粒以及酵母染色体的选择标记构成。2um质粒是酿酒酵母含有一个长度为2um的内源质粒,它的DNA分子通常与蛋白质结合构成复合物,存在于核区。2um质粒含有自主复制起始区(ori)和STB区,STB序列能够使质粒在供体细胞中维持稳定。利用2um质粒,人们已经构建出许多YEp型载体。
2.植物基因克隆的载体——Ti质粒
Ti质粒存在于能够引起植物形成冠瘿瘤的土壤农癌杆菌中。这种肿瘤的形成是由Ti质粒决定的,故称为诱导肿瘤的质粒(tumor inducing plasmid),简称Ti质粒。
(1)Ti质粒的结构和特性 在Ti质粒诱导的肿瘤细胞中,具有大量的不正常的氨基酸类物质——冠瘿碱(opine),这是一类相对分子质量较小的碱性氨基酸衍生物,由Ti质粒DNA编码。正常植物细胞不能合成和利用冠瘿碱,而土壤农癌杆菌能够选择性地利用这类化合物作为自己唯一的能源、碳源和氮源。最常见的冠瘿碱有章鱼碱(octopine)、胭脂碱(nopaline)和农杆碱(agropine)。根据所产生的冠瘿碱的类型和差别,可将冠瘿瘤细胞分为章鱼碱型、胭脂碱型和农杆碱型肿瘤细胞。
每种土壤农癌杆菌只含有一种Ti质粒,或是章鱼碱质粒,或是农杆碱质粒。Ti质粒是环状dsDNA,相对分子质量为1.2X108,大约185kb,如图。土壤农癌杆菌中的T-DNA为转移DNA,是Ti质粒最重要的组成部分。在土壤农癌杆菌感染植物细胞后,Ti质粒中的T-DNA区能够随机地共价整合到植物染色体DNA中。它所携带的基因主要有两个功能,一是决定肿瘤的形成和形态,二是控制冠瘿碱的合成。这也是Ti质粒的主要功能,说明T-DNA是Ti质粒的核心区段。
(2)Ti质粒的作用和改造 Ti质粒的T-DNA能够自发地整合到植物染色体DNA上,诱导植物形成肿瘤,是一种理想的天然植物基因工程载体。Ti质粒能够转化裸子植物和双子叶被子植物。后来实验又证明,重要的禾谷类植物玉米,也能被T1质粒转化,这为Ti质粒发展成为单子叶植物克隆载体带来了希望。Ti质粒中的T-DNA能整合到宿主ch-DNA上成为正常的遗传成分,世代相传。T-DNA上的opine合成酶基因具有一个强启动子,能启动外源基因在植物细胞中高效表达,这都是Ti质粒作为载体的优点。但直接使用Ti质粒也存在两大困难:一是Ti质粒相对分子质量太大(约200kb),限制酶位点多,不易进行体外重组DNA操作。二是被T-DNA转化的植物细胞成为肿瘤细胞,不能进
行分化,再生成植株。这也是Ti质粒作为载体的缺点。
对Ti质粒进行了以下改造,使之符合载体的要求,: ① 保留T-DNA的转移功能;
② 取消T-DNA的致瘤性,使之进入植物细胞后不至于干扰细胞的正常生长和分化,转化体可再生植株;
③ 通过简便的手段可使外源DNA插人T-DNA之中,并随着T-DNA整合到植物染色体上。 3.动物细胞基因克隆的载体
哺乳动物细胞若不借助一些特殊的手段,很难捕获和表达外源的DNA。现已有多种技术来改变这种状况,如磷酸钙等的转染技术、电穿孔技术、显微注射技术、原生质体融合技术等。其中借助病毒载体将外源DNA导人动物细胞,也是极为重要的一方面。在众多的病毒载体中,猿猴空泡病毒40(simian vacuolating virus 40,SV40)载体是研究得最为详细、发展最快的一种。下面对SV40载体作简要介绍。
(1)SV40病毒 SV40病毒是一种小型二十面体的蛋白质颗粒,由VPl,VP2和VP3三种病毒外壳蛋白构成,中间包装着一条环状的病毒基因组DNA。SV40DNA大小为5.2kb,很适于基因操作。对其DNA顺序也进行了全序列分析。加上对SV40的复制和转录的研究,为发展SV40载体奠定了基础。
SV40对不同种的细胞有不同的感染效应。SV40对猿猴细胞的感染,能产生具有感染性的病毒颗粒,并使寄主细胞裂解。把猿猴细胞称为受纳细胞(permissive cell)。若SV40感染的是啮齿类动物,如小鼠或仓鼠的细胞,则不会产生感染性的颗粒,此时的病毒基因组整合到寄主细胞的染色体上,细胞就会发生癌变。这类细胞被称为SV40的非受纳细胞(non—permissive cell)。人体细胞处于二者之间,称半受纳细胞。
目前绝大多数实验室所使用的SV40载体都是经过改造的,通常只保留SV40的复制起始区和早期区域启动子以及多聚腺苷酸化位置和小t抗原的内含子。
图8—24介绍了一个典型而又通用的哺乳动物基因载体pSV2:
a区包含从1~323bp的序列,其中包括SV40的复制起始区、72bp的增强子序列、早期区域启动子和转录起始位置;
b区包括从324~3 369bp的序列,其中包括原核生物的基因序列,即大肠杆菌质粒pBR322的复制起点区和氨苄青霉素抗性基因;
c区包含从3 370—4217bp的序列,其中包括SV40小t抗原基因的内含子(拼接信号)和多聚腺苷酸化位置。这种设计使质粒既能在大肠杆菌中扩增,又能直接用于转染哺乳动物细胞。
d区是指从4218bp~0bp的序列,它专门容纳需要表达的编码序列,其中包括外源基因和标记基因。由于这类载体不通过包装过程,故可插入10kb以上的外源片段。这些序列可在SV40的早期区域的启动子控制之下而得到表达。受侵染的动物细胞不会裂解,因而可建立稳定的细胞株,通过使用标记基因,可从低转染率的群体中,选出转化株。值得注意的是,由于pSV2不存在SV40的大T抗原编码区,故不能在猴细胞中复制。因此,pSV2载体在哺乳类动物细胞中稳定增殖的唯一途径是整合到寄主染色体上,这种整合非常稳定,即使转化细胞培养在非选择条件下,经100代后,重组基因仍不发生丢失或重排。
1:10 | 添加评论 | 固定链接 | 写入日志 | 基因工程克隆基因的表达
生物有机体的遗传信息都是以基因的形式储存在细胞的遗传物质DNA分子上的,而DNA分子的基本功能之一,就是把它所承载的遗传信息转变为由特定氨基酸顺序构成的多肽或蛋白质(包括酶)分子,从而决定生物有机体的遗传表型。这种从DNA到蛋白质的过程叫做基因的表达(gene expression)。
在大肠杆菌细胞中,参与特定新陈代谢的基因是趋于成簇地集成一个转录单位,即操纵子。在操纵子中,主要的控制片段,包括操纵基因和启动子,是位于它的起始部位。在基因表达过程中,操纵子先转录成多顺反子mRNA,然后再从多顺反子mRNA转译成多肽分子。为了使克隆的外源基因能够在细菌寄主中实现功能表达,就必须使基因置于寄主细胞的转录和mRNA分子的有效转译控制之下。而且在有的情况下,还涉及到表达产物蛋白质分子的转译后修饰的问题。所以,并非所有的基因表达都是始终如一的,有些要受细胞内外环境的调节。
另外,利用各种先进的基因导入技术及细胞培养方法也已成功实现了外源基因在动、植物及酵母等真核宿主细胞中的表达。
利用真核细胞作宿主表达系统的优点是:
① 真核细胞能够识别和除去外源基因中的内含子,剪接加工形成成熟的mRNA。也就是说含有内含子的天然基因在真核细胞中是可以利用的,这是原核细胞办不到的。
② 真核细胞将表达的蛋白糖基化,而大肠杆菌表达的蛋白是没有糖基化的,糖基化对某些表达
蛋白的免疫原性影响很大。
但真核细胞作宿主表达系统尚存在以下几个问题: ① 选择标记及选择系统只有少数几个; ② 转化效率低,一般只有10-6~10-4;
③ 外源基因转移并整合到细胞染色体DNA上带有一定的自发性和盲目性,整合的拷贝数和位置都还不能控制;
④ 细胞培养及细胞的挑选要求比较高,手续繁琐费时。此外,细胞大量培养还有不少问题,而且成本较高,利用培养细胞方式大量生产某些表达蛋白,从工艺到成本都要很好地考虑。
第一节 外源基因在原核细胞中的表达 一. 原核生物基因表达的特点
同所有的生命过程一样,外源基因在原核细胞中的表达包括两个主要过程:即DNA转录成mRNA和mRNA翻译成蛋白质。与真核细胞相比,原核细胞的表达有以下特点:
① 原核生物只有一种RNA聚合酶(真核细胞有三种)识别原核细胞的启动子,催化所有RNA的合成。
② 原核生物的表达是以操纵子为单位的。操纵子是数个相关的结构基因及其调控区的结合,是一个基因表达的协同单位。调控区主要分为三个部分:操纵子(operator)、启动子(promotor)及其他有调控功能的部位。
③ 由于原核生物无核膜,所以转录与翻译是偶联的,也是连续进行的。原核生物染色体DNA是裸露的环形DNA,转录成mRNA后,可直接在胞浆中与核糖体结合翻译形成蛋白质。在翻译过程中,mRNA可与一定数目的核糖体结合形成多核糖体。两个核糖体之间有一定长度的间隔,为裸露的mRNA。每个核糖体可独立完成一条肽链的合成,即这种多核糖体可以同时在一条mRNA链上合成多条肽链,大大提高了翻译效率。
④ 原核基因一般不含有内含子(intron),在原核细胞中缺乏真核细胞的转录后加工系统。因此当克隆的含有内含子的真核基因在原核细胞中转录成mRNA前体后,其中内含子部分不能被切除。
⑤ 原核生物基因的控制主要在转录水平,这种控制要比对基因产物的直接控制要慢。对RNA合成的控制有两种方式,一是起始控制(启动子控制),二是终止控制(衰减子控制)。
⑥ 在大肠杆菌mRNA的核糖体结合位点上,含有一个转译起始密码子及同16S核糖体RNA 3,末端碱基互补的序列,即SD序列,而真核基因则缺乏此序列。
从上述特点可以看到,欲将外源基因在原核细胞中表达,必须满足以下条件: ① 通过表达载体将外源基因导人宿主菌,并指导宿主菌的酶系统合成外源蛋白;
② 外源基因不能带有间隔顺序(内含子),因而必须用cDNA或全化学合成基因,而不能用基因组DNA;
③ 必须利用原核细胞的强启动子和S-D序列等调控元件控制外源基因的表达;
④ 外源基因与表达载体连接后,必须形成正确的开放阅读框架(open reading frame,ORF); ⑤ 利用宿主菌的调控系统,调节外源基因的表达,防止外源基因的表达产物对宿主菌的毒害。 二. 基因表达的调控序列
如上所述,由于原核和真核细胞中基因表达的机制是不同的,因此必须详细了解基因表达过程中的各种调控因子,构建高效的表达载体,才能达到高效率、高水平表达外源基因的目的。对原核生物来讲,基因表达的调控序列主要涉及启动子、S-D序列、终止子、衰减子等序列。
1.启动子
启动子是DNA链上一段能与RNA聚合酶结合并能起始mRNA合成的序列,它是基因表达不可缺少的重要调控序列。没有启动子,基因就不能转录。原核生物启动子是由两段彼此分开且又高度保守的核苷酸序列组成,对mRNA的合成极为重要。启动子区域:
(1)Pribnow盒,位于转录起始位点上游5—10bp,一般由6~8个碱基组成,富含A和T,故又称为TATA盒或—10区。启动子来源不同,Pribnow盒的碱基顺序稍有变化。
(2)—35区,位于转录起始位点上游35bp处,故称—35区,一般由10个碱基组成。
启动子有强弱之分,虽然原核细胞仅靠一种RNA聚合酶就能负责所有RNA的合成,但它却不能识别真核基因的启动子。为了表达真核基因,必须将其克隆在原核启动子的下游,才在原核表达系统中被转录。在原核生物表达系统中,通常使用的可调控的强启动子有lac (乳糖启动子)、trp (色氨酸启动子)、PL和PR(λ噬菌体的左向和右向启动子)以及tac(乳糖和色氨酸的杂合启动子)等。
2.S-D序列
mRNA在细菌中的转译效率依赖于是否有核糖体结合位点的存在,即S-D序列以及S-D序列与起始密码子AUG之间的距离。在原核细胞中,当mRNA结合到核糖体上后,翻译或多或少会自动发
生。细菌在翻译水平上的调控是不严格的,只有RNA和核糖体的结合才是蛋白质合成的关键。1974年Shine和Dalgarno首先发现,在mRNA上有核糖体的结合位点,它们是起始密码子AUG和一段位于AUG上游3~10 bp处的由 3—9bp组成的序列。这段序列富含嘌呤核苷酸,刚好与16S rRNA 3,末端的富含嘧啶的序列互补,是核糖体RNA的识别与结合位点。根据发现者的名字,命名为Shine-Dalgarno序列,简称S-D序列。
S-D序列与起始密码子之间的距离,是影响mRNA转译成蛋白质的主要因素之一。Marqiusv等发现当lac启动子的S-D序列距AUG为7个核苷酸时,IL-2表达最高,为2581单位;而间隔8个核苷酸时,表达水平降到不足5单位,这说明S-D序列与AUG的距离将显著地影响基因的表达水平。另外,某些蛋白质与S-D序列结合也会影响mRNA与核糖体的结合,从而影响蛋白质的翻译。
3.终止子
在一个基因的3’端或是一个操纵子的3,端往往还有一特定的核苷酸序列,它有终止转录的功能,这一DNA序列称为转录终止子(terminator)。对RNA聚合酶起终止作用的终止子在结构上有一些共同的特点,即有一段富含A/T的区域和一段富含G/C的区域,G/C富含区域又具有回文对称结构,这段终止子转录后形成的RNA具有茎环结构。根据转录终止作用类型,终止子可分为两种,一种只取决于DNA的碱基顺序;另一种需要终止蛋白质(p因子)的参与。在构建表达载体时,为下防止由于克隆的外源基因的表达干扰了载体系统的稳定性,一般都在多克隆位点的下游插入一段很强的核糖体RNA的转录终止子。
4.衰减子
衰减子(attenuator)是指在某些前导序列中带有控制蛋白质合成速率的调节区。在原核生物中,一条mRNA分子常常编码数种不同的多肽链。这种多顺反子mRNA的头一条多肽链合成的起始点,同RNA分子的5,—P末端间的距离可达数百个核苷酸。这段位于编码区之前的不转译的mRNA区段,叫做前导序列(1eader)。此外,在mRNA的3'-OH末端,以及在多顺反子mRNA中含有的长达数百个碱基的顺反子间序列(intercistranic-sequence),即间隔序列(spacer),也发现有不转译的序列。 。
三、几种类型的原核表达载体
在原核细胞中表达外源基因时,由于实验设计的不同,总的来说可产生融合型和非融合型表达蛋白。不与细菌的任何蛋白或多肽融合在一起的表达蛋白称为非融合蛋白。非融合蛋白的优点在于它具有非常接近于真核细胞体内蛋白质的结构,因此表达产物的生物学功能也就更接近于生物体内天然蛋白质。非融合蛋白的最大缺点是容易被细菌蛋白酶所破坏。为了在原核生物细胞中表达出非融合蛋白,可将带有起始密码ATG的真核基因插人到原核启动子和S-D序列的下游,组成一个杂合的核糖体结合区,经转录翻译,得到非融合蛋白。
融合蛋白是指蛋白质的N末端由原核DNA序列或其他DNA序列编码,C端由真核DNA的完整序列编码。这样的蛋白质由一条短的原核多肽或具有其他功能的多肽和真核蛋白质结合在一起,故称为融合蛋白。含原核细胞多肽的融合蛋白是避免细菌蛋白酶破坏的最好措施。而含另外一些多肽的融合蛋白则为表达产物的分离纯化等提供了极大的方便。表达融和型蛋白应非常注意其阅读框架,其阅读框架应与融和的DNA片段的阅读框架一致,翻译时才不至于产生移码突变。
基因工程的载体有克隆载体和表达载体之分。克隆载体中都有一个松弛型复制子,能带动外源基因在受体细胞中复制扩增,这类载体已经作过介绍。表达载体是适合在受体细胞中表达外源基因的载体。组建这类载体比较困难,但所幸的是目前已有数十种被构建成功,并已商品化出售。下面简要介绍几种常用的原核表达载体。
1.非融合型表达蛋白载体pKK223-3
这个载体是由Brosius等在哈佛大学的Gilbert实验室组建的。在大肠杆菌细胞中,它能极有效地高水平表达外源基因。它具有一个强的tac(trp-lac)启动子。这个启动子是由trp启动子的—35区、lacUV5启动子的—10区、操纵基因及S-D序列组成。紧接tac启动子的是一个取自pUC8的多位点接头,使之很容易把目的基因定位在启动子和S-D序列后。在多位点下游的一段DNA序列中,还包含一个很强的核糖体RNA的转录终止子,目的是为了稳定载体系统。因为上游强的tac启动子控制的转录必须由强终止子抑制,才不至于干扰与载体本身稳定性有关的基因表达。载体的其余部分由pBR322组成。在使用pKK223-3质粒时,应相应地使用一个lacI宿主,如JM l05。
2.分泌型克隆表达载体pinⅢ系统
这个载体系统是以pBR322为基础构建的。它带有大肠杆菌中最强的启动子之一,即Ipp(脂蛋白基因)启动子。在启动子的下游装有lacUV5的启动子及其操纵基因,并且把lac阻遏子的基因(1ac I)也克隆在这个质粒上。这样,目的基因的表达就成为可调节的了。在转录控制的下游再装上人工
合成的高效翻译起始顺序(S-D序列及ATG)。作为分泌克隆表达载体中关键的编码信号肽的序列,是取自于大肠杆菌中分泌蛋白的基因ompa (外膜蛋白基因)。在编码顺序下游紧接着的是一段人工合成的多克隆位点片段,其中包括3个单一酶切位点EcoRI,HindⅢ和BamHI。
3.融合型蛋白表达载体pGEX系统
pGEX系统由Pharmacia公司构建,由3种载体pGEX-lXT,pGEX-2T和pGEX-3X以及一种用于纯化表达蛋白的亲和层析介质Glutathione Sepharose 4B组成。载体的组成成分基本上与其他表达载体相似,含有启动子tac及lac操纵基因、S-D序列、lacI阻遏蛋白基因等。这类载体与其他表达载体不同之处在于S-D序列下游是谷胱甘肽巯基转移酶基因,而克隆的外源基因则与谷胱甘肽巯基转移酶基因相连。当进行基因表达时,表达产物为谷胱甘肽巯基转移酶和目的基因产物的融合体。
四、 提高克隆基因表达效率的途径
为了在大肠杆菌中合成某种特殊的真核生物的蛋白质以满足商品生产的广泛需求,仅仅停留在检测水平上的表达是远远不够的,所以,必须设法提高克隆基因的表达效率。就目前所知,有许多因素,诸如启动子的强度、DNA转录起始序列、密码子的选择、mRNA分子的二级结构、转录的终止、质粒的拷贝数以及质粒的稳定性和寄主细胞的生理特征等,都会不同程度地影响到克隆基因的表达效率,而且大多数都是在转译水平上发生影响作用的,因而必须从分析这些因素入手,寻找提高克隆基因表达效率的有效途径。
1.启动子结构对表达效率的影响
为了鉴定出最强的启动子,必须创建出衡量不同启动子转录效率的研究系统。这一系统已由Russell等(1982)创建,他们将任何待测的启动子置于无启动子但处于载体上的半乳糖激酶结构基因(gal K)的前方,根据在Gal K寄主中所合成的半乳糖激酶的水平,衡量启动子的强弱。结果表明,受检启动子的强弱与它们的一致序列(即与-10和-35区序列)相似的程度成正比。进一步的研究表明,—35和—10区之间的距离也是一个重要因素。如果间隔为17个碱基对,启动子表现很强,如果大于17个碱基对,启动子表现较弱。
2.转译起始序列对表达效率的影响
实验证明,连接在S—D序列后面的4个碱基成分的改变会对转译效率发生很大的影响。如果这个区域是由4个A(T)碱基组成,其转译作用最为有效;而当这个区域是由4个C碱基或4个G碱基组成,其转译效率只及最高转译效率的50%或25%。直接位于起始密码子AUG左侧的密码三联体的碱基组成,同样也会对转译的效率发生影响。以β—半乳糖苷酶mRNA的转译为例,当这个三联体碱基组分是UAU或CUU时,其转译最为有效,而如果是UUC,UCA或AGG代替了UAU或CUU,那么它的转译水平将下降20倍。
3.启动子同克隆基因间距离对表达效率的影响
Roberts等(1979)构建了一系列重组质粒,各种质粒之间的区别仅在于启动子和结构基因cro之间的距离不同。将这些不同的重组质粒转化大肠杆菌后,发现cro蛋白质的水平在重组质粒间相差悬殊,最高值比最低值大2000倍。显然,启动子与结构基因间的距离在蛋白质翻译上有巨大作用。进一步的研究还表明:①翻译的起始点和S—D序列必须接近到一定程度;②翻译的起始包括活化的30S核糖体亚基和mRNA 5’末端区域间的互作,这时mRNA的5’末端已折叠成特殊的二级结构。基因表达水平的改变是mRNA二级结构的反映。
4.转录终止区对克隆基因表达效率的影响
在克隆基因的末端,存在一个转录终止区是十分重要的,其原因有如下几个方面:第一,若干非必须的转录本的合成,会使细胞消耗巨大的能量用于制造大量非必须的蛋白质;第二,在转录本上有可能形成一些不期望其出现的二级结构,从而降低了转译的效率;第三,偶然会出现启动子阻塞现象,也就是说,克隆基因启动子所开始的转录,会干扰另一个必要的基因或调节基因的转译。而转录终止区的存在,可使上述这几种不利的现象得以避免。因为有人已经发现,有些强启动子会通读,干扰质粒的复制,结果使质粒的拷贝数反而下降。所以,在基因内部的适当位置上存在着转录的终止区,就能够保证使质粒的拷贝数(也就是基因的表达效率)控制在一个正常的水平上。
5.质粒拷贝数及稳定性对表达效率的影响
限制蛋白质合成的第一步,是发生在核糖体同mRNA分子结合的过程中的。由于细胞中核糖体的数量与mRNA分子相比是大大超量的,因此,提高克隆基因表达效率的途径之一是增加相应的mRNA分子的数量。怎样才能达到这样的目的呢?影响mRNA分子合成速率的因素有两种:第一种是启动子的强度,这在前面已经作了讨论;第二种是基因的拷贝数。提高基因的拷贝数(即基因的剂量)最简单的办法是,将基因克隆到高拷贝数的质粒载体上。
根据实验观察,随着重组体克隆基因表达水平的上升,寄主细胞的生长速率便会相应地下降,同时形态上也会出现一些明显的变化,例如细胞纤维化和脆弱性增加等。如果细菌由于产生出某种
突变而失去了重组质粒,或是经过结构的重排使重组基因无法再行表达,或是质粒的拷贝数大大降低,那么这样的突变菌株便会有很高的生长速度,迅速地成为培养物中的优势菌株。而具有重组质粒的寄主细胞,最终便会被“稀释”掉,使克隆基因无法得到表达。由缺陷性分配引起的质粒丢失现象,叫做质粒分离的不稳定性(segregative instability)。
6.提高翻译水平常用的途径
(1) 调整S-D序列与AUG间的距离 提高外源基因在原核细胞中的表达水平的关键因素之一是调整S-D序列和起始密码子ATG之间的距离,此距离过长、过短都影响真核基因的表达。Marquis人工合成核糖体结合点使S-D序列与起始密码(ATG)的距离为5~9个碱基对,并分别连入7个不同启动子的下游。测试其表达入IL-2的水平,结果发现,在同一种启动子带动下,S-D顺序与ATG间的距离不同,IL-2表达水平可相差2~2000倍。例如在lac启动子带动下,其距离为7个碱基对时,IL-2的表达水平为2581单位,而距离为8个碱基对时,表达水平降至不足5单位。而在PI.启动子带动下,其距离为6个碱基时,IL-2表达水平达9707单位,距离为8个碱基对时,表达水平降至5363单位。这表明根据不同的启动子,调整好S-D序列与起始密码ATG的距离,确实可提高外源基因的表达水平。
(2) 用点突变的方法改变某些碱基 翻译的起始是决定翻译水平高低的一个重要因素。有资料表明,由于紧随起始密码下游的几组密码子不同,可使基因的表达效率相差15~20倍。这主要是改善了翻译的起始和mRNA的二级结构。另外,有人对大肠杆菌各种基因顺序进行了大量分析,根据不同密码子使用频率,将64组密码子分为强、中、弱密码子。如果在不改变编码的氨基酸顺序的条件下,尽量用强密码子取代弱密码子,确有可能提高表达水平。但是,大量的研究表明,含有弱密码子的真核基因是能够在大肠杆菌获得高效表达的。可见,密码子的使用问题并非是影响外源基因在大肠杆菌中表达水平的决定因素。
(3) 增加mRNA的稳定性 多数情况下,细菌的mRNA的半衰期很短,一般仅为1-2min,而外源基因mRNA的半衰期可能更短。若能增加mRNA的稳定性,则有可能提高外源基因的表达水平。研究表明,大肠杆菌的“重复性基因外回文序列”(repetitive extragenic pdindronic sequence)具有稳定mRNA的作用,能防止外切酶的攻击。因此,在外源基因下游插入此序列或其他具有反转重复顺序的DNA片段可起到稳定mRNA、提高表达水平的作用。
7.减轻细胞的代谢负荷
外源基因在细菌中高效表达,必然影响宿主的生长和代谢;而细胞代谢的损伤,又必然影响外源基因的表达。合理地调节好宿主细胞的代谢负荷与外源基因高效表达的关系,是提高外源基因表达水平不可缺少的一个环节。目前常用的方法有:
(1) 诱导表达 使细菌的生长与外源基因的表达分开。将宿主菌的生长与外源基因的表达分开成为两个阶段,是减轻宿主细胞代谢负荷的最为常用的一个方法。一般采用温度诱导或药物诱导。如应用tac启动子时,常用F,tac4的菌株或者将lacI基因克隆在表达质粒中。当宿主菌生长时,lacI产生的阻遏物与lac操纵基因结合,阻碍了外源基因的转录及表达,此时,宿主菌大量生长。当加入诱导物(如IPTG)时,阻遏蛋白不能与操纵基因结合,则外源基因大量转录并高效表达。有人认为,化学诱导比温度诱导更为方便和有效,并且将相应的阻遏蛋白基因直接克隆到表达载体上,比应用含阻遏蛋白基因的菌株更为有效。
(2) 表达载体的诱导复制 减轻宿主细胞代谢负荷的另一个措施是将宿主菌的生长和表达质粒的复制分开。当宿主菌迅速生长时,抑制质粒的复制;当宿主菌生物量积累到一定水平后,再诱导细胞中质粒DNA的复制,增加质粒的拷贝数,拷贝数的增加必然导致外源基因表达水平的提高。质粒pCll01是温度控制诱导DNA复制最好的例子。用此质粒转化宿主菌,25C时宿主中仅有此质粒10拷贝,宿主细胞大量生长;但当温度升高到37C时,质粒大量复制,每个细胞中质粒拷贝数可高达1000个。
8.提高表达蛋白的稳定性,防止其降解
在大肠杆菌中表达的外源蛋白质往往不够稳定,常被细菌的蛋白酶降解,因而会使外源基因的表达水平大大降低。因此,提高表达蛋白质的稳定性,防止细菌蛋白酶的降解是提高外源基因表达水平的有力措施。
(1) 克隆一段原核序列,表达融合蛋白 这里的融合蛋白是指表达的蛋白质或多肽N末端由原核DNA编码,C末端是由克隆的真核DNA的完整序列编码。这样表达的蛋白是由一条短的原核多肽和真核蛋白结合在一起,故称为融合蛋白。融合蛋白是避免细菌蛋白酶破坏的最好措施。在表达融合蛋白时,为得到正确编码的表达蛋白,在插人外源基因时,其阅读框架与原核DNA片段的阅读框架一致,只有这样,翻译时插入的外源基因才不致产生移码突变。
(2) 采用某种突变菌株,保护表达蛋白不被降解 大肠杆菌蛋白酶的合成主要依赖次黄嘌呤核
苷(lon),因此采用lon-缺陷型菌株作受体菌,则使大肠杆菌蛋白酶合成受阻,从而使表达蛋白得到保护。Baker发现大肠杆菌htp R基因的突变株也可减少蛋白酶的降解作用。另外,T4噬菌体的pin基因产物是细菌蛋白酶的抑制剂,将pin基因克隆到质粒中并转化入大肠杆菌中,细菌的蛋白酶便受到抑制,外源基因的表达产物受到保护。
(3) 表达分泌蛋白 表达分泌蛋白是防止宿主菌对表达产物的降解,减轻宿主细胞代谢负荷及恢复表达产物天然构象的最有力措施。在原核表达系统中,人们研究得比较多的主要是大肠杆菌。
大肠杆菌主要由4部分组成:胞质、内膜、外膜及内外膜之间的周间质。一般情况下,所谓“分泌”是指蛋白质从胞质跨过内膜进人周间质这一过程。而蛋白质从胞质跨过内、外膜进人培养液这种情况较为少见,被称为“外排”以区别于“分泌”。蛋白质能够在大肠杆菌中进行分泌,至少要具备3个要素:① 有一段信号肽;
② 在成熟蛋白质内有适当的与分泌相关的氨基酸序列; ③ 细胞内有相应的转运机制。
① 信号肽:信号肽序列对于分泌蛋白质是必需的,其长度一般为15—30个氨基酸。真核生物和原核生物的信号肽在结构上都有以下特征:(a)在氨基末端有一段带正电荷的氨基酸序列,往往是精氨酸或赖氨酸残基,其数目为1—3个;(b)有一个疏水的核心区,含亮氨酸或异亮氨酸残基,位置可以从带正电荷的氨基酸延伸到含切割位点的区域;(c)含有能被信号肽酶水解的切割位点,这个位点常常在丙氨酸之后,有的是在甘氨酸或丝氨酸之后。
原核和真核的信号肽不仅在结构上相似,而且在功能上也具有相似性。Talmage等(1980)发现,细菌的信号肽可以在真核细胞中发生作用,以后他们又发现真核的信号肽序列也能在原核细胞中起作用。这两种信号肽序列在切割位点上具有相似性,细菌的信号肽酶可以切除真核的信号肽。
② 成熟蛋白质内有与分泌相关的氨基酸序列:对于很多蛋白质来说,信号肽对其分泌是必需的,但仅有信号肽还不能完成分泌过程,很多在大肠杆菌中分泌的蛋白质需要其成熟体中的氨基酸序列来引导其到达最终的目的地。缺少这部分相应的氨基酸序列,分泌就不能正常进行,这已被基因融合和基因删除两方面的实验所证实。
③ 细胞内的转运机制:和真核细胞一样,原核细胞内蛋白质的分泌也需要数种细胞内蛋白质的参与。目前已经发现了信号肽酶I、信号肽酶Ⅱ等近20种蛋白质参与了分泌过程。与真核细胞不同的是,在大肠杆菌中,蛋白质的合成和蛋白质的分泌过程有些是同步的,有些则采取了先翻译出蛋白质,然后再分泌出来的翻译后机制。而分泌的能量来源于高能磷酯键的水解或质子的推动力。
通过以上讨论可以看出,并非任何蛋白质都可以在大肠杆菌中得到分泌表达。这主要是由于受所表达的成熟蛋白质的氨基酸序列和构型的限制。由于原核生物和真核生物蛋白质的分泌机制十分相似,真核生物中的分泌蛋白大多能在大肠杆菌中得到很好的分泌表达。还有一些相对分子质量小的多肽也往往能得到分泌表达。但对原属真核细胞的非分泌蛋白,很难在大肠杆菌表达后再分泌到周间质,而最多只能结合到细胞内膜上。因此,欲在大肠杆菌中表达分泌型外源蛋白时,必须首先考虑目的蛋白被分泌的可能性。其次,要考虑到在应用分泌蛋白技术路线时,可能遇到目的蛋白的某些序列被信号肽酶错误识别,以致把目的蛋白切成碎片进而部分或大部分失去生物活性。因此,要慎用这一技术路线。
第二节 外源基因在真核细胞中的表达
基因的体外重组和表达体系起始于大肠杆菌,迄今,它仍然是常用的体系。随着对真核基因表达和调控研究的深入,证明酵母也可以成为有用的表达体系,甚至植物的原生质体、动物的培养细胞等,都可以像大肠杆菌一样作为受体,这就为基因工程的操作开辟了全新的研究领域,也展示出光明的发展前景。
一、 真核细胞基因克隆载体
1.在酵母细胞中克隆基因常用的载体
酵母是研究真核生物DNA的复制、重组、基因表达以及调控过程等的理想材料,为此,也构建了许多人工质粒载体。根据这些质粒和复制方式不同,把它们分为整合型(YIp)、复制型(YRp)、附加体型(YEp)等。以上3种类型载体的共同特点是:
① 能在大肠杆菌中克隆,并且具有较高的拷贝数。这样可使外源基因转化到酵母细胞之前先在大肠杆菌中扩增;
② 含有在酵母细胞中便于选择的遗传标记。这些标记一般能和大肠杆菌相应的突变体互补,如Leu2+,his+,Ura 3+,Trp+等。有些还携带有用于大肠杆菌的抗生素抗性标记;
③ 含有合适的限制酶切割位点,以便外源基因的插入。
酵母经过处理后,也像大肠杆菌一样能够接受外源重组体的导人。酵母的转化过程一般是先用酶消化细胞壁形成原生质体,经氯化钙和聚乙二醇(PEG)处理,使质粒DNA进入细胞,然后在允许细
胞壁再生的选择培养基中培养。
(1)整合型载体(YIp) YIp型载体是由大肠杆菌质粒和酵母的DNA片段构成的,如PYeleul0是由Co1E1质粒和酵母DNA提供的亮氨酸(Leu2+)片段构成。由于leu 2+基因片段不含自主复制起始区,只作为选择标记,所以YIp型载体在酵母细胞中不能自主复制。YIp型载体可经转化作用导人受体细胞,进入细胞后的YIp质粒DNA通过与受体染色体DNA的同源重组,被整合到染色体上,并随染色体一起复制。这样质粒DNA以单拷贝基因形式稳定地遗传。
(2)复制型载体(YRp) YRp型载体是酵母的DNA片段插入到大肠杆菌质粒中构成的。其中酵母DNA片段不但提供了选择标记,还携带来自酵母染色体DNA的自主复制顺序(ARS)。因为它同时含有大肠杆菌和酵母的自主复制基因,所以能在两种细胞中存在和复制。可以在两种截然不同的生物细胞中复制的载体称为穿梭载体(shuttle vector)。穿梭载体在基因工程中广泛使用。
(3)附加体型载体(YEp) YEp型载体一般由大肠杆菌质粒、2um质粒以及酵母染色体的选择标记构成。2um质粒是酿酒酵母含有一个长度为2um的内源质粒,它的DNA分子通常与蛋白质结合构成复合物,存在于核区。2um质粒含有自主复制起始区(ori)和STB区,STB序列能够使质粒在供体细胞中维持稳定。利用2um质粒,人们已经构建出许多YEp型载体。
2.植物基因克隆的载体——Ti质粒
Ti质粒存在于能够引起植物形成冠瘿瘤的土壤农癌杆菌中。这种肿瘤的形成是由Ti质粒决定的,故称为诱导肿瘤的质粒(tumor inducing plasmid),简称Ti质粒。
(1)Ti质粒的结构和特性 在Ti质粒诱导的肿瘤细胞中,具有大量的不正常的氨基酸类物质——冠瘿碱(opine),这是一类相对分子质量较小的碱性氨基酸衍生物,由Ti质粒DNA编码。正常植物细胞不能合成和利用冠瘿碱,而土壤农癌杆菌能够选择性地利用这类化合物作为自己唯一的能源、碳源和氮源。最常见的冠瘿碱有章鱼碱(octopine)、胭脂碱(nopaline)和农杆碱(agropine)。根据所产生的冠瘿碱的类型和差别,可将冠瘿瘤细胞分为章鱼碱型、胭脂碱型和农杆碱型肿瘤细胞。
每种土壤农癌杆菌只含有一种Ti质粒,或是章鱼碱质粒,或是农杆碱质粒。Ti质粒是环状dsDNA,相对分子质量为1.2X108,大约185kb,如图。土壤农癌杆菌中的T-DNA为转移DNA,是Ti质粒最重要的组成部分。在土壤农癌杆菌感染植物细胞后,Ti质粒中的T-DNA区能够随机地共价整合到植物染色体DNA中。它所携带的基因主要有两个功能,一是决定肿瘤的形成和形态,二是控制冠瘿碱的合成。这也是Ti质粒的主要功能,说明T-DNA是Ti质粒的核心区段。
(2)Ti质粒的作用和改造 Ti质粒的T-DNA能够自发地整合到植物染色体DNA上,诱导植物形成肿瘤,是一种理想的天然植物基因工程载体。Ti质粒能够转化裸子植物和双子叶被子植物。后来实验又证明,重要的禾谷类植物玉米,也能被T1质粒转化,这为Ti质粒发展成为单子叶植物克隆载体带来了希望。Ti质粒中的T-DNA能整合到宿主ch-DNA上成为正常的遗传成分,世代相传。T-DNA上的opine合成酶基因具有一个强启动子,能启动外源基因在植物细胞中高效表达,这都是Ti质粒作为载体的优点。但直接使用Ti质粒也存在两大困难:一是Ti质粒相对分子质量太大(约200kb),限制酶位点多,不易进行体外重组DNA操作。二是被T-DNA转化的植物细胞成为肿瘤细胞,不能进行分化,再生成植株。这也是Ti质粒作为载体的缺点。
对Ti质粒进行了以下改造,使之符合载体的要求,: ① 保留T-DNA的转移功能;
② 取消T-DNA的致瘤性,使之进入植物细胞后不至于干扰细胞的正常生长和分化,转化体可再生植株;
③ 通过简便的手段可使外源DNA插人T-DNA之中,并随着T-DNA整合到植物染色体上。 3.动物细胞基因克隆的载体
哺乳动物细胞若不借助一些特殊的手段,很难捕获和表达外源的DNA。现已有多种技术来改变这种状况,如磷酸钙等的转染技术、电穿孔技术、显微注射技术、原生质体融合技术等。其中借助病毒载体将外源DNA导人动物细胞,也是极为重要的一方面。在众多的病毒载体中,猿猴空泡病毒40(simian vacuolating virus 40,SV40)载体是研究得最为详细、发展最快的一种。下面对SV40载体作简要介绍。
(1)SV40病毒 SV40病毒是一种小型二十面体的蛋白质颗粒,由VPl,VP2和VP3三种病毒外壳蛋白构成,中间包装着一条环状的病毒基因组DNA。SV40DNA大小为5.2kb,很适于基因操作。对其DNA顺序也进行了全序列分析。加上对SV40的复制和转录的研究,为发展SV40载体奠定了基础。
SV40对不同种的细胞有不同的感染效应。SV40对猿猴细胞的感染,能产生具有感染性的病毒颗粒,并使寄主细胞裂解。把猿猴细胞称为受纳细胞(permissive cell)。若SV40感染的是啮齿类动物,如小鼠或仓鼠的细胞,则不会产生感染性的颗粒,此时的病毒基因组整合到寄主细胞的染色体上,细胞就会发生癌变。这类细胞被称为SV40的非受纳细胞(non—permissive cell)。人体细胞处
于二者之间,称半受纳细胞。
目前绝大多数实验室所使用的SV40载体都是经过改造的,通常只保留SV40的复制起始区和早期区域启动子以及多聚腺苷酸化位置和小t抗原的内含子。
图8—24介绍了一个典型而又通用的哺乳动物基因载体pSV2:
a区包含从1~323bp的序列,其中包括SV40的复制起始区、72bp的增强子序列、早期区域启动子和转录起始位置;
b区包括从324~3 369bp的序列,其中包括原核生物的基因序列,即大肠杆菌质粒pBR322的复制起点区和氨苄青霉素抗性基因;
c区包含从3 370—4217bp的序列,其中包括SV40小t抗原基因的内含子(拼接信号)和多聚腺苷酸化位置。这种设计使质粒既能在大肠杆菌中扩增,又能直接用于转染哺乳动物细胞。
d区是指从4218bp~0bp的序列,它专门容纳需要表达的编码序列,其中包括外源基因和标记基因。由于这类载体不通过包装过程,故可插入10kb以上的外源片段。这些序列可在SV40的早期区域的启动子控制之下而得到表达。受侵染的动物细胞不会裂解,因而可建立稳定的细胞株,通过使用标记基因,可从低转染率的群体中,选出转化株。值得注意的是,由于pSV2不存在SV40的大T抗原编码区,故不能在猴细胞中复制。因此,pSV2载体在哺乳类动物细胞中稳定增殖的唯一途径是整合到寄主染色体上,这种整合非常稳定,即使转化细胞培养在非选择条件下,经100代后,重组基因仍不发生丢失或重排。
因篇幅问题不能全部显示,请点此查看更多更全内容