· 用户注册 · 设为首页 · 加入收藏 · 联系站长 · · ·
 | 网站首页 | 文章中心 | 图片中心 | 影音在线 | 下载中心 | 许愿祝福 | 我要投稿 | 
您现在的位置: 生物小吧 >> 文章中心 >> 高校教程 >> 生物化学与分子生物学 >> 正文 今天是:
9.4 真核生物基因组结构特点
作者:生科院    文章来源:西北农林科技大学    点击数:16291    更新时间:2011/4/15
         【字体:

 

9.4.1 真核生物基因组的特点

①基因组远大于原核生物的基因组,具有多个复制起点,而每个复制子的长度较小。

如人的单倍体基因组有3×109bp,大约含有2~2.5万个基因;而E. coli基因组约4×106bp,约有4000个基因。

 

②真核生物基因组DNA与组蛋白等构成染色质,被包裹在核膜内,核外还存在遗传成分(如线粒体DNA等)。体细胞一般是二倍体(diploid),即有两份同源的基因组。

 

③真核生物基本上不存在操纵子结构,一个结构基因转录生成一条mRNA,即mRNA是单顺反子,许多蛋白是由相同或不同的亚基构成,因此涉及多个基因的协调表达。

 

④非编码区存在大量重复序列,重复序列或集中成簇,或散在分布于基因间。

⑤基因组中不编码的区域多于编码区域。并且,编码蛋白质的基因一般是不连续的,即有外显子和内含子,在转录后经剪接成成熟mRNA后,才能翻译成蛋白质。

人类基因组中可能仅有3%左右的序列是编码区(coding region)。

 

1996年解出酵母菌(Saccharomyces cerevisiae)的基因组序列,共有12,068kb,约含5885个蛋白质基因、140个rRNA基因、275个tRNA基因、及40个小RNA基因。

平均每2kb有一个基因,而大肠杆菌平均每1kb就有一个基因。

真核生物的基因分布比原核生物稀疏。

 

9.4.2 DNA序列的特性

9.4.2.1 高度重复序列(high repetitive sequences)

高度重复序列在基因组中重复频率可高达106以上,因此复性速度很快。序列长度一般为10~300bp的较短序列。

在基因组中所占比例随种属而异,约占10~60%,人基因组中约占20%。

 

⑴高度重复序列的种类

重复顺序出现频率可高达106~108。序列长短不一,占基因组的1~30%。

①反向重复序列

反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。这种重复顺序复性速度极快。序列长度100~1000bp,约占人基因组的5%。

 

②串联重复序列

由2~172bp重复单位排列成串而形成的。

由于碱基组成不同于其他部份,在等密度梯度离心时与主体DNA分开,称卫星DNA。

 

串联重复序列包括

(a)卫星DNA(satellite DNA)

重复区涵盖100kb~5Mb,大部分位于染色体着丝点。重复单位2bp~172bp。其中一种重复单位在170bp左右,为灵长类所独有,非洲绿猴重复单位为172bp。人类为171bp,约占每个染色体的3~5%。

 

(b)小卫星(minisatellite)DNA

重复区域在0.1kb~20kb间。主要包括重复单位在9~80bp之间的可变数目串联重复序列(variable number of tandem repeats,VNTR)和端粒。VNTR大多位于非编码区,重复的数目随个体差异很大。可用于DNA指纹(DNA finger printing)。

人类端粒的重复序列是TTAGGG,涵盖10~15kb,老化后可能变短。

 

(c)微卫星(microsatellite)DNA

重复单元1~6bp的短串联接重复(short tandem repeats,STR),涵盖区域小于150bp。

微卫星DNA里的重复数目亦随个体而异,广泛被用於DNA指纹。在人细胞组中卫星DNA约占5-6%。

卫星DNA只发现于真核生物,占基因组10%~60%。

 

原位杂交技术证明卫星DNA位于染色体的着丝点和端粒处。

 

③散布重复序列

散布重复序列可看成是一种转座子(transposable elements),它们借DNA重组机制而转移。经过许多代的遗传累积,DNA的某段序列会散布各处。由于突变的结果,每个重复单位的序列并非完全相同。

 

⑵高度重复顺序的功能

①参与复制水平的调节

反向序列常存在于DNA复制起点区的附近。许多反向重复序列也是一些蛋白的结合位点。

②参与基因表达的调控

DNA的重复顺序可以转录到hnRNA分子中,有些反向重复顺序可以形成发夹结构,对稳定RNA分子免遭分解有作用。

 

③参与转座作用

转座子的末端一般都包括反向重复顺序。由于这种顺序可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可被参与转位的特异酶所识别。

④与进化有关

高度重复顺序的核苷酸序列具有种属特异性,但相近种属又有相似性。

 

⑤同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹

⑥卫星DNA成簇的分布在染色体着丝点附近,可能与减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序。

 

9.4.2.2 中度重复序列

中度重复序列(moderate repetitive sequences)指在基因组中重复频率10~105的顺序,序列长100~5000bp;在基因组中所占比例约占10~40%。分布于结构基因之间、基因簇中、以及内含子中。

中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。

 

中度重复序列一般不编码蛋白质。功能可能类似于高度重复顺序。

有些中度重复顺序是编码蛋白质或rRNA的结构基因,如rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。

 

重复顺序的长度不同,有重复顺序平均长度为300bp的短分散片段(short interspersed repeated segments, SINES),如Alu家族、Hinf家族等;以及重复顺序平均长度3500~5000bp的长分散片段(LINES),如KpnⅠ家族等。

 

几种典型的中度重复顺序

Alu家族

Alu序列分散在整个哺乳动物基因组中,平均每5kb就有一个Alu顺序。在间隔DNA,内含子中都有Alu序列。约占人基因组的3~6%。

Alu序列长度约300bp,每个序列中有一个限制性内切酶Alu的切点(AG↓CT)而定名为Alu家族。

 

Alu顺序具有种的特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列。

Alu家族的功能:由于在许多hnRNA中含有大量的Alu顺序,而且,Alu顺序含有与某些真核基因内含子剪接接头相似的序列,因而,Alu顺序可能参与hnRNA的加工与成熟。

 

KpnⅠ家族

用限制性内切酶KpnⅠ切灵长类动物的DNA,在电泳谱上可看到4个不同长度的片段,这就是KpnⅠ家族。占人体基因组的1%。

KpnⅠ家族成员顺序比Alu家族长,而且不均一,呈散在分布,属于中度重复顺序的长分散片段型。

 

Hinf家族

这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50~100个拷贝,分散在不同的区域。

多聚dT-dG家族

这一家族多个dT-dG双核苷酸串联在一起,分散于人体基因组中。在人基因组中,多聚dT-dG家族顺序的平均长度为40bp。

 

rRNA基因

rRNA基因集中成簇存在,各重复单位中的rRNA基因都相同。这样的区域称为rDNA,如染色体的核仁组织区(nucleolus organizer region)即为rDNA区。

真核生物的18S、5.8S和28SrRNA基因构成一个长7.5kb转录单位。

在高等生物中,5SrRNA单独转录的,而且其在基因组中的重复次数高于18S和28S基因。

 

多个转录单位和不转录的间隔区(21~100bp)构成一个rRNA基因簇(rDNA簇),间隔区类似卫星DNA的串联重复顺序。

由于间隔区中的串联重复次数不同,因此,不同间隔区的长短差异很大。

 

 

组蛋白基因

组蛋白基因在各种生物体内的拷贝数因种而异。组蛋白基因没有一定的排列方式,在拷贝数大于100的基因组中串联重复形成基因簇。

在果蝇和非洲爪蟾中,5种组蛋白组成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位形成串联重复排列。

 

哺乳动物的组蛋白基因一般呈散在分布或集成一小群。

所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上极相似。

 

9.4.2.3 单拷贝序列

单拷贝序列(single copy sequences)在单倍体基因组中只出现一次或数次,又称低度重复顺序。占哺乳类基因组的50~80%,人基因组中约占65%。序列长750~2000bp,相当于一个结构基因的长度。

单拷贝顺序中只有一小部分编码蛋白质,其它部份的功能尚不清楚。

在基因组中,单拷贝顺序一般与重复序列相间排列。

 

真核生物的结构基因两侧有非编码区,在基因内部有间隔序列(intervening sequences),称为内含子(intron),编码区称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来。因此整个生物的基因是断裂基因,转录成RNA后经过剪接切除内含子成熟为mRNA。

 

单拷贝基因通过基因扩增仍可合成大量的蛋白质,如一个蚕丝心蛋白基因可作为模板合成104个丝心蛋白mRNA,每个mRNA可存活4d,共合成105个丝心蛋白,这样,在几天之内,一个单拷贝丝心蛋白基因就可以合成109个丝心蛋白分子。

 

9.4.3 多基因家族与假基因

9.4.3.1 多基因家族(multi gene family)

多基因家族是一群具相似序列的基因,编码在结构和功能上相关联的一个蛋白质家族(包括在结构和功能上相关的rRNA和tRNA)的若干个基因。

 

①简单多基因家族

各成员相同或基本相同,如5SRNA基因,在爪蟾中5S基因与非转录间隔区相间排列,组成一个重复单位。5SrRNA基因后面是一段并不转录的假基因。

 

②复杂的多基因家族

各成员不完全相同,但功能相关,串联在一起成为一个重复单位。

如H2A、H2B、H3及H4属于相同的组蛋白家族。

果蝇的tRNA基因家族。

 

③由发育阶段控制的多基因家族

如人的b-珠蛋白基因家族。成人的血红蛋白A(HbA)占总血红蛋白的97%,血红蛋白A2(HbA2)占2%,其余1%是HbF。

HbA是由2条a链和2条b链组成的四聚体(a2b2),HbA2为a2d2四聚体,HbAF为a2g2四聚体。

 

在哺乳动物中编码血红蛋白的a-样和b-样亚基的基因分别形成两个不同的基因族,并存在于不同的染色体上。这两个基因族是按不同的发育时期表达不同的基因。

 

人类血红蛋白的亚基

 

b珠蛋白基因家族包括e、Gg、Ag、d及b。y是假基因。它们的基因聚集在第11号染色体。HS1至HS4是调控区。

 

同一个多基因家族的成员可成簇地分布在一条染色体上,如组蛋白基因家族成簇地集中在第7号染色体长臂3区内;也可分布于不同染色体上。

 

9.4.3.2 假基因(pseudo gene)

假基因是在同一多基因家族中并不产生有功能的基因产物的基因。

①非处理过假基因(nonprocessed pseudo genes):由成簇的重复基因突变而来,也称传统性假基因(conventional pseudo genes),如b珠蛋白基因家族里的y。重复基因有多个副本,若其中几个发生突变个体仍能生存而将此变异传至后代。

 

②处理过假基因(processed pseudo genes):处理过假基因大多来自于DNA重组。

假基因可能是mRNA经反转录产生cDNA,再整合到DNA中形成的,因此该假基因没有内含子,两侧有顺向重复序列。在这个过程中,可能同时会发生缺失,倒位或点突变等变化,而使假基因不能表达。

 

超基因(Super gene):在一个基因簇内含有几百个功能相关的基因。

如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。

 

9.4.4自私DNA(selfish DNA)

在哺乳动物基因组中有大量的非编码顺序,如高度重复序列,内含子,间隔DNA等。其中只有很小一部分具有调节功能,绝大部分都没有功能。

在这些非编码顺序中虽积累了大量缺失、重复或其它突变,但对生物并无影响,它们的功能似乎只是自身复制,称这类DNA为自私DNA或寄生DNA(parasite DNA)。

自私DNA的功能目前还不了解。

 

9.4.5 限制性片段长度多态性

在同种生物的不同个体间,尽管其蛋白质产物的结构和功能完全相同或仅存在细微的差异,但在DNA水平却存在差异,尤其在不编码蛋白质的区域以及没有重要调节功能的区域差异更大。

由于DNA顺序上的大多数突变是不影响生物体表型的中性突变,因而无法用传统的遗传学方法来研究。

 

分子生物学技术可从DNA水平上直接分析生物体的突变。

若DNA序列中的某个碱基突变产生了某种限制性内切酶的位点。利用此限制性内切酶消化时会产生与正常不同的限制性片段。这样,在同种生物的不同个体中会出现不同长度的限制性片段类型,即限制性片段多态性(Restriction Fragment Length Polymorphism,RFLP)。

 

RFLP分为两类型:①点多态性。②由于DNA分子内部发生较大的顺序变化所产生的多态性。

 

9.4.5.1 点多态性

点多态性(point polymorphism)是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性。

这类多态性实际上是双态的,即有(+)或无(-)。

 

b珠蛋白第6个Glu→Val引起贫血。对应于第5~7个aa的序列5‘-CCTGAGGAG-3’,包含MstII的识别序列CCTNAGG。两旁最近的MstII切点是5’端1.2kb处和3’端0.2kb处。因此MstII能将正常的DNA切成1.2kb和0.2kb。

 

变异的b珠蛋白第6个aa的GAG突变成GTG,使MstII无法在此处切下,于是产生一个1.4kb的片段,这个差别能够以b珠蛋白的DNA做探针显示出来。

 

9.4.5.2 高变区DNA与DNA指纹

DNA分子内部发生较大的顺序变化产生的多态性又可分成两类:①由于DNA顺序上发生突变如缺失、重复、插入所致。②是近年发现的所谓“高变区”。

 

高变区(highly variable region)是由多个串联重复顺序组成的,不同个体高变区内串联重复的拷贝数不同而造成高变区长度不同,而使高变区两侧限制酶识别位点的固定位置随高变区的大小而发生相对位移。

这一类型的RFLP是由于高变区内串联重复顺序的拷贝数不同所产生的,其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。

 

DNA指纹

人的卫星DNA是由短的DNA片段(10bp左右)多次重复构成的。重复片段的组成和拷贝数在不同个体及基因组的不同位置上不同。

 

提取不同个体的基因组DNA,用其切点能识别序列为4个碱基而又不切割该重复片段的限制性内切酶在重复片段的两侧切割基因组DNA,电泳分离。再与含有这些重复序列的特异性探针杂交,显示有个体特异性的图谱,即DNA指纹。

 

DNA顺序中有大量的单个碱基的替换,通常的技术只能检测出影响到限制性内切酶识别位点上的突变。

因为DNA的中性突变常以孟德尔显性遗传方式遗传给下一代,所以对这类突变检测已广泛用于遗传病的诊断、产前诊断、亲子鉴定以及法医学上对罪犯的确认等。

 

DNA指纹的图谱取决于所用探针的核心序列(即重复序列中的重复单位)。目前有两种探针,其核心序列分别为AGAGGTGGGCAGGTGG和AGGGCTGGAGG。

这两种序列在人体基因组中不同的位置重复次数不同,而在不同个体的基因组中,对应位置上这两种核心序列的重复次数也不同。用这两种探针之一与合适的酶切的人基因组DNA片段杂交,在不同的个体将得到不同的DNA指纹。

 

对由于高变区重复片段长度不同所引起的RFLP来说,在基因组上,某位置核心序列的重复次数在不同的个体不同。

如在个体A为10个拷贝,个体B为15个拷贝,而个体C又可能为18个拷贝等。

因此,在不同个体同一个相应位置上核心序列的重复次数是多态的。即使在基因组上的某位置核心序列的重复次数相同,被酶切出的长度相同,但在其它位置该序列重复次数可能不同。产生完全相同的机会小于6×10-9。

 

DNA指纹技术用于亲子鉴定和法医上对罪犯的确认等领域。

 

罪犯留下的血迹、体液或一根毛,就可用DNA指纹判定是否是疑犯为。

 

 

总统、传闻儿子及卫星DNA

长久以来人们便一直认为Eston Hemings是美国的杰佛逊总统和他的女黑奴Sally Hemings所生。另外,Thomas Woodson家族的人亦认为他们是杰佛逊总统的后代。

分析Y染色体的微卫星DNA,杰佛逊总统并无其他儿子,因此用他的叔叔的后代的染色体来分析。

分析Y染色体的微卫星DNA

共分析11个微卫星区域,每个区域里的重复数目如下:

杰佛逊总统的叔叔的后代

15、12、4、11、3、9、11、10、15、13、7

Eston Hemings的后代

15、12、4、11、3、9、11、10、15、13、7

Thomas Woodson的后代

14、12、5、11、3、10、11、13、13、13、7

 

结果充分显示,Eston Hemings是杰佛逊总统的儿子。但是Thomas Woodson与杰佛逊总统并无亲属关系。(1998,Nature,396:27-28)

Jefferson,1743~1826,1801~09第三任总统。

 

9.4.6 线粒体基因组

线粒体是真核细胞内能量生成的场所,也是脂肪酸和某些蛋白质合成的场所。

线粒体有自己的一套遗传控制系统,同时也受到细胞染色体DNA的控制。

 

9.4.6.1 线粒体DNA的性质

动物和酵母线粒体DNA(mtDNA)一般为双链环状分子,植物多为线形。(原生动物中的草履虫和四膜虫的mtDNA是线性分子)。

不同生物的mtDNA分子大小差异较大,动物的mtDNA较小(10×106),植物的mtDNA较大(70~200×106)。

mtDNA复制属于半保留复制,可以是D环复制、θ型复制或滚环复制。

 

9.4.6.2 线粒体基因组

呼吸链中的某些蛋白质或酶是mtDNA编码的。线粒体有自己的rRNA,tRNA,核糖体等可以表达自己的基因合成一些蛋白质。

线粒体的基因组至少包括:

tRNA基因:啤酒酵母mtDNA中有24个tRNA基因,人mtDNA中有22个tRNA基因。

rRNA基因:人mtDNA中有1个拷贝的16S及12SrRNA基因。

 

细胞色素氧化酶基因:Cyt氧化酶的7个亚基中有3个亚基由mtDNA编码,4个亚基由细胞核DNA编码。

ATP酶基因:ATP酶分子量为340KD,含有10个亚基,其中2个由mtDNA编码。

细胞色素还原酶(b,c复合物)基因:酶的7个亚基中的1个由mtDNA编码。

还有一些抗药性基因也在mtDNA上。

 

人mtDNA基因组

长16569bp

 

NADH脱氢酶的6个亚基由ND1-5编码。

tRNA的基因分散在编码rRNA和多肽链的顺序之间或L链上。

哺乳动物mtDNA除与DNA复制起始有关的区域D环(D-loop)外,mtDNA基因组上基因间无间隔区,基因中亦无内含子,甚至有基因重叠现象。

 

人mtDNA只有一个启动子位于不编码的D环上,从此开始沿顺时针转录合成一条多基因RNA前体。在前体RNA分子中rRNA和mRNA被tRNA隔开。这些tRNA序列可作为核酸酶切割RNA前体的识别信息,RNA前体经过割,可使tRNA、rRNA和mRNA自然分开,经进一步加工成为成熟的rRNA、tRNA和mRNA分子。mRNA的polyA尾是在其前体与tRNA分开后加上的。

9.4.6.3 线粒体的密码系统

mRNA上的密码子和tRNA上的反密码子相对应。20种氨基酸有61种密码子,按摆动学说最少需要32种tRNA才能完全识别mRNA中的61个密码子。

但线粒体中tRNA的种类少于32种(人的mtRNA只有22种)。表明线粒体的密码系统与通用的密码系统不同。

 

①哺乳动物mtDNA的遗传密码的特点

UGA不是终止信号,而是Trp的密码。因此,线粒体tRNAtrp可识别UGG和UGA两个密码子。

多肽内部的Met由AUG和AUA两个密码子编码;而起始Met由AUG,AUA,AUU和AUC编码。

AGA,AGG不是Arg的密码子而是终止密码子,因此,在线粒体密码系统中的4个终止密码子(UAA,UAG,AGA,AGG)。

 

②线粒体tRNA的反密码子的特点

由于密码子简并性,若不同密码子的前两位碱基相同,对应的mttRNA的反密码子5‘摆动位上的核苷酸如果为U,则可以与密码子3’位的4种核苷酸配对,因而,一个tRNA可以识别4种密码子。

mttRNA结构与细胞质tRNA有区别。如D环和TφC环中一些保守的核苷酸也发生了变化。tRNASer缺乏D臂。

mttRNA三维结构以及与mt核糖体的作用方式与细胞质tRNA不同。

 

③线粒体DNA的双重遗传控制

线粒体中的蛋白质合成系统与细菌的相似。此外,mtDNA的复制和转录都是自己的聚合酶来完成的。mtRNA聚合酶只是一条简单的多肽链,此酶对原核细胞转录酶抑制剂利福平敏感。

线粒体的蛋白质合成也受细菌蛋白质合成抑制剂如氯霉素,链霉素的抑制。

说明线粒体的许多组份不受细胞核的控制,而且在许多方面与原核生物的相似。

 

呼吸链的一些酶的部分亚基为核基因所编码,其余亚基是mtDNA编码。

根据线粒体的这些特点Margulis提出了线粒形成的内共生学说(endosymbio-nttheory)。在进化过程中原始的厌气细菌吞噬了原核生物(如细菌,蓝绿澡等)形成共生关系。寄生为共生者提供营养和保护,共生者为寄主提供能量生成系统。最终,共生者演化成细胞的组成成份──线粒体。

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    生物小吧