人類基因組

染色體

编辑

人類基因組是由23對染色體(共46個)所構成,每一個染色體皆含有數百個基因,在基因與基因之間,會有一段可能含有調控序列和非編碼DNA的基因間區段。

人類擁有23對不同的染色體,其中22對屬於常染色體(體染色體),另外還有1對能夠決定性別的性染色體,分別是2或1條X染色體與0或1條Y染色體。1號到22號染色體的編號順序,大致符合他們由大到小的尺寸排列。最大的染色體約含有2億5千萬個鹼基對,最小的則約有3800萬個鹼基對[2]。這些染色體通常以細絲狀存於細胞核內,若將單一細胞內的染色體拉成直線,那麼將大約有1.83公尺(6英尺)長[3](1英尺=30.48公分)。

在人類個體的體細胞中,通常含有來自親代的1到22對體染色體,再加上來自母親的X染色體,以及來自父親的X或Y染色體,總共是46個(23對)染色體。科學家將這些染色體分為7組:1號到3號是A組;4號與5號是B組;X染色體以及6號到12號是C組;13號到15號是D組;16號到18號是E組;19號與20號是F組;21號、22號與Y染色體是G組[4]。對於一般人類來說,每個細胞核內只有兩套染色體。

基因

编辑

人類與其他物種的基因組比較(大約)[5][4]

物種

鹼基對數量

基因數量

Mycoplasma genitalium黴漿菌(生殖器支原體)

580,000

500

Streptococcus pneumoniae肺炎雙球菌

2,200,000

2,300

Haemophilus influenzae流感嗜血桿菌

1,830,140

1,700

Escherichia coli大腸桿菌

4,600,000

4,400

Saccharomyces cerevisiae釀酒酵母

12,000,000

5,538

Caenorhabditis elegans秀麗隱杆線蟲

97,000,000

18,250

Arabidopsis thaliana阿拉伯芥(擬南芥)

125,000,000

25,500

Drosophila melanogaster黑腹果蠅

180,000,000

13,350

Oryza sativa亞洲稻

466,000,000

45,000-55,000

Mus musculus小家鼠

2,500,000,000

29,000

Homo sapiens人類

2,900,000,000

27,000

人體內估計約有20000到25000個蛋白質編碼基因。原本這個估計的數目超過100000,在更好的基因組序列品質與基因識別技術出現之後,才逐漸向下修正為現在的數字。雖然人類的基因數量比起某些較為原始的生物(如線蟲與果蠅)更少,但是在人類細胞中使用了大量的選擇性剪接(alternative splicing;將穿插在內含子中的外顯子以選擇性的方式進行轉錄),這使得一個基因能夠製造出多種不同的蛋白質,且人類的蛋白質組規模也較前述的兩個物種更龐大。

大多數人類基因擁有許多的外顯子,且人類的內含子比位在其兩端的外顯子更長。這些基因參差不齊地分佈在染色體中,每一個染色體皆含有一些基因較多的區段與基因較少的區段。這些區段的差異,則與染色體帶(chromosome bands)及GC含量相關。基因密度所顯現的非隨機模式之涵義與重要性尚未明瞭。

除了蛋白質編碼基因之外,人類的基因組還包含了數千個RNA基因(製造非編碼RNA),其中包括用來轉錄轉運RNA(tRNA)、核糖體RNA(rRNA)與信使RNA(mRNA)的基因。其中轉錄rRNA的基因稱為rDNA,分佈在許多不同的染色體上。

調控序列

编辑

人類基因組含有許多不同的調控序列,並以此來控制基因表現。這些序列是典型的短序列,會出現在靠近基因的位置。由於高通量表達(high-throughput expression;指利用電腦與機器輔助以進行大量的序列分析)技術與比較基因組學研究的出現,人們開始系統性地了解這些調控序列,以及它們共同構成的基因調控網路(gene regulatory network)。

人們之所以能夠出辨認哪些基因序列是調控序列,是因為生物在演化過程中對基因的保留。以大約7千萬年前到9千萬年前分支的人類與老鼠為例[6]:若以電腦比較兩者的基因序列,並且將兩者皆保有的非編碼序列辨識出來,就可以知道哪些基因序列可能對於基因調控來說相當重要[7]。

人類所擁有的調控序列所在位置,可以利用河豚的基因定位出來。因為河豚與人類擁有相同的基因,同時也擁有和人類相同的調控序列,但是「垃圾」基因比人類更少。如此較為簡潔的DNA序列,使得調控基因的位置較容易定位[8]。

其他DNA

编辑

蛋白質編碼序列(也就是外顯子)在人類基因組中少於1.5%[1]。在基因與調控序列之外,仍然有許多功能未知的廣大區域。科學家估計這些區域在人類基因組中約占有97%,其中許多是屬於重複序列(重複序列)、轉位子(transposon)與偽基因(pseudogene)。除此之外,還有大量序列不屬於上述的已知分類。

這些序列大多數可能是演化的產物,現在已經沒有作用,也因此有時會被稱作是「垃圾DNA」(junk DNA)[9]。不過有一些跡象顯示,這些序列可能會經由某些仍然未知的方式產生作用。最近一些使用微陣列技術所作的實驗發現,大量非基因DNA事實上會被轉錄成為RNA[10],這顯示轉錄作用背後可能還存在一些未知的機制。此外,不同種類的哺乳動物在演化的過程中共同保留了這些序列,也顯示基因組中還有很多作用未知的部分[11]。人類基因組內大量功能未知的序列,是目前科學研究的重點之一。