via ?果殼網(wǎng)
5月25日趣竣,《自然-生物技術(shù)》發(fā)表了來自華大基因的炎黃一號(hào)單倍型組裝結(jié)果宵呛。
2008年,炎黃一號(hào)一誕生即成為“亞洲第一”——第一個(gè)蒙古人種的全基因組測(cè)序結(jié)果。經(jīng)過科學(xué)家的不懈打磨,到《自然-生物技術(shù)》這篇最新論文發(fā)表的此刻,從測(cè)序數(shù)據(jù)質(zhì)量上來說红碑,炎黃一號(hào)終于成了“世界第一”!
作為和這項(xiàng)研究有些淵源的基因組學(xué)工作者纵朋,筆者將盡我所能柿顶,解讀炎黃一號(hào)基因組的系列科研和技術(shù)進(jìn)展。以期讓大家理解操软,個(gè)人全基因組測(cè)序現(xiàn)在究竟進(jìn)展到了什么地步嘁锯?這項(xiàng)工作的意義和價(jià)值又在哪里?
基因組數(shù)據(jù):能用聂薪,但還不夠好
在這個(gè)“千元基因組時(shí)代”家乘,個(gè)人基因組測(cè)序似乎已成了大眾消費(fèi)品。那么藏澳,為什么世界頂級(jí)的基因組研究機(jī)構(gòu)和測(cè)序儀生產(chǎn)商仁锯,還在不斷的測(cè)序更多的個(gè)人基因組,還要將個(gè)人基因組研究做到目前技術(shù)條件下“極致精美”的程度呢笆载?
簡(jiǎn)單的答案就是扑馁,因?yàn)槟壳暗幕蚪M數(shù)據(jù)還不夠好,因而也不夠好用凉驻。
我們研究人類基因組最關(guān)心的問題腻要,就是將染色體上所有的基因序列都測(cè)序出來,并且定位清楚涝登,簡(jiǎn)單的說雄家,目標(biāo)就是將人類基因組從第一個(gè)堿基開始,一直到最后一個(gè)堿基結(jié)束胀滚,真正完整的呈現(xiàn)出來趟济。
在基因組研究領(lǐng)域乱投,人們對(duì)數(shù)據(jù)的可信度有一個(gè)基本的要求:單個(gè)堿基越準(zhǔn)確越好,對(duì)單個(gè)堿基的覆蓋深度越多倍越好顷编,對(duì)整個(gè)基因組測(cè)得越完整越好戚炫,測(cè)序的“缺口(Gap)”越少越好。
以這些標(biāo)準(zhǔn)看媳纬,目前的基因組測(cè)序結(jié)果双肤,還沒有一個(gè)是完美的。
人類基因組計(jì)劃:曾經(jīng)的“最好”
自從人類基因組計(jì)劃和科學(xué)狂人克雷格· 文特爾(Craig Venter)先后公布人類基因組圖譜以來钮惠,基因組研究進(jìn)入了全新的紀(jì)元茅糜。然而,這份圖譜只是張“不夠完美的參考圖”素挽,科學(xué)家們很快認(rèn)識(shí)到蔑赘,我們需要更多人的基因組, 才能真正將遺傳與基因組信息應(yīng)用到健康和臨床領(lǐng)域预明。
但是因?yàn)闇y(cè)序基因組太過昂貴缩赛,科學(xué)家們選擇了折衷的思路,那就是后來啟動(dòng)的國(guó)際人類基因組單體型圖計(jì)劃( HapMap Project)贮庞,旨在了解人類遺傳的單倍型和單點(diǎn)突變峦筒。雖然取得了一定的進(jìn)展,但是根本問題仍然存在——測(cè)序的人類基因組數(shù)據(jù)太少窗慎,質(zhì)量還不夠好物喷。
再后來,454公司測(cè)序了諾獎(jiǎng)得主詹姆斯·沃森(James Watson)的基因組遮斥,并將其公布峦失,但是沃森的基因組從測(cè)序質(zhì)量上來講,跟人類基因組計(jì)劃公布的還不在一個(gè)水平上术吗,所以尉辑,大部分科研工作者,還是在使用人類基因組計(jì)劃所公布的基因組數(shù)據(jù)作為參考序列较屿。
在2004年公布的人類基因組計(jì)劃的數(shù)據(jù)中隧魄,對(duì)單個(gè)堿基的覆蓋深度是6~10倍的覆蓋深度,當(dāng)時(shí)計(jì)算的人類基因組總長(zhǎng)度約為2.8G隘蝎,有341個(gè)缺口购啄, N50(可信的組裝測(cè)序序列)的長(zhǎng)度為38.5 Mb,這個(gè)長(zhǎng)度是人類基因典型長(zhǎng)度的1,000倍嘱么,應(yīng)該說狮含,在當(dāng)時(shí)的測(cè)序條件下,這樣的數(shù)據(jù)已經(jīng)是非常好的結(jié)果了。早兩年文特爾公布的基因組覆蓋度為5.1倍几迄,基因組的總長(zhǎng)度是2.91G蔚龙,從2001年發(fā)表的那個(gè)版本看,缺口的數(shù)量有數(shù)千個(gè)映胁,所以從測(cè)序數(shù)據(jù)質(zhì)量上來講木羹,較人類基因組計(jì)劃還是有一定差距,且當(dāng)時(shí)人類基因組計(jì)劃用的是“逐個(gè)克隆法(Clone by Clone)”的定位方法測(cè)序屿愚,這種方法前期需要大量的工作進(jìn)行克隆的定位汇跨,因此很費(fèi)時(shí)間务荆,而后的測(cè)序和分析則相對(duì)容易妆距。而文特爾采用“全基因組鳥槍法”測(cè)序,這種方法不需要大量的克隆定位函匕,但對(duì)用來組裝的計(jì)算機(jī)硬件軟件要求很高娱据,且容易出錯(cuò),好處在于節(jié)省了時(shí)間盅惜,提高了效率中剩。

文特爾(左)和負(fù)責(zé)“人類基因組計(jì)劃“的科林斯(右),并肩開啟基因組時(shí)代的雙雄人物 圖片來源:time.com
單就數(shù)據(jù)質(zhì)量來說抒寂,人類基因組計(jì)劃所得到的基因組圖譜還是更加準(zhǔn)確可靠结啼。
但從上面的描述,我們可以看出幾個(gè)問題屈芜,因?yàn)椴扇〉幕蚪M測(cè)序策略不同郊愧,公布的兩個(gè)基因組,長(zhǎng)度不一井佑,缺口的數(shù)量不一属铁,測(cè)序的質(zhì)量也不一,從精益求精的角度看躬翁,二者都不夠完美焦蘑。
人類基因組:缺點(diǎn)在哪里?
首先盒发,人類基因組還不夠精確例嘱。人是“二倍體”,也就是有一半遺傳物質(zhì)來自父親宁舰,一半遺傳物質(zhì)來自母親拼卵,且在受精卵形成過程中,還會(huì)發(fā)生基因重組明吩,這是人類遺傳多樣性的來源之一间学。科學(xué)家們需要更精確的“單倍型”數(shù)據(jù),這樣基因組才夠“完美”低葫,而這種“完美”正是研究者們追求的目標(biāo)详羡。
其次,人類基因組還不夠多元嘿悬。
按照傳統(tǒng)的人種分類实柠,人類按照膚色黑白黃棕,被粗分為四大類:尼格羅人種善涨、高加索人種窒盐、蒙古人種、澳大利亞人種钢拧⌒防欤基因組測(cè)序數(shù)據(jù)是從高加索人種開始的,人類基因組計(jì)劃是人類的標(biāo)準(zhǔn)參考基因組源内,也是高加索人種的標(biāo)準(zhǔn)參考基因組葡粒。文特爾的基因組,測(cè)序?qū)ο笫撬约耗さ觯瑯邮歉呒铀魅朔N嗽交。
然而,從基因組研究的角度颂斜,為了盡可能地包括各種遺傳背景夫壁,需要為更多族裔建立自己的參考基因組。
第一個(gè)蒙古人種基因組沃疮,正是由華大基因團(tuán)隊(duì)測(cè)序完成盒让。2008年他們?cè)凇蹲匀弧冯s志發(fā)表了《一個(gè)亞洲人的二倍體基因組測(cè)序(The diploid genome sequence of an Asian individual)》, 這就是我們俗稱的炎黃一號(hào)忿磅。同時(shí)發(fā)表的還包括來自尼格羅人種的全基因組測(cè)序數(shù)據(jù)糯彬。至此,三種膚色人種的基因組數(shù)據(jù)總算湊齊了葱她。
2008年的華大論文中撩扒,蒙古人種基因組的覆蓋深度是36倍,看似比人類基因組計(jì)劃的10倍覆蓋度要高出很多吨些,事實(shí)上搓谆,蒙古人種基因組測(cè)序采用的是短序列二代測(cè)序技術(shù),而人類基因組計(jì)劃和文特爾的基因組采用的是一代測(cè)序的長(zhǎng)序列測(cè)序豪墅。雖然炎黃一號(hào)也進(jìn)行了組裝泉手,但是非常難以達(dá)到人類基因組計(jì)劃的水平,而且當(dāng)時(shí)二代測(cè)序技術(shù)準(zhǔn)確度難以跟一代測(cè)序技術(shù)相媲美偶器,所以測(cè)序質(zhì)量也比較低斩萌。需要更高的覆蓋深度來彌補(bǔ)缝裤。
這些技術(shù)細(xì)節(jié)可以簡(jiǎn)單理解成,雖然蒙古人種基因組的覆蓋深度高颊郎,但是由于序列的定位可能出現(xiàn)問題憋飞,且質(zhì)量不夠高,所以姆吭,達(dá)到的效果跟10倍覆蓋深度的人類基因組計(jì)劃那個(gè)標(biāo)準(zhǔn)圖譜在單堿基的準(zhǔn)確度上相差不大榛做,從結(jié)構(gòu)變異和單倍型角度看,可能還有一些差距内狸。當(dāng)然检眯,從技術(shù)角度,兩套基因組測(cè)序都“不夠完美”昆淡,所以不好下定論锰瘸,得具體數(shù)據(jù)具體比較催训。
炎黃一號(hào):九年磨礪户矢,成就“最好”
自炎黃一號(hào)的第一階段結(jié)果發(fā)表以來,華大基因的科技工作者就開始不斷完善“蒙古人種”的基因組圖譜。
首先是2009年倔既,華大基因與合作單位的一群年輕研究者在《自然-生物技術(shù)》發(fā)表了研究論文《構(gòu)建人類泛基因組序列圖譜(Building the sequence map of the human pan-genome)》。利用組裝的方法構(gòu)建出炎黃一號(hào)獨(dú)有的大約5M的基因序列鹏氧,并且驗(yàn)證了其存在并預(yù)測(cè)了其功能渤涌,而且將炎黃一號(hào)的基因組組裝提升到新的水平。
2011年把还,華大在《自然-生物技術(shù)》上又發(fā)表了一篇新論文《Structural variation in two human genomes mapped at single-nucleotide resolution by whole genomede novoassembly》实蓬,將炎黃一號(hào)的新組裝結(jié)果與另外一個(gè)尼格羅人種的組裝結(jié)果進(jìn)行比對(duì),在原有基礎(chǔ)上吊履,發(fā)現(xiàn)了277,243個(gè)新的基因組“結(jié)構(gòu)變異”安皱,同時(shí)還發(fā)布了為此開發(fā)的新的組裝流程。
我們可以這么理解這項(xiàng)研究艇炎,2008年版本無法發(fā)現(xiàn)的基因組結(jié)構(gòu)變異酌伊,可以通過2011年的新方法找到,特別是小范圍的(≤50 堿基對(duì))和中等范圍的(51~200 堿基對(duì))結(jié)構(gòu)變異缀踪。因?yàn)檠S一號(hào)測(cè)的是短序列居砖,所以確實(shí)比較難發(fā)現(xiàn)大的結(jié)構(gòu)變異(>200 堿基對(duì)),這一問題一直困擾著通過短序列高通量測(cè)序進(jìn)行基因組研究的研究者驴娃。
2015年5月奏候,華大基因在《自然-生物技術(shù)》上發(fā)表了《De novoassembly of a haplotype-resolved human genome》,通過全基因組鳥槍測(cè)序法(WGS)結(jié)合全新策略(Fosmid-pooling)的分級(jí)組裝方法唇敞,以及之前的二代測(cè)序短序列組裝出人類單倍體水平的二倍體基因組蔗草。組裝出了5.15Gb的二倍體基因組咒彤,單倍型的可信N50 為484 kb,還發(fā)現(xiàn)了7.49 Mb的獨(dú)有序列咒精。至此蔼紧,歷時(shí)9年的炎黃一號(hào)基因組已經(jīng)趨于“完美”,這已是領(lǐng)先于目前已知的所有的人類基因組測(cè)序結(jié)果的最為完整的基因組圖譜狠轻。

從2006年炎黃一號(hào)項(xiàng)目正式啟動(dòng)奸例,到2015年5月25日《自然-生物技術(shù)》的最新論文發(fā)表∠蚵ィ可以說查吊,此時(shí)此刻,亞洲人在這一領(lǐng)域湖蜕,真正領(lǐng)先于世界逻卖!
完美的基因組參考序列,意義何在昭抒?
早在十年前评也,詹姆斯·沃森就敢于發(fā)出宣告,“未來所有生物學(xué)只有以基因組開始才有希望發(fā)展! ”
當(dāng)初的預(yù)言灭返,正在一步步變?yōu)楝F(xiàn)實(shí)盗迟。
一個(gè)真正完美的基因組,意義相當(dāng)深遠(yuǎn)熙含。
首先罚缕,它對(duì)遺傳學(xué)研究至關(guān)重要。通過炎黃一號(hào)組裝的單倍型圖怎静,我們可以更為清晰地了解不同基因型之間的連鎖關(guān)系邮弹、遺傳特征,進(jìn)而深入研究基因組重組的機(jī)制蚓聘,基因組的各種修飾與不同單倍型的關(guān)系腌乡,基因組單倍型結(jié)構(gòu)與基因表達(dá)、調(diào)控夜牡、修飾的關(guān)系等等与纽。
熱門的表觀遺傳學(xué)也離不開基因組信息。2010年氯材,華大的研究者在《Plos Biology》上發(fā)表過炎黃一號(hào)志愿者的外周血單核細(xì)胞DNA甲基化圖譜渣锦,該圖譜的分析是基于之前組裝的版本,相信在新的組裝版本的推動(dòng)下氢哮,類似研究將更加深入準(zhǔn)確袋毙。隨著下一步研究延伸至志愿者的各種組織(如肌肉、皮膚等)冗尤,我們將對(duì)DNA甲基化的機(jī)制和組織特異性的甲基化基因表達(dá)有更加深刻的理解听盖。
而對(duì)于目前火熱的“精準(zhǔn)醫(yī)療”和“個(gè)體化醫(yī)學(xué)”而言胀溺,準(zhǔn)確的基因組參考序列,將幫助真正“精準(zhǔn)”的基因組數(shù)據(jù)分析皆看。值得慶幸的是仓坞,有炎黃一號(hào)作為蒙古人種的參考序列,我們將離“精準(zhǔn)”的目標(biāo)更加接近腰吟。(編輯:游識(shí)猷)
參考文獻(xiàn)
1.?? ?International Human Genome Sequencing, C. (2004). "Finishing the euchromatic sequence of the human genome." Nature 431(7011): 931-945.
2.?? ?Venter, J. C., et al. (2001). "The sequence of the human genome." Science 291(5507): 1304-1351.
3.?? ?Wang, J., et al. (2008). "The diploid genome sequence of an Asian individual." Nature 456(7218): 60-65.
4.?? ?Li, R., et al. (2010). "Building the sequence map of the human pan-genome." Nat Biotechnol 28(1): 57-63.
5.?? ?Li, Y., et al. (2011). "Structural variation in two human genomes mapped at single-nucleotide resolution by whole genome de novo assembly." Nat Biotechnol 29(8): 723-730.
6.?? ?Cao, H., et al. (2015). "De novo assembly of a haplotype-resolved human genome." Nat Biotechnol.
7.?? ?Li, Y., et al. (2010). "The DNA methylome of human peripheral blood mononuclear cells." PLoS Biol 8(11): e1000533.