這就是全世界最牛的個(gè)人基因組測(cè)序結(jié)果,沒有之一

via ?果殼網(wǎng)


5月25日趣竣,《自然-生物技術(shù)》發(fā)表了來自華大基因的炎黃一號(hào)單倍型組裝結(jié)果宵呛。

2008年,炎黃一號(hào)一誕生即成為“亞洲第一”——第一個(gè)蒙古人種的全基因組測(cè)序結(jié)果。經(jīng)過科學(xué)家的不懈打磨,到《自然-生物技術(shù)》這篇最新論文發(fā)表的此刻,從測(cè)序數(shù)據(jù)質(zhì)量上來說红碑,炎黃一號(hào)終于成了“世界第一”!

作為和這項(xiàng)研究有些淵源的基因組學(xué)工作者纵朋,筆者將盡我所能柿顶,解讀炎黃一號(hào)基因組的系列科研和技術(shù)進(jìn)展。以期讓大家理解操软,個(gè)人全基因組測(cè)序現(xiàn)在究竟進(jìn)展到了什么地步嘁锯?這項(xiàng)工作的意義和價(jià)值又在哪里?

基因組數(shù)據(jù):能用聂薪,但還不夠好

在這個(gè)“千元基因組時(shí)代”家乘,個(gè)人基因組測(cè)序似乎已成了大眾消費(fèi)品。那么藏澳,為什么世界頂級(jí)的基因組研究機(jī)構(gòu)和測(cè)序儀生產(chǎn)商仁锯,還在不斷的測(cè)序更多的個(gè)人基因組,還要將個(gè)人基因組研究做到目前技術(shù)條件下“極致精美”的程度呢笆载?

簡(jiǎn)單的答案就是扑馁,因?yàn)槟壳暗幕蚪M數(shù)據(jù)還不夠好,因而也不夠好用凉驻。

我們研究人類基因組最關(guān)心的問題腻要,就是將染色體上所有的基因序列都測(cè)序出來,并且定位清楚涝登,簡(jiǎn)單的說雄家,目標(biāo)就是將人類基因組從第一個(gè)堿基開始,一直到最后一個(gè)堿基結(jié)束胀滚,真正完整的呈現(xiàn)出來趟济。

在基因組研究領(lǐng)域乱投,人們對(duì)數(shù)據(jù)的可信度有一個(gè)基本的要求:單個(gè)堿基越準(zhǔn)確越好,對(duì)單個(gè)堿基的覆蓋深度越多倍越好顷编,對(duì)整個(gè)基因組測(cè)得越完整越好戚炫,測(cè)序的“缺口(Gap)”越少越好

以這些標(biāo)準(zhǔn)看媳纬,目前的基因組測(cè)序結(jié)果双肤,還沒有一個(gè)是完美的。

人類基因組計(jì)劃:曾經(jīng)的“最好”

自從人類基因組計(jì)劃和科學(xué)狂人克雷格· 文特爾(Craig Venter)先后公布人類基因組圖譜以來钮惠,基因組研究進(jìn)入了全新的紀(jì)元茅糜。然而,這份圖譜只是張“不夠完美的參考圖”素挽,科學(xué)家們很快認(rèn)識(shí)到蔑赘,我們需要更多人的基因組, 才能真正將遺傳與基因組信息應(yīng)用到健康和臨床領(lǐng)域预明。

但是因?yàn)闇y(cè)序基因組太過昂貴缩赛,科學(xué)家們選擇了折衷的思路,那就是后來啟動(dòng)的國(guó)際人類基因組單體型圖計(jì)劃( HapMap Project)贮庞,旨在了解人類遺傳的單倍型和單點(diǎn)突變峦筒。雖然取得了一定的進(jìn)展,但是根本問題仍然存在——測(cè)序的人類基因組數(shù)據(jù)太少窗慎,質(zhì)量還不夠好物喷。

再后來,454公司測(cè)序了諾獎(jiǎng)得主詹姆斯·沃森(James Watson)的基因組遮斥,并將其公布峦失,但是沃森的基因組從測(cè)序質(zhì)量上來講,跟人類基因組計(jì)劃公布的還不在一個(gè)水平上术吗,所以尉辑,大部分科研工作者,還是在使用人類基因組計(jì)劃所公布的基因組數(shù)據(jù)作為參考序列较屿。

在2004年公布的人類基因組計(jì)劃的數(shù)據(jù)中隧魄,對(duì)單個(gè)堿基的覆蓋深度是6~10倍的覆蓋深度,當(dāng)時(shí)計(jì)算的人類基因組總長(zhǎng)度約為2.8G隘蝎,有341個(gè)缺口购啄, N50(可信的組裝測(cè)序序列)的長(zhǎng)度為38.5 Mb,這個(gè)長(zhǎng)度是人類基因典型長(zhǎng)度的1,000倍嘱么,應(yīng)該說狮含,在當(dāng)時(shí)的測(cè)序條件下,這樣的數(shù)據(jù)已經(jīng)是非常好的結(jié)果了。早兩年文特爾公布的基因組覆蓋度為5.1倍几迄,基因組的總長(zhǎng)度是2.91G蔚龙,從2001年發(fā)表的那個(gè)版本看,缺口的數(shù)量有數(shù)千個(gè)映胁,所以從測(cè)序數(shù)據(jù)質(zhì)量上來講木羹,較人類基因組計(jì)劃還是有一定差距,且當(dāng)時(shí)人類基因組計(jì)劃用的是“逐個(gè)克隆法(Clone by Clone)”的定位方法測(cè)序屿愚,這種方法前期需要大量的工作進(jìn)行克隆的定位汇跨,因此很費(fèi)時(shí)間务荆,而后的測(cè)序和分析則相對(duì)容易妆距。而文特爾采用“全基因組鳥槍法”測(cè)序,這種方法不需要大量的克隆定位函匕,但對(duì)用來組裝的計(jì)算機(jī)硬件軟件要求很高娱据,且容易出錯(cuò),好處在于節(jié)省了時(shí)間盅惜,提高了效率中剩。

文特爾(左)和負(fù)責(zé)“人類基因組計(jì)劃“的科林斯(右),并肩開啟基因組時(shí)代的雙雄人物 圖片來源:time.com

單就數(shù)據(jù)質(zhì)量來說抒寂,人類基因組計(jì)劃所得到的基因組圖譜還是更加準(zhǔn)確可靠结啼。

但從上面的描述,我們可以看出幾個(gè)問題屈芜,因?yàn)椴扇〉幕蚪M測(cè)序策略不同郊愧,公布的兩個(gè)基因組,長(zhǎng)度不一井佑,缺口的數(shù)量不一属铁,測(cè)序的質(zhì)量也不一,從精益求精的角度看躬翁,二者都不夠完美焦蘑。

人類基因組:缺點(diǎn)在哪里?

首先盒发,人類基因組還不夠精確例嘱。人是“二倍體”,也就是有一半遺傳物質(zhì)來自父親宁舰,一半遺傳物質(zhì)來自母親拼卵,且在受精卵形成過程中,還會(huì)發(fā)生基因重組明吩,這是人類遺傳多樣性的來源之一间学。科學(xué)家們需要更精確的“單倍型”數(shù)據(jù),這樣基因組才夠“完美”低葫,而這種“完美”正是研究者們追求的目標(biāo)详羡。

其次,人類基因組還不夠多元嘿悬。

按照傳統(tǒng)的人種分類实柠,人類按照膚色黑白黃棕,被粗分為四大類:尼格羅人種善涨、高加索人種窒盐、蒙古人種、澳大利亞人種钢拧⌒防欤基因組測(cè)序數(shù)據(jù)是從高加索人種開始的,人類基因組計(jì)劃是人類的標(biāo)準(zhǔn)參考基因組源内,也是高加索人種的標(biāo)準(zhǔn)參考基因組葡粒。文特爾的基因組,測(cè)序?qū)ο笫撬约耗さ觯瑯邮歉呒铀魅朔N嗽交。

然而,從基因組研究的角度颂斜,為了盡可能地包括各種遺傳背景夫壁,需要為更多族裔建立自己的參考基因組。

第一個(gè)蒙古人種基因組沃疮,正是由華大基因團(tuán)隊(duì)測(cè)序完成盒让。2008年他們?cè)凇蹲匀弧冯s志發(fā)表了《一個(gè)亞洲人的二倍體基因組測(cè)序(The diploid genome sequence of an Asian individual)》, 這就是我們俗稱的炎黃一號(hào)忿磅。同時(shí)發(fā)表的還包括來自尼格羅人種的全基因組測(cè)序數(shù)據(jù)糯彬。至此,三種膚色人種的基因組數(shù)據(jù)總算湊齊了葱她。

2008年的華大論文中撩扒,蒙古人種基因組的覆蓋深度是36倍,看似比人類基因組計(jì)劃的10倍覆蓋度要高出很多吨些,事實(shí)上搓谆,蒙古人種基因組測(cè)序采用的是短序列二代測(cè)序技術(shù),而人類基因組計(jì)劃和文特爾的基因組采用的是一代測(cè)序的長(zhǎng)序列測(cè)序豪墅。雖然炎黃一號(hào)也進(jìn)行了組裝泉手,但是非常難以達(dá)到人類基因組計(jì)劃的水平,而且當(dāng)時(shí)二代測(cè)序技術(shù)準(zhǔn)確度難以跟一代測(cè)序技術(shù)相媲美偶器,所以測(cè)序質(zhì)量也比較低斩萌。需要更高的覆蓋深度來彌補(bǔ)缝裤。

這些技術(shù)細(xì)節(jié)可以簡(jiǎn)單理解成,雖然蒙古人種基因組的覆蓋深度高颊郎,但是由于序列的定位可能出現(xiàn)問題憋飞,且質(zhì)量不夠高,所以姆吭,達(dá)到的效果跟10倍覆蓋深度的人類基因組計(jì)劃那個(gè)標(biāo)準(zhǔn)圖譜在單堿基的準(zhǔn)確度上相差不大榛做,從結(jié)構(gòu)變異和單倍型角度看,可能還有一些差距内狸。當(dāng)然检眯,從技術(shù)角度,兩套基因組測(cè)序都“不夠完美”昆淡,所以不好下定論锰瘸,得具體數(shù)據(jù)具體比較催训。

炎黃一號(hào):九年磨礪户矢,成就“最好”

自炎黃一號(hào)的第一階段結(jié)果發(fā)表以來,華大基因的科技工作者就開始不斷完善“蒙古人種”的基因組圖譜。

首先是2009年倔既,華大基因與合作單位的一群年輕研究者在《自然-生物技術(shù)》發(fā)表了研究論文《構(gòu)建人類泛基因組序列圖譜(Building the sequence map of the human pan-genome)》。利用組裝的方法構(gòu)建出炎黃一號(hào)獨(dú)有的大約5M的基因序列鹏氧,并且驗(yàn)證了其存在并預(yù)測(cè)了其功能渤涌,而且將炎黃一號(hào)的基因組組裝提升到新的水平。

2011年把还,華大在《自然-生物技術(shù)》上又發(fā)表了一篇新論文《Structural variation in two human genomes mapped at single-nucleotide resolution by whole genomede novoassembly》实蓬,將炎黃一號(hào)的新組裝結(jié)果與另外一個(gè)尼格羅人種的組裝結(jié)果進(jìn)行比對(duì),在原有基礎(chǔ)上吊履,發(fā)現(xiàn)了277,243個(gè)新的基因組“結(jié)構(gòu)變異”安皱,同時(shí)還發(fā)布了為此開發(fā)的新的組裝流程。

我們可以這么理解這項(xiàng)研究艇炎,2008年版本無法發(fā)現(xiàn)的基因組結(jié)構(gòu)變異酌伊,可以通過2011年的新方法找到,特別是小范圍的(≤50 堿基對(duì))和中等范圍的(51~200 堿基對(duì))結(jié)構(gòu)變異缀踪。因?yàn)檠S一號(hào)測(cè)的是短序列居砖,所以確實(shí)比較難發(fā)現(xiàn)大的結(jié)構(gòu)變異(>200 堿基對(duì)),這一問題一直困擾著通過短序列高通量測(cè)序進(jìn)行基因組研究的研究者驴娃。

2015年5月奏候,華大基因在《自然-生物技術(shù)》上發(fā)表了《De novoassembly of a haplotype-resolved human genome》,通過全基因組鳥槍測(cè)序法(WGS)結(jié)合全新策略(Fosmid-pooling)的分級(jí)組裝方法唇敞,以及之前的二代測(cè)序短序列組裝出人類單倍體水平的二倍體基因組蔗草。組裝出了5.15Gb的二倍體基因組咒彤,單倍型的可信N50 為484 kb,還發(fā)現(xiàn)了7.49 Mb的獨(dú)有序列咒精。至此蔼紧,歷時(shí)9年的炎黃一號(hào)基因組已經(jīng)趨于“完美”,這已是領(lǐng)先于目前已知的所有的人類基因組測(cè)序結(jié)果的最為完整的基因組圖譜狠轻。

從2006年炎黃一號(hào)項(xiàng)目正式啟動(dòng)奸例,到2015年5月25日《自然-生物技術(shù)》的最新論文發(fā)表∠蚵ィ可以說查吊,此時(shí)此刻,亞洲人在這一領(lǐng)域湖蜕,真正領(lǐng)先于世界逻卖!

完美的基因組參考序列,意義何在昭抒?

早在十年前评也,詹姆斯·沃森就敢于發(fā)出宣告,“未來所有生物學(xué)只有以基因組開始才有希望發(fā)展! ”

當(dāng)初的預(yù)言灭返,正在一步步變?yōu)楝F(xiàn)實(shí)盗迟。

一個(gè)真正完美的基因組,意義相當(dāng)深遠(yuǎn)熙含。

首先罚缕,它對(duì)遺傳學(xué)研究至關(guān)重要。通過炎黃一號(hào)組裝的單倍型圖怎静,我們可以更為清晰地了解不同基因型之間的連鎖關(guān)系邮弹、遺傳特征,進(jìn)而深入研究基因組重組的機(jī)制蚓聘,基因組的各種修飾與不同單倍型的關(guān)系腌乡,基因組單倍型結(jié)構(gòu)與基因表達(dá)、調(diào)控夜牡、修飾的關(guān)系等等与纽。

熱門的表觀遺傳學(xué)也離不開基因組信息。2010年氯材,華大的研究者在《Plos Biology》上發(fā)表過炎黃一號(hào)志愿者的外周血單核細(xì)胞DNA甲基化圖譜渣锦,該圖譜的分析是基于之前組裝的版本,相信在新的組裝版本的推動(dòng)下氢哮,類似研究將更加深入準(zhǔn)確袋毙。隨著下一步研究延伸至志愿者的各種組織(如肌肉、皮膚等)冗尤,我們將對(duì)DNA甲基化的機(jī)制和組織特異性的甲基化基因表達(dá)有更加深刻的理解听盖。

而對(duì)于目前火熱的“精準(zhǔn)醫(yī)療”和“個(gè)體化醫(yī)學(xué)”而言胀溺,準(zhǔn)確的基因組參考序列,將幫助真正“精準(zhǔn)”的基因組數(shù)據(jù)分析皆看。值得慶幸的是仓坞,有炎黃一號(hào)作為蒙古人種的參考序列,我們將離“精準(zhǔn)”的目標(biāo)更加接近腰吟。(編輯:游識(shí)猷)

參考文獻(xiàn)

1.?? ?International Human Genome Sequencing, C. (2004). "Finishing the euchromatic sequence of the human genome." Nature 431(7011): 931-945.

2.?? ?Venter, J. C., et al. (2001). "The sequence of the human genome." Science 291(5507): 1304-1351.

3.?? ?Wang, J., et al. (2008). "The diploid genome sequence of an Asian individual." Nature 456(7218): 60-65.

4.?? ?Li, R., et al. (2010). "Building the sequence map of the human pan-genome." Nat Biotechnol 28(1): 57-63.

5.?? ?Li, Y., et al. (2011). "Structural variation in two human genomes mapped at single-nucleotide resolution by whole genome de novo assembly." Nat Biotechnol 29(8): 723-730.

6.?? ?Cao, H., et al. (2015). "De novo assembly of a haplotype-resolved human genome." Nat Biotechnol.

7.?? ?Li, Y., et al. (2010). "The DNA methylome of human peripheral blood mononuclear cells." PLoS Biol 8(11): e1000533.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末无埃,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子毛雇,更是在濱河造成了極大的恐慌嫉称,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件灵疮,死亡現(xiàn)場(chǎng)離奇詭異织阅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)震捣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門荔棉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蒿赢,你說我怎么就攤上這事润樱。” “怎么了诉植?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵祥国,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我晾腔,道長(zhǎng),這世上最難降的妖魔是什么啊犬? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任灼擂,我火速辦了婚禮,結(jié)果婚禮上觉至,老公的妹妹穿的比我還像新娘剔应。我一直安慰自己,他們只是感情好语御,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布峻贮。 她就那樣靜靜地躺著,像睡著了一般应闯。 火紅的嫁衣襯著肌膚如雪纤控。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天碉纺,我揣著相機(jī)與錄音船万,去河邊找鬼刻撒。 笑死,一個(gè)胖子當(dāng)著我的面吹牛耿导,可吹牛的內(nèi)容都是我干的声怔。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼舱呻,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼醋火!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起箱吕,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤芥驳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后殖氏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晚树,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年雅采,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爵憎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡婚瓜,死狀恐怖宝鼓,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情巴刻,我是刑警寧澤愚铡,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站胡陪,受9級(jí)特大地震影響沥寥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜柠座,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一邑雅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧妈经,春花似錦淮野、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至爆哑,卻和暖如春洞难,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背泪漂。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工廊营, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留歪泳,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓露筒,卻偏偏與公主長(zhǎng)得像呐伞,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慎式,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容