基因組的那些事兒--基礎(chǔ)

偶然間翻出來(lái)了18年學(xué)習(xí)jimmy的”直播我的基因組系列“所做的一些理解典唇,文章寫(xiě)于18.7.30,因?yàn)楫?dāng)時(shí)感覺(jué)工程浩大焕盟,所以遲遲沒(méi)有發(fā)出來(lái)秋秤,但現(xiàn)在我想,“攢著攢著就爛了”脚翘,好的內(nèi)容不能浪費(fèi)灼卢,不踏出第一步,之前的努力就都白費(fèi)了堰怨。當(dāng)然自己可能還有一些理解不到位的地方芥玉,后續(xù)內(nèi)容會(huì)補(bǔ)充完整

關(guān)于基因組

正常人都是有22對(duì)常染色體加X(jué)Y性染色體。基因組是指生物體所攜帶的一套完整的單倍體序列备图,也就是22條+X+Y。每個(gè)染色體包括全套基因和間隔序列。他們由A揽涮、T抠藕、C、G堿基組成蒋困,總共長(zhǎng)度大約是30億個(gè)堿基盾似。


關(guān)于基因檢測(cè)

隨著社會(huì)的發(fā)展,人們對(duì)于健康愈發(fā)重視雪标,開(kāi)始涌現(xiàn)了大量的基因檢測(cè)零院,它的個(gè)性化定制再加上后續(xù)的醫(yī)師指導(dǎo),更加準(zhǔn)確和便捷獲得自身健康信息村刨,預(yù)計(jì)未來(lái)會(huì)代替?zhèn)鹘y(tǒng)體檢告抄。

基因檢測(cè)是在分子水平上對(duì)人體遺傳密碼進(jìn)行破譯,通過(guò)單核苷酸多態(tài)性GWAS的分析對(duì)人體患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)嵌牺,從而進(jìn)行預(yù)防干預(yù)及個(gè)體化治療打洼。目前全基因組測(cè)序成本(30X)已經(jīng)不足一萬(wàn)元,這種測(cè)序就是來(lái)檢測(cè)全部的30億個(gè)堿基對(duì)是如何排列的逆粹,得到從第一個(gè)到第30億個(gè)堿基的排列方式募疮。

全基因組檢測(cè)幫助確診引起某個(gè)疾病的病因,尤其是癌癥病人僻弹;或者指導(dǎo)有家族性后發(fā)遺傳病的病人進(jìn)行有針對(duì)性的治療阿浓,比如安吉麗娜·朱莉接受預(yù)防性的雙側(cè)乳腺切除。

怎么測(cè): 最常用illumina的二代測(cè)序蹋绽,測(cè)序長(zhǎng)度在150-250bp搔扁,取幾百萬(wàn)的細(xì)胞破碎后,把所有的染色體隨機(jī)打斷成小片段蟋字,一個(gè)個(gè)進(jìn)行測(cè)序稿蹲,會(huì)測(cè)得上億個(gè)片段

【還有一種是三代測(cè)序,不需要PCR過(guò)程鹊奖,直接對(duì)每一條DNA分子進(jìn)行測(cè)序苛聘,長(zhǎng)度1w-5w nt(因?yàn)闆](méi)有經(jīng)過(guò)PCR,一直是單鏈狀態(tài)測(cè)忠聚,所以不存在堿基對(duì)bp设哗,只能稱(chēng)之為堿基nt),準(zhǔn)確度要低一些】

測(cè)哪里: 也就是測(cè)序的樣本從哪里獲得两蟀?

唾液网梢?:唾液肯定可以提取出DNA,而且也最方便赂毯。但是會(huì)混在口腔微生物的DNA战虏,即使后來(lái)通過(guò)比對(duì)人類(lèi)參考基因組來(lái)去除污染拣宰,但最后大概三成數(shù)據(jù)是要被浪費(fèi)的。目前基于取唾液興起的基因檢測(cè)是測(cè)一部分高頻變異位點(diǎn)烦感,那不是做的全基因組測(cè)序巡社,是利用基因芯片技術(shù)進(jìn)行,成本在三位數(shù)


23魔方

血液手趣?除非提供者正患有菌血癥(外界的細(xì)菌經(jīng)由體表的入口或是感染的入口進(jìn)入血液系統(tǒng)后晌该,在人體血液內(nèi)繁殖并隨血流在全身播散),一般血液是最純凈的绿渣。從血液里面分離白細(xì)胞然后提取DNA的技術(shù)也是非常成熟的朝群。

測(cè)序報(bào)告:


處理流程

數(shù)據(jù)來(lái)源:

一般推薦:全基因組測(cè)序,覆蓋度30X中符,也就是90G的raw data姜胖,測(cè)序策略是PE150,采用illumina的HiSeq X舟茶,DNA小片段文庫(kù)(350bp)進(jìn)行建庫(kù)谭期。

幾個(gè)名詞:

  • 覆蓋度30X:平均下來(lái)能把身體內(nèi)的30億個(gè)堿基每個(gè)都測(cè)到30次,因?yàn)闇y(cè)序是隨機(jī)的吧凉,必然有一些測(cè)序深度高一點(diǎn)隧出,有些低一點(diǎn)

    這個(gè)30的標(biāo)準(zhǔn)怎么定的?為什么不是20X或者更高的40阀捅、50X胀瞪?
    有研究做過(guò)飽和度分析~看看5~60X的模擬梯度對(duì)尋找遺傳變異的能力差異大小,結(jié)果發(fā)現(xiàn)平均深度達(dá)到30X的時(shí)候饲鄙,可以覆蓋基因組的95%凄诞;另外測(cè)序深度越高,價(jià)格越貴忍级,30X的高性?xún)r(jià)比足夠挖掘到一定量的遺傳變異Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)

  • 90G raw data:測(cè)序深度30X帆谍,人類(lèi)基因組大約30億堿基,而一億108 就等于1Gb的測(cè)序數(shù)據(jù)轴咱;拿到的就是3Gb*30X=90Gb汛蝙。【注意這里的Gb是測(cè)序字符的數(shù)量】

  • 測(cè)序策略PE150:也就是標(biāo)準(zhǔn)的雙端測(cè)序模式(Paired End)朴肺,目前雙端比單端價(jià)格還要便宜窖剑,而且一條序列這邊測(cè)一次,另一邊測(cè)一次戈稿,更準(zhǔn)確西土。所以一般分析基本也沒(méi)有用單端的了。150就是這邊測(cè)150bp鞍盗,那邊測(cè)150bp需了√纾【當(dāng)然打斷的片段一般是大于300bp的,所以每個(gè)reads中間會(huì)有一部分測(cè)不到援所,這就對(duì)了庐舟!畢竟reads是隨機(jī)打斷欣除,也就是打斷的位置不同住拭。雖然這一條reads的中間部分區(qū)域測(cè)不到,但是另外的reads就能測(cè)到历帚。如果說(shuō)滔岳,一條reads長(zhǎng)度200卻采用雙端150bp,那么中間就會(huì)有重疊區(qū)域挽牢,被測(cè)了兩遍谱煤,這在高通量測(cè)序中是非常浪費(fèi)資源的,每次測(cè)都是要花錢(qián)的扒莅巍刘离!】

  • Hiseq :美國(guó)Illumina公司作為二代測(cè)序儀生產(chǎn)領(lǐng)先企業(yè),自2006年進(jìn)軍基因測(cè)序市場(chǎng)以來(lái)睹栖,陸續(xù)發(fā)布了HiSeq硫惕,MiSeq,NextSeq野来,NovaSeq等一系列測(cè)序儀器恼除。

Hiseq系列~HiSeq 2000,HiSeq 2500曼氛,HiSeq 3000豁辉,HiSeq 4000
HiSeq系列測(cè)序儀問(wèn)世以來(lái),以通量高舀患,產(chǎn)量大徽级,生產(chǎn)規(guī)模著稱(chēng),能夠快速聊浅、經(jīng)濟(jì)的進(jìn)行大規(guī)模平行測(cè)序餐抢,在大型全基因組測(cè)序,全轉(zhuǎn)錄組狗超,全外顯子組測(cè)序弹澎,靶向基因測(cè)序方面優(yōu)勢(shì)明顯。HiSeq 3000/4000系統(tǒng)基于成熟的HiSeq 2500系統(tǒng)努咐,采用創(chuàng)新的有序流動(dòng)槽技術(shù)最大限度提高效率苦蒿,3.5天內(nèi)可完成12個(gè)基因組、100個(gè)轉(zhuǎn)錄組或180個(gè)外顯子組測(cè)序

HiSeq X系列——HiSeq X Five渗稍,HiSeq X Ten
HiSeq X Ten系統(tǒng)的問(wèn)世完成了人類(lèi)歷史上一大里程碑事件——千元基因組時(shí)代的到來(lái)佩迟。HiSeq X Ten系統(tǒng)是由一套共10臺(tái)超高通量的HiSeq X儀器組成团滥,其中每臺(tái)儀器可在3天內(nèi)產(chǎn)生高達(dá)1.8 Tb測(cè)序數(shù)據(jù),即每天高達(dá)600 Gb报强。10臺(tái)聯(lián)合工作灸姊,每年能帶來(lái)超過(guò)18,000個(gè)人類(lèi)基因組,而每個(gè)基因組的價(jià)格約為1000美元秉溉,讓癌癥和復(fù)雜疾病的研究達(dá)到新的水平

至于NovaSeq嘛力惯,應(yīng)該是17年開(kāi)始交付使用,被稱(chēng)為“史上最貴洗衣機(jī)”的NovaSeq6000召嘶,以其酷炫的外形和美麗的價(jià)格(100w美金)成為了高端測(cè)序領(lǐng)導(dǎo)者父晶,旨在沖刺“100美元基因組測(cè)序”。它的通量更高弄跌,運(yùn)行周期48小時(shí)甲喝,2個(gè)flowcell每次產(chǎn)生大于2Tb的數(shù)據(jù)。另外還有它兄弟Novaseq 5000铛只,差異就是他們的流動(dòng)槽埠胖,5000可以運(yùn)行S1、S2兩種淳玩,6000可以運(yùn)行S1直撤、S2、S3凯肋、S4四種谊惭,一個(gè)S4流動(dòng)槽每次運(yùn)行可達(dá)到80-100億數(shù)量的reads / clusters。雙S4流動(dòng)槽運(yùn)行可以不到兩天內(nèi)解碼48個(gè)人類(lèi)基因組(6萬(wàn)億鹼基通量)侮东,比雙S2流動(dòng)槽通量翻三倍

  • DNA小片段(350bp)建庫(kù):根據(jù)公司不同圈盔,將DNA用超聲波隨機(jī)打斷成一定長(zhǎng)度(如350bp),加接頭悄雅,作為測(cè)序前的準(zhǔn)備工作驱敲,

  • Gb與GB你混了嗎:

    Gb是測(cè)序中的數(shù)據(jù)量1 Gigabase= 十億堿基宽闲。人類(lèi)全基因組測(cè)序得到了90G的原始數(shù)據(jù)众眨,也就是900億堿基。原始數(shù)據(jù)是fastq格式容诬,而fastq格式是這樣的:第二行中一個(gè)堿基對(duì)應(yīng)第四行中的一個(gè)測(cè)序質(zhì)量

    得到的900億堿基娩梨,也對(duì)應(yīng)900億個(gè)質(zhì)量值,加起來(lái)就是1800億個(gè)字符览徒。
    第一行是測(cè)序說(shuō)明狈定,一般是45個(gè)字符,也就是說(shuō),每一條測(cè)序reads中第一行就有大概45個(gè)字符纽什。

    那么多少條reads呢措嵌?根據(jù)PE150計(jì)算:測(cè)序策略是一條reads包括150bp,現(xiàn)在900億堿基芦缰,就對(duì)應(yīng)900億/150=60億條reads 企巢。因此第一行總字符是:60億*45=270億個(gè)字符。
    注意到fastq文件共四行让蕾,其中1浪规、2、4行的總數(shù)量分別為270億涕俗、900億罗丰、900億神帅,第三行就是一個(gè)+再姑,基本可以忽略不計(jì)。加起來(lái)總共2070億字符找御。計(jì)算機(jī)中元镀,根據(jù)編碼規(guī)則不同,字符與字節(jié)對(duì)換關(guān)系不同霎桅。

    Fastq文件是ASCII編碼文件栖疑,其中每一個(gè)字符就對(duì)應(yīng)一個(gè)ASCII碼,也就等于一個(gè)字節(jié)滔驶。計(jì)算機(jī)的1 GB(Gigabytes) 是10243 個(gè)字節(jié)
    因此遇革,二者對(duì)換關(guān)系就是:全基因組測(cè)序的90Gb對(duì)應(yīng)(2070*108 /10243 )=

    193GB計(jì)算機(jī)存儲(chǔ)空間

    或者更快的計(jì)算: 測(cè)序報(bào)告會(huì)給出reads數(shù)揭糕,如果測(cè)序策略是PE150萝快,那么占用硬盤(pán)空間大小就是n(reads)(150+150+45)/10243*

    另外,測(cè)序儀下機(jī)后的數(shù)據(jù)都是用gz壓縮后的文件.fastq.gz著角,能壓縮2.7倍揪漩,大概71G左右。


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩吏口,打造生信星球奄容,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)产徊。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末昂勒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子舟铜,更是在濱河造成了極大的恐慌戈盈,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件深滚,死亡現(xiàn)場(chǎng)離奇詭異奕谭,居然都是意外死亡涣觉,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)血柳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)官册,“玉大人,你說(shuō)我怎么就攤上這事难捌∠ツ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵根吁,是天一觀的道長(zhǎng)员淫。 經(jīng)常有香客問(wèn)我,道長(zhǎng)击敌,這世上最難降的妖魔是什么介返? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮沃斤,結(jié)果婚禮上圣蝎,老公的妹妹穿的比我還像新娘。我一直安慰自己衡瓶,他們只是感情好徘公,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著哮针,像睡著了一般关面。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上十厢,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天等太,我揣著相機(jī)與錄音,去河邊找鬼寿烟。 笑死澈驼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的筛武。 我是一名探鬼主播缝其,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼徘六!你這毒婦竟也來(lái)了内边?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤待锈,失蹤者是張志新(化名)和其女友劉穎漠其,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡和屎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年拴驮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柴信。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡套啤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出随常,到底是詐尸還是另有隱情潜沦,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布绪氛,位于F島的核電站唆鸡,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏枣察。R本人自食惡果不足惜争占,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望询件。 院中可真熱鬧燃乍,春花似錦、人聲如沸宛琅。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)嘿辟。三九已至,卻和暖如春片效,著一層夾襖步出監(jiān)牢的瞬間红伦,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工淀衣, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留昙读,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓膨桥,卻偏偏與公主長(zhǎng)得像蛮浑,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子只嚣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容