基因組的那些事兒--基礎(chǔ)

偶然間翻出來(lái)了18年學(xué)習(xí)jimmy的”直播我的基因組系列“所做的一些理解典唇，文章寫(xiě)于18.7.30，因?yàn)楫?dāng)時(shí)感覺(jué)工程浩大焕盟，所以遲遲沒(méi)有發(fā)出來(lái)秋秤，但現(xiàn)在我想，“攢著攢著就爛了”脚翘，好的內(nèi)容不能浪費(fèi)灼卢，不踏出第一步，之前的努力就都白費(fèi)了堰怨。當(dāng)然自己可能還有一些理解不到位的地方芥玉，后續(xù)內(nèi)容會(huì)補(bǔ)充完整

關(guān)于基因組

正常人都是有22對(duì)常染色體加X(jué)Y性染色體。基因組是指生物體所攜帶的一套完整的單倍體序列备图，也就是22條+X+Y。每個(gè)染色體包括全套基因和間隔序列。他們由A揽涮、T抠藕、C、G堿基組成蒋困，總共長(zhǎng)度大約是30億個(gè)堿基盾似。

關(guān)于基因檢測(cè)

隨著社會(huì)的發(fā)展，人們對(duì)于健康愈發(fā)重視雪标，開(kāi)始涌現(xiàn)了大量的基因檢測(cè)零院，它的個(gè)性化定制再加上后續(xù)的醫(yī)師指導(dǎo)，更加準(zhǔn)確和便捷獲得自身健康信息村刨，預(yù)計(jì)未來(lái)會(huì)代替?zhèn)鹘y(tǒng)體檢告抄。

基因檢測(cè)是在分子水平上對(duì)人體遺傳密碼進(jìn)行破譯，通過(guò)單核苷酸多態(tài)性和GWAS的分析對(duì)人體患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)嵌牺，從而進(jìn)行預(yù)防干預(yù)及個(gè)體化治療打洼。目前全基因組測(cè)序成本（30X）已經(jīng)不足一萬(wàn)元，這種測(cè)序就是來(lái)檢測(cè)全部的30億個(gè)堿基對(duì)是如何排列的逆粹，得到從第一個(gè)到第30億個(gè)堿基的排列方式募疮。

全基因組檢測(cè)幫助確診引起某個(gè)疾病的病因，尤其是癌癥病人僻弹；或者指導(dǎo)有家族性后發(fā)遺傳病的病人進(jìn)行有針對(duì)性的治療阿浓，比如安吉麗娜·朱莉接受預(yù)防性的雙側(cè)乳腺切除。

怎么測(cè)： 最常用illumina的二代測(cè)序蹋绽，測(cè)序長(zhǎng)度在150-250bp搔扁，取幾百萬(wàn)的細(xì)胞破碎后，把所有的染色體隨機(jī)打斷成小片段蟋字，一個(gè)個(gè)進(jìn)行測(cè)序稿蹲，會(huì)測(cè)得上億個(gè)片段

【還有一種是三代測(cè)序，不需要PCR過(guò)程鹊奖，直接對(duì)每一條DNA分子進(jìn)行測(cè)序苛聘，長(zhǎng)度1w-5w nt（因?yàn)闆](méi)有經(jīng)過(guò)PCR，一直是單鏈狀態(tài)測(cè)忠聚，所以不存在堿基對(duì)bp设哗，只能稱(chēng)之為堿基nt），準(zhǔn)確度要低一些】

測(cè)哪里： 也就是測(cè)序的樣本從哪里獲得两蟀？

唾液网梢？：唾液肯定可以提取出DNA，而且也最方便赂毯。但是會(huì)混在口腔微生物的DNA战虏，即使后來(lái)通過(guò)比對(duì)人類(lèi)參考基因組來(lái)去除污染拣宰，但最后大概三成數(shù)據(jù)是要被浪費(fèi)的。目前基于取唾液興起的基因檢測(cè)是測(cè)一部分高頻變異位點(diǎn)烦感，那不是做的全基因組測(cè)序巡社，是利用基因芯片技術(shù)進(jìn)行，成本在三位數(shù)

23魔方

血液手趣？除非提供者正患有菌血癥（外界的細(xì)菌經(jīng)由體表的入口或是感染的入口進(jìn)入血液系統(tǒng)后晌该，在人體血液內(nèi)繁殖并隨血流在全身播散），一般血液是最純凈的绿渣。從血液里面分離白細(xì)胞然后提取DNA的技術(shù)也是非常成熟的朝群。

測(cè)序報(bào)告：

處理流程

數(shù)據(jù)來(lái)源：

一般推薦：全基因組測(cè)序，覆蓋度30X中符，也就是90G的raw data姜胖，測(cè)序策略是PE150，采用illumina的HiSeq X舟茶，DNA小片段文庫(kù)(350bp)進(jìn)行建庫(kù)谭期。

幾個(gè)名詞：

覆蓋度30X：平均下來(lái)能把身體內(nèi)的30億個(gè)堿基每個(gè)都測(cè)到30次，因?yàn)闇y(cè)序是隨機(jī)的吧凉，必然有一些測(cè)序深度高一點(diǎn)隧出，有些低一點(diǎn)

這個(gè)30的標(biāo)準(zhǔn)怎么定的？為什么不是20X或者更高的40阀捅、50X胀瞪？
有研究做過(guò)飽和度分析～看看5~60X的模擬梯度對(duì)尋找遺傳變異的能力差異大小，結(jié)果發(fā)現(xiàn)平均深度達(dá)到30X的時(shí)候饲鄙，可以覆蓋基因組的95%凄诞；另外測(cè)序深度越高，價(jià)格越貴忍级，30X的高性?xún)r(jià)比足夠挖掘到一定量的遺傳變異Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)
90G raw data：測(cè)序深度30X帆谍，人類(lèi)基因組大約30億堿基，而一億10⁸ 就等于1Gb的測(cè)序數(shù)據(jù)轴咱；拿到的就是3Gb*30X=90Gb汛蝙。【注意這里的Gb是測(cè)序字符的數(shù)量】
測(cè)序策略PE150:也就是標(biāo)準(zhǔn)的雙端測(cè)序模式（Paired End）朴肺，目前雙端比單端價(jià)格還要便宜窖剑，而且一條序列這邊測(cè)一次，另一邊測(cè)一次戈稿，更準(zhǔn)確西土。所以一般分析基本也沒(méi)有用單端的了。150就是這邊測(cè)150bp鞍盗，那邊測(cè)150bp需了√纾【當(dāng)然打斷的片段一般是大于300bp的，所以每個(gè)reads中間會(huì)有一部分測(cè)不到援所，這就對(duì)了庐舟！畢竟reads是隨機(jī)打斷欣除，也就是打斷的位置不同住拭。雖然這一條reads的中間部分區(qū)域測(cè)不到，但是另外的reads就能測(cè)到历帚。如果說(shuō)滔岳，一條reads長(zhǎng)度200卻采用雙端150bp，那么中間就會(huì)有重疊區(qū)域挽牢，被測(cè)了兩遍谱煤，這在高通量測(cè)序中是非常浪費(fèi)資源的，每次測(cè)都是要花錢(qián)的扒莅巍刘离！】
Hiseq ：美國(guó)Illumina公司作為二代測(cè)序儀生產(chǎn)領(lǐng)先企業(yè)，自2006年進(jìn)軍基因測(cè)序市場(chǎng)以來(lái)睹栖，陸續(xù)發(fā)布了HiSeq硫惕，MiSeq，NextSeq野来，NovaSeq等一系列測(cè)序儀器恼除。

Hiseq系列～HiSeq 2000，HiSeq 2500曼氛，HiSeq 3000豁辉，HiSeq 4000
HiSeq系列測(cè)序儀問(wèn)世以來(lái)，以通量高舀患，產(chǎn)量大徽级，生產(chǎn)規(guī)模著稱(chēng)，能夠快速聊浅、經(jīng)濟(jì)的進(jìn)行大規(guī)模平行測(cè)序餐抢，在大型全基因組測(cè)序，全轉(zhuǎn)錄組狗超，全外顯子組測(cè)序弹澎，靶向基因測(cè)序方面優(yōu)勢(shì)明顯。HiSeq 3000/4000系統(tǒng)基于成熟的HiSeq 2500系統(tǒng)努咐，采用創(chuàng)新的有序流動(dòng)槽技術(shù)最大限度提高效率苦蒿，3.5天內(nèi)可完成12個(gè)基因組、100個(gè)轉(zhuǎn)錄組或180個(gè)外顯子組測(cè)序

HiSeq X系列——HiSeq X Five渗稍，HiSeq X Ten
HiSeq X Ten系統(tǒng)的問(wèn)世完成了人類(lèi)歷史上一大里程碑事件——千元基因組時(shí)代的到來(lái)佩迟。HiSeq X Ten系統(tǒng)是由一套共10臺(tái)超高通量的HiSeq X儀器組成团滥，其中每臺(tái)儀器可在3天內(nèi)產(chǎn)生高達(dá)1.8 Tb測(cè)序數(shù)據(jù)，即每天高達(dá)600 Gb报强。10臺(tái)聯(lián)合工作灸姊，每年能帶來(lái)超過(guò)18,000個(gè)人類(lèi)基因組，而每個(gè)基因組的價(jià)格約為1000美元秉溉，讓癌癥和復(fù)雜疾病的研究達(dá)到新的水平

至于NovaSeq嘛力惯，應(yīng)該是17年開(kāi)始交付使用，被稱(chēng)為“史上最貴洗衣機(jī)”的NovaSeq6000召嘶，以其酷炫的外形和美麗的價(jià)格（100w美金）成為了高端測(cè)序領(lǐng)導(dǎo)者父晶，旨在沖刺“100美元基因組測(cè)序”。它的通量更高弄跌，運(yùn)行周期48小時(shí)甲喝，2個(gè)flowcell每次產(chǎn)生大于2Tb的數(shù)據(jù)。另外還有它兄弟Novaseq 5000铛只，差異就是他們的流動(dòng)槽埠胖，5000可以運(yùn)行S1、S2兩種淳玩，6000可以運(yùn)行S1直撤、S2、S3凯肋、S4四種谊惭，一個(gè)S4流動(dòng)槽每次運(yùn)行可達(dá)到80-100億數(shù)量的reads / clusters。雙S4流動(dòng)槽運(yùn)行可以不到兩天內(nèi)解碼48個(gè)人類(lèi)基因組（6萬(wàn)億鹼基通量）侮东，比雙S2流動(dòng)槽通量翻三倍

DNA小片段（350bp）建庫(kù)：根據(jù)公司不同圈盔，將DNA用超聲波隨機(jī)打斷成一定長(zhǎng)度（如350bp），加接頭悄雅，作為測(cè)序前的準(zhǔn)備工作驱敲，
Gb與GB你混了嗎：

Gb是測(cè)序中的數(shù)據(jù)量，1 Gigabase= 十億堿基宽闲。人類(lèi)全基因組測(cè)序得到了90G的原始數(shù)據(jù)众眨，也就是900億堿基。原始數(shù)據(jù)是fastq格式容诬，而fastq格式是這樣的：第二行中一個(gè)堿基對(duì)應(yīng)第四行中的一個(gè)測(cè)序質(zhì)量

得到的900億堿基娩梨，也對(duì)應(yīng)900億個(gè)質(zhì)量值，加起來(lái)就是1800億個(gè)字符览徒。
第一行是測(cè)序說(shuō)明狈定，一般是45個(gè)字符，也就是說(shuō)，每一條測(cè)序reads中第一行就有大概45個(gè)字符纽什。

那么多少條reads呢措嵌？根據(jù)PE150計(jì)算：測(cè)序策略是一條reads包括150bp，現(xiàn)在900億堿基芦缰，就對(duì)應(yīng)900億/150=60億條reads 企巢。因此第一行總字符是：60億*45=270億個(gè)字符。
注意到fastq文件共四行让蕾，其中1浪规、2、4行的總數(shù)量分別為270億涕俗、900億罗丰、900億神帅，第三行就是一個(gè)+再姑，基本可以忽略不計(jì)。加起來(lái)總共2070億字符找御。計(jì)算機(jī)中元镀，根據(jù)編碼規(guī)則不同，字符與字節(jié)對(duì)換關(guān)系不同霎桅。

Fastq文件是ASCII編碼文件栖疑，其中每一個(gè)字符就對(duì)應(yīng)一個(gè)ASCII碼，也就等于一個(gè)字節(jié)滔驶。計(jì)算機(jī)的1 GB（Gigabytes） 是1024³ 個(gè)字節(jié)
因此遇革，二者對(duì)換關(guān)系就是：全基因組測(cè)序的90Gb對(duì)應(yīng)（2070*10⁸ /1024³ ）=

193GB計(jì)算機(jī)存儲(chǔ)空間。

或者更快的計(jì)算： 測(cè)序報(bào)告會(huì)給出reads數(shù)揭糕，如果測(cè)序策略是PE150萝快，那么占用硬盤(pán)空間大小就是n(reads)(150+150+45)/1024³*

另外，測(cè)序儀下機(jī)后的數(shù)據(jù)都是用gz壓縮后的文件.fastq.gz著角，能壓縮2.7倍揪漩，大概71G左右。

歡迎關(guān)注我們的公眾號(hào)～_～　　
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩吏口，打造生信星球奄容，想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)产徊。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末昂勒，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子舟铜，更是在濱河造成了極大的恐慌戈盈，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件深滚，死亡現(xiàn)場(chǎng)離奇詭異奕谭，居然都是意外死亡涣觉，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)血柳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)官册，“玉大人，你說(shuō)我怎么就攤上這事难捌∠ツ” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵根吁，是天一觀的道長(zhǎng)员淫。經(jīng)常有香客問(wèn)我，道長(zhǎng)击敌，這世上最難降的妖魔是什么介返？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮沃斤，結(jié)果婚禮上圣蝎，老公的妹妹穿的比我還像新娘。我一直安慰自己衡瓶，他們只是感情好徘公，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著哮针，像睡著了一般关面。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上十厢，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天等太，我揣著相機(jī)與錄音，去河邊找鬼寿烟。笑死澈驼，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的筛武。我是一名探鬼主播缝其，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼徘六！你這毒婦竟也來(lái)了内边？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤待锈，失蹤者是張志新（化名）和其女友劉穎漠其，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡和屎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年拴驮，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柴信。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡套啤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出随常，到底是詐尸還是另有隱情潜沦，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布绪氛，位于F島的核電站唆鸡，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏枣察。R本人自食惡果不足惜争占，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望询件。院中可真熱鬧燃乍，春花似錦、人聲如沸宛琅。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案逗旁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)嘿辟。三九已至，卻和暖如春片效，著一層夾襖步出監(jiān)牢的瞬間红伦，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工淀衣，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留昙读，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓膨桥，卻偏偏與公主長(zhǎng)得像蛮浑，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子只嚣，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345