偶然間翻出來(lái)了18年學(xué)習(xí)jimmy的”直播我的基因組系列“所做的一些理解典唇,文章寫(xiě)于18.7.30,因?yàn)楫?dāng)時(shí)感覺(jué)工程浩大焕盟,所以遲遲沒(méi)有發(fā)出來(lái)秋秤,但現(xiàn)在我想,“攢著攢著就爛了”脚翘,好的內(nèi)容不能浪費(fèi)灼卢,不踏出第一步,之前的努力就都白費(fèi)了堰怨。當(dāng)然自己可能還有一些理解不到位的地方芥玉,后續(xù)內(nèi)容會(huì)補(bǔ)充完整
關(guān)于基因組
正常人都是有22對(duì)常染色體加X(jué)Y性染色體。基因組是指生物體所攜帶的一套完整的單倍體序列备图,也就是22條+X+Y。每個(gè)染色體包括全套基因和間隔序列。他們由A揽涮、T抠藕、C、G堿基組成蒋困,總共長(zhǎng)度大約是30億個(gè)堿基盾似。
關(guān)于基因檢測(cè)
隨著社會(huì)的發(fā)展,人們對(duì)于健康愈發(fā)重視雪标,開(kāi)始涌現(xiàn)了大量的基因檢測(cè)零院,它的個(gè)性化定制再加上后續(xù)的醫(yī)師指導(dǎo),更加準(zhǔn)確和便捷獲得自身健康信息村刨,預(yù)計(jì)未來(lái)會(huì)代替?zhèn)鹘y(tǒng)體檢告抄。
基因檢測(cè)是在分子水平上對(duì)人體遺傳密碼進(jìn)行破譯,通過(guò)單核苷酸多態(tài)性和GWAS的分析對(duì)人體患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)嵌牺,從而進(jìn)行預(yù)防干預(yù)及個(gè)體化治療打洼。目前全基因組測(cè)序成本(30X)已經(jīng)不足一萬(wàn)元,這種測(cè)序就是來(lái)檢測(cè)全部的30億個(gè)堿基對(duì)是如何排列的逆粹,得到從第一個(gè)到第30億個(gè)堿基的排列方式募疮。
全基因組檢測(cè)幫助確診引起某個(gè)疾病的病因,尤其是癌癥病人僻弹;或者指導(dǎo)有家族性后發(fā)遺傳病的病人進(jìn)行有針對(duì)性的治療阿浓,比如安吉麗娜·朱莉接受預(yù)防性的雙側(cè)乳腺切除。
怎么測(cè): 最常用illumina的二代測(cè)序蹋绽,測(cè)序長(zhǎng)度在150-250bp搔扁,取幾百萬(wàn)的細(xì)胞破碎后,把所有的染色體隨機(jī)打斷成小片段蟋字,一個(gè)個(gè)進(jìn)行測(cè)序稿蹲,會(huì)測(cè)得上億個(gè)片段
【還有一種是三代測(cè)序,不需要PCR過(guò)程鹊奖,直接對(duì)每一條DNA分子進(jìn)行測(cè)序苛聘,長(zhǎng)度1w-5w nt(因?yàn)闆](méi)有經(jīng)過(guò)PCR,一直是單鏈狀態(tài)測(cè)忠聚,所以不存在堿基對(duì)bp设哗,只能稱(chēng)之為堿基nt),準(zhǔn)確度要低一些】
測(cè)哪里: 也就是測(cè)序的樣本從哪里獲得两蟀?
唾液网梢?:唾液肯定可以提取出DNA,而且也最方便赂毯。但是會(huì)混在口腔微生物的DNA战虏,即使后來(lái)通過(guò)比對(duì)人類(lèi)參考基因組來(lái)去除污染拣宰,但最后大概三成數(shù)據(jù)是要被浪費(fèi)的。目前基于取唾液興起的基因檢測(cè)是測(cè)一部分高頻變異位點(diǎn)烦感,那不是做的全基因組測(cè)序巡社,是利用基因芯片技術(shù)進(jìn)行,成本在三位數(shù)
血液手趣?除非提供者正患有菌血癥(外界的細(xì)菌經(jīng)由體表的入口或是感染的入口進(jìn)入血液系統(tǒng)后晌该,在人體血液內(nèi)繁殖并隨血流在全身播散),一般血液是最純凈的绿渣。從血液里面分離白細(xì)胞然后提取DNA的技術(shù)也是非常成熟的朝群。
測(cè)序報(bào)告:
處理流程
數(shù)據(jù)來(lái)源:
一般推薦:全基因組測(cè)序,覆蓋度30X中符,也就是90G的raw data姜胖,測(cè)序策略是PE150,采用illumina的HiSeq X舟茶,DNA小片段文庫(kù)(350bp)進(jìn)行建庫(kù)谭期。
幾個(gè)名詞:
-
覆蓋度30X:平均下來(lái)能把身體內(nèi)的30億個(gè)堿基每個(gè)都測(cè)到30次,因?yàn)闇y(cè)序是隨機(jī)的吧凉,必然有一些測(cè)序深度高一點(diǎn)隧出,有些低一點(diǎn)
這個(gè)30的標(biāo)準(zhǔn)怎么定的?為什么不是20X或者更高的40阀捅、50X胀瞪?
有研究做過(guò)飽和度分析~看看5~60X的模擬梯度對(duì)尋找遺傳變異的能力差異大小,結(jié)果發(fā)現(xiàn)平均深度達(dá)到30X的時(shí)候饲鄙,可以覆蓋基因組的95%凄诞;另外測(cè)序深度越高,價(jià)格越貴忍级,30X的高性?xún)r(jià)比足夠挖掘到一定量的遺傳變異Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014) 90G raw data:測(cè)序深度30X帆谍,人類(lèi)基因組大約30億堿基,而一億108 就等于1Gb的測(cè)序數(shù)據(jù)轴咱;拿到的就是3Gb*30X=90Gb汛蝙。【注意這里的Gb是測(cè)序字符的數(shù)量】
測(cè)序策略PE150:也就是標(biāo)準(zhǔn)的雙端測(cè)序模式(Paired End)朴肺,目前雙端比單端價(jià)格還要便宜窖剑,而且一條序列這邊測(cè)一次,另一邊測(cè)一次戈稿,更準(zhǔn)確西土。所以一般分析基本也沒(méi)有用單端的了。150就是這邊測(cè)150bp鞍盗,那邊測(cè)150bp需了√纾【當(dāng)然打斷的片段一般是大于300bp的,所以每個(gè)reads中間會(huì)有一部分測(cè)不到援所,這就對(duì)了庐舟!畢竟reads是隨機(jī)打斷欣除,也就是打斷的位置不同住拭。雖然這一條reads的中間部分區(qū)域測(cè)不到,但是另外的reads就能測(cè)到历帚。如果說(shuō)滔岳,一條reads長(zhǎng)度200卻采用雙端150bp,那么中間就會(huì)有重疊區(qū)域挽牢,被測(cè)了兩遍谱煤,這在高通量測(cè)序中是非常浪費(fèi)資源的,每次測(cè)都是要花錢(qián)的扒莅巍刘离!】
Hiseq :美國(guó)Illumina公司作為二代測(cè)序儀生產(chǎn)領(lǐng)先企業(yè),自2006年進(jìn)軍基因測(cè)序市場(chǎng)以來(lái)睹栖,陸續(xù)發(fā)布了HiSeq硫惕,MiSeq,NextSeq野来,NovaSeq等一系列測(cè)序儀器恼除。
Hiseq系列~HiSeq 2000,HiSeq 2500曼氛,HiSeq 3000豁辉,HiSeq 4000
HiSeq系列測(cè)序儀問(wèn)世以來(lái),以通量高舀患,產(chǎn)量大徽级,生產(chǎn)規(guī)模著稱(chēng),能夠快速聊浅、經(jīng)濟(jì)的進(jìn)行大規(guī)模平行測(cè)序餐抢,在大型全基因組測(cè)序,全轉(zhuǎn)錄組狗超,全外顯子組測(cè)序弹澎,靶向基因測(cè)序方面優(yōu)勢(shì)明顯。HiSeq 3000/4000系統(tǒng)基于成熟的HiSeq 2500系統(tǒng)努咐,采用創(chuàng)新的有序流動(dòng)槽技術(shù)最大限度提高效率苦蒿,3.5天內(nèi)可完成12個(gè)基因組、100個(gè)轉(zhuǎn)錄組或180個(gè)外顯子組測(cè)序
HiSeq X系列——HiSeq X Five渗稍,HiSeq X Ten
HiSeq X Ten系統(tǒng)的問(wèn)世完成了人類(lèi)歷史上一大里程碑事件——千元基因組時(shí)代的到來(lái)佩迟。HiSeq X Ten系統(tǒng)是由一套共10臺(tái)超高通量的HiSeq X儀器組成团滥,其中每臺(tái)儀器可在3天內(nèi)產(chǎn)生高達(dá)1.8 Tb測(cè)序數(shù)據(jù),即每天高達(dá)600 Gb报强。10臺(tái)聯(lián)合工作灸姊,每年能帶來(lái)超過(guò)18,000個(gè)人類(lèi)基因組,而每個(gè)基因組的價(jià)格約為1000美元秉溉,讓癌癥和復(fù)雜疾病的研究達(dá)到新的水平
至于NovaSeq嘛力惯,應(yīng)該是17年開(kāi)始交付使用,被稱(chēng)為“史上最貴洗衣機(jī)”的NovaSeq6000召嘶,以其酷炫的外形和美麗的價(jià)格(100w美金)成為了高端測(cè)序領(lǐng)導(dǎo)者父晶,旨在沖刺“100美元基因組測(cè)序”。它的通量更高弄跌,運(yùn)行周期48小時(shí)甲喝,2個(gè)flowcell每次產(chǎn)生大于2Tb的數(shù)據(jù)。另外還有它兄弟Novaseq 5000铛只,差異就是他們的流動(dòng)槽埠胖,5000可以運(yùn)行S1、S2兩種淳玩,6000可以運(yùn)行S1直撤、S2、S3凯肋、S4四種谊惭,一個(gè)S4流動(dòng)槽每次運(yùn)行可達(dá)到80-100億數(shù)量的reads / clusters。雙S4流動(dòng)槽運(yùn)行可以不到兩天內(nèi)解碼48個(gè)人類(lèi)基因組(6萬(wàn)億鹼基通量)侮东,比雙S2流動(dòng)槽通量翻三倍
DNA小片段(350bp)建庫(kù):根據(jù)公司不同圈盔,將DNA用超聲波隨機(jī)打斷成一定長(zhǎng)度(如350bp),加接頭悄雅,作為測(cè)序前的準(zhǔn)備工作驱敲,
-
Gb與GB你混了嗎:
Gb是測(cè)序中的數(shù)據(jù)量,1 Gigabase= 十億堿基宽闲。人類(lèi)全基因組測(cè)序得到了90G的原始數(shù)據(jù)众眨,也就是900億堿基。原始數(shù)據(jù)是fastq格式容诬,而fastq格式是這樣的:第二行中一個(gè)堿基對(duì)應(yīng)第四行中的一個(gè)測(cè)序質(zhì)量
得到的900億堿基娩梨,也對(duì)應(yīng)900億個(gè)質(zhì)量值,加起來(lái)就是1800億個(gè)字符览徒。
第一行是測(cè)序說(shuō)明狈定,一般是45個(gè)字符,也就是說(shuō),每一條測(cè)序reads中第一行就有大概45個(gè)字符纽什。
那么多少條reads呢措嵌?根據(jù)PE150計(jì)算:測(cè)序策略是一條reads包括150bp,現(xiàn)在900億堿基芦缰,就對(duì)應(yīng)900億/150=60億條reads 企巢。因此第一行總字符是:60億*45=270億個(gè)字符。
注意到fastq文件共四行让蕾,其中1浪规、2、4行的總數(shù)量分別為270億涕俗、900億罗丰、900億神帅,第三行就是一個(gè)+再姑,基本可以忽略不計(jì)。加起來(lái)總共2070億字符找御。計(jì)算機(jī)中元镀,根據(jù)編碼規(guī)則不同,字符與字節(jié)對(duì)換關(guān)系不同霎桅。
Fastq文件是ASCII編碼文件栖疑,其中每一個(gè)字符就對(duì)應(yīng)一個(gè)ASCII碼,也就等于一個(gè)字節(jié)滔驶。計(jì)算機(jī)的1 GB(Gigabytes) 是10243 個(gè)字節(jié)
因此遇革,二者對(duì)換關(guān)系就是:全基因組測(cè)序的90Gb對(duì)應(yīng)(2070*108 /10243 )=193GB計(jì)算機(jī)存儲(chǔ)空間。
或者更快的計(jì)算: 測(cè)序報(bào)告會(huì)給出reads數(shù)揭糕,如果測(cè)序策略是PE150萝快,那么占用硬盤(pán)空間大小就是n(reads)(150+150+45)/10243*
另外,測(cè)序儀下機(jī)后的數(shù)據(jù)都是用gz壓縮后的文件.fastq.gz著角,能壓縮2.7倍揪漩,大概71G左右。
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩吏口,打造生信星球奄容,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)产徊。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com