??在跟著健明老師學(xué)習(xí)生物信息學(xué)的過(guò)程中胧砰,少走了很多彎路鳍鸵,躲過(guò)了很多坑,在指導(dǎo)下淺嘗過(guò)一些尉间。但是自己常吵ス裕扣原理,又雙叒叕落坑哲嘲,百思不得其解贪薪。
以下是之前遇到的問(wèn)題,今天整理帶大家一起分析分析眠副,若有不嚴(yán)謹(jǐn)或者錯(cuò)誤的地方画切,強(qiáng)烈歡迎指正:
問(wèn)題1
??首先,我們討論一個(gè)問(wèn)題囱怕,我們都知道同源染色體上的堿基并不完全相同霍弹,但是為什么參考基因組參考序列是單序列而不是雙序列呢?
我們需要了解“人類(lèi)基因組計(jì)劃”和“千人基因組計(jì)劃”以及2017-12-28央視宣布我國(guó)啟動(dòng)“中國(guó)10萬(wàn)人基因組計(jì)劃”
??人類(lèi)細(xì)胞內(nèi)共有22對(duì)常染色體,2對(duì)性染色體,共24條染色體娃弓。人體有23對(duì),46條染色體,但卻測(cè)定24條染色體.說(shuō)明有部分染色體無(wú)需全測(cè),這很自然的就聯(lián)想到“常染色體每對(duì)是互補(bǔ)配對(duì)”的性質(zhì),說(shuō)明,每對(duì)染色體中的兩條,基因相同,只需測(cè)一條就可知另一條的基因典格。如果是這樣的話,需測(cè)22對(duì)常染色體,那么剩下的就自然是兩條性染色體,因?yàn)閄染色體與Y染色體構(gòu)造有所不同(Y染色體比X少一部分),所以兩條都要測(cè)。
??則一共22條常染色體+2條性染色體=24條染色體台丛。
??然后有人想到了同源染色體上等位基因的情況:
??等位基因(allele)又作allelomorph.可能出現(xiàn)在染色體某特定座位上的兩個(gè)或多個(gè)基因中的一個(gè)钝计。若一個(gè)座位上的基因以兩個(gè)以上的狀態(tài)存在,便稱為復(fù)等位基因齐佳。若成對(duì)的等位基因中兩個(gè)成員完全相同私恬,則該個(gè)體對(duì)此性狀來(lái)說(shuō)成為純合子。若兩個(gè)等位基因各不相同炼吴,則該個(gè)體對(duì)該性狀來(lái)說(shuō)是雜合子本鸣。由于等位基因都對(duì)應(yīng)同一性狀,所以只要測(cè)其中一個(gè),其等位基因會(huì)作為特殊基因單獨(dú)測(cè)序,但不作為人類(lèi)基因組計(jì)劃另外測(cè)定。同源染色體具體的序列不一樣硅蹦,但是結(jié)構(gòu)是一樣的荣德,所以沒(méi)必要多測(cè)。也就是說(shuō)人類(lèi)基因組計(jì)劃要搞清楚的是基因片段與性狀的關(guān)系童芹,重點(diǎn)不在堿基序列涮瞻。
??因?yàn)橥慈旧w上的顯隱性基因控制的是同一性狀的不同表現(xiàn)類(lèi)型!就好比紅綠色盲基因和色覺(jué)正臣偻剩基因是位于同源染色體上的同一位置的署咽!基因測(cè)序時(shí),只要知道這個(gè)位置的基因是控制色覺(jué)的就行了生音!這大概就是人類(lèi)基因組計(jì)劃的目的(通俗意思宁否,請(qǐng)自行谷歌客觀了解)
接下來(lái)我們回顧以下測(cè)序過(guò)程:引出其他問(wèn)題
問(wèn)題2
測(cè)序過(guò)程中以上圖很明顯read1和read2為interset區(qū)域兩條互補(bǔ)鏈并且方向相對(duì)的兩部分序列,那測(cè)序過(guò)程中如何實(shí)現(xiàn)將此兩條序列比對(duì)到單鏈的參考基因組呢缀遍?
??為了得到答案慕匠,翻書(shū),谷歌域醇,看原理視屏依然沒(méi)有解決問(wèn)題台谊,于是在熟練Linux和各文件格式之后,我找了真實(shí)fq數(shù)據(jù)中的一對(duì)reads一探究竟譬挚。
步驟1:找出具體信息為CAY9KANXX:5:1101:1113:2067的一對(duì)fq(一對(duì)reads)锅铅,笨辦法列出所有堿基,如下圖:
??根據(jù)原理殴瘦,我們可以知道上圖中的fq1和fq2是實(shí)際測(cè)序得到的read1和read2狠角。
注意:Excel排版原因?qū)ead1和read2顯示長(zhǎng)短不一,經(jīng)過(guò)計(jì)算實(shí)際均為150個(gè)堿基蚪腋。
步驟2:然后在得到原始sam/bam文件中找到這對(duì)reads丰歌,并列出堿基觀察(:
??仔細(xì)肉眼比對(duì)圖二和圖一,發(fā)現(xiàn)bam文件中reads2已被轉(zhuǎn)義并且倒序排列屉凯。為什么這么確定是倒序過(guò)來(lái)的呢立帖?細(xì)心的人會(huì)發(fā)現(xiàn)reads的質(zhì)量值是倒過(guò)來(lái)的。到此問(wèn)題2已經(jīng)得到的解釋悠砚。
為了徹底搞清楚晓勇,我們?cè)贗GV中可視化直觀看一下:
我將圖2中的重復(fù)堿基標(biāo)紅,將這兩條序列的bam文件導(dǎo)入IGV中可視化:
圖3中,非常直觀看到兩條帶方向箭頭的灰色條帶(read1和read2)的比對(duì)到單序列的參考基因組(下方彩色條帶)绑咱。
??為了更加直觀绰筛,讓自己死心(我也是服了自己那顆躁動(dòng)的心),我把對(duì)應(yīng)參考序列也列出來(lái)了描融,模擬了一下IGV的比對(duì)情況铝噩,如圖:
依然要總結(jié)一下:
??雙端測(cè)序下機(jī)數(shù)據(jù)中得到的read1和read2是兩條互補(bǔ)鏈insertsize中方向相對(duì)的兩條序列,再比對(duì)到單鏈的參考基因組之前會(huì)先將其中一條read轉(zhuǎn)義窿克,然后進(jìn)行比對(duì)骏庸,所以比對(duì)得到的SAM和BAM文件中read1和read2有一條是被轉(zhuǎn)了的。
??全劇終年叮。具被。。只损。一姿。。
參考:
??1.生信技能樹(shù)健明大牛線下培訓(xùn)
??2.基因課視屏截圖
??3.陳巍學(xué)基因