劉小澤寫于19.6.8
之前最開(kāi)始學(xué)習(xí)IGV的時(shí)候?qū)戇^(guò)兩篇推文,當(dāng)時(shí)簡(jiǎn)單做了了解瓮孙,但有朋友說(shuō)意猶未盡谜疤,嗯我也這么覺(jué)得,總覺(jué)得還是學(xué)的不夠帽撑。推薦閱讀:https://github.com/griffithlab/rnaseq_tutorial/wiki/IGV-Tutorial
本文不止是翻譯
就當(dāng)做是初次見(jiàn)面
做項(xiàng)目最后一般會(huì)得到幾個(gè)Excel表格泼各,比如其中會(huì)有上下調(diào)基因,高表達(dá)低表達(dá)基因等亏拉,按照表格去找基因很麻煩并且不容易比較历恐。因此,基因組瀏覽器是一個(gè)非常常用的功能专筷,可以方便我們看看變異信息、可變剪切信息蒸苇,上下游基因等等特性磷蛹。目前開(kāi)發(fā)了40多種瀏覽器,總體上有這么幾個(gè)特點(diǎn):針對(duì)高通量數(shù)據(jù)(尤其是為分析變異而測(cè)的數(shù)據(jù))溪烤、對(duì)大的bam文件進(jìn)行可視化味咳、自己電腦上運(yùn)行保證數(shù)據(jù)私密性
我們的主要目標(biāo)是學(xué)習(xí)IGV庇勃,那么它到底能干什么?
- 利用IGV可以對(duì)大型的數(shù)據(jù)集進(jìn)行可視化(例如TCGA槽驶、1000Genomes)
- 可以整合多種類型的組學(xué)數(shù)據(jù)
-
支持本地责嚷、云端的數(shù)據(jù)加載,有多種數(shù)據(jù)源掂铐。各有好處:使用本地?cái)?shù)據(jù)不用上傳罕拂,使用云端數(shù)據(jù)不用下載整個(gè)數(shù)據(jù)集
使用IGV的基本步驟:
就像把大象塞進(jìn)冰箱需要三步一樣,使用IGV也很簡(jiǎn)單:?jiǎn)?dòng)=》選擇合適的基因組(這里一定要選合適全陨,因?yàn)榧词挂粋€(gè)物種基因組版本不同爆班,基因的坐標(biāo)也有區(qū)別)=》加載組學(xué)數(shù)據(jù)=》可視化探索(比如找SNVs、結(jié)構(gòu)變異辱姨、基因融合等)
通過(guò)這個(gè)教程柿菩,基本可以做到:
- 瀏覽不同的組學(xué)數(shù)據(jù)
- 快速探索定位基因組
- 對(duì)比對(duì)結(jié)果進(jìn)行可視化
- 肉眼找找SNP/SNV以及結(jié)構(gòu)變異
第一部分:熟悉IGV
IGV官網(wǎng):http://software.broadinstitute.org/software/igv/download
-
首先先在右上角選擇基因組版本,默認(rèn)情況下會(huì)加載hg19雨涛,當(dāng)然可以自己下載其他基因組枢舶。然后點(diǎn)擊頂部的
file
,選擇load from server
替久,這樣就會(huì)選擇額外的幾條track凉泄,比如顯示Ensembl基因名、GC含量等等侣肄,這一部分值得慢慢探索 它的右側(cè)默認(rèn)顯示
All
旧困,表示全部染色體〖诠可以選擇某一條特定染色體(這里先選擇Chr1)再向右的長(zhǎng)框是具體的區(qū)間吼具,輸入
chr1:10,000-11,000
表示從10000bp開(kāi)始數(shù)顯示1000bp長(zhǎng)度的區(qū)間(注意是英文狀態(tài)的冒號(hào)),然后點(diǎn)擊Go
-
側(cè)邊是track(意會(huì):"軌道“矩距、”跑道“)拗盒,文件類型決定track的類型,track類型又決定了顯示的方式锥债,如峰圖陡蝇、線圖、柱狀圖等哮肚。不同的track被加載進(jìn)來(lái)時(shí)登夫,它們是層層疊加的,可以利用左側(cè)的track名稱進(jìn)行區(qū)分允趟。
-
推薦的文件類型:http://software.broadinstitute.org/software/igv/RecommendedFileFormats
其中規(guī)定比對(duì)的數(shù)據(jù):SAM format (must be sorted), BAM format (must be sorted and indexed)
定位導(dǎo)航
粗略定位
比如上面輸入chr1:10,000-11,000
恼策,就將這1000bp的區(qū)間顯示出來(lái),還將序列顯示為有顏色的長(zhǎng)條潮剪,sequence頂部一行為堿基序列涣楷,其中A為綠色分唾,C為藍(lán)色,G是橙色狮斗,T是紅色绽乔,這樣利用顏色方便了識(shí)別重復(fù)序列;
另外它的下方幾行是翻譯的氨基酸序列碳褒,其中綠色表示蛋氨酸折砸,紅色為終止密碼子,通過(guò)點(diǎn)擊頂部那一行可以選擇隱藏或顯示氨基酸序列
如何看的更精細(xì)骤视?
然后看右上角的+
鞍爱,可以縮放,讓我們看堿基看的更清楚专酗,直到單堿基水平睹逃,它會(huì)先從基因開(kāi)始顯示,當(dāng)放大到一定程度時(shí)祷肯,序列信息就展示出來(lái)(看來(lái)自官網(wǎng)的解釋:https://software.broadinstitute.org/software/igv/sequence_track_options)
注意:sequence旁邊的黑色粗箭頭是可以點(diǎn)擊的沉填,點(diǎn)一下箭頭方向會(huì)發(fā)生改變。箭頭的方向表示當(dāng)前展示的鏈佑笋,箭頭向左為負(fù)鏈翼闹,會(huì)顯示互補(bǔ)堿基信息以及反向互補(bǔ)的翻譯信息
另外除了根據(jù)位置去定位,還支持根據(jù)基因名去定位
(只要之前添加了基因名的注釋track)蒋纬,例如直接在長(zhǎng)條框中輸入BRCA1
另外猎荠,定位到基因后,還可以看看兩個(gè)相鄰基因有什么區(qū)別:
比如可以看到:BRCA1和NBR2兩個(gè)基因方向相反蜀备,BRCA1的第一個(gè)外顯子在最右側(cè)
基因是用線和條形描繪的
橫線表示內(nèi)含子區(qū)域关摇,豎條表示外顯子區(qū)域,箭頭表示基因轉(zhuǎn)錄的方向或者說(shuō)轉(zhuǎn)錄的鏈碾阁。高的豎條表示外顯子的CDS區(qū)域输虱,矮的豎條是UTR。圖中表示的是3’=》5‘方向脂凶,基因也是在負(fù)鏈宪睹,5’UTR在左側(cè),3‘UTR在右側(cè)
(顏色不用管蚕钦,都是自己可以設(shè)置的:右鍵track=》change track color)
再看一個(gè)例子:(在biostar的解釋:https://www.biostars.org/p/105248/)
(關(guān)于基因結(jié)構(gòu):http://www.reibang.com/p/705a93f9db36)
結(jié)合IGV理解這句話:
外顯子與內(nèi)含子的鄰接部位是一段高度保守的序列:外顯子尾巴與下一個(gè)內(nèi)含子的頭部多數(shù)是GT亭病,內(nèi)含子的尾巴與下一個(gè)外顯子的頭部多數(shù)是AG,可以簡(jiǎn)單記做
GT-AG
法則嘶居,作為RNA剪切的識(shí)別信號(hào)
為檢索區(qū)域添加書簽
有時(shí)想保存當(dāng)前的搜索區(qū)域命贴,有點(diǎn)像瀏覽器的書簽功能,可以利用Regions
的Region Navigator
功能,當(dāng)進(jìn)行全局瀏覽時(shí)胸蛛,可以邊看邊點(diǎn)擊add
來(lái)添加
下一篇開(kāi)始用實(shí)際數(shù)據(jù)模擬演示
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球樱报,想讓它成為一個(gè)不拽術(shù)語(yǔ)葬项、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com