一稀轨、deeptools安裝
見我寫的第一篇文章《Conda 安裝軟件萬能鏈接》:Conda安裝軟件萬能鏈接
二禁熏、deeptools可視化要用到4個小命令——bamCoverage街州、computeMatrix、plotProfile 屎开、plotHeatmap阔籽,我簡稱bcpp一整套(方便記憶纲缓,哈哈哈拘泞,為啥叫一整套就說明了這4個小命令是可以連著用的得封,緊密性很強尸疆。)
deeptools官網(wǎng):deeptools官網(wǎng)
bamCoverage官網(wǎng)說明書:bamCoverage官網(wǎng)說明書
或者直接在節(jié)點上直接輸:deeptools bamCoverage --help 查看參數(shù)和用法捣域,但是官網(wǎng)說明書還有原理更方便理解器仗。
computeMatrix官網(wǎng)說明書:computeMatrix官網(wǎng)說明書
或者直接在節(jié)點上直接輸:deeptools computeMatrix --help 查看參數(shù)和用法逢慌,但是官網(wǎng)說明書還有原理更方便理解泳姐。
plotProfile 官網(wǎng)說明書:plotProfile官網(wǎng)說明書
或者直接在節(jié)點上直接輸:deeptools plotProfile --help 查看參數(shù)和用法乍赫,但是官網(wǎng)說明書還有原理更方便理解温峭。
plotHeatmap 官網(wǎng)說明書:plotHeatmap官網(wǎng)使用說明書
或者直接在節(jié)點上直接輸:deeptools plotheatmap --help 查看參數(shù)和用法猛铅,但是官網(wǎng)說明書還有原理更方便理解。
(后面會更新每一個小命令的具體原理和參數(shù)說明)
三凤藏、實際操作(參數(shù)可以根據(jù)自己的數(shù)據(jù)進行調(diào)整探索奸忽!世界上沒有兩片完全相同的葉子!!!)
1堕伪、bamCoverage:將bam文件轉(zhuǎn)化為bigwig文件,bw文件可以直接導入IGV進行可視化栗菜。
bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM
注:
?-b:輸入的bam文件 欠雌。
-o:輸出的文件 。
?--ignoreDuplicates:忽略重復疙筹,也就是說具有相同方向和起始點的reads只會識別一次不會重復識別富俄。
--binSize(-bs):設置輸出的文件的bins大小,默認值是50腌歉。
--normalizeUsing :可選值有RPKM蛙酪、CPM、BPM翘盖、RPGC桂塞、None。默認值是None馍驯。
2阁危、computeMatrix:生成矩陣,有兩種方式:一種是scale-regions , 另外一種是reference-point 汰瘫,具體見官網(wǎng)說明書狂打。
①?scale-regions mode:
computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab
注:
-R:后面跟gene.bed文件,該文件可以從基因注釋文件(gff3格式)轉(zhuǎn)化而來混弥。
-S:后面跟上一步產(chǎn)生的bw文件趴乡。
-p:??要使用的處理器數(shù)量。默認值是1蝗拿。
--binSize: bin大小晾捏。默認值是10。
-b:? ??所選參考點的上游距離哀托。默認值是500惦辛。
-a:? ? ?所選參考點的下游距離。默認值是1500仓手。
--regionBodyLength:默認值是5000胖齐。
--sortRegions:輸出文件是否應該顯示排序的區(qū)域。默認情況下不對區(qū)域進行排序嗽冒。如果需要輸出順序與輸入?yún)^(qū)域匹配呀伙,則指定“keep”。默認值是keep添坊。
-o:? ? 輸出文件区匠。
--outFileSortedRegions:跳過0或最小/最大閾值后保存區(qū)域的文件名。文件中區(qū)域的順序與所選的排序順序一致。
--outFileNameMatrix:?如果選擇這個選項驰弄,則熱圖的基礎(chǔ)值矩陣將使用指定的名稱保存麻汰。這個矩陣可以很容易地加載到R或其他程序中。
②?reference-point mode:
computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed
注:
-R:? ?后面跟gene.bed文件戚篙,該文件可以從基因注釋文件(gff3格式)轉(zhuǎn)化而來五鲫。
-S:? ?后面跟上一步產(chǎn)生的bw文件。
-b:? ? ?所選參考點的上游距離岔擂。默認值是500位喂。
-a:? ? ?所選參考點的下游距離。默認值是1500乱灵。
--skipZeros:分數(shù)為零的區(qū)域是否應該被包括在內(nèi)塑崖。默認是包括它們。
-o:? ? ? 輸出文件痛倚。
--outFileSortedRegions:?跳過0或最小/最大閾值后保存區(qū)域的文件名规婆。文件中區(qū)域的順序與所選的排序順序一致。
--outFileNameMatrix:?如果選擇這個選項蝉稳,則熱圖的基礎(chǔ)值矩陣將使用指定的名稱保存抒蚜。這個矩陣可以很容易地加載到R或其他程序中。
如果以轉(zhuǎn)錄終止位點為參考位點的話就將TSS換成TES耘戚。
3嗡髓、plotProfile:矩陣文件可視化。
plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab
注:
-m:?矩陣文件收津。
-out:保存的文件名饿这。文件的結(jié)尾即圖像的格式∽睬铮可用的選項有:" png "长捧, " eps ", " pdf "和" svg "部服。
--outFileNameData:保存平均配置文件的基礎(chǔ)數(shù)據(jù)唆姐。
4拗慨、plotHeatmap:創(chuàng)建基因組區(qū)域相關(guān)的得分熱圖廓八。
plotHeatmap -m matrix_x.gz -out x_Heatmap.png
注:
-m: 矩陣文件。
-out:?保存的文件名赵抢。文件的結(jié)尾即圖像的格式剧蹂。可用的選項有:" png "烦却, " eps "宠叼, " pdf "和" svg "。
四、結(jié)果
1冒冬、bamCoverage結(jié)果是生成一個bw文件伸蚯,然后我導入IGV查看結(jié)果如下:
? ? ? ? ? ? ?還可以將peak.bedgraph和基因注釋文件gff3文件一起導入IGV進行查看
2、plotProfile結(jié)果:
scale-regions mode
reference-point mode
reference-point mode