注釋一般有以下幾種方法衩椒,但是一般經(jīng)驗有:
1.比對時下載UCSC格式的參考基因組,后續(xù)操作障礙少
2.數(shù)據(jù)準備要嚴格按照軟件的說明,若遇到格式正確就是讀不進的情況奋献,試試dos2unix file
1.ChIPseek在線工具
特點:在線耕餐,使用簡單凡傅,運算速度非常快肠缔,實質是后臺調用了HOMER和bedtools
TSS區(qū)域不能自己定義夏跷,觀察了一下軟件的定義應該是+-1000bpTSS哼转。
input:只需準備UCSC格式的bed文件或者txt,總之染色體號是chr的而不是NC_0000的槽华。
out:所有注釋的列表txt壹蔓,diffpeaks基因組分布圖,還可以得到peak sequence猫态。
2.bedtools -intersect
原理:本質是找兩個文件的overlap佣蓉,這里兩個文件一個是注釋文件一個是peaks文件的話,就相當于把peaks文件注釋了亲雪。
命令:bedtools intersect -wa -wb -a */A549K27.bed -b */hs19_anno.bed
input:注釋和peaks文件都要是bed/gff/vcf/bam格式勇凭,xls轉的時候要注意,先xls-txt-bed
在linux中cat打不開就是格式錯誤义辕,需要認真準備虾标,或:dos2unix file
轉化成linux系統(tǒng)識別的格式。
3.R包CHIPseeker
特點:很綜合灌砖,能自定義TSS的區(qū)域范圍璧函。
缺點:包太大,需要安裝基显、調用不計其數(shù)的包蘸吓,不好安裝。本次嘗試多次多個版本的R均未成功撩幽。
*2.27看B站jimmyzeng教程库继,也提到Y叔的包需要調用大量的包,里面一旦有一個更新了其他都要更新才能用摸航,尤其是DOSE這個包制跟。
4.HOMER
注釋peak,安裝起來比較復雜酱虎,可以用conda安裝雨膨。
還可以find motif,這個功能與MEME相似读串。
至此我的ChIP分析的前半段就結束了聊记,后面是尋找我感興趣的目標基因的差異peak情況,不方便共享恢暖,不過方法就是一系列shell操作排监,還需要多練習,野蠻生長杰捂,每天進步~