? ? ? 最近接了個(gè)幫學(xué)院其他老師分析水稻轉(zhuǎn)錄組的活,但是媳婦趕著畢業(yè),要幫她搞文章和數(shù)據(jù)妆距,沒空干這個(gè)腐巢,自己雖然會分析轉(zhuǎn)錄組,但是一直沒有實(shí)現(xiàn)自動(dòng)化辦事灸叼,所以在谷歌學(xué)術(shù)瞎逛,想找一個(gè)rnaseq的pipline,結(jié)果就被我找到了這個(gè)玩意蜜另,rnaflow,一個(gè)基于nextfolw的打包一大堆常用rnaseq分析軟件且能夠自動(dòng)化分析嫡意、自動(dòng)化出圖的好玩意举瑰。
? ? ? 文章發(fā)表在Genes,RNAflow: An Effective and Simple RNA-Seq Differential Gene Expression Pipeline Using Nextflow 蔬螟,2020年12月發(fā)布的此迅,雖然是個(gè)MDPI雜志社的文章,但是試用以后感覺還是很不錯(cuò)的旧巾,主要是滿足了懶人的需求耸序。軟件在著名的同性交友網(wǎng)站Gayhub下載到,寫這個(gè)文章的時(shí)候版本最新為v1.2,下面簡單介紹一下鲁猩。
數(shù)據(jù)的分析流程全都是業(yè)界常用的這些玩意坎怪。
整個(gè)軟件的流程基于nextflow和conda,如果需要denovo組裝的話還需要安裝Singularity 绳匀,大體上來開始需要3步:
1 安裝conda芋忿,并且加入bioconda源,自己查一下吧疾棵;
2 在conda里安裝nextflow戈钢; conda install nextflow
3 運(yùn)行 nextflow pull hoelzer-lab/rnaflow 完成基本流程安裝,然后再運(yùn)行軟件自己檢測腳本是尔,腳本會自動(dòng)完成從去rRNA殉了、質(zhì)檢、比對拟枚、計(jì)數(shù)到差異基因和繪圖全流程的軟件
nextflow run hoelzer-lab/rnaflow -profile test,conda,local
...
正式進(jìn)行全流程操作的時(shí)候薪铜,需要準(zhǔn)備兩個(gè)文件:
1? Read files (required)
分為單端和雙端兩種,所有數(shù)據(jù)似乎必須為壓縮好的gz格式恩溅,代號絕對路徑隔箍,單端的輸入文件格式為,命名為input.csv:
--reads input.csv
雙端的為:
2 準(zhǔn)備需要的參考基因組和對應(yīng)的注釋文件脚乡,看樣子是要求GTF蜒滩,不知道GFF可不可以,我自己還在試驗(yàn):
--genome fastas.csv
--annotation gtfs.csv
3 準(zhǔn)備妥當(dāng)以后,就可以開始運(yùn)行命令了
nextflow run hoelzer-lab/rnaflow --reads input.csv --genome fastas.csv --annotation gtfs.csv --max_cores 6 --cores 2
如果是雙端數(shù)據(jù) 需要指定參數(shù) --mode paired 否則會運(yùn)行失敗俯艰。
下圖是我正在跑的捡遍,還沒結(jié)果,我這個(gè)配置需要1整天才有結(jié)果竹握。
? ? ? 目前遇到的最大問題是画株,該流程所有軟件都會需要聯(lián)網(wǎng)重新裝一遍,但是bioconda在我這非忱卜卡谓传,需要反復(fù)運(yùn)行命令才能完成全部虛擬環(huán)境和軟件的安裝,就這第一步我搞了1個(gè)晚上昧甘。
最后輸出的結(jié)果是1個(gè)大文件夾良拼,里面包含了各種文件。
普通物種基于pathway的分析是不會有的充边,這個(gè)管道只支持搞人庸推,大鼠,小鼠以及大腸桿菌的分析浇冰,所以做其他物種的贬媒,需要自己想辦法。作者說在未來會增加一些其它物種的支持肘习。
等我自己的數(shù)據(jù)跑完以后我再來寫個(gè)新的總結(jié)际乘。