萌哥碎碎念:
NCBI的官方注釋流程一直都是出了名的效果拔群準(zhǔn)確度極高恩闻,但可惜一直都是非開(kāi)源的,看到這么好用的工具卻用不到自己的項(xiàng)目里剧董,心里可太刺撓了幢尚。
終于!最近NCBI開(kāi)源了他們的流程翅楼,下面的內(nèi)容由小伙伴阿良供稿大家如果有好的稿子也可以投稿給我呀
項(xiàng)目地址:
Eukaryotic Genome Annotation Pipeline - External (EGAPx)
使用體驗(yàn)
總的使用感受:最好能找到國(guó)外的好友幫忙尉剩,因?yàn)橄螺d依賴文件時(shí),網(wǎng)絡(luò)速度是個(gè)問(wèn)題
運(yùn)行說(shuō)明
本文采用singularity鏡像方式運(yùn)行毅臊,以示例數(shù)據(jù)為例理茎。
原因:
采用singularity鏡像可以避免aws S3部分的設(shè)置(這里會(huì)要求你開(kāi)通亞馬遜帳號(hào))。整個(gè)流程要先配置nextflow管嬉,可以參考:
軟件安裝
1. 先安裝nextflow
默認(rèn)你已經(jīng)裝了java, 沒(méi)安裝的話記得安裝皂林。
curl -s https://get.nextflow.io | bash
chmod +x nextflow
sudo mv nextflow /usr/local/bin
nextflow info
如果你沒(méi)有sudo權(quán)限,試試在conda環(huán)境下安裝nextflow后運(yùn)行蚯撩。
2. 下載singularity鏡像
可直接跳到github頁(yè)面offline mode部分础倍。
選擇適合的方式獲得鏡像(考驗(yàn)?zāi)愕木W(wǎng)絡(luò))
singularity pull docker://ncbi/egapx:0.2-alpha
3. 下載本地緩存文件
下載“一些”注釋所需要的文件(考驗(yàn)?zāi)憔W(wǎng)速的時(shí)刻到了)
git clone https://github.com/ncbi/egapx.git
cd egapx
python3 ui/egapx.py -dl -lc ../local_cache
4. 下載示例數(shù)據(jù)
下載3中的緩存文件的同時(shí),下載示例所需數(shù)據(jù)
# 方法不限胎挎,能下載下來(lái)數(shù)據(jù)就行
prefetch SRR8506572
prefetch SRR9005248
fasterq-dump --skip-technical --threads 6 --split-files --seq-defline ">\$ac.\$si.\$ri" --fasta -O sradir/ ./SRR8506572
fasterq-dump --skip-technical --threads 6 --split-files --seq-defline ">\$ac.\$si.\$ri" --fasta -O sradir/ ./SRR9005248
5. 修改示例數(shù)據(jù)的配置文件內(nèi)容
vim examples/input_D_farinae_small.yaml
6. 避坑指南 (本文最重要的地方)
biowulf_cluster.config
默認(rèn)的是NIH的biowulf集群沟启,配置文件雖然已經(jīng)設(shè)好,但我無(wú)法選用犹菇,因此放棄美浦。
考慮到自己用的本地singularity鏡像,因此在后續(xù)命令中采用-e singularity
參數(shù)项栏。
避坑點(diǎn):直接使用會(huì)在運(yùn)行過(guò)程中再次下載singularity鏡像,既浪費(fèi)了前面已下好的蹬竖,又會(huì)因?yàn)榫W(wǎng)絡(luò)問(wèn)題失敗沼沈。
所以記得修改egapx_config/singularity.config
文件:
echo "process.container = '/path_to_/egapx_0.2-alpha.sif'" >> egapx_config/singularity_config
#或者直接vim編輯 egapx_config/singularity_config文件
7. 開(kāi)始運(yùn)行示例數(shù)據(jù)
ui/egapx.py examples/input_D_farinae_small.yaml -e singularity -w dfs_work -o dfs_out -lc ../local_cache
目前正常運(yùn)行中!有后續(xù)再更新~