1 vConTACT2的安裝
根據(jù)官網(wǎng)的安裝說明,采用推薦的Conda-based installation方法,本文針對vContact2的0.11.3版本的安裝略做了調(diào)整梆靖,采用mamba進(jìn)行安裝误阻,另外官網(wǎng)安裝的python版本有問題(python=3)垢乙,需要具體指定為python=3.7警儒,另外還要安裝一個clusterone椿肩。
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# Install into $HOME/conda
mamba create -y --name vContact2 python=3.7 #將python=3修改為python=3.7
source activate vContact2
mamba install -y -c bioconda vcontact2 mcl blast diamond
mamba install -y -c bioconda clusterone #添加這一行安裝clusterone荠耽,否則報錯
上述方法在我們的新服務(wù)器安裝成功钩骇,但是舊服務(wù)器就不怎么好使。報錯顯示是biopython 的版本問題。于是倘屹,我先裝的python3.6银亲,然后把python的版本換成了3.8,再指定安裝biopython的版本為1.78唐瀑,遂安裝成功群凶。具體命令如下:
conda clean --all -y
mamba update conda
mamba create --name VC-vContact2 python=3.8 -y
conda activate VC-vContact2
mamba install -y -c conda-forge biopython=1.78
mamba install -y -c bioconda vcontact2=0.11.3
mamba install -y -c bioconda mcl blast diamond
mamba install -y -c bioconda clusterone
mamba install -y -c conda-forge numpy=1.22.4 #這個才能適配python3.8
2 vConTACT2分析步驟
4 vConTACT2結(jié)果文件
vConTACT2結(jié)果中最重要的文件是網(wǎng)絡(luò)和注釋文件,其他文件多數(shù)都是臨時文件和中間結(jié)果哄辣,一般來說沒啥意義请梢。
4.1 genome_by_genome_overview.csv
該文件包含參考基因組的所有分類信息,以及所有聚類信息(初始VC (VC_22)力穗、細(xì)化后的VC (VC_22_1))毅弧、置信度量和misc評分。
其中当窗,用戶提供的序列不包含注釋信息够坐。這意味著用戶需要找到感興趣的基因組,并檢查參考基因組是否位于同一VC中崖面。如果用戶基因組與參考基因組處于同一VC子簇中元咙,那么用戶基因組極有可能屬于同一屬。如果用戶基因組在相同的VC中巫员,但不是作為參考的相同的子簇庶香,那么這兩個基因組很可能在大致屬亞科水平上是相關(guān)的。如果在同一VC或VC亞簇中沒有參考基因組简识,那么很可能它們在屬水平上根本沒有關(guān)聯(lián)赶掖。也就是說,它們可能在更高的分類學(xué)層次上(亞科七扰、科奢赂、目)有關(guān)聯(lián)。
序號 | 列名 | 注釋 |
---|---|---|
1 | Genome | 基因組/序列名 |
2-4 | Order/Family/Genus | 目/科/屬 |
5 | preVC | 初始病毒聚類 |
6 | VC Status | 病毒聚類狀態(tài) |
7 | VC | 病毒聚類 |
8 | VC Size | 病毒聚類數(shù) |
9 | Quality | 質(zhì)量值 |
10 | Adjusted P-value | 調(diào)整后的P值 |
11 | VC Avg Distance | 病毒聚類平均距離 |
12 | Topology Confidence Score | 拓?fù)鋵W(xué)置信度 |
13 | Genus Confidence Score | 屬級分類置信度 |
14-16 | VC Orders/Families/Genra | 病毒聚類目/科/屬數(shù) |
注:protein clusters(PCs)颈走,viral clusters (VCs)膳灶。
4.2 C1.NTW
該文件包含高于顯著性閾值的所有基因組對的源序列、目標(biāo)序列以及邊緣權(quán)重信息立由,該閾值由這兩個基因組共享N個基因的概率確定袖瞻。該文件中的最小值必須大于最小顯著性閾值(默認(rèn)值:1)。用戶可將該文件導(dǎo)入到Gephi或Cytoscape中創(chuàng)建網(wǎng)絡(luò)圖拆吆。
5 vConTACT2修復(fù)報錯
最近聋迎,跑vConTACT2[1],對比各種宏病毒數(shù)據(jù)集枣耀。
幾天過去了霉晕,分析已經(jīng)差不多接近尾聲庭再。
然而,出現(xiàn)了報錯牺堰,如下:
ERROR:vcontact2: Error in identifying excluded genomes (i.e. those dropped for being singletons or outliers): [Errno 2] No such file or directory: '/Users/bolduc.10/Downloads/merged_df_alterntaive.csv'
1 subprocess.CalledProcessError
subprocess.CalledProcessError: Command '['diamond', 'makedb', '--threads', '28', '--in', '1.vContact2/merged.faa', '-d', '1.vContact2/merged']' died with <Signals.SIGILL: 4>.
解決方式為重裝diamond拄轻。
conda install -y diamond
2 Error in identifying excluded genomes
百度了幾下,毛都沒搜到伟葫。
最終還是Google比較好使恨搓,
瞬間找到“Asier Zaragoza Solas”大佬給出的建議[2]。
根據(jù)大佬的建議筏养,解決方法如下:
首先斧抱,用vim打開summaries.py文件進(jìn)行編輯。
vi ~/miniconda3/envs/vContact2/lib/python3.8/site-packages/vcontact2/exports/summaries.py
找到下面這行:
merged_df.to_csv('/Users/bolduc.10/Downloads/merged_df_alterntaive.csv')
將單引號中的目錄改為本機中存在的目錄渐溶。
merged_df.to_csv('~/merged_df_alterntaive.csv')
就醬;云帧!茎辐!
參考文獻(xiàn)
[1] https://bitbucket.org/MAVERICLab/vcontact2/wiki/Home
[2] https://bitbucket.org/MAVERICLab/vcontact2/issues/57/error-in-identifying-excluded-genomes
[3] Guo, J., Vik, D., Pratama, A. A., Roux, S., & Sullivan, M. (2021). Viral sequence identification SOP with 626 VirSorter2 V.3. 8–11. https://doi.org/dx.doi.org/10.17504/protocols.io.bwm5pc86