Introduction
在生物信息學(xué)領(lǐng)域艾岂,對(宏)基因組進(jìn)行生物合成基因簇(BGCs)的挖掘合陵,編碼次生代謝產(chǎn)物的生產(chǎn)已成為自然產(chǎn)物發(fā)現(xiàn)的關(guān)鍵策略。在單個基因組水平上桅咆,這一過程由諸如antiSMASH之類的工具執(zhí)行括授。
當(dāng)研究大量基因組和宏基因組時,進(jìn)行大規(guī)模分析變得至關(guān)重要。BiG-SCAPE(生物合成基因相似性聚類與勘探引擎)是一種計算BGC之間距離的工具荚虚,以便將BGC的多樣性映射到序列相似性網(wǎng)絡(luò)上薛夜,然后將其用于自動重建基因簇家族,即編碼高度相似或相同分子的基因簇組版述。BiG-SCAPE對這些相似性網(wǎng)絡(luò)的交互式可視化有助于有效地探索BGC的多樣性梯澜,并將其與MIBiG存儲庫中的參考數(shù)據(jù)知識聯(lián)系起來。
簡要工作原理
BiG-SCAPE(遞歸地)從輸入文件夾中讀取存儲為GenBank文件的BGC信息(最好與諸如antiSMASH等工具識別的基因簇相對應(yīng))渴析。
然后晚伙,BiG-SCAPE利用Pfam數(shù)據(jù)庫和HMMER套件中的hmmscan來預(yù)測每個序列中的Pfam域,從而將每個BGC總結(jié)為Pfam域的線性字符串俭茧。
對于集合中的每一對BGC咆疗,它們之間的配對距離被計算為Jaccard指數(shù)、鄰接指數(shù)(AI)和域序列相似性(DSS)指數(shù)的加權(quán)組合母债。生成兩種類型的輸出:文本文件午磁,其中包括網(wǎng)絡(luò)文件,以及交互式可視化毡们⊙富剩可以在一個或多個運(yùn)行中考慮不同的距離截止值(即,只有原始距離<截止值的配對才寫入最終的.network文件)衙熔。
每個截止值的距離將用于自動定義'基因簇家族'(Gene Cluster Families登颓,GCFs)和'基因簇族'(Gene Cluster Clans,GCCs)红氯。
默認(rèn)情況下挺据,BiG-SCAPE使用antiSMASH處理的GenBank文件中的/product信息將分析分為八個BiG-SCAPE類別。每個類別都有不同的距離組件權(quán)重集脖隶。您還可以選擇將所有BGC類別合并為單個網(wǎng)絡(luò)文件(--mix),并停用默認(rèn)分類(--no_classify)暇检。還可以通過使用--banned_classes參數(shù)來阻止分析任何BiG-SCAPE類別产阱。
下面介紹軟件的安裝和使用,詳細(xì)工作原理可以看More details块仆。獲取更多詳細(xì)信息:https://github.com/medema-group/BiG-SCAPE/wiki
Installation
因為BiG-SCAPE的input files最好就是antiSMASH的基因簇輸出結(jié)果构蹬。建議先裝好antiSMASH,然后再裝BiG-SCAPE悔据,可以參考上一篇文章使用conda創(chuàng)建環(huán)境安裝庄敛。
裝好antiSMASH后,可以繼續(xù)使用conda來安裝BiG-SCAPE:
- 官方給的安裝方式也很簡單科汗,首先直接解壓整個軟件目錄即可:
cd ~/biosoft # 這里是我自己的軟件目錄藻烤,可以根據(jù)自己的情況更改
wget https://github.com/medema-group/BiG-SCAPE/archive/refs/tags/v1.1.5.zip
unzip BiG-SCAPE-1.1.5.zip
cd BiG-SCAPE-1.1.5
- 依賴項安裝:
- 如果要新建一個環(huán)境:
conda env create -f bigscape_dependencies.yml
conda activate bigscape
- 我是安裝在antiSMASH_5.2.0同一環(huán)境下的:
看了一下沒什么沖突,所以直接進(jìn)入BiG-SCAPE目錄,裝好antiSMASH_5.2.0后怖亭,大部分依賴都好了:
conda activate antiSMASH_5.2.0
#裝一些python包即可
pip install -r requirements.txt
- 準(zhǔn)備 Pfam 數(shù)據(jù)庫:
- 直接下載最新的:
wget https://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz && gunzip Pfam-A.hmm.gz
hmmpress Pfam-A.hmm
- 使用antiSMASH自帶的:
#可以在antiSMASH的目錄中找到同一份文件涎显,根據(jù)自己的安裝路徑更改:
ll ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/antismash/databases/pfam/32.0/
#然后直接軟鏈接到BiG-SCAPE目錄即可:
ln -s ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/antismash/databases/pfam/32.0/* ./
- 檢查是否安裝成功:
# 進(jìn)入對應(yīng)的環(huán)境
conda activate bigscape
python bigscape.py --version
Usage
~/biosoft/BiG-SCAPE-1.1.5/bigscape.py -h
usage: BiG-SCAPE [-h] [-l LABEL] [-i INPUTDIR] -o OUTPUTDIR [--pfam_dir PFAM_DIR] [-c CORES]
[--include_gbk_str INCLUDE_GBK_STR [INCLUDE_GBK_STR ...]] [--exclude_gbk_str EXCLUDE_GBK_STR [EXCLUDE_GBK_STR ...]] [-v]
[--include_singletons] [-d DOMAIN_OVERLAP_CUTOFF] [-m MIN_BGC_SIZE] [--mix] [--no_classify]
[--banned_classes {PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others}
[{PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others} ...]]
[--cutoffs CUTOFFS [CUTOFFS ...]] [--clans-off] [--clan_cutoff CLAN_CUTOFF CLAN_CUTOFF] [--hybrids-off]
[--mode {global,glocal,auto}] [--anchorfile ANCHORFILE] [--force_hmmscan] [--skip_ma] [--mibig] [--mibig21] [--mibig14]
[--mibig13] [--query_bgc QUERY_BGC] [--domain_includelist] [--version]
optional arguments:
-h, --help show this help message and exit
顯示此幫助信息并退出
-l LABEL, --label LABEL
An extra label for this run (will be used as part of the folder name within the network_files results)
為此次運(yùn)行添加一個額外的標(biāo)簽(將在network_files結(jié)果文件夾名稱中使用)
-i INPUTDIR, --inputdir INPUTDIR
Input directory of gbk files, if left empty, all gbk files in current and lower directories will be used.
gbk文件的輸入目錄,如果留空兴猩,將使用當(dāng)前和下級目錄中的所有g(shù)bk文件
-o OUTPUTDIR, --outputdir OUTPUTDIR
Output directory, this will contain all output data files.
輸出目錄期吓,將包含所有輸出數(shù)據(jù)文件
--pfam_dir PFAM_DIR Location of hmmpress-processed Pfam files. Default is same location of BiG-SCAPE
hmmpress處理過的Pfam文件的位置。默認(rèn)是BiG-SCAPE的同一位置
-c CORES, --cores CORES
Set the number of cores the script may use (default: use all available cores)
設(shè)置腳本可以使用的核心數(shù)(默認(rèn):使用所有可用的核心)
--include_gbk_str INCLUDE_GBK_STR [INCLUDE_GBK_STR ...]
Only gbk files with this string(s) will be used for the analysis (default: 'cluster', 'region'). Use an asterisk
to accept every file (overrides '--exclude_gbk_str')
僅使用包含此字符串的gbk文件進(jìn)行分析(默認(rèn):'cluster', 'region')倾芝。使用星號(*)接受所有文件(覆蓋'--exclude_gbk_str')
--exclude_gbk_str EXCLUDE_GBK_STR [EXCLUDE_GBK_STR ...]
If any string in this list occurs in the gbk filename, this file will not be used for the analysis (default:
final).
如果gbk文件名中出現(xiàn)此列表中的任何字符串讨勤,則該文件不會用于分析(默認(rèn):final)
-v, --verbose Prints more detailed information. Toggle to activate.
輸出更詳細(xì)的信息。切換以激活
--include_singletons Include nodes that have no edges to other nodes from the network. Toggle to activate.
包含網(wǎng)絡(luò)中沒有與其他節(jié)點連接的節(jié)點晨另。切換以激活
-d DOMAIN_OVERLAP_CUTOFF, --domain_overlap_cutoff DOMAIN_OVERLAP_CUTOFF
Specify at which overlap percentage domains are considered to overlap. Domain with the best score is kept (default=0.1).
指定在何種重疊百分比下域被認(rèn)為是重疊的潭千。保留得分最高的域(默認(rèn)=0.1)
-m MIN_BGC_SIZE, --min_bgc_size MIN_BGC_SIZE
Provide the minimum size of a BGC to be included in the analysis. Default is 0 base pairs
提供要包含在分析中的BGC的最小大小。默認(rèn)是0個堿基對
--mix By default, BiG-SCAPE separates the analysis according to the BGC product (PKS Type I, NRPS, RiPPs, etc.) and will
create network directories for each class. Toggle to include an analysis mixing all classes
默認(rèn)情況下拯刁,BiG-SCAPE根據(jù)BGC產(chǎn)物(PKS Type I, NRPS, RiPPs等)分開分析脊岳,并為每個類別創(chuàng)建網(wǎng)絡(luò)目錄。切換以包含混合所有類別的分析
--no_classify By default, BiG-SCAPE classifies the output files analysis based on the BGC product. Toggle to deactivate (note
that if the --mix parameter is not activated, BiG-SCAPE will not create any network file).
默認(rèn)情況下垛玻,BiG-SCAPE根據(jù)BGC產(chǎn)物分類輸出文件分析割捅。切換以停用(注意,如果未激活--mix參數(shù)帚桩,BiG-SCAPE將不會創(chuàng)建任何網(wǎng)絡(luò)文件)
--banned_classes {PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others}
[{PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others} ...]
Classes that should NOT be included in the classification. E.g. "--banned_classes PKSI PKSOther"
不應(yīng)包括在分類中的類別亿驾。例如:“--banned_classes PKSI PKSOther”
--cutoffs CUTOFFS [CUTOFFS ...]
Generate networks using multiple raw distance cutoff values. Values should be in the range [0.0, 1.0]. Example:
--cutoffs 0.1 0.25 0.5 1.0. Default: c=0.3.
使用多個原始距離截斷值生成網(wǎng)絡(luò)。值應(yīng)在[0.0, 1.0]范圍內(nèi)账嚎。例如:--cutoffs 0.1 0.25 0.5 1.0莫瞬。默認(rèn)值:c=0.3
--clans-off Toggle to deactivate a second layer of clustering to attempt to group families into clans
切換以停用第二層聚類以嘗試將家族分組為氏族
--clan_cutoff CLAN_CUTOFF CLAN_CUTOFF
Cutoff Parameters for which clustering families into clans will be performed in raw distance. First value is the
cutoff value family assignments for BGCs used in clan clustering (default: 0.3). Second value is the cutoff value
for clustering families into clans (default: 0.7). Average linkage for BGCs in a family is used for distances
between families. Valid values are in the range [0.0, 1.0]. Example: --clan_cutoff 0.3 0.7)
用于將家族聚類為氏族的原始距離截斷參數(shù)。
第一個值是用于氏族聚類的BGC家族分配的截斷值(默認(rèn):0.3)郭蕉。
第二個值是將家族聚類為氏族的截斷值(默認(rèn):0.7)疼邀。
家族中BGC的平均鏈接用于家族之間的距離。有效值在[0.0, 1.0]范圍內(nèi)召锈。例如:--clan_cutoff 0.3 0.7
--hybrids-off Toggle to also add BGCs with hybrid predicted products from the PKS/NRPS Hybrids and Others classes to each
subclass (e.g. a 'terpene-nrps' BGC from Others would be added to the Terpene and NRPS classes)
切換以將具有PKS/NRPS混合和其他類的混合預(yù)測產(chǎn)物的BGC添加到每個子類(例如旁振,將Others中的'萜類-nrps' BGC添加到萜類和NRPS類)
--mode {global,glocal,auto}
Alignment mode for each pair of gene clusters. 'global': the whole list of domains of each BGC are compared;
'glocal': Longest Common Subcluster mode. Redefine the subset of the domains used to calculate distance by trying
to find the longest slice of common domain content per gene in both BGCs, then expand each slice. 'auto': use
glocal when at least one of the BGCs in each pair has the 'contig_edge' annotation from antiSMASH v4+, otherwise
use global mode on that pair
每對基因簇的比對模式。
'global':比較每個BGC的整個域列表涨岁;'glocal':最長公共子簇模式拐袜。
通過嘗試查找每個BGC中每個基因的最長公共域內(nèi)容片段,然后擴(kuò)展每個片段來重新定義用于計算距離的域子集梢薪。
'auto':當(dāng)每對中至少有一個BGC具有antiSMASH v4+的'contig_edge'注釋時蹬铺,使用glocal模式,否則對該對使用global模式
--anchorfile ANCHORFILE
Provide a custom location for the anchor domains file, default is anchor_domains.txt.
提供錨域文件的自定義位置秉撇,默認(rèn)是anchor_domains.txt
--force_hmmscan Force domain prediction using hmmscan even if BiG-SCAPE finds processed domtable files (e.g. to use a new version
of PFAM).
即使BiG-SCAPE找到處理過的domtable文件甜攀,也強(qiáng)制使用hmmscan進(jìn)行域預(yù)測(例如使用新版本的PFAM)
--skip_ma Skip multiple alignment of domains\'sequences. Use if alignments have been generated in a previous run.
跳過域序列的多重比對秋泄。如果比對已在之前的運(yùn)行中生成,請使用此選項
--mibig Include MIBiG 3.1 BGCs as reference (https://mibig.secondarymetabolites.org/). These BGCs will only be kept if
they are connected to a region in the input set (distance < max(cutoffs)).
包含MIBiG 3.1 BGC作為參考(https://mibig.secondarymetabolites.org/ )赴邻。
只有當(dāng)這些BGC與輸入集中的某個區(qū)域相連(距離<最大截斷值)時才會保留
--mibig21 Include BGCs from version 2.1 of MIBiG
包含MIBiG 2.1版本中的BGC
--mibig14 Include BGCs from version 1.4 of MIBiG
包含MIBiG 1.4版本中的BGC
--mibig13 Include BGCs from version 1.3 of MIBiG
包含MIBiG 1.3版本中的BGC
--query_bgc QUERY_BGC
Instead of making an all-VS-all comparison of all the input BGCs, choose one BGC to compare with the rest of the
set (one-VS-all). The query BGC does not have to be within inputdir
不進(jìn)行所有輸入BGC的全部對比印衔,而是選擇一個BGC與其余的集合進(jìn)行對比(單一對比全部)。查詢BGC不必在inputdir中
--domain_includelist Only analyze BGCs that include domains with the pfam accessions found in the domain_includelist.txt file
僅分析包含domain_includelist.txt文件中pfam登錄名的BGC
--version show program\'s version number and exit
顯示程序的版本號并退出
Example
mkdir BiG-SCAPE_example
cd BiG-SCAPE_example
wget https://zenodo.org/record/1340617/files/gbks.tar.gz?download=1
tar -zxvf gbks.tar.gz
tree gbks/
示例文件里共有23個BGCs:
gbks/
|-- BGC0000715.1.cluster001.gbk
|-- JMGX01000001.1.cluster003.gbk
|-- JMGX01000001.1.cluster009.gbk
|-- JMQG01000002.1.cluster016.gbk
|-- JOBV01000001.1.cluster003.gbk
|-- JOBV01000001.1.cluster044.gbk
|-- JOBW01000001.1.cluster001.gbk
|-- JOBW01000001.1.cluster018.gbk
|-- JOBW01000001.1.cluster027.gbk
|-- JOES01000001.1.cluster004.gbk
|-- JOES01000001.1.cluster049.gbk
|-- JOHJ01000001.1.cluster020.gbk
|-- JOIW01000001.1.cluster027.gbk
|-- JOIW01000001.1.cluster028.gbk
|-- JOJM01000001.1.cluster017.gbk
|-- JOJM01000001.1.cluster022.gbk
|-- JOJM01000001.1.cluster024.gbk
|-- JPRA01000006.1.cluster028.gbk
|-- KL589150.1.cluster015.gbk
|-- LGCX01000001.1.cluster014.gbk
|-- LMFT01000001.1.cluster017.gbk
|-- MDDK01000001.1.cluster053.gbk
`-- NC1.1.cluster031.gbk
運(yùn)行bigscape:
bigscape -i gbks -o example_output
2核的任務(wù)姥敛,共耗時635s
Input files
BiG-SCAPE的輸入文件是GenBank格式的BGC文件奸焙,但是有一些要注意的點:
從--inputdir文件夾開始,BiG-SCAPE將遞歸查找具有.gbk擴(kuò)展名的文件彤敛。以下文件將被排除:
- 文件名中包含--exclude_gbk_str指定的字符串(默認(rèn)值為“final”与帆。這是為了排除由antiSMASH生成的匯總GenBank文件,文件名以<clustername>.final.gbk結(jié)尾)
- 路徑(包括文件名)中有空格的文件墨榄⌒悖空格與hmmer不兼容
- 文件名包含“_ORF”的文件,這是BiG-SCAPE內(nèi)部使用的標(biāo)記
- 名稱重復(fù)的文件(例如在不同文件夾中)
- 無法提取蛋白質(zhì)序列的文件
- 序列(所有記錄的總和)短于min_bgc_size的文件
- 由于格式問題無法被BioPython解析的文件
默認(rèn)情況下袄秩,僅包括以下文件:
- 文件名中包含“cluster”的文件(antiSMASH 4)
- 文件名中包含“region”的文件(antiSMASH 5以上)
如果需要排除或包括文件名中包含特定字符串的文件阵翎,請使用--exclude_gbk_str和--include_gbk_str選項。
如果兩個CDS特征重疊(例如剪接事件)之剧,BiG-SCAPE的行為是允許最短CDS的最大10%的重疊郭卫。如果檢測到更多的重疊,BiG-SCAPE將從分析中刪除最小的特征背稼。
文件名(不包括擴(kuò)展名)將用作BGC名稱贰军。請注意,目前BiG-SCAPE對特定分類(即細(xì)菌蟹肘、古菌词疼、真菌或植物BGC)沒有任何特殊分析,所有分類處理方式相同帘腹。
對于我們微生物組獲得的大量MAG來做分析贰盗,我們最好是把所有的bgk文件重命名后放在一個文件夾下,然后運(yùn)行BiG-SCAPE即可*
mkdir gbk_files
#MAG_BGC文件夾下是所有的MAG的BGC文件夾阳欲,每個文件夾下有多個gbk文件
ls MAG_BGC/ >MAG_list
for i in `cat MAG_list`
do
echo $i
#把*region*.gbk提取出來童太,如果沒有region就跳過,如果是cluster就修改一下
find MAG_BGC/$i -name "*region*.gbk" >tmp_list
for j in `cat tmp_list`
do
#重命名成genome_name_region的形式并拷貝到一個目錄
cp $j gbk_files/${i}_$(basename $j)
done
done
而且建議在運(yùn)行antiSMASH時加上--allow-long-headers參數(shù)胸完,允許長名,不會截短翘贮。這樣后續(xù)處理會方便很多赊窥。
Output
輸出文件夾結(jié)構(gòu):
-
cache: 存放分析的預(yù)計算數(shù)據(jù)。如果BiG-SCAPE再次運(yùn)行并指向相同的輸出文件夾狸页,它將嘗試從該目錄讀取并重用文件址遇。
-
domains: 對于分析中發(fā)現(xiàn)的每個域,生成三個文件:
- fasta文件: 包含來自所有BGC中所有蛋白質(zhì)的相同域的序列。
- stk文件: 使用hmmalign對每個序列進(jìn)行比對,格式為stockholm。
- algn文件: fasta格式的比對域序列文件(從stockholm文件解析)。這些是將用于DSS的序列。
- domtable: 使用hmmscan對每個BGC的蛋白質(zhì)序列進(jìn)行域預(yù)測的原始輸出。
- fasta: 每個BGC的蛋白質(zhì)序列。從GenBank文件的CDS特征中提取克胳。
- pfd: 解析自domtable文件的結(jié)果,格式為制表符分隔纬傲。這些結(jié)果已經(jīng)過濾了重疊域汁雷。列包括:簇名稱少孝,(每個域的)得分,基因ID(如果存在),包絡(luò)坐標(biāo)開始抑钟,包絡(luò)坐標(biāo)結(jié)束(域預(yù)測的氨基酸坐標(biāo)),pfam ID贺待,pfam描述喘垂,基因開始坐標(biāo)章贞,基因結(jié)束坐標(biāo)兜喻,內(nèi)部cds頭泛粹。
-
pfs: 每個BGC文件的預(yù)測域列表遂铡。
- .dict文件: 內(nèi)部文件
-
domains: 對于分析中發(fā)現(xiàn)的每個域,生成三個文件:
- html_content: 所有交互式可視化所需的代碼。
- logs: 目前僅包含每次運(yùn)行(指向此輸出文件夾)使用的參數(shù)和運(yùn)行時間晶姊。
- network files: 詳見下一節(jié)信息扒接。
- SVG: 分析中每個BGC的箭頭圖,格式為svg们衙。每個圖都有表示預(yù)測域的框钾怔。這些框有隨機(jī)顏色,但用戶可以通過修改domains_color_file.tsv文件更改顏色砍艾。
network files文件夾
每次運(yùn)行都會生成一組輸出文件蒂教,可以使用其他工具(例如Cytoscape)進(jìn)行分析:
-
Network_Annotations_Full.tsv: 一個包含每個成功處理的BGC信息的制表符分隔文件。信息包括:
- BGC名稱
- 來自GenBank文件的原始登錄ID
- 原始GenBank文件中的描述
- antiSMASH產(chǎn)物預(yù)測
- BiG-SCAPE分類
- 來自原始GenBank文件的生物體標(biāo)簽
- 來自GenBank文件的分類字符串
表格展示上面example輸出結(jié)果的前三行脆荷,有這個表后我們就可以對樣本的BGCs情況做一些整體情況的可視化了:
BGC | Accession.ID | Description | Product Prediction | BiG-SCAPE class | Organism | Taxonomy |
---|---|---|---|---|---|---|
BGC0000715.1.cluster001 | BGC0000715.1 | Spectinomycin biosynthetic gene cluster | amglyccycl | Saccharides | . | NA |
JMGX01000001.1.cluster003 | JMGX01000001.1 | Streptomyces rimosus strain R6-500MV9 contig001, whole genome shotgun sequence | nrps | NRPS | . | NA |
JMGX01000001.1.cluster009 | JMGX01000001.1 | Streptomyces rimosus strain R6-500MV9 contig001, whole genome shotgun sequence | cf_fatty_acid.indole.nrps | Others | . | NA |
-
每個BiG-SCAPE分類的文件夾凝垛,包含:
- .network文件: 每個選擇的截斷值對應(yīng)一個文件。
- 網(wǎng)絡(luò)注釋文件蜓谋,包含用于該特定分類的BGC梦皮。
- 聚類文件:這些文件包含每個截斷值的BGC名稱,第一列是BGC名稱桃焕,第二列(用制表符分隔)是表示BGC被分配到的簇(GCF編號)的標(biāo)簽剑肯。
此外,結(jié)果還可以進(jìn)行交互式探索:通過點擊index.html文件或用任何網(wǎng)頁瀏覽器打開該文件來啟動交互式輸出观堂。
打開可視化頁面時让网,會顯示概覽頁面呀忧。
我們可以在網(wǎng)站頂部點擊選擇一個類(比如NRPS),屏幕將顯示該類中BGC族的網(wǎng)絡(luò)可視化:
對于example data的這個結(jié)果溃睹,NRPS類包含10個BGCs而账,分別在一個有三個成員的基因簇家族中,一個有兩個成員的家族和五個單體因篇。
在這個網(wǎng)絡(luò)中選擇一個家族(比如FAM006)泞辐,可視化BGCs并通過CORASON進(jìn)行對齊:
這個家族有3個成員,結(jié)構(gòu)類似竞滓。
More details
我們可以了解以下概念以便對BiG-SCAPE的結(jié)果有更深的理解:
BiG-SCAPE 分類
默認(rèn)情況下咐吼,BiG-SCAPE 會嘗試將簇分為八類。這是基于 antiSMASH 的產(chǎn)品注釋進(jìn)行的(詳見此處)商佑。antiSMASH 5 和 6 中引入的新標(biāo)簽用上標(biāo)標(biāo)注锯茄。
目前遵循的規(guī)則如下:
antiSMASH 注釋 | BiG-SCAPE 分類 |
---|---|
t1pks, T1PKS5 | PKS I |
transatpks, t2pks, t3pks, otherks, hglks, transAT-PKS5, transAT-PKS-like5, T2PKS5, T3PKS5, PKS-like5, hglE-KS5, prodigiosin 以及與 {t1pks, T1PKS5} 或自身組合的 | PKS other |
nrps, NRPS5, NRPS-like5, thioamide-NRP5, NAPAA6 | NRPS |
lantipeptide, thiopeptide, bacteriocin, linaridin, cyanobactin, glycocin, LAP, lassopeptide, sactipeptide, bottromycin, head_to_tail, microcin, microviridin, proteusin, guanidinotides, lanthipeptide5, lipolanthine5, RaS-RiPP5, fungal-RiPP5, thioamitides5.1, lanthipeptide-class-i6, lanthipeptide-class-ii6, lanthipeptide-class-iii6, lanthipeptide-class-iv6, lanthipeptide-class-v6, ranthipeptide6, redox-cofactor6, RRE-containing6, epipeptide6, cyclic-lactone-autoinducer6, spliceotide6, crocagin 以及與這些組合的 | RiPPs |
amglyccycl, oligosaccharide, cf_saccharide, saccharide5 以及與這些組合的 | Saccharides |
terpene | Terpene |
{PKS I} 中的任意一個 + {NRPS} 中的任意一個 | PKS/NRPS Hybrids |
acyl_amino_acids, arylpolyene, aminocoumarin, ectoine, butyrolactone, nucleoside, melanin, phosphoglycolipid, phenazine, phosphonate, other, cf_putative, resorcinol, indole, ladderane, PUFA, furan, hserlactone, fused, cf_fatty_acid, siderophore, blactam, fatty_acid5, PpyS-KS5, CDPS5, betalactone5, PBDE5, tropodithietic-acid5, NAGGN5, halogenated5, pyrrolidine6, mycosporine-like 以及任何組合注釋 | Others |
* | < mix > |
Hybrids:
如果啟用hybrids模式,某些簇可能會在不同類別中進(jìn)行分析(如果這些是有效類別):
- 如果簇屬于PKS-NRP_Hybrids BiG-SCAPE分類:該簇還將被放入NRPS類別和PKS類別之一(PKS I 或 PKS other)莉御。如果簇包含t1pks注釋撇吞,它將始終被放入PKS I 類別。
- 如果簇被分類為Others礁叔,且BiG-SCAPE檢測到這是由于多重注釋(例如terpene-t1pks)牍颈,BiG-SCAPE還會將該簇放入每個不同的單獨類別。
Domain 預(yù)測
從輸入文件中找到的所有BGC的蛋白質(zhì)序列被存儲在一個fasta文件(<bgc.fasta>)中琅关。然后煮岁,BiG-SCAPE使用HMMER套件中的hmmscan工具從Pfam數(shù)據(jù)庫中預(yù)測域。實際使用的命令是:
hmmscan --cpu 0 --domtblout <bgc.domtable> --cut_tc <path-to-PfamA.hmm> <bgc.fasta>
其中涣易,--cut_tc
選項根據(jù)hmmscan官方文檔:
使用模型中的TC(可信閾值)比特得分閾值來設(shè)置每個序列(TC1)和每個域(TC2)的報告和包含閾值画机。TC閾值通常被認(rèn)為是最低得分的已知真陽性分?jǐn)?shù),高于所有已知的假陽性新症。
用于提取和處理域序列的坐標(biāo)是包絡(luò)坐標(biāo)步氏。同樣來自HMMER指南:
(“env from”和“env to”)定義了目標(biāo)序列上域位置的包絡(luò)。包絡(luò)幾乎總是比HMMER選擇顯示的可信比對要寬一些徒爹。正如前面提到的荚醒,包絡(luò)代表了包含給定同源域的大部分后驗概率的子序列,即使精確的端點只是模糊地可推斷隆嗅。
在域預(yù)測之后界阁,會執(zhí)行一個過濾步驟,基于每個域的得分丟棄重疊的域胖喳。當(dāng)比較同一CDS內(nèi)的域?qū)r泡躯,如果任何域的序列的氨基酸重疊百分比(即氨基酸重疊數(shù)/域長度)高于overlap_cutoff
(由--domain_overlap_cutoff
參數(shù)設(shè)置,默認(rèn)為0.1),則會觸發(fā)域過濾较剃。
GCFs 和 GCCs
一旦為數(shù)據(jù)集計算出距離矩陣咕别,就會根據(jù) --cutoffs
參數(shù)選擇的每個截止距離執(zhí)行基因簇家族(GCF)的分配。
對于每個截止值写穴,BiG-SCAPE 會創(chuàng)建一個網(wǎng)絡(luò)顷级,使用所有小于或等于當(dāng)前截止值的距離。Affinity Propagation 聚類算法將應(yīng)用于從此過程中出現(xiàn)的每個連接組件的子網(wǎng)絡(luò)确垫。Affinity Propagation 的相似度矩陣包括子網(wǎng)絡(luò)成員之間的所有距離(即包括那些大于當(dāng)前截止值的距離)。
基因簇氏族(GCC)設(shè)置(默認(rèn)啟用)將在 GCFs 上執(zhí)行第二層聚類帽芽。為此删掀,將再次應(yīng)用 Affinity Propagation(即在子連接組件的網(wǎng)絡(luò)上),但網(wǎng)絡(luò)節(jié)點由在 --clan_cutoff
參數(shù)的第一個值(默認(rèn):0.3)指定的截止水平定義的 GCFs 表示导街。聚類將應(yīng)用于所有 GCFs 連接的網(wǎng)絡(luò)披泪,距離小于或等于 GCC 截止值(--clan_cutoff
參數(shù)的第二個值;較大的距離將被舍棄搬瑰,默認(rèn):0.7)款票。GCFs 之間的距離計算為兩個家族內(nèi) BGCs 之間的平均距離。
兩層聚類中使用的 Affinity Propagation 參數(shù):damping=0.9
, max_iter=1000
, convergence_iter=200
泽论。