使用BiG-SCAPE挖掘微生物組BGCs

Introduction

在生物信息學(xué)領(lǐng)域艾岂,對(宏)基因組進(jìn)行生物合成基因簇(BGCs)的挖掘合陵,編碼次生代謝產(chǎn)物的生產(chǎn)已成為自然產(chǎn)物發(fā)現(xiàn)的關(guān)鍵策略。在單個基因組水平上桅咆,這一過程由諸如antiSMASH之類的工具執(zhí)行括授。

當(dāng)研究大量基因組和宏基因組時,進(jìn)行大規(guī)模分析變得至關(guān)重要。BiG-SCAPE(生物合成基因相似性聚類與勘探引擎)是一種計算BGC之間距離的工具荚虚,以便將BGC的多樣性映射到序列相似性網(wǎng)絡(luò)上薛夜,然后將其用于自動重建基因簇家族,即編碼高度相似或相同分子的基因簇組版述。BiG-SCAPE對這些相似性網(wǎng)絡(luò)的交互式可視化有助于有效地探索BGC的多樣性梯澜,并將其與MIBiG存儲庫中的參考數(shù)據(jù)知識聯(lián)系起來。

簡要工作原理

BiG-SCAPE(遞歸地)從輸入文件夾中讀取存儲為GenBank文件的BGC信息(最好與諸如antiSMASH等工具識別的基因簇相對應(yīng))渴析。

然后晚伙,BiG-SCAPE利用Pfam數(shù)據(jù)庫和HMMER套件中的hmmscan來預(yù)測每個序列中的Pfam域,從而將每個BGC總結(jié)為Pfam域的線性字符串俭茧。

對于集合中的每一對BGC咆疗,它們之間的配對距離被計算為Jaccard指數(shù)、鄰接指數(shù)(AI)和域序列相似性(DSS)指數(shù)的加權(quán)組合母债。生成兩種類型的輸出:文本文件午磁,其中包括網(wǎng)絡(luò)文件,以及交互式可視化毡们⊙富剩可以在一個或多個運(yùn)行中考慮不同的距離截止值(即,只有原始距離<截止值的配對才寫入最終的.network文件)衙熔。

每個截止值的距離將用于自動定義'基因簇家族'(Gene Cluster Families登颓,GCFs)和'基因簇族'(Gene Cluster Clans,GCCs)红氯。

默認(rèn)情況下挺据,BiG-SCAPE使用antiSMASH處理的GenBank文件中的/product信息將分析分為八個BiG-SCAPE類別。每個類別都有不同的距離組件權(quán)重集脖隶。您還可以選擇將所有BGC類別合并為單個網(wǎng)絡(luò)文件(--mix),并停用默認(rèn)分類(--no_classify)暇检。還可以通過使用--banned_classes參數(shù)來阻止分析任何BiG-SCAPE類別产阱。

下面介紹軟件的安裝和使用,詳細(xì)工作原理可以看More details块仆。獲取更多詳細(xì)信息:https://github.com/medema-group/BiG-SCAPE/wiki

Installation

因為BiG-SCAPE的input files最好就是antiSMASH的基因簇輸出結(jié)果构蹬。建議先裝好antiSMASH,然后再裝BiG-SCAPE悔据,可以參考上一篇文章使用conda創(chuàng)建環(huán)境安裝庄敛。

裝好antiSMASH后,可以繼續(xù)使用conda來安裝BiG-SCAPE:

  1. 官方給的安裝方式也很簡單科汗,首先直接解壓整個軟件目錄即可:
cd ~/biosoft # 這里是我自己的軟件目錄藻烤,可以根據(jù)自己的情況更改
wget https://github.com/medema-group/BiG-SCAPE/archive/refs/tags/v1.1.5.zip
unzip BiG-SCAPE-1.1.5.zip
cd BiG-SCAPE-1.1.5
  1. 依賴項安裝:
  • 如果要新建一個環(huán)境:
conda env create -f bigscape_dependencies.yml
conda activate bigscape
  • 我是安裝在antiSMASH_5.2.0同一環(huán)境下的:
    看了一下沒什么沖突,所以直接進(jìn)入BiG-SCAPE目錄,裝好antiSMASH_5.2.0后怖亭,大部分依賴都好了:
conda activate antiSMASH_5.2.0
#裝一些python包即可
pip install -r requirements.txt
  1. 準(zhǔn)備 Pfam 數(shù)據(jù)庫:
  • 直接下載最新的:
wget https://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz && gunzip Pfam-A.hmm.gz 
hmmpress Pfam-A.hmm
  • 使用antiSMASH自帶的:
#可以在antiSMASH的目錄中找到同一份文件涎显,根據(jù)自己的安裝路徑更改:
ll ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/antismash/databases/pfam/32.0/
#然后直接軟鏈接到BiG-SCAPE目錄即可:
ln -s ~/miniconda3/envs/antismash_5.2.0/lib/python3.8/site-packages/antismash/databases/pfam/32.0/* ./
  1. 檢查是否安裝成功:
# 進(jìn)入對應(yīng)的環(huán)境
conda activate bigscape
python bigscape.py --version

Usage

~/biosoft/BiG-SCAPE-1.1.5/bigscape.py -h
usage: BiG-SCAPE [-h] [-l LABEL] [-i INPUTDIR] -o OUTPUTDIR [--pfam_dir PFAM_DIR] [-c CORES]
                 [--include_gbk_str INCLUDE_GBK_STR [INCLUDE_GBK_STR ...]] [--exclude_gbk_str EXCLUDE_GBK_STR [EXCLUDE_GBK_STR ...]] [-v]
                 [--include_singletons] [-d DOMAIN_OVERLAP_CUTOFF] [-m MIN_BGC_SIZE] [--mix] [--no_classify]
                 [--banned_classes {PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others}
                    [{PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others} ...]]
                 [--cutoffs CUTOFFS [CUTOFFS ...]] [--clans-off] [--clan_cutoff CLAN_CUTOFF CLAN_CUTOFF] [--hybrids-off]
                 [--mode {global,glocal,auto}] [--anchorfile ANCHORFILE] [--force_hmmscan] [--skip_ma] [--mibig] [--mibig21] [--mibig14]
                 [--mibig13] [--query_bgc QUERY_BGC] [--domain_includelist] [--version]

optional arguments:
  -h, --help            show this help message and exit
                        顯示此幫助信息并退出
  -l LABEL, --label LABEL
                        An extra label for this run (will be used as part of the folder name within the network_files results)
                        為此次運(yùn)行添加一個額外的標(biāo)簽(將在network_files結(jié)果文件夾名稱中使用)
  -i INPUTDIR, --inputdir INPUTDIR
                        Input directory of gbk files, if left empty, all gbk files in current and lower directories will be used.
                        gbk文件的輸入目錄,如果留空兴猩,將使用當(dāng)前和下級目錄中的所有g(shù)bk文件
  -o OUTPUTDIR, --outputdir OUTPUTDIR
                        Output directory, this will contain all output data files.
                        輸出目錄期吓,將包含所有輸出數(shù)據(jù)文件
  --pfam_dir PFAM_DIR   Location of hmmpress-processed Pfam files. Default is same location of BiG-SCAPE
                        hmmpress處理過的Pfam文件的位置。默認(rèn)是BiG-SCAPE的同一位置
  -c CORES, --cores CORES
                        Set the number of cores the script may use (default: use all available cores)
                        設(shè)置腳本可以使用的核心數(shù)(默認(rèn):使用所有可用的核心)
  --include_gbk_str INCLUDE_GBK_STR [INCLUDE_GBK_STR ...]
                        Only gbk files with this string(s) will be used for the analysis (default: 'cluster', 'region'). Use an asterisk
                        to accept every file (overrides '--exclude_gbk_str')
                        僅使用包含此字符串的gbk文件進(jìn)行分析(默認(rèn):'cluster', 'region')倾芝。使用星號(*)接受所有文件(覆蓋'--exclude_gbk_str')
  --exclude_gbk_str EXCLUDE_GBK_STR [EXCLUDE_GBK_STR ...]
                        If any string in this list occurs in the gbk filename, this file will not be used for the analysis (default:
                        final).
                        如果gbk文件名中出現(xiàn)此列表中的任何字符串讨勤,則該文件不會用于分析(默認(rèn):final)
  -v, --verbose         Prints more detailed information. Toggle to activate.
                        輸出更詳細(xì)的信息。切換以激活
  --include_singletons  Include nodes that have no edges to other nodes from the network. Toggle to activate.
                        包含網(wǎng)絡(luò)中沒有與其他節(jié)點連接的節(jié)點晨另。切換以激活
  -d DOMAIN_OVERLAP_CUTOFF, --domain_overlap_cutoff DOMAIN_OVERLAP_CUTOFF
                        Specify at which overlap percentage domains are considered to overlap. Domain with the best score is kept (default=0.1).
                        指定在何種重疊百分比下域被認(rèn)為是重疊的潭千。保留得分最高的域(默認(rèn)=0.1)
  -m MIN_BGC_SIZE, --min_bgc_size MIN_BGC_SIZE
                        Provide the minimum size of a BGC to be included in the analysis. Default is 0 base pairs
                        提供要包含在分析中的BGC的最小大小。默認(rèn)是0個堿基對
  --mix                 By default, BiG-SCAPE separates the analysis according to the BGC product (PKS Type I, NRPS, RiPPs, etc.) and will
                        create network directories for each class. Toggle to include an analysis mixing all classes
                        默認(rèn)情況下拯刁,BiG-SCAPE根據(jù)BGC產(chǎn)物(PKS Type I, NRPS, RiPPs等)分開分析脊岳,并為每個類別創(chuàng)建網(wǎng)絡(luò)目錄。切換以包含混合所有類別的分析
  --no_classify         By default, BiG-SCAPE classifies the output files analysis based on the BGC product. Toggle to deactivate (note
                        that if the --mix parameter is not activated, BiG-SCAPE will not create any network file).
                        默認(rèn)情況下垛玻,BiG-SCAPE根據(jù)BGC產(chǎn)物分類輸出文件分析割捅。切換以停用(注意,如果未激活--mix參數(shù)帚桩,BiG-SCAPE將不會創(chuàng)建任何網(wǎng)絡(luò)文件)
  --banned_classes {PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others} 
                      [{PKSI,PKSother,NRPS,RiPPs,Saccharides,Terpene,PKS-NRP_Hybrids,Others} ...]
                        Classes that should NOT be included in the classification. E.g. "--banned_classes PKSI PKSOther"
                        不應(yīng)包括在分類中的類別亿驾。例如:“--banned_classes PKSI PKSOther”
  --cutoffs CUTOFFS [CUTOFFS ...]
                        Generate networks using multiple raw distance cutoff values. Values should be in the range [0.0, 1.0]. Example:
                        --cutoffs 0.1 0.25 0.5 1.0. Default: c=0.3.
                        使用多個原始距離截斷值生成網(wǎng)絡(luò)。值應(yīng)在[0.0, 1.0]范圍內(nèi)账嚎。例如:--cutoffs 0.1 0.25 0.5 1.0莫瞬。默認(rèn)值:c=0.3
  --clans-off           Toggle to deactivate a second layer of clustering to attempt to group families into clans
                        切換以停用第二層聚類以嘗試將家族分組為氏族
  --clan_cutoff CLAN_CUTOFF CLAN_CUTOFF
                        Cutoff Parameters for which clustering families into clans will be performed in raw distance. First value is the
                        cutoff value family assignments for BGCs used in clan clustering (default: 0.3). Second value is the cutoff value
                        for clustering families into clans (default: 0.7). Average linkage for BGCs in a family is used for distances
                        between families. Valid values are in the range [0.0, 1.0]. Example: --clan_cutoff 0.3 0.7)
                        用于將家族聚類為氏族的原始距離截斷參數(shù)。
                        第一個值是用于氏族聚類的BGC家族分配的截斷值(默認(rèn):0.3)郭蕉。
                        第二個值是將家族聚類為氏族的截斷值(默認(rèn):0.7)疼邀。
                        家族中BGC的平均鏈接用于家族之間的距離。有效值在[0.0, 1.0]范圍內(nèi)召锈。例如:--clan_cutoff 0.3 0.7
  --hybrids-off         Toggle to also add BGCs with hybrid predicted products from the PKS/NRPS Hybrids and Others classes to each
                        subclass (e.g. a 'terpene-nrps' BGC from Others would be added to the Terpene and NRPS classes)
                        切換以將具有PKS/NRPS混合和其他類的混合預(yù)測產(chǎn)物的BGC添加到每個子類(例如旁振,將Others中的'萜類-nrps' BGC添加到萜類和NRPS類)
  --mode {global,glocal,auto}
                        Alignment mode for each pair of gene clusters. 'global': the whole list of domains of each BGC are compared;
                        'glocal': Longest Common Subcluster mode. Redefine the subset of the domains used to calculate distance by trying
                        to find the longest slice of common domain content per gene in both BGCs, then expand each slice. 'auto': use
                        glocal when at least one of the BGCs in each pair has the 'contig_edge' annotation from antiSMASH v4+, otherwise
                        use global mode on that pair
                        每對基因簇的比對模式。
                        'global':比較每個BGC的整個域列表涨岁;'glocal':最長公共子簇模式拐袜。
                        通過嘗試查找每個BGC中每個基因的最長公共域內(nèi)容片段,然后擴(kuò)展每個片段來重新定義用于計算距離的域子集梢薪。
                        'auto':當(dāng)每對中至少有一個BGC具有antiSMASH v4+的'contig_edge'注釋時蹬铺,使用glocal模式,否則對該對使用global模式
  --anchorfile ANCHORFILE
                        Provide a custom location for the anchor domains file, default is anchor_domains.txt.
                        提供錨域文件的自定義位置秉撇,默認(rèn)是anchor_domains.txt
  --force_hmmscan       Force domain prediction using hmmscan even if BiG-SCAPE finds processed domtable files (e.g. to use a new version
                        of PFAM).
                        即使BiG-SCAPE找到處理過的domtable文件甜攀,也強(qiáng)制使用hmmscan進(jìn)行域預(yù)測(例如使用新版本的PFAM)
  --skip_ma             Skip multiple alignment of domains\'sequences. Use if alignments have been generated in a previous run.
                        跳過域序列的多重比對秋泄。如果比對已在之前的運(yùn)行中生成,請使用此選項
  --mibig               Include MIBiG 3.1 BGCs as reference (https://mibig.secondarymetabolites.org/). These BGCs will only be kept if
                        they are connected to a region in the input set (distance < max(cutoffs)).
                        包含MIBiG 3.1 BGC作為參考(https://mibig.secondarymetabolites.org/ )赴邻。
                        只有當(dāng)這些BGC與輸入集中的某個區(qū)域相連(距離<最大截斷值)時才會保留
  --mibig21             Include BGCs from version 2.1 of MIBiG
                        包含MIBiG 2.1版本中的BGC
  --mibig14             Include BGCs from version 1.4 of MIBiG
                        包含MIBiG 1.4版本中的BGC
  --mibig13             Include BGCs from version 1.3 of MIBiG
                        包含MIBiG 1.3版本中的BGC
  --query_bgc QUERY_BGC
                        Instead of making an all-VS-all comparison of all the input BGCs, choose one BGC to compare with the rest of the
                        set (one-VS-all). The query BGC does not have to be within inputdir
                        不進(jìn)行所有輸入BGC的全部對比印衔,而是選擇一個BGC與其余的集合進(jìn)行對比(單一對比全部)。查詢BGC不必在inputdir中
  --domain_includelist  Only analyze BGCs that include domains with the pfam accessions found in the domain_includelist.txt file
                        僅分析包含domain_includelist.txt文件中pfam登錄名的BGC
  --version             show program\'s version number and exit
                        顯示程序的版本號并退出

Example

mkdir BiG-SCAPE_example
cd BiG-SCAPE_example

wget https://zenodo.org/record/1340617/files/gbks.tar.gz?download=1

tar -zxvf gbks.tar.gz

tree gbks/

示例文件里共有23個BGCs:

gbks/
|-- BGC0000715.1.cluster001.gbk
|-- JMGX01000001.1.cluster003.gbk
|-- JMGX01000001.1.cluster009.gbk
|-- JMQG01000002.1.cluster016.gbk
|-- JOBV01000001.1.cluster003.gbk
|-- JOBV01000001.1.cluster044.gbk
|-- JOBW01000001.1.cluster001.gbk
|-- JOBW01000001.1.cluster018.gbk
|-- JOBW01000001.1.cluster027.gbk
|-- JOES01000001.1.cluster004.gbk
|-- JOES01000001.1.cluster049.gbk
|-- JOHJ01000001.1.cluster020.gbk
|-- JOIW01000001.1.cluster027.gbk
|-- JOIW01000001.1.cluster028.gbk
|-- JOJM01000001.1.cluster017.gbk
|-- JOJM01000001.1.cluster022.gbk
|-- JOJM01000001.1.cluster024.gbk
|-- JPRA01000006.1.cluster028.gbk
|-- KL589150.1.cluster015.gbk
|-- LGCX01000001.1.cluster014.gbk
|-- LMFT01000001.1.cluster017.gbk
|-- MDDK01000001.1.cluster053.gbk
`-- NC1.1.cluster031.gbk

運(yùn)行bigscape:

bigscape -i gbks -o example_output

2核的任務(wù)姥敛,共耗時635s

Input files

BiG-SCAPE的輸入文件是GenBank格式的BGC文件奸焙,但是有一些要注意的點:

從--inputdir文件夾開始,BiG-SCAPE將遞歸查找具有.gbk擴(kuò)展名的文件彤敛。以下文件將被排除

  • 文件名中包含--exclude_gbk_str指定的字符串(默認(rèn)值為“final”与帆。這是為了排除由antiSMASH生成的匯總GenBank文件,文件名以<clustername>.final.gbk結(jié)尾)
  • 路徑(包括文件名)中有空格的文件墨榄⌒悖空格與hmmer不兼容
  • 文件名包含“_ORF”的文件,這是BiG-SCAPE內(nèi)部使用的標(biāo)記
  • 名稱重復(fù)的文件(例如在不同文件夾中)
  • 無法提取蛋白質(zhì)序列的文件
  • 序列(所有記錄的總和)短于min_bgc_size的文件
  • 由于格式問題無法被BioPython解析的文件

默認(rèn)情況下袄秩,僅包括以下文件:

  • 文件名中包含“cluster”的文件(antiSMASH 4)
  • 文件名中包含“region”的文件(antiSMASH 5以上)

如果需要排除或包括文件名中包含特定字符串的文件阵翎,請使用--exclude_gbk_str和--include_gbk_str選項。

如果兩個CDS特征重疊(例如剪接事件)之剧,BiG-SCAPE的行為是允許最短CDS的最大10%的重疊郭卫。如果檢測到更多的重疊,BiG-SCAPE將從分析中刪除最小的特征背稼。

文件名(不包括擴(kuò)展名)將用作BGC名稱贰军。請注意,目前BiG-SCAPE對特定分類(即細(xì)菌蟹肘、古菌词疼、真菌或植物BGC)沒有任何特殊分析,所有分類處理方式相同帘腹。

對于我們微生物組獲得的大量MAG來做分析贰盗,我們最好是把所有的bgk文件重命名后放在一個文件夾下,然后運(yùn)行BiG-SCAPE即可*

mkdir gbk_files
#MAG_BGC文件夾下是所有的MAG的BGC文件夾阳欲,每個文件夾下有多個gbk文件
ls MAG_BGC/ >MAG_list
for i in `cat MAG_list`
do
  echo $i
  #把*region*.gbk提取出來童太,如果沒有region就跳過,如果是cluster就修改一下
  find MAG_BGC/$i -name "*region*.gbk" >tmp_list
  for j in `cat tmp_list`
  do
    #重命名成genome_name_region的形式并拷貝到一個目錄
    cp $j gbk_files/${i}_$(basename $j)
  done
done

而且建議在運(yùn)行antiSMASH時加上--allow-long-headers參數(shù)胸完,允許長名,不會截短翘贮。這樣后續(xù)處理會方便很多赊窥。

Output

輸出文件夾結(jié)構(gòu):

  • cache: 存放分析的預(yù)計算數(shù)據(jù)。如果BiG-SCAPE再次運(yùn)行并指向相同的輸出文件夾狸页,它將嘗試從該目錄讀取并重用文件址遇。
    • domains: 對于分析中發(fā)現(xiàn)的每個域,生成三個文件:
      • fasta文件: 包含來自所有BGC中所有蛋白質(zhì)的相同域的序列。
      • stk文件: 使用hmmalign對每個序列進(jìn)行比對,格式為stockholm。
      • algn文件: fasta格式的比對域序列文件(從stockholm文件解析)。這些是將用于DSS的序列。
    • domtable: 使用hmmscan對每個BGC的蛋白質(zhì)序列進(jìn)行域預(yù)測的原始輸出。
    • fasta: 每個BGC的蛋白質(zhì)序列。從GenBank文件的CDS特征中提取克胳。
    • pfd: 解析自domtable文件的結(jié)果,格式為制表符分隔纬傲。這些結(jié)果已經(jīng)過濾了重疊域汁雷。列包括:簇名稱少孝,(每個域的)得分,基因ID(如果存在),包絡(luò)坐標(biāo)開始抑钟,包絡(luò)坐標(biāo)結(jié)束(域預(yù)測的氨基酸坐標(biāo)),pfam ID贺待,pfam描述喘垂,基因開始坐標(biāo)章贞,基因結(jié)束坐標(biāo)兜喻,內(nèi)部cds頭泛粹。
    • pfs: 每個BGC文件的預(yù)測域列表遂铡。
      • .dict文件: 內(nèi)部文件
  • html_content: 所有交互式可視化所需的代碼。
  • logs: 目前僅包含每次運(yùn)行(指向此輸出文件夾)使用的參數(shù)和運(yùn)行時間晶姊。
  • network files: 詳見下一節(jié)信息扒接。
  • SVG: 分析中每個BGC的箭頭圖,格式為svg们衙。每個圖都有表示預(yù)測域的框钾怔。這些框有隨機(jī)顏色,但用戶可以通過修改domains_color_file.tsv文件更改顏色砍艾。

network files文件夾

每次運(yùn)行都會生成一組輸出文件蒂教,可以使用其他工具(例如Cytoscape)進(jìn)行分析:

  • Network_Annotations_Full.tsv: 一個包含每個成功處理的BGC信息的制表符分隔文件。信息包括:
    • BGC名稱
    • 來自GenBank文件的原始登錄ID
    • 原始GenBank文件中的描述
    • antiSMASH產(chǎn)物預(yù)測
    • BiG-SCAPE分類
    • 來自原始GenBank文件的生物體標(biāo)簽
    • 來自GenBank文件的分類字符串

表格展示上面example輸出結(jié)果的前三行脆荷,有這個表后我們就可以對樣本的BGCs情況做一些整體情況的可視化了:

BGC Accession.ID Description Product Prediction BiG-SCAPE class Organism Taxonomy
BGC0000715.1.cluster001 BGC0000715.1 Spectinomycin biosynthetic gene cluster amglyccycl Saccharides . NA
JMGX01000001.1.cluster003 JMGX01000001.1 Streptomyces rimosus strain R6-500MV9 contig001, whole genome shotgun sequence nrps NRPS . NA
JMGX01000001.1.cluster009 JMGX01000001.1 Streptomyces rimosus strain R6-500MV9 contig001, whole genome shotgun sequence cf_fatty_acid.indole.nrps Others . NA
  • 每個BiG-SCAPE分類的文件夾凝垛,包含:
    • .network文件: 每個選擇的截斷值對應(yīng)一個文件。
    • 網(wǎng)絡(luò)注釋文件蜓谋,包含用于該特定分類的BGC梦皮。
    • 聚類文件:這些文件包含每個截斷值的BGC名稱,第一列是BGC名稱桃焕,第二列(用制表符分隔)是表示BGC被分配到的簇(GCF編號)的標(biāo)簽剑肯。

此外,結(jié)果還可以進(jìn)行交互式探索:通過點擊index.html文件或用任何網(wǎng)頁瀏覽器打開該文件來啟動交互式輸出观堂。

打開可視化頁面時让网,會顯示概覽頁面呀忧。

我們可以在網(wǎng)站頂部點擊選擇一個類(比如NRPS),屏幕將顯示該類中BGC族的網(wǎng)絡(luò)可視化:

對于example data的這個結(jié)果溃睹,NRPS類包含10個BGCs而账,分別在一個有三個成員的基因簇家族中,一個有兩個成員的家族和五個單體因篇。

在這個網(wǎng)絡(luò)中選擇一個家族(比如FAM006)泞辐,可視化BGCs并通過CORASON進(jìn)行對齊:

這個家族有3個成員,結(jié)構(gòu)類似竞滓。

More details

我們可以了解以下概念以便對BiG-SCAPE的結(jié)果有更深的理解:

BiG-SCAPE 分類

默認(rèn)情況下咐吼,BiG-SCAPE 會嘗試將簇分為八類。這是基于 antiSMASH 的產(chǎn)品注釋進(jìn)行的(詳見此處)商佑。antiSMASH 5 和 6 中引入的新標(biāo)簽用上標(biāo)標(biāo)注锯茄。

目前遵循的規(guī)則如下:

antiSMASH 注釋 BiG-SCAPE 分類
t1pks, T1PKS5 PKS I
transatpks, t2pks, t3pks, otherks, hglks, transAT-PKS5, transAT-PKS-like5, T2PKS5, T3PKS5, PKS-like5, hglE-KS5, prodigiosin 以及與 {t1pks, T1PKS5} 或自身組合的 PKS other
nrps, NRPS5, NRPS-like5, thioamide-NRP5, NAPAA6 NRPS
lantipeptide, thiopeptide, bacteriocin, linaridin, cyanobactin, glycocin, LAP, lassopeptide, sactipeptide, bottromycin, head_to_tail, microcin, microviridin, proteusin, guanidinotides, lanthipeptide5, lipolanthine5, RaS-RiPP5, fungal-RiPP5, thioamitides5.1, lanthipeptide-class-i6, lanthipeptide-class-ii6, lanthipeptide-class-iii6, lanthipeptide-class-iv6, lanthipeptide-class-v6, ranthipeptide6, redox-cofactor6, RRE-containing6, epipeptide6, cyclic-lactone-autoinducer6, spliceotide6, crocagin 以及與這些組合的 RiPPs
amglyccycl, oligosaccharide, cf_saccharide, saccharide5 以及與這些組合的 Saccharides
terpene Terpene
{PKS I} 中的任意一個 + {NRPS} 中的任意一個 PKS/NRPS Hybrids
acyl_amino_acids, arylpolyene, aminocoumarin, ectoine, butyrolactone, nucleoside, melanin, phosphoglycolipid, phenazine, phosphonate, other, cf_putative, resorcinol, indole, ladderane, PUFA, furan, hserlactone, fused, cf_fatty_acid, siderophore, blactam, fatty_acid5, PpyS-KS5, CDPS5, betalactone5, PBDE5, tropodithietic-acid5, NAGGN5, halogenated5, pyrrolidine6, mycosporine-like 以及任何組合注釋 Others
* < mix >

Hybrids
如果啟用hybrids模式,某些簇可能會在不同類別中進(jìn)行分析(如果這些是有效類別):

  • 如果簇屬于PKS-NRP_Hybrids BiG-SCAPE分類:該簇還將被放入NRPS類別和PKS類別之一(PKS I 或 PKS other)莉御。如果簇包含t1pks注釋撇吞,它將始終被放入PKS I 類別。
  • 如果簇被分類為Others礁叔,且BiG-SCAPE檢測到這是由于多重注釋(例如terpene-t1pks)牍颈,BiG-SCAPE還會將該簇放入每個不同的單獨類別。

Domain 預(yù)測

從輸入文件中找到的所有BGC的蛋白質(zhì)序列被存儲在一個fasta文件(<bgc.fasta>)中琅关。然后煮岁,BiG-SCAPE使用HMMER套件中的hmmscan工具從Pfam數(shù)據(jù)庫中預(yù)測域。實際使用的命令是:

hmmscan --cpu 0 --domtblout <bgc.domtable> --cut_tc <path-to-PfamA.hmm> <bgc.fasta>

其中涣易,--cut_tc選項根據(jù)hmmscan官方文檔:

使用模型中的TC(可信閾值)比特得分閾值來設(shè)置每個序列(TC1)和每個域(TC2)的報告和包含閾值画机。TC閾值通常被認(rèn)為是最低得分的已知真陽性分?jǐn)?shù),高于所有已知的假陽性新症。

用于提取和處理域序列的坐標(biāo)是包絡(luò)坐標(biāo)步氏。同樣來自HMMER指南:

(“env from”和“env to”)定義了目標(biāo)序列上域位置的包絡(luò)。包絡(luò)幾乎總是比HMMER選擇顯示的可信比對要寬一些徒爹。正如前面提到的荚醒,包絡(luò)代表了包含給定同源域的大部分后驗概率的子序列,即使精確的端點只是模糊地可推斷隆嗅。

在域預(yù)測之后界阁,會執(zhí)行一個過濾步驟,基于每個域的得分丟棄重疊的域胖喳。當(dāng)比較同一CDS內(nèi)的域?qū)r泡躯,如果任何域的序列的氨基酸重疊百分比(即氨基酸重疊數(shù)/域長度)高于overlap_cutoff(由--domain_overlap_cutoff參數(shù)設(shè)置,默認(rèn)為0.1),則會觸發(fā)域過濾较剃。

GCFs 和 GCCs

一旦為數(shù)據(jù)集計算出距離矩陣咕别,就會根據(jù) --cutoffs 參數(shù)選擇的每個截止距離執(zhí)行基因簇家族(GCF)的分配。

對于每個截止值写穴,BiG-SCAPE 會創(chuàng)建一個網(wǎng)絡(luò)顷级,使用所有小于或等于當(dāng)前截止值的距離。Affinity Propagation 聚類算法將應(yīng)用于從此過程中出現(xiàn)的每個連接組件的子網(wǎng)絡(luò)确垫。Affinity Propagation 的相似度矩陣包括子網(wǎng)絡(luò)成員之間的所有距離(即包括那些大于當(dāng)前截止值的距離)。

基因簇氏族(GCC)設(shè)置(默認(rèn)啟用)將在 GCFs 上執(zhí)行第二層聚類帽芽。為此删掀,將再次應(yīng)用 Affinity Propagation(即在子連接組件的網(wǎng)絡(luò)上),但網(wǎng)絡(luò)節(jié)點由在 --clan_cutoff 參數(shù)的第一個值(默認(rèn):0.3)指定的截止水平定義的 GCFs 表示导街。聚類將應(yīng)用于所有 GCFs 連接的網(wǎng)絡(luò)披泪,距離小于或等于 GCC 截止值(--clan_cutoff 參數(shù)的第二個值;較大的距離將被舍棄搬瑰,默認(rèn):0.7)款票。GCFs 之間的距離計算為兩個家族內(nèi) BGCs 之間的平均距離。

兩層聚類中使用的 Affinity Propagation 參數(shù):damping=0.9, max_iter=1000, convergence_iter=200泽论。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末艾少,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子翼悴,更是在濱河造成了極大的恐慌缚够,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鹦赎,死亡現(xiàn)場離奇詭異谍椅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)古话,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門雏吭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人陪踩,你說我怎么就攤上這事杖们。” “怎么了膊毁?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵胀莹,是天一觀的道長。 經(jīng)常有香客問我婚温,道長描焰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮荆秦,結(jié)果婚禮上篱竭,老公的妹妹穿的比我還像新娘。我一直安慰自己步绸,他們只是感情好掺逼,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瓤介,像睡著了一般吕喘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上刑桑,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天氯质,我揣著相機(jī)與錄音,去河邊找鬼祠斧。 笑死闻察,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的琢锋。 我是一名探鬼主播辕漂,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吴超!你這毒婦竟也來了钉嘹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤烛芬,失蹤者是張志新(化名)和其女友劉穎隧期,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赘娄,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡仆潮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了遣臼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片性置。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖揍堰,靈堂內(nèi)的尸體忽然破棺而出鹏浅,到底是詐尸還是另有隱情,我是刑警寧澤屏歹,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布隐砸,位于F島的核電站,受9級特大地震影響蝙眶,放射性物質(zhì)發(fā)生泄漏季希。R本人自食惡果不足惜褪那,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望式塌。 院中可真熱鬧博敬,春花似錦、人聲如沸峰尝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽武学。三九已至祭往,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間火窒,已是汗流浹背链沼。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留沛鸵,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓缆八,卻偏偏與公主長得像曲掰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子奈辰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容