一. 簡介
-
葉綠體是綠色植物履腋,藻類和藍(lán)細(xì)菌進行光合作用的場所珊燎,光合作用將水和二氧化碳轉(zhuǎn)變?yōu)橛袡C化合物并放出氧氣。葉綠體所攜帶遺傳物質(zhì)DNA遵湖,以原核細(xì)胞的編碼方式轉(zhuǎn)錄合成一些自身需要的RNA與蛋白質(zhì)悔政。葉綠體通過分裂方式增殖,通過細(xì)胞質(zhì)遺傳傳遞給后代(也叫母體遺傳延旧、單一親本遺傳谋国、非孟德爾遺傳等)。內(nèi)共生起源學(xué)說認(rèn)為葉綠體源于原始真核細(xì)胞內(nèi)共生的藍(lán)藻迁沫。
- 植物葉綠體由LSC, IR, SSC, IR四部分組成芦瘾,為典型四分體結(jié)構(gòu)捌蚊,四分體結(jié)構(gòu)翻轉(zhuǎn)構(gòu)造形成同分異構(gòu)體,一般組裝得到的葉綠體會得到兩條序列近弟,主要是SSC順序的顛倒缅糟,可以通過比較選擇順序一致的序列進行后續(xù)分析。
參考文獻: Palmer, Jeffrey D . Chloroplast DNA exists in two orientations[J]. Nature, 1983, 301(5895):92-93.
二. 組裝
GetOrganelle是中國科學(xué)院昆明植物研究所金建軍和郁文彬兩位老師共同開發(fā)的質(zhì)體組裝軟件祷愉,論文發(fā)表在Genome Biology溺拱,其中葉綠體基因組組裝方法如下:
首先,通過conda安裝GetOrganelle:
[abc@Server GetOrg]$ conda install -c bioconda getorganelle
安裝完成后谣辞,下載參考序列庫:
[abc@Server GetOrg]$ get_organelle_config.py --add embplant_pt,embplant_mt
注意:這里可能會出現(xiàn)報錯:Bowtie2 is not available!迫摔,可以通過conda重新安裝Bowtie2,然后升級到最新版本泥从,如果不成功的話刪除conda環(huán)境中的Bowtie2相關(guān)文件(rm ~/.conda/envs/getorganelle/bin/Bowtie2*)句占,下載安裝Bowtie2并添加環(huán)境變量中。
然后躯嫉,運行 GetOrganelle(約2個小時左右):
[abc@Server GetOrg]$ get_organelle_from_reads.py -1 a.fq.gz -2 b.fq.gz -t 10 -o abc_plastome -F embplant_pt -R 10
生成文件中:embplant_pt.K85.complete(scaffolds).graph1.1.path_sequence.fasta和embplant_pt.K85.complete(scaffolds).graph1.2.path_sequence.fasta即為做得到的葉綠體基因組纱烘,其中K85表示選擇的kmer為85,complete表明組裝得到環(huán)狀基因組祈餐,scaffolds或Contigs表示不止一條序列(未拼接成環(huán))擂啥。一般GetOrganelle組裝會得到兩個環(huán),graph1.1和graph1.2帆阳,這是因為存在同分異構(gòu)體哺壶,可以通過和模式植物比較選擇順序一致的進行后續(xù)分析。
三. 注釋
上文得到的葉綠體基因組可以利用在線軟件GeSeq進行注釋:
上傳序列文件蜒谤,勾選相關(guān)內(nèi)容山宾,其中輸出格式選GenBank格式便于后續(xù)作圖,然后點提交鳍徽,運行完后下載GenBank注釋文件资锰。
注意:利用GeSeq得到的GenBank文件在后續(xù)“五. 邊界可視化作圖”的時候IRscope軟件出現(xiàn)報錯,后面試了另一個在線注釋軟件CPGAVAS阶祭,注釋得到的GenBank文件IRscope不會報錯绷杜。
CPGAVAS的具體教程參照:教程 | 使用 CPGAVAS2 進行葉綠體基因組注釋。
四. 圈圖和線圖
利用在線軟件Chloroplot進行葉綠體基因組作圖:
可以選擇輸入Accession Number或上傳GenBank 文件濒募,這里我從NCBI下載 Manihot esculenta葉綠體基因組序列進行測試鞭盟,利用前文GeSeq軟件進行注釋,得到GenBank 注釋文件萨咳,和直接輸入Accession Number:EU117376.1兩種方式進行比較懊缺,結(jié)果基本一致:
另外,還有一個在線軟件OGDRAW,可以畫圈圖或線性圖,其中線性圖更方便將多個圖放一起進行比較鹃两,輸入文件可以利用上文CPGAVAS注釋軟件輸出的gbf文件遗座,輸出的線狀圖如下(線狀圖通過AI整合):
五. 邊界可視化作圖
IRscope是一種葉綠體基因組連接位點和邊界區(qū)域基因可視化工具。
可以輸入Accession No.或GeneBank注釋文件俊扳,以擬南芥(NC_000932)和楊樹(NC_009143)作為輸入文件途蒋,結(jié)果如下:
注意:在比較分析時可能會出現(xiàn)LSC區(qū)域顛倒的情況,可以在組裝的時候加上--reverse-lsc參數(shù)馋记。
六. 構(gòu)建進化樹
通過上述四和五号坡,同模式植物葉綠體基因組進行比較,確定合適的構(gòu)型和對應(yīng)的參數(shù)梯醒,比如:我在組裝葉綠體的時候發(fā)現(xiàn)組裝的兩種構(gòu)型都和楊樹宽堆、擬南芥的順序不一致,有一個比較接近但LSC順序是顛倒的茸习,這時通過金建軍老師的提示畜隶,在組裝的時候加上參數(shù)--reverse-lsc,這樣就就得到和模式植物順序較一致的序列号胚,接下來就可以用葉綠體基因組構(gòu)建進化樹籽慢。
首先,將得到的葉綠體基因組合并成一個fasta格式的文件:
[abc@Server]$ ll|grep CRR|awk '{print"cat "$NF"/*complete.graph1.1.path_sequence.fasta >Result/"$NF"_1"}'|sh
[abc@Server]$ ll|grep CRR|awk '{print"cat "$NF"/*complete.graph1.2.path_sequence.fasta >Result/"$NF"_2"}'|sh
[abc@Server]$ cd Result/
[abc@Server]$ ll|grep xiaoxh|awk '{print"sed -i \0471i\\"$NF"\047 "$NF}'|sh
[abc@Server]$ cat * >abc_cp.fas
[abc@Server]$ more abc_cp.fas|grep -v '>'|sed 's/CRR/>CRR/g' >Tree.fas
主要通過awk和sh實現(xiàn)猫胁,先將生成的graph1.1和graph1.2 cp到一個文件夾并命名為_1和_2箱亿,然后利用sed在每個文件第一行加上新的序列名不帶“>”,將所有序列合并弃秆,grep -v去掉舊的序列名届惋,利用sed給新的序列名加上 “>”,方法可能過于繁瑣驾茴。
然后盼樟,利用mafft進行多序列比對氢卡,利用iqtree建樹:
[abc@Server]$ nohup mafft --auto Tree.fas >Tree.fas.mafft 2>Tree.fas.mafft.log&
[abc@Server]$ nohup iqtree -s Tree.fas.mafft -m MFP -bb 1000 -bnni -redo -o NC_010433 &