引言
在2023年4月6日米同,Nature Genetics發(fā)表了一篇題目為“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”的文章,該文章使用的9個(gè)野生種和2個(gè)栽培品種,闡明了茄屬番茄組(Solanum section Lycopersion)的基因組演化歷史拯坟,構(gòu)建了首個(gè)番茄超級(jí)泛基因組/圖基因組郁季。
在文章中梦裂,作者提供了全部的分析代碼和分析流程,確實(shí)很牛X凿歼,對(duì)于我們想要學(xué)習(xí)這類型的同學(xué)來說是非常友好的答憔,也是非常有幫助的虐拓。自己一直想學(xué)習(xí)泛基因組方向的分析蓉驹,但是一直由于時(shí)間或是沒有系統(tǒng)的學(xué)習(xí)态兴,就就沒有什么進(jìn)展疟位。本文章對(duì)我們來說是非常有意義的献汗,那就爭(zhēng)取學(xué)習(xí)一下吧罢吃!我也會(huì)將學(xué)習(xí)過程,進(jìn)行記錄矾柜!
文章網(wǎng)址
文章鏈接: https://www.nature.com/articles/s41588-023-01340-y#code-availability
代碼存放網(wǎng)址
https://github.com/HongboDoll/TomatoSuperPanGenome
組裝的形式
作者提供分析的流程怪蔑,主要包括這幾方面缆瓣。
基因組的注釋
Genome annotation主要包括了以下兩個(gè)內(nèi)容gene prediction
和repeat annaotation
,其中gene prediction
包含以下幾個(gè)軟件的使用隧甚,Trinity
渡冻、denovo
族吻、Hisat2
、homology
宜雀、evm
辐董。
今天只是來大體看了分析的流程简烘,沒有具體開始跑流程孤澎。我們可以看到作者提供的流程還是很規(guī)范的欠窒。這樣真的有助于我們后期的學(xué)習(xí)岖妄!
Trinity
#!/bin/bash
ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
thread=10
############ trinity without ref ####
#
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --seqType fq --max_memory 100G --left s80_combine_1.clean.fq.gz,9930_39_tissues_1.fq.gz --right s80_combine_2.clean.fq.gz,9930_39_tissues_2.fq.gz -output ./S_gal_trinity_out_no_ref --min_kmer_cov 2 --trimmomatic --normalize_reads --CPU $thread
#
############### trinity with ref
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --genome_guided_bam ./${spe}_10tissues.sort.bam --max_memory 50G --genome_guided_max_intron 10000 --output ./S_gal_trinity_out_with_ref --CPU $thread
################ PASA
cat ./S_gal_trinity_out_no_ref/Trinity.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
cat transcripts.denovo.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/misc_utilities/accession_extractor.pl < transcripts.fasta > tdn.accs
/share/fg2/lihb/software/PASApipeline.v2.4.1/seqclean/seqclean/seqclean transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/Launch_PASA_pipeline.pl -c /share/fg2/lihb/software/PASApipeline.v2.4.1/pasa_conf/pasa.alignAssembly.Template.txt --trans_gtf transcripts.gtf --TDN tdn.accs -C -R -g $ref -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS blat --CPU $thread
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta test_80.assemblies.fasta --pasa_transcripts_gff3 test_80.pasa_assemblies.gff3
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.extract_reference_orfs.pl test_80.assemblies.fasta.transdecoder.genome.gff3 > best_candidates.gff3
Hisat2
#!/bin/bash
ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
threads=18
hisat2-build -p 20 $ref re1
hisat2 -x re1 --dta -p 20 -1 CUChhxTERAAPE_1.clean.fq.gz -2 CUChhxTERAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_stem.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTHRAAPE_1.clean.fq.gz -2 CUChhxTHRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_female.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTBRAAPE_1.clean.fq.gz -2 CUChhxTBRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Fertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTFRAAPE_1.clean.fq.gz -2 CUChhxTFRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_leaf.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTGRAAPE_1.clean.fq.gz -2 CUChhxTGRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_male.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTIRAAPE_1.clean.fq.gz -2 CUChhxTIRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_tendril.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTDRAAPE_1.clean.fq.gz -2 CUChhxTDRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_root.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTCRAAPE_1.clean.fq.gz -2 CUChhxTCRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Unfertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTARAAPE_1.clean.fq.gz -2 CUChhxTARAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_ovary.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTJRAAPE_1.clean.fq.gz -2 CUChhxTJRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_base.of.tendril.bam
samtools merge -@ 20 ${spe}_10tissues.bam ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam && rm ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam
samtools sort -@ 20 -m 2G ${spe}_10tissues.bam -o ${spe}_10tissues.sort.bam && rm ${spe}_10tissues.bam
stringtie -p 20 ${spe}_10tissues.sort.bam -o stringtie_out
sed 's/StringTie/Cufflinks/g' stringtie_out > transcripts.gtf
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl stringtie_out $ref > transcripts.fasta
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl stringtie_out > transcripts.gff3
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta -m 100
#makeblastdb -in uniprot_sprot_plants.fa -dbtype prot
blastp -query transcripts.fasta.transdecoder_dir/longest_orfs.pep -db uniprot_sprot_plants.fa -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 20 > blastp.outfmt6
hmmsearch --cpu 18 -o ttt --domtblout hmmsearch.tmp Pfam-A.hmm transcripts.fasta.transdecoder_dir/longest_orfs.pep
awk 'BEGIN{OFS=FS=" "} NR<=3{print}; NR>3{tmp=$1; $1=$4; $4=tmp; tmp=$2; $2=$5; $5=tmp; print}' hmmsearch.tmp > pfam.domtblout
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --single_best_only --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
其次腕铸,作者也提供了進(jìn)化樹的圖形繪制。
文章簡(jiǎn)要概述
注:簡(jiǎn)要概述來自植物學(xué)類各大微信公眾平臺(tái)(作者或運(yùn)營者等已經(jīng)總結(jié)很詳細(xì)了),主要來自公眾號(hào):百邁客生物虽界、植物科學(xué)最前沿莉御。
本文由新疆農(nóng)業(yè)科學(xué)院園藝作物研究所牽頭,中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所梢夯、作物科學(xué)研究所颂砸、生物技術(shù)研究所等團(tuán)隊(duì)合作完成。該研究繪制了11個(gè)野生和栽培番茄的染色體級(jí)別高質(zhì)量基因組圖譜勤篮,闡明了茄屬番茄組(Solanum section Lycopersion)的基因組演化歷史碰缔,構(gòu)建了首個(gè)番茄超級(jí)泛基因組/圖基因組戳护,并進(jìn)一步在野生番茄中克隆到可大幅提升栽培番茄產(chǎn)量的新基因一個(gè)腌且。該研究既是對(duì)番茄基因組資源的重要補(bǔ)充,同時(shí)也對(duì)其它作物基因組學(xué)研究和野生種質(zhì)資源尤其是近緣野生種的利用具有重要啟發(fā)意義巫击。該成果也是新疆農(nóng)業(yè)科學(xué)院首次以第一單位在Nature Genetics上發(fā)表長(zhǎng)篇研究論文坝锰。
研究團(tuán)隊(duì)收集了8個(gè)野生番茄種(Solanum habrochaites多毛番茄, Solanum chilense智利番茄, Solanum peruvianum秘魯番茄, Solanum corneliomulleri多腺番茄, Solanum neorickii小花番茄, Solanum chmielewskii克梅留斯基番茄, S. pimpinellifolium醋栗番茄和Solanum galapagense加拉帕戈斯番茄)什黑、1個(gè)番茄近源野生種(Solanum lycopersicoides類番茄茄)和2個(gè)栽培番茄代表性品種愕把,利用PacBio、Bionano和Hi-C測(cè)序技術(shù)恨豁,構(gòu)建了11個(gè)染色體水平高質(zhì)量基因組橘蜜,解析了其基因組構(gòu)成。結(jié)合已發(fā)表數(shù)據(jù)跌捆,重構(gòu)了野生和栽培番茄的系統(tǒng)發(fā)生關(guān)系佩厚,將其明確劃分為4個(gè)單系起源分支抄瓦,并發(fā)現(xiàn)紅果和綠果番茄在約173萬年前分化陶冷。這些結(jié)果闡明了野生和栽培番茄的基因組演化歷史(圖1)。
圖1. 野生和栽培番茄的基因組構(gòu)成和系統(tǒng)發(fā)育關(guān)系
先前研究構(gòu)建的番茄泛基因組僅包含栽培番茄及其近源野生物種的遺傳多樣性信息。該研究首次通過整合10個(gè)番茄野生物種和1個(gè)番茄栽培物種沾谜,將泛基因組擴(kuò)展為“超級(jí)泛基因組”(Super-pangenome)。其囊括了幾乎整個(gè)茄屬番茄組的遺傳多樣性媚媒,挖掘出已報(bào)道番茄泛基因組中缺少的9,320個(gè)新基因缭召。比較基因組學(xué)分析鑒定出超過4,000萬個(gè)SNP和InDel變異及28萬個(gè)結(jié)構(gòu)變異嵌巷,其中約18萬個(gè)結(jié)構(gòu)變異為該超級(jí)泛基因組中所特有室抽。此外,該研究構(gòu)建了野生和栽培番茄的大片段倒位圖譜晓折,為如何在回交育種中避免連鎖累贅提供了基因組學(xué)基礎(chǔ)。上述結(jié)果極大拓展了番茄育種中可用的遺傳變異和基因資源(圖2)漾月。
圖2. 番茄超級(jí)泛基因組和結(jié)構(gòu)變異全景圖
番茄育種的主要目標(biāo)之一是通過培育果實(shí)更大梁肿、分枝數(shù)更多的品種來提高產(chǎn)量觅彰。野生番茄通常比栽培番茄具有更多的結(jié)果分枝填抬,然而能否將這一性狀導(dǎo)入栽培番茄,特別是加工番茄中尚未有報(bào)道蛀骇。通過比較進(jìn)化基因組學(xué)分析读拆,該研究鑒定出388個(gè)在野生和栽培番茄演化過程中高度分化的結(jié)構(gòu)變異檐晕,可能顯著影響周圍基因的功能辟灰。其中位于Sgal12g015720基因(編碼細(xì)胞色素P450超家族蛋白)第一個(gè)外顯子的一個(gè)244-bp缺失變異引起了研究人員的關(guān)注篡石。該變異在野生番茄和栽培番茄中頻率差異最顯著(p=2.2×10-16)凰萨,且在栽培番茄中無法檢測(cè)到Sgal12g015720轉(zhuǎn)錄本(圖3)。以上結(jié)果說明番茄在馴化過程中保留了該244-bp缺失武通,使Sgal12g015720發(fā)生假基因化而在栽培番茄基因組中丟失冶忱。
圖3. 結(jié)構(gòu)變異在野生番茄和栽培番茄中的分化
轉(zhuǎn)基因?qū)嶒?yàn)證明囚枪,Sgal12g015720能夠顯著增加栽培番茄的分枝和果實(shí)數(shù)量(~67.1%)(圖4),栽培番茄“M82”/野生番茄“LA716”漸滲系植株IL12-2和IL12-3(含有Sgal12g015720基因組片段)同樣支持轉(zhuǎn)基因?qū)嶒?yàn)結(jié)果千埃。因此忆植,Sgal12g015720基因可能在番茄育種中株型調(diào)控和產(chǎn)量提高上發(fā)揮重要作用朝刊。
圖4. 野生番茄特有的一個(gè)細(xì)胞色素P450基因提高栽培番茄產(chǎn)量
綜上拾氓,該研究利用番茄超級(jí)泛基因組揭示了野生和栽培番茄的基因組演化歷史,系統(tǒng)解析了番茄野生種中尚未被充分挖掘的遺傳多樣性房官。該研究同時(shí)證明了通過基因組學(xué)的“bottom-up”方法鑒定功能基因的可能翰守,為超級(jí)泛基因組在其他作物中的構(gòu)建和應(yīng)用指明了方向疲酌。值得一提的是朗恳,Nature Genetics同期刊發(fā)了題為Tomato super-pangenome highlights the potential use of wild relatives in tomato breeding的ResearchBriefing(研究簡(jiǎn)報(bào)),對(duì)該成果進(jìn)行了簡(jiǎn)介并給予高度評(píng)價(jià)油航。Nature Genetics編輯Wei Li博士認(rèn)為:“看到基于9個(gè)野生種和2個(gè)栽培種質(zhì)的染色體級(jí)別基因組構(gòu)建的番茄超級(jí)泛基因組是令人興奮的事情谊囚!這些結(jié)果凸顯了野生和栽培番茄之間的基因組多樣性和結(jié)構(gòu)變異揉稚,這將有助于未來番茄功能基因的挖掘和番茄遺傳改良”搀玖。
在后面的教程中,希望自己可以繼續(xù)堅(jiān)持下來芳来,借助這篇文章開始這個(gè)領(lǐng)域的學(xué)習(xí)即舌。
往期文章:
1. 最全WGCNA教程(替換數(shù)據(jù)即可出全部結(jié)果與圖形)
2. 精美圖形繪制教程
話說公眾號(hào)需要標(biāo)星顽聂,這樣公眾號(hào)的內(nèi)容你才不會(huì)錯(cuò)過。那么蜜葱,我們也動(dòng)手標(biāo)一下吧牵囤。
小杜的生信筆記滞伟,主要發(fā)表或收錄生物信息學(xué)的教程,以及基于R的分析和可視化(包括數(shù)據(jù)分析野崇,圖形繪制等)舞骆;分享感興趣的文獻(xiàn)和學(xué)習(xí)資料!!