Nature Genetic | 番茄超級(jí)泛基因組的多樣性和結(jié)構(gòu)變異

引言

在2023年4月6日米同，Nature Genetics發(fā)表了一篇題目為“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”的文章，該文章使用的9個(gè)野生種和2個(gè)栽培品種，闡明了茄屬番茄組（Solanum section Lycopersion）的基因組演化歷史拯坟，構(gòu)建了首個(gè)番茄超級(jí)泛基因組/圖基因組郁季。

在文章中梦裂，作者提供了全部的分析代碼和分析流程，確實(shí)很牛X凿歼，對(duì)于我們想要學(xué)習(xí)這類型的同學(xué)來說是非常友好的答憔，也是非常有幫助的虐拓。自己一直想學(xué)習(xí)泛基因組方向的分析蓉驹，但是一直由于時(shí)間或是沒有系統(tǒng)的學(xué)習(xí)态兴，就就沒有什么進(jìn)展疟位。本文章對(duì)我們來說是非常有意義的献汗，那就爭(zhēng)取學(xué)習(xí)一下吧罢吃！我也會(huì)將學(xué)習(xí)過程，進(jìn)行記錄矾柜！

文章網(wǎng)址

文章鏈接: https://www.nature.com/articles/s41588-023-01340-y#code-availability

代碼存放網(wǎng)址

https://github.com/HongboDoll/TomatoSuperPanGenome

組裝的形式

作者提供分析的流程怪蔑，主要包括這幾方面缆瓣。

基因組的注釋

Genome annotation主要包括了以下兩個(gè)內(nèi)容gene prediction和repeat annaotation,其中gene prediction包含以下幾個(gè)軟件的使用隧甚，Trinity渡冻、denovo族吻、Hisat2、homology宜雀、evm辐董。
今天只是來大體看了分析的流程简烘，沒有具體開始跑流程孤澎。我們可以看到作者提供的流程還是很規(guī)范的欠窒。這樣真的有助于我們后期的學(xué)習(xí)岖妄！

Trinity

#!/bin/bash                                                                                                                                      

ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
thread=10

############ trinity without ref  #### 
#
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --seqType fq --max_memory 100G --left s80_combine_1.clean.fq.gz,9930_39_tissues_1.fq.gz --right s80_combine_2.clean.fq.gz,9930_39_tissues_2.fq.gz -output ./S_gal_trinity_out_no_ref --min_kmer_cov 2 --trimmomatic --normalize_reads --CPU $thread 
#
############### trinity with ref

/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --genome_guided_bam ./${spe}_10tissues.sort.bam  --max_memory 50G --genome_guided_max_intron 10000 --output ./S_gal_trinity_out_with_ref --CPU $thread

################ PASA

cat ./S_gal_trinity_out_no_ref/Trinity.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
cat transcripts.denovo.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/misc_utilities/accession_extractor.pl < transcripts.fasta > tdn.accs
/share/fg2/lihb/software/PASApipeline.v2.4.1/seqclean/seqclean/seqclean  transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/Launch_PASA_pipeline.pl -c /share/fg2/lihb/software/PASApipeline.v2.4.1/pasa_conf/pasa.alignAssembly.Template.txt --trans_gtf transcripts.gtf --TDN tdn.accs -C  -R -g $ref -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS blat --CPU $thread
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta test_80.assemblies.fasta --pasa_transcripts_gff3 test_80.pasa_assemblies.gff3
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.extract_reference_orfs.pl  test_80.assemblies.fasta.transdecoder.genome.gff3 > best_candidates.gff3

Hisat2

#!/bin/bash

ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
threads=18

hisat2-build -p 20 $ref re1
hisat2 -x re1 --dta -p 20 -1 CUChhxTERAAPE_1.clean.fq.gz -2 CUChhxTERAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_stem.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTHRAAPE_1.clean.fq.gz -2 CUChhxTHRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_female.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTBRAAPE_1.clean.fq.gz -2 CUChhxTBRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Fertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTFRAAPE_1.clean.fq.gz -2 CUChhxTFRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_leaf.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTGRAAPE_1.clean.fq.gz -2 CUChhxTGRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_male.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTIRAAPE_1.clean.fq.gz -2 CUChhxTIRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_tendril.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTDRAAPE_1.clean.fq.gz -2 CUChhxTDRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_root.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTCRAAPE_1.clean.fq.gz -2 CUChhxTCRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Unfertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTARAAPE_1.clean.fq.gz -2 CUChhxTARAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_ovary.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTJRAAPE_1.clean.fq.gz -2 CUChhxTJRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_base.of.tendril.bam

samtools merge -@ 20 ${spe}_10tissues.bam ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam && rm ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam
samtools sort -@ 20 -m 2G ${spe}_10tissues.bam -o ${spe}_10tissues.sort.bam && rm  ${spe}_10tissues.bam

stringtie -p 20 ${spe}_10tissues.sort.bam -o stringtie_out

sed 's/StringTie/Cufflinks/g' stringtie_out > transcripts.gtf

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl stringtie_out $ref > transcripts.fasta
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl stringtie_out > transcripts.gff3
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta -m 100

#makeblastdb -in uniprot_sprot_plants.fa -dbtype prot
blastp -query transcripts.fasta.transdecoder_dir/longest_orfs.pep -db uniprot_sprot_plants.fa -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 20 > blastp.outfmt6

hmmsearch --cpu 18 -o ttt --domtblout hmmsearch.tmp Pfam-A.hmm transcripts.fasta.transdecoder_dir/longest_orfs.pep
awk 'BEGIN{OFS=FS=" "} NR<=3{print}; NR>3{tmp=$1; $1=$4; $4=tmp; tmp=$2; $2=$5; $5=tmp; print}' hmmsearch.tmp > pfam.domtblout

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --single_best_only --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

其次腕铸，作者也提供了進(jìn)化樹的圖形繪制。

圖1. 野生和栽培番茄的基因組構(gòu)成和系統(tǒng)發(fā)育關(guān)系

文章簡(jiǎn)要概述

注：簡(jiǎn)要概述來自植物學(xué)類各大微信公眾平臺(tái)（作者或運(yùn)營者等已經(jīng)總結(jié)很詳細(xì)了）,主要來自公眾號(hào)：百邁客生物虽界、植物科學(xué)最前沿莉御。

本文由新疆農(nóng)業(yè)科學(xué)院園藝作物研究所牽頭，中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所梢夯、作物科學(xué)研究所颂砸、生物技術(shù)研究所等團(tuán)隊(duì)合作完成。該研究繪制了11個(gè)野生和栽培番茄的染色體級(jí)別高質(zhì)量基因組圖譜勤篮，闡明了茄屬番茄組（Solanum section Lycopersion）的基因組演化歷史碰缔，構(gòu)建了首個(gè)番茄超級(jí)泛基因組/圖基因組戳护，并進(jìn)一步在野生番茄中克隆到可大幅提升栽培番茄產(chǎn)量的新基因一個(gè)腌且。該研究既是對(duì)番茄基因組資源的重要補(bǔ)充，同時(shí)也對(duì)其它作物基因組學(xué)研究和野生種質(zhì)資源尤其是近緣野生種的利用具有重要啟發(fā)意義巫击。該成果也是新疆農(nóng)業(yè)科學(xué)院首次以第一單位在Nature Genetics上發(fā)表長(zhǎng)篇研究論文坝锰。
研究團(tuán)隊(duì)收集了8個(gè)野生番茄種（Solanum habrochaites多毛番茄, Solanum chilense智利番茄, Solanum peruvianum秘魯番茄, Solanum corneliomulleri多腺番茄, Solanum neorickii小花番茄, Solanum chmielewskii克梅留斯基番茄, S. pimpinellifolium醋栗番茄和Solanum galapagense加拉帕戈斯番茄）什黑、1個(gè)番茄近源野生種（Solanum lycopersicoides類番茄茄）和2個(gè)栽培番茄代表性品種愕把，利用PacBio、Bionano和Hi-C測(cè)序技術(shù)恨豁，構(gòu)建了11個(gè)染色體水平高質(zhì)量基因組橘蜜，解析了其基因組構(gòu)成。結(jié)合已發(fā)表數(shù)據(jù)跌捆，重構(gòu)了野生和栽培番茄的系統(tǒng)發(fā)生關(guān)系佩厚，將其明確劃分為4個(gè)單系起源分支抄瓦，并發(fā)現(xiàn)紅果和綠果番茄在約173萬年前分化陶冷。這些結(jié)果闡明了野生和栽培番茄的基因組演化歷史（圖1）。

圖1. 野生和栽培番茄的基因組構(gòu)成和系統(tǒng)發(fā)育關(guān)系

先前研究構(gòu)建的番茄泛基因組僅包含栽培番茄及其近源野生物種的遺傳多樣性信息。該研究首次通過整合10個(gè)番茄野生物種和1個(gè)番茄栽培物種沾谜，將泛基因組擴(kuò)展為“超級(jí)泛基因組”（Super-pangenome）。其囊括了幾乎整個(gè)茄屬番茄組的遺傳多樣性媚媒，挖掘出已報(bào)道番茄泛基因組中缺少的9,320個(gè)新基因缭召。比較基因組學(xué)分析鑒定出超過4,000萬個(gè)SNP和InDel變異及28萬個(gè)結(jié)構(gòu)變異嵌巷，其中約18萬個(gè)結(jié)構(gòu)變異為該超級(jí)泛基因組中所特有室抽。此外，該研究構(gòu)建了野生和栽培番茄的大片段倒位圖譜晓折，為如何在回交育種中避免連鎖累贅提供了基因組學(xué)基礎(chǔ)。上述結(jié)果極大拓展了番茄育種中可用的遺傳變異和基因資源（圖2）漾月。

圖2. 番茄超級(jí)泛基因組和結(jié)構(gòu)變異全景圖

番茄育種的主要目標(biāo)之一是通過培育果實(shí)更大梁肿、分枝數(shù)更多的品種來提高產(chǎn)量觅彰。野生番茄通常比栽培番茄具有更多的結(jié)果分枝填抬，然而能否將這一性狀導(dǎo)入栽培番茄，特別是加工番茄中尚未有報(bào)道蛀骇。通過比較進(jìn)化基因組學(xué)分析读拆，該研究鑒定出388個(gè)在野生和栽培番茄演化過程中高度分化的結(jié)構(gòu)變異檐晕，可能顯著影響周圍基因的功能辟灰。其中位于Sgal12g015720基因（編碼細(xì)胞色素P450超家族蛋白）第一個(gè)外顯子的一個(gè)244-bp缺失變異引起了研究人員的關(guān)注篡石。該變異在野生番茄和栽培番茄中頻率差異最顯著（p=2.2×10-16）凰萨，且在栽培番茄中無法檢測(cè)到Sgal12g015720轉(zhuǎn)錄本（圖3）。以上結(jié)果說明番茄在馴化過程中保留了該244-bp缺失武通，使Sgal12g015720發(fā)生假基因化而在栽培番茄基因組中丟失冶忱。

圖3. 結(jié)構(gòu)變異在野生番茄和栽培番茄中的分化

轉(zhuǎn)基因?qū)嶒?yàn)證明囚枪，Sgal12g015720能夠顯著增加栽培番茄的分枝和果實(shí)數(shù)量（~67.1%）（圖4），栽培番茄“M82”/野生番茄“LA716”漸滲系植株IL12-2和IL12-3（含有Sgal12g015720基因組片段）同樣支持轉(zhuǎn)基因?qū)嶒?yàn)結(jié)果千埃。因此忆植，Sgal12g015720基因可能在番茄育種中株型調(diào)控和產(chǎn)量提高上發(fā)揮重要作用朝刊。

圖4. 野生番茄特有的一個(gè)細(xì)胞色素P450基因提高栽培番茄產(chǎn)量

綜上拾氓，該研究利用番茄超級(jí)泛基因組揭示了野生和栽培番茄的基因組演化歷史，系統(tǒng)解析了番茄野生種中尚未被充分挖掘的遺傳多樣性房官。該研究同時(shí)證明了通過基因組學(xué)的“bottom-up”方法鑒定功能基因的可能翰守，為超級(jí)泛基因組在其他作物中的構(gòu)建和應(yīng)用指明了方向疲酌。值得一提的是朗恳，Nature Genetics同期刊發(fā)了題為Tomato super-pangenome highlights the potential use of wild relatives in tomato breeding的ResearchBriefing（研究簡(jiǎn)報(bào)），對(duì)該成果進(jìn)行了簡(jiǎn)介并給予高度評(píng)價(jià)油航。Nature Genetics編輯Wei Li博士認(rèn)為：“看到基于9個(gè)野生種和2個(gè)栽培種質(zhì)的染色體級(jí)別基因組構(gòu)建的番茄超級(jí)泛基因組是令人興奮的事情谊囚！這些結(jié)果凸顯了野生和栽培番茄之間的基因組多樣性和結(jié)構(gòu)變異揉稚，這將有助于未來番茄功能基因的挖掘和番茄遺傳改良”搀玖。

在后面的教程中，希望自己可以繼續(xù)堅(jiān)持下來芳来，借助這篇文章開始這個(gè)領(lǐng)域的學(xué)習(xí)即舌。

往期文章：
1. 最全WGCNA教程（替換數(shù)據(jù)即可出全部結(jié)果與圖形）

WGCNA分析 | 全流程分析代碼 | 代碼一

WGCNA分析 | 全流程分析代碼 | 代碼二

WGCNA分析 | 全流程代碼分享 | 代碼三

2. 精美圖形繪制教程

精美圖形繪制教程

話說公眾號(hào)需要標(biāo)星顽聂，這樣公眾號(hào)的內(nèi)容你才不會(huì)錯(cuò)過。那么蜜葱，我們也動(dòng)手標(biāo)一下吧牵囤。

小杜的生信筆記滞伟，主要發(fā)表或收錄生物信息學(xué)的教程，以及基于R的分析和可視化（包括數(shù)據(jù)分析野崇，圖形繪制等）舞骆；分享感興趣的文獻(xiàn)和學(xué)習(xí)資料!!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末径荔，一起剝皮案震驚了整個(gè)濱河市总处，隨后出現(xiàn)的幾起案子鹦马，更是在濱河造成了極大的恐慌忆肾，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件旭从，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡退疫，警方通過查閱死者的電腦和手機(jī)褒繁，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門馍忽，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人俊抵，你說我怎么就攤上這事徽诲。” “怎么了谎替？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵钱贯，是天一觀的道長(zhǎng)秩命。經(jīng)常有香客問我褒傅，道長(zhǎng)，這世上最難降的妖魔是什么霹菊？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任旋廷，我火速辦了婚禮礼搁，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘扎运。我一直安慰自己，他們只是感情好测蹲，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布扣甲。她就那樣靜靜地躺著齿椅，像睡著了一般涣脚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上矾麻，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天芭梯，我揣著相機(jī)與錄音玖喘，去河邊找鬼。笑死贬派，一個(gè)胖子當(dāng)著我的面吹牛搞乏，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播查描，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼匀油！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起桥滨，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤齐媒，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后邀杏，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年脖律，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片小泉。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡膏孟，死狀恐怖柒桑，靈堂內(nèi)的尸體忽然破棺而出噪舀，到底是詐尸還是另有隱情，我是刑警寧澤界逛，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布息拜，位于F島的核電站净响，受9級(jí)特大地震影響馋贤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜仿滔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望鞠绰。院中可真熱鬧洞豁，春花似錦荒给、人聲如沸志电。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案例朱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽鱼蝉。三九已至，卻和暖如春渔隶，著一層夾襖步出監(jiān)牢的瞬間间唉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工呈野，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留印叁，地道東北人轮蜕。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓昨悼，卻偏偏與公主長(zhǎng)得像肠虽，于是被迫代替她去往敵國和親幔戏。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345