一耐齐、來源
單位:江蘇農科院
主要結果:
- 通過Nanopore+Illumina+HiC組裝蘇綠基因組烦感,組裝大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
- 52.8%的重復序列,LTRs占33.9%为障。
- 預測了33924個基因,95.7%注釋率。
- 綠豆與其關系最近的小豆分化時間約11.66萬年前鳍怨,綠豆特有基因家族277個呻右,其中18個正選擇基因。
綠豆研究進展:
- 中綠VC1973A基因組草圖
- 葉發(fā)育
- 白粉病抗性powdery mildew resistance
- 豆象抗性bruchid resistance
- 耐鹽 salinity tolerance
- 基因組多樣性和GWAS(GBS)鞋喇,種皮光澤
二声滥、結果
測序組裝
蘇綠一號,測序約122.9Gb數(shù)據(jù)侦香,深度259.5X落塑,其中Oxford Nanopore (142.4X)。
組裝先使用canu糾正reads罐韩,再用wtdbg2組裝芜赌。原始組裝結果用Racon對nanopore reads 進行三輪糾錯,使用Pilon利用二代測序數(shù)據(jù)進行3輪糾錯伴逸。組裝大小473.67 Mb,359 contigs, N50 =11.32 Mb膘壶。
HiC-Pro利用唯一比對reads鑒定有效和無效互作错蝴,使用LACHESIS進行聚類、排序和定向颓芭,最后掛載11條染色體顷锰。基因組大小470.45Mb(掛載率99.32%亡问,組裝率87.8%)官紫。
a-e 代表 the distribution of FPKM, gene density, density of Copia
retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
densities calculated in 200-kb windows.
f 代表 syntenic blocks.
組裝評價
三方面評估:
- 組裝連續(xù)性和覆蓋度。二代測序reads比對99.07%州藕;CEGMA評估連續(xù)性449個(98.03%)核心保守基因束世。
- 完整性。BUSCO評估床玻,92.43%毁涉。
- HiC聚類熱圖。
編碼基因預測
三個來源:
- ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
- homology-based:GeMoMa (v1.3.1)
- unigene-based prediction :Hisat (v2.0.4) and
Stringtie (v1.2.3), and PASA (v2.0.2)組裝锈死,TransDecoder (v2.0) and GeneMarkST(v5.1)預測贫堰。
EVM整合,PASA優(yōu)化待牵。共預測33,924個蛋白編碼基因其屏,20,446個三種證據(jù)都有。
基因功能注釋
BLAST (v2.2.31) against NR, KOG,
GO, KEGG and TrEMBL database, performed KEGG pathway缨该。
共32,470個基因注釋(95.71%)偎行。
InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)進行motif注釋,共注釋2,765 motifs and 35,154 domains。
非編碼RNA注釋
microRNA, rRNA使用Rfam數(shù)據(jù)庫睦优;
tRNA使用tRNAscan-SE渗常。
最后鑒定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。
假基因預測
假基因序列與功能基因類似汗盘,但由于突變丟失了功能皱碘。
使用BLAT將預測蛋白序列尋找可能的同源基因序列,再用GeneWise尋找不成熟的終止密碼和基因序列上的移碼突變隐孽,從而獲得假基因癌椿,共4320個,平均長度2237bp菱阵。
重復序列注釋
使用Repbase庫和從頭預測的重復庫(采用LTR FINDER和RepeatModeler)踢俄,數(shù)據(jù)庫鑒定采用PASTEClassier,合并以上兩個重復庫作為最終庫晴及。RepeatMasker注釋都办。共52.83%,重復元件長度46.4 Kb - 215.1 Mb虑稼。大部分是LTR(33.92%)琳钉,包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。
使用MISA檢測簡單串聯(lián)重復(SSRs)蛛倦,共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)颁独。全長3,252,656 bp(~0.69%)
進化分析和分歧時間估計
從綠豆和10個近緣物種(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL軟件鑒定單拷貝直系同源基因巢音,基于該數(shù)據(jù)集采用MUSCLE+MEGA+PHYML構樹。
使用Mcmctree通過最大似然樹估計分歧時間,并用化石證據(jù)矯正靡狞。
全基因組復制
為研究綠豆進化味赃,將之與其他4種雙子葉植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比較炮赦,基于兩物種間或物種內的成對同源基因計算4DTv (4-fold degenerate synonymous sites of the third codons)持舆。
Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰钾虐。表明綠豆和擬南芥分化的時間比綠豆和普通豆(菜豆)分化更早噪窘。
LTR插入時間估計
采用突變率來估計LTR插入時間。蘇綠中的LTR插入事件不是很活躍效扫。
正選擇基因
通過評估單拷貝基因的Ka/Ks來檢測正選擇基因倔监。共檢測到18個基因。GO富集在membrane-enclosed lumen 和cell junction菌仁。