提起 LTR囚企,相信很多人和我之前一樣都是熟悉又陌生的感覺(jué)丈咐,聽(tīng)過(guò)或者接觸過(guò)卻未深入了解過(guò)。若您對(duì) LTR 分析有興趣龙宏,卻苦于無(wú)從下手時(shí)棵逊,愿本文作為一個(gè)叩門(mén)磚,為您敲開(kāi) LTR 分析的大門(mén)银酗。本篇從 LTR 的定義辆影、分類(lèi)、生物學(xué)意義、結(jié)構(gòu)特征、鑒定方法等方面層層遞進(jìn)厚骗,帶您走進(jìn)神奇的 LTR 世界牧愁。
1. LTR 與重復(fù)序列、轉(zhuǎn)座子的關(guān)系
LTR-RTs 是 Long terminal repeat-retrotransposons 的縮寫(xiě)充坑,中文名是長(zhǎng)末端重復(fù)反轉(zhuǎn)座子。LTR-RTs 名字中既有重復(fù)硫嘶、又有轉(zhuǎn)座子经备,那么它和重復(fù)序列拭抬、轉(zhuǎn)座子是什么關(guān)系呢?圖1 為您解答侵蒙。
重復(fù)序列:根據(jù)重復(fù)區(qū)域是否連續(xù)可分為串聯(lián)重復(fù)序列和散在重復(fù)序列(又名轉(zhuǎn)座子造虎、轉(zhuǎn)座元件)兩大類(lèi),前者相連纷闺,后者不相連算凿。
轉(zhuǎn)座元件(transposable elements, TEs) 又稱(chēng)轉(zhuǎn)座子:指在基因組中能夠移動(dòng)或復(fù)制,并可以整合到基因組新位點(diǎn)的一段 DNA 序列犁功。根據(jù)轉(zhuǎn)座過(guò)程是否形成 RNA 中間體氓轰,轉(zhuǎn)座子可分為 DNA 轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子。反轉(zhuǎn)錄轉(zhuǎn)座子是以 RNA 為媒介浸卦,伴有反轉(zhuǎn)錄過(guò)程署鸡,以復(fù)制-粘貼的方式在基因組的新位置產(chǎn)生一個(gè)新的拷貝。DNA 轉(zhuǎn)座子的轉(zhuǎn)座機(jī)制則是剪切-粘貼的形式限嫌。
LTR-RTs :是反轉(zhuǎn)座子中的一種靴庆,因其兩側(cè)存在長(zhǎng)的末端重復(fù)而得名。不含長(zhǎng)末端重復(fù)的反轉(zhuǎn)座子統(tǒng)稱(chēng) non-LTR-RTs怒医,主要包含短散在重復(fù)(SINE)和長(zhǎng)散在重復(fù)(LINE)炉抒。
2. LTR的分類(lèi)
動(dòng)植物基因組中存在大量轉(zhuǎn)座子,尤其是植物基因組中稚叹。LTR ?因其數(shù)量多且 LTR 長(zhǎng)度巨大焰薄,在植物轉(zhuǎn)座子中具有較高的基因組含量。在玉米基因組中 LTR 占基因組含量高達(dá) 75% 扒袖,山蒼子基因組中 LTR 占比高達(dá) 47%蛤奥,所以基因組 LTR 的鑒定尤為重要。反轉(zhuǎn)錄轉(zhuǎn)座子根據(jù)轉(zhuǎn)座元件結(jié)構(gòu)的完整性和轉(zhuǎn)座特點(diǎn)可分為自主元件(編碼轉(zhuǎn)座酶)和非自主元件(自身不編碼轉(zhuǎn)座酶)僚稿。非自主轉(zhuǎn)座元件需在自主元件的協(xié)助下才能發(fā)生轉(zhuǎn)座凡桥。完整的 LTR-RTs 由兩端序列完全一致的末端重復(fù)、GAG(衣殼蛋白)和 POL 構(gòu)成蚀同,后生動(dòng)物中含 ENV (包膜蛋白)缅刽。其中 POL 包含 AP(天冬氨酸酶)、INT(整合酶)蠢络、 RT(逆轉(zhuǎn)錄酶)和 RH(核糖核酸酶 H)衰猛,是 LTR 能否自主轉(zhuǎn)座的關(guān)鍵蛋白。LTR 分類(lèi)見(jiàn)圖 2刹孔,在高等植物中主要主要包括 Ty1/Copia和 Ty3/Gypsy 兩個(gè)超家族啡省,二者差別在于 INT 的位置不同。
3. LTR的生物學(xué)意義
不少研究表明活性 LTR 插入到關(guān)鍵基因內(nèi)或周邊會(huì)導(dǎo)致性狀改變。2019 年卦睹,發(fā)表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》文章中揭示蘋(píng)果紅皮表型形成與一個(gè) LTR-RT 插入相關(guān)畦戒。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三個(gè)等位基因结序,其中 MdMYB1-1 是控制蘋(píng)果果皮花青素合成的單一顯性基因障斋。相較于黃蘋(píng)果基因組,在紅蘋(píng)果基因組的 MdMYB1-1 基因啟動(dòng)子上游有一個(gè) LTR-RT(命名為 redTE)插入徐鹤,并經(jīng)過(guò) PCR 驗(yàn)證是紅蘋(píng)果中存在一段特異的序列(圖 3)垃环。redTE 作為一種增強(qiáng)子,增強(qiáng) MdMYB1-1 對(duì)光的敏感性返敬,從而累計(jì)花青素遂庄,形成紅色表皮。
此外劲赠,LTR?的擴(kuò)張和收縮也影響著基因組大小涧团,文章小葉茶文獻(xiàn)《Mol Plant 項(xiàng)目文章 | 第一個(gè)茶樹(shù)染色體級(jí)別高質(zhì)量參考基因組發(fā)布》中,揭示小葉茶基因組中 LTR 的擴(kuò)張尤其是非自主 LTR 的擴(kuò)張是小葉茶基因組龐大的主要原因经磅。
4. LTR-RTs 的結(jié)構(gòu)特征
典型的 LTR-RTs 的結(jié)構(gòu)有 5 個(gè)特征,其模式圖見(jiàn) 4-1钮追,各特征意義如下:
(1) TSR(TSD): 目標(biāo)重復(fù)位點(diǎn)预厌,是 4~6bp 的短的重復(fù)序列,在 5’LTR and 3’LTR 兩側(cè)元媚,是轉(zhuǎn)座子插入的信號(hào)轧叽。
(2) 5’LTR and 3’LTR : ?LTR 兩端序列完全一致的末端重復(fù), TG..CA box刊棕,完整的 LTR 均含有此結(jié)構(gòu)炭晒。LTR 長(zhǎng)度一般在 85~5000bp。
(3) PBS(primer binding site) 引物結(jié)合位點(diǎn): 在 5’LTR 的末端甥角,可與一些 tRNA 3’ 末端互補(bǔ)結(jié)合的一段 18bp 左右的序列网严,是反轉(zhuǎn)錄的第一步。
(4)?蛋白區(qū)域: 長(zhǎng)度通常在 1000~15000bp嗤无。
GAG:衣殼蛋白震束。
POL:包含4中酶,由AP(天冬氨酸酶)当犯、IN(INT,整合酶)垢村、RT(逆轉(zhuǎn)錄酶)、RH(核糖核酸酶)嚎卫,LTR 能否自主轉(zhuǎn)座的關(guān)鍵原因嘉栓。
ENV:包膜蛋白,后生動(dòng)物中存在。
(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列侵佃,11~15bp麻昼。
LTR 在生物體內(nèi)歷經(jīng)成千上萬(wàn)年的進(jìn)化,發(fā)展出許多存在形式(圖 4-2)趣钱。我們通常將包含兩個(gè)相對(duì)完整的 LTRs 和已識(shí)別的 PPT 和 PBS 位點(diǎn)的元素涌献,且兩側(cè)有 TSD 的 LTR 定義為 Intact LTR(A)。由于 LTR-RTs 兩端序列非常相似首有,LTR-RTs 內(nèi)可發(fā)生重組燕垃,導(dǎo)致內(nèi)部元件消失,形成 solo LTR(C)井联,而 solo LTR 的數(shù)量表明了一個(gè)基因組中 LTR 去除的頻率和效率卜壕。此外 LTR 發(fā)生缺失、易位可形成截?cái)嗟?LTR(B)烙常。LTR 也會(huì)經(jīng)常插入到其他 LTR 內(nèi)部區(qū)域轴捎,形成嵌套 LTR(D)。因存在這些突變機(jī)制蚕脏,實(shí)際上完整的 LTR-RTs (A)只占基因組中所有 LTR-RT 相關(guān)序列的一小部分侦副。
5. LTR-RTs 鑒定方法
LTR-RT 的鑒定方法基本歸于三類(lèi):從頭預(yù)測(cè)、基于結(jié)構(gòu)預(yù)測(cè)驼鞭、基于同源比對(duì)秦驯。LTR_STRUC[5]?是一款最早的從頭預(yù)測(cè) LTR 的軟件,LTR_finder[3]?和 LTRharvest[6]?是目前為止鑒定 LTR 最敏感的程序挣棕,但假陽(yáng)性依然很高译隘。RepeatMasker[7]?基于數(shù)據(jù)庫(kù),使用同源方法來(lái)預(yù)測(cè) LTR洛心,但不同物種 LTR 差異較大固耘,構(gòu)建物種特有的 LTR 庫(kù)非常必要。在 2017 年密歇根州立大學(xué)園藝系的 Shujun Ou 團(tuán)隊(duì)開(kāi)發(fā) LTR_retriever[4]?平臺(tái)用于 LTR 的鑒定词身,文章發(fā)表在 Plant Physiology 上厅目。這是一款整合軟件,以一個(gè)或多個(gè) LTR 預(yù)測(cè)軟件鑒定 LTR 的結(jié)果作為輸入文件法严,通過(guò)不同模塊(圖 5-1)對(duì) LTR 進(jìn)行過(guò)濾和修正來(lái)對(duì)預(yù)測(cè)軟件的預(yù)測(cè)結(jié)果進(jìn)行整合和調(diào)整璧瞬,以得到非冗余精準(zhǔn)且完整的物種特異 LTR 庫(kù),再使用 RepeatMasker[7]?進(jìn)行預(yù)測(cè)
LTR_retriever 軟件從 sensitivity(敏感性)渐夸、specificity(特異性)嗤锉、accuracy(準(zhǔn)確性)、precision(精確度)四個(gè)維度對(duì) LTR 鑒定結(jié)果進(jìn)行評(píng)估墓塌,其具體意義見(jiàn)圖 5-2瘟忱。以真實(shí) LTR 和非 LTR 序列作為參考庫(kù)奥额,使用軟件進(jìn)行預(yù)測(cè)。對(duì)預(yù)測(cè)結(jié)果分為以下四類(lèi):
TP:真陽(yáng)性访诱,真實(shí)的 LTR垫挨,被準(zhǔn)確預(yù)測(cè)出
FN:假陰性 ,真實(shí)的 LTR触菜,未被準(zhǔn)確預(yù)測(cè)出
TN:真陰性 九榔,非 LTR 序列未被預(yù)測(cè)當(dāng)成 LTR
FP:假陰性,非 LTR 序列被當(dāng)成 LTR
從下圖公式可知敏感性代表對(duì)真正 LTR 的檢出能力涡相,特異性代表排除非 LTR 序列的能力哲泊,精確性代表正確檢出的能力,精確度代表檢出結(jié)果的真陽(yáng)性率催蝗,精確度越高則表明結(jié)果越可靠切威。
使用 LTR_retriever 對(duì)現(xiàn)有軟件預(yù)測(cè) LTR 結(jié)果進(jìn)行,評(píng)估結(jié)果(圖 5-3)顯示 LTR_retriever 明顯優(yōu)于其他現(xiàn)有軟件丙号,而 Shujun Ou 團(tuán)隊(duì)在 2019 發(fā)表在 Genome Biology 上的有關(guān)轉(zhuǎn)座子注釋方法中推薦 LTR 的鑒定方法是使用以 LTR_finder 和 LTRharvest 軟件鑒定結(jié)果作為 LTR_retriever 的輸入文件[8]先朦。
6. 諾禾致源為您定制專(zhuān)屬 LTR 分析方案
隨著三代測(cè)序技術(shù)的發(fā)展,借助于超長(zhǎng)度長(zhǎng)序列犬缨,重復(fù)序列的組裝將會(huì)越來(lái)越精確喳魏。人們對(duì)重復(fù)序列的研究會(huì)更加深入,而 LTR 因其特殊的生物學(xué)意義被格外關(guān)注怀薛。LTR 的鑒定是 LTR 相關(guān)分析的基礎(chǔ)刺彩,目前 LTR 分析方法尚無(wú)標(biāo)準(zhǔn)。表 6-1 是諾禾致源公司聯(lián)合發(fā)表的 LTR 分析相關(guān)文章列表乾戏。諾禾致源 LTR 分析流程中,先使用 LTR_finder 和 LTRharvest 對(duì) LTR 進(jìn)行鑒定三热,再利用 LTR_retriever 進(jìn)行整合鼓择,構(gòu)建非冗余精準(zhǔn)的物種特異 LTR 數(shù)據(jù)庫(kù)后使用同源預(yù)測(cè)方法進(jìn)行注釋?zhuān)龠^(guò)濾掉假陽(yáng)性,為您注釋出全面且精確的物種 LTR 序列就漾,包括 intact LTR呐能、solo LTR、LTR 相關(guān)序列抑堡,非典型 LTR 等摆出。明確 LTR 含量在基因組中的占比,在染色體上的分布情況(圖 6-1)首妖。
根據(jù)物種 LTR 蛋白結(jié)構(gòu)域數(shù)據(jù)庫(kù)偎漫,對(duì) LTR-RT 進(jìn)行結(jié)構(gòu)注釋和家族鑒定。LTR 分析很多有缆,可根據(jù)物種 LTR 鑒定結(jié)果象踊、生物學(xué)意義進(jìn)行特殊分析温亲,例如通過(guò)聚類(lèi)分析,確定基因組中主要的 LTR 屬于何種家族(圖 6-2)杯矩;對(duì) LTR 進(jìn)行插入時(shí)間評(píng)估分析栈虚,探索 LTR 的進(jìn)化動(dòng)態(tài)(圖 6-3);構(gòu)建特殊家族進(jìn)化樹(shù)史隆,研究某類(lèi) LTR 的進(jìn)化等魂务。此外,轉(zhuǎn)座子誘導(dǎo)的表觀遺傳變化經(jīng)常影響相鄰基因的差異表達(dá)并產(chǎn)生新的調(diào)控模式泌射,例如前面所提的蘋(píng)果表皮顏色性狀文獻(xiàn)中檢測(cè)到紅蘋(píng)果 redTE 序列中有幾個(gè)區(qū)域明顯高度甲基化粘姜,這為 LTR 分析提供新的思路。
表 6-1? 諾禾合作發(fā)表有關(guān) LTR 分析高分合作文章?
參考文獻(xiàn):
[1] Wicker T, Sabot F, Hua-Van A, et al. A unified classification system for eukaryotic transposable elements[J]. Nature Rev. Genet., 2007, 8(12):973-982.
[2]?Liyi Zhang,Jiang Hu,Jingjing Li,et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour.[J]. Nature Communications, 2019.
[3] Zhao Xu and Hao Wang. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons[J]. Nucleic Acids Research, 2007, 35: W265–W268.
[4] Ou S , Jiang N . LTR_retriever: a highly accurate and sensitive program for identification of long terminal-repeat retrotransposons[J]. Plant Physiology, 2017:pp.01310.2017.
[5] Mccarthy E M , Mcdonald J F . LTR_STRUC: a novel search and identification program for LTR retrotransposons[J]. Bioinformatics, 2003, 19(3):362-367.
[6] David Ellinghaus, Stefan Kurtz and Ute Willhoeft. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 2008, 9:18.
[7] A.F.A. Smit, R. Hubley& P. Green RepeatMasker at http://www.repeatmasker.org .
[8] Ou S , Jiang N . Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline.[J]. Genome Biology, 2019,20:275.
[9] Zhao G , Zou C , Li K , et al. The Aegilops tauschii genome reveals multiple impacts of transposons[J]. Nature Plants, 2017.
[10] Zhang Qun-Jie,Li Wei,Li Kui et al. The Chromosome-Level Reference Genome of Tea Tree Unveils Recent Bursts of Non-autonomous LTR Retrotransposons to Drive Genome Size Evolution.[J] .Mol Plant, 2020.
[11] Ticao Zhang, et al.. Genome of Crucihimalaya himalaica, a close relative of Arabidopsis, shows ecological adaptation to high altitude.[J].PNAS, 2019.