非模式生物重復序列注釋 RepeatModeler2+RepeatMasker4

首先安裝RepeatModeler2,RepeatMasker4
建議直接去官網下載,解壓安裝吹埠。同時安裝其他包第步。安裝流程這里不詳細介紹了,網上有很多藻雌。

假設現在已經安裝完畢雌续,并且依賴包也配置完畢。

1胯杭、下載最新Dfam庫和Repbase庫并配置

這里使用的是3.4版本的Dfam庫(https://www.dfam.org/home)驯杜,.h5, .hmm, .embl 三個文件都要下載。
這里使用的是v20181026版本的Repbase庫做个。最新的RepBase庫是要收錢的鸽心,這個2018的版本是目前廣為流傳的免費庫滚局。

這兩個庫包含了目前較為完整的物種重復序列數據。

1.1 RepBase

進入RepeatMasker目錄:

cd path_to_RepeatMasker
wget https://github.com/chenyangkang/Repbase-Dfam/blob/main/RepBaseRepeatMaskerEdition-20181026.tar.gz
tar -zxvf RepBaseRepeatMaskerEdition-20181026.tar.gz

這時壓縮包里的兩個文件RMRBSeqs.emblREADME.RMRBSeqs應該已經被放置到RepeatMasker/Libraries里面了顽频,cd進去檢查一下藤肢。

1.2 Dfam

Dfam(.h5文件)太大了,上傳不了糯景,從官網下吧

wget -c https://www.dfam.org/releases/Dfam_3.4/families/Dfam_curatedonly.embl.gz
wget -c https://www.dfam.org/releases/Dfam_3.4/families/Dfam_curatedonly.h5.gz
wget -c https://www.dfam.org/releases/Dfam_3.4/families/Dfam_curatedonly.hmm.gz

這里下載的都是Curated的(也就是不包含從頭預測的物種)嘁圈。如果需要從頭預測的數據庫可以從Dfam官網下載,包含更多物種蟀淮。但因為本文討論非模式物種的注釋最住,RepeatModeler2基本可以完成從頭預測的工作,因此只用curated數據庫怠惶。后期整合到一起就行了涨缚。

gunzip Dfam_curatedonly.embl.gz
gunzip Dfam_curatedonly.h5.gz
gunzip Dfam_curatedonly.hmm.gz

mv Dfam_curatedonly.embl Dfam.embl
mv Dfam_curatedonly.h5 Dfam.h5
mv Dfam_curatedonly.hmm Dfam.hmm

這里只有改了名字,RepeatMasker才能識別策治。

1.3 重新congifure RepeatMasker

./configure

路徑配置跟之前都一樣脓魏。看到combining Dfam+RepBase之類的字樣通惫,以及配置結束以后Dfam和RepBase的版本號茂翔,說明成功了。在Libraries里會生成一個RepeatMaskerLib.h5文件讽膏,這就是Dfam+RepBase的整合檩电。

2、導出目標非模式物種的對應上下節(jié)點Repeat families

Dfam庫以及RepBase庫中大多數物種都是模式物種府树,對于非模式物種俐末,有兩種策略進行注釋:

  1. 使用已有homology-based庫中的近源物種,直接使用該物種的庫進行注釋奄侠。
  2. 使用RepeatModeler2鑒別出的De novo序列加上homology-based庫中部分序列進行注釋(這里的“部分”指的是該類群祖先及衍生節(jié)點的序列families卓箫,當然,如果需要控制變量垄潮,也可以只用祖先節(jié)點的共有序列)烹卒。

本文只討論第二種方法。因為注釋會更加完整一些弯洗。RepeatMasker4.1.1可以使用famdb.py來訪問構建的RepeatMaskerLib.h5數據庫旅急。famdb.py就在RepeatMasker文件夾里。


查看鳥類repeat families樹:

famdb.py -i RepeatMaskerLib.h5 lineage \
-ad Aves
太多了牡整,后半部分不顯示藐吮。大部分物種repeat families沒有記錄

查找并導出鳥類及其上祖先節(jié)點、其下所有類群的repeat families:

famdb.py -i RepeatMaskerLib.h5 families \
-f embl -a -d Aves > Aves_ad.embl

或
只查找并導出鳥類及其上祖先節(jié)點(可以避免衍生節(jié)點物種分布不均勻問題。當有多個物種需要注釋谣辞,并且需要對比注釋的比例及總量時迫摔,這樣可以控制變量):

famdb.py -i RepeatMaskerLib.h5 families \
-f embl -a Aves > Aves_a.embl

-a為ancestor的意思,-d為descendent的意思泥从。-ad可以一起寫句占。


將embl格式轉化為fasta格式,方便后期與RepeatModeler2結果合并

buildRMLibFromEMBL.pl Aves_a.embl> Aves_a.fasta

buildRMLibFromEMBL.pl腳本在RepeatMasker/util文件夾里


3躯嫉、RepeatModeler2從頭預測

假設已經configure結束纱烘。沒有安裝或configure的朋友可以看看晚上其他安裝教程。

###用序列文件構建數據庫
BuildDatabase -name ${i}  -engine rmblast ${i}.fna
###RepeatModeler根據數據庫比對預測repeats
RepeatModeler -database ${i}  -pa 5

其中${i}為基因組文件名
也可以添加LTR結構搜索pipeline:

RepeatModeler -database ${i}  -pa 5 -LTRStruct

我沒用過這個-LTRStruct參數和敬,不知道效果如何凹炸。
這里的-pa是并行數。如果是rmblast/ncbi搜索引擎的話每個pa是4個線程昼弟。所以這里-pa設置為5,在提交腳本時就要請求20個線程奕筐。

順利的話最后得到一個文件夾舱痘,以及一個${i}-families.fa,一個${i}-families.stk文件离赫。

4芭逝、整合de novo預測數據庫及homology-based數據庫

因為都是fasta格式(Aves_a.embl轉化為fasta了,見上文)渊胸,cat到一起就行了

cat ${i}-families.fa Aves_a.fasta > all_${i}_final.fasta

5旬盯、RepeatMasker注釋

RepeatMasker -xsmall -poly \
-pa 5 -lib ${i}.all.repeat.db.fasta -engine ncbi ${i}.fna

參數就不說了,RepeatMasker -h看一下吧翎猛。

大功告成


結果顯示胖翰,de novo-based和homology-based一起用比單個用要多注釋30%-50%(對我的數據而言)。

歡迎討論

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末切厘,一起剝皮案震驚了整個濱河市萨咳,隨后出現的幾起案子,更是在濱河造成了極大的恐慌疫稿,老刑警劉巖培他,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異遗座,居然都是意外死亡舀凛,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門途蒋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來猛遍,“玉大人,你說我怎么就攤上這事◇θ溃” “怎么了抗果?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長奸晴。 經常有香客問我冤馏,道長,這世上最難降的妖魔是什么寄啼? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任逮光,我火速辦了婚禮,結果婚禮上墩划,老公的妹妹穿的比我還像新娘涕刚。我一直安慰自己,他們只是感情好乙帮,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布杜漠。 她就那樣靜靜地躺著,像睡著了一般察净。 火紅的嫁衣襯著肌膚如雪驾茴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天氢卡,我揣著相機與錄音锈至,去河邊找鬼。 笑死译秦,一個胖子當著我的面吹牛峡捡,可吹牛的內容都是我干的。 我是一名探鬼主播筑悴,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼们拙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了雷猪?” 一聲冷哼從身側響起睛竣,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎求摇,沒想到半個月后射沟,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡与境,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年验夯,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摔刁。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡挥转,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情绑谣,我是刑警寧澤党窜,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站借宵,受9級特大地震影響幌衣,放射性物質發(fā)生泄漏。R本人自食惡果不足惜壤玫,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一豁护、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧欲间,春花似錦楚里、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至她渴,卻和暖如春吝梅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背惹骂。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留做瞪,地道東北人对粪。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像装蓬,于是被迫代替她去往敵國和親著拭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內容