轉(zhuǎn)座子分類軟件deepTE簡介

作者:May
審稿:童蒙
編輯:amethyst

前言

基因組轉(zhuǎn)座子(TE)注釋過程中,對于RepeatModeler這種denovo注釋的得到的轉(zhuǎn)座子往往不能進(jìn)行分類,因此對TE的統(tǒng)計經(jīng)常存在unknow重復(fù)序列過多的情況,之前已經(jīng)發(fā)表了TEclass曙聂,REPCLASS和PASTEC等嘁酿,TEclass基于支持向量機(jī)(SVM)分類TE,REPCLASS基于TE結(jié)構(gòu)及同源的特征分類TE,PASTEC基于隱馬爾科夫模型(HMM)來分類TE榜聂。2020年在Bioinformatics上發(fā)表了一款新的軟件,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的重復(fù)序列分類軟件DeepTE[1]嗓蘑,這里我們對其使用方法及效果進(jìn)行了一系列測評须肆。

軟件安裝

軟件地址https://github.com/LiLabAtVT/DeepTE,推薦使用conda安裝桩皿,安裝過程如下

conda create -n py36 python=3.6
conda activate py36
conda install tensorflow-gpu=1.14.0
conda install biopython
conda install keras=2.2.4
conda install numpy=1.16.0

此外豌汇,該軟件還依賴HMMER(v3.1b1),以及不同物種分類的模型泄隔,可以從以下網(wǎng)站下載拒贱,下載的文件放在model_dir目錄下,作為參數(shù)-m_dir的輸入

參數(shù)解析

該軟件主要包括2個腳本:DeepTE.py和DeepTE_domain.py佛嬉,DeepTE.py為主腳本逻澳,進(jìn)行TE分類,DeepTE_domain.py主要對序列進(jìn)行TE保守結(jié)構(gòu)域的鑒定暖呕。

DeepTE.py基本參數(shù)如下:
-i :輸入的unknow重復(fù)序列
-d:工作目錄斜做,生成中間結(jié)果
-o :輸出目錄
-m:模型的名稱,提供該參數(shù)直接下載模型湾揽,P:植物瓤逼,M:動物笼吟,F(xiàn):真菌,O:其他霸旗,U:UNS_model則會自行下載
-m_dir :下載的model_dir路徑(上述下載的物種文件的存放目錄)贷帮,包括植物,動物诱告,真菌撵枢,其他和UNS_model(直接提供-m P、M蔬啡、F诲侮、O、U則會自行下載 )

-sp:序列來源的物種分類:P:植物箱蟆, M:動物沟绪,F(xiàn):真菌, O:其他 空猜,U:未知
-fam:提供TE家族名稱(如果是已知的家族可以提供)绽慈,如果不提供則認(rèn)為是unknown TEs
              ClassI: 輸入序列為ClassI TEs
              ClassII: 輸入序列為ClassII subclass1 TEs
              LTR: 輸入序列為LTR TEs
              nLTR:輸入序列為 nLTR TEs
              LINE:輸入序列為LINE TEs
              SINE: 輸入序列為 SINE TEs
              Domain: 輸入序列為 Class II subclass1 TEs 特異的超家族
-modify:可選參數(shù),該參數(shù)需要DeepTE_domain.py進(jìn)行domain分析后提供 .
-UNS:提供該參數(shù)時-i為DNA序列辈毯,可以將輸入的DNA序列分為TEs, CDS和基因間區(qū)坝疼。使用該參數(shù)不需要提供-sp和-fam(目前該參數(shù)只適用于植物)
-prop_thr:注釋TE的可能性閾值,例如某個TE為ClassI的可能性為0.6谆沃,如果閾值設(shè)置為0.7,則該TE為被標(biāo)記為'unknown'钝凶,默認(rèn)值為 0.6.

DeepTE_domain.py的參數(shù)包含-d、-o唁影、-i參數(shù)的含義與DeepTE.py相同耕陷,這里不多做解釋。

-s :提供的TE家族的domain信息据沈,軟件提供該目錄:supfile_dir
--hmmscan :hmmscan的路徑

應(yīng)用實例

從Repbase隨機(jī)選取擬南芥的重復(fù)序列作為輸入序列哟沫,進(jìn)行測試。使用DeepTE_domain.py對保守domain進(jìn)行鑒定锌介,命令行如下:
DeepTE_domain.py -d working_dir -o output_dir -i Arabidopsis.repeat.fasta -s supfile_dir --hmmscan hmmer-3.1b1/bin/hmmscan

生成結(jié)果:

  • output_dir/opt_te_domain_pattern.txt嗜诀,該文件分為2列,第一列為序列名稱孔祸,第二列為鑒定到保守domain信息隆敢。該結(jié)果可以作為DeepTE.py的輸入文件。

使用DeepTE.py借助上一步的保守domain信息分類TE崔慧,命令行如下:
DeepTE.py -o TE_claasify_out -d working_dir -i Arabidopsis.repeat.fasta -m_dir model_dir/Plants_model -sp P -modify output_dir/opt_te_domain_pattern.txt

注:-modify提供的為DeepTE_domain.py生成的結(jié)果筑公,如不提供該參數(shù),則不借助domain鑒定的信息尊浪。

生成結(jié)果:

  • TE_claasify_out/opt_DeepTE.fasta和
  • TE_claasify_out/opt_DeepTE.txt
  • TE_claasify_out/opt_DeepTE.txt:第一類為序列名稱匣屡,第二列為序列分類信息波岛,(ATENSPM4#DNA/CMC-EnSpm ClassII_DNA_CACTA_nMITE)
  • TE_claasify_out/opt_DeepTE.fasta:為分類后的序列盒使,原始的序列名稱和類別用"__"分隔(ATENSPM4#DNA/CMC-EnSpm__ClassII_DNA_CACTA_nMITE)


結(jié)語

TE類型眾多,分類問題一直以來都是一個難題炼鞠。測試數(shù)據(jù)選取的已知類型的TE鹅士,從deepTE的分類結(jié)果來看券躁,某些序列分類準(zhǔn)確性較高,上圖中紅框部分為已知類型和deepTE分類類型一致的序列掉盅,deepTE利用了Repbase的TE作為了訓(xùn)練集也拜,因此分類的準(zhǔn)確性比較高。如果采用denovo注釋到的TE趾痘,可以結(jié)合軟件的結(jié)果和deepTE的分類結(jié)果以得到更準(zhǔn)確的結(jié)果慢哈。

參考文獻(xiàn)

Yan, H., A. Bombarely, and S. Li, DeepTE: a computational method for de novo classification of transposons with convolutional neural network. Bioinformatics, 2020. 36(15): p. 4269-4275.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市永票,隨后出現(xiàn)的幾起案子卵贱,更是在濱河造成了極大的恐慌,老刑警劉巖侣集,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件键俱,死亡現(xiàn)場離奇詭異,居然都是意外死亡世分,警方通過查閱死者的電腦和手機(jī)编振,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來臭埋,“玉大人踪央,你說我怎么就攤上這事≌梗” “怎么了杯瞻?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長炫掐。 經(jīng)常有香客問我魁莉,道長,這世上最難降的妖魔是什么募胃? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任旗唁,我火速辦了婚禮,結(jié)果婚禮上痹束,老公的妹妹穿的比我還像新娘检疫。我一直安慰自己,他們只是感情好祷嘶,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布屎媳。 她就那樣靜靜地躺著夺溢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪烛谊。 梳的紋絲不亂的頭發(fā)上风响,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機(jī)與錄音丹禀,去河邊找鬼状勤。 笑死,一個胖子當(dāng)著我的面吹牛双泪,可吹牛的內(nèi)容都是我干的持搜。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼焙矛,長吁一口氣:“原來是場噩夢啊……” “哼葫盼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起薄扁,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤剪返,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后邓梅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脱盲,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年日缨,在試婚紗的時候發(fā)現(xiàn)自己被綠了钱反。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡匣距,死狀恐怖面哥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情毅待,我是刑警寧澤尚卫,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站尸红,受9級特大地震影響吱涉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜外里,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一怎爵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧盅蝗,春花似錦鳖链、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逞敷。三九已至,卻和暖如春题山,著一層夾襖步出監(jiān)牢的瞬間兰粉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工顶瞳, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人愕秫。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓慨菱,卻偏偏與公主長得像,于是被迫代替她去往敵國和親戴甩。 傳聞我的和親對象是個殘疾皇子符喝,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容