前言
康奈爾大學(xué)弃甥,F(xiàn)eiLab的一個預(yù)測工具。
iTAK 是依賴于數(shù)據(jù)庫
的用于從蛋白質(zhì)或核苷酸序列中識別植物轉(zhuǎn)錄因子 (TF)
汁讼、轉(zhuǎn)錄調(diào)節(jié)因子 (TR)
和蛋白激酶 (PK)
淆攻,然后將單個 TF肮之、TR 和 PK 分類為不同的基因家族
的工具。
本人能力有限卜录,本文可能存在描述不當(dāng)與錯誤的地方戈擒,請仔細辨別后使用。
鑒定與依據(jù)
TFs 和 TRs 的識別和分類是基于主要從 PlnTFDB (Perez-Rodriguez et al., 2010)和 PlantTFDB [(Jin et al., 2014) 總結(jié)的一致性規(guī)則(每個基因家族的必需和禁止的蛋白質(zhì)結(jié)構(gòu)域)艰毒,與來自 PlantTFcat (Dai et al., 2013)和 AtTFDB (Yilmaz et al., 2011)的家族 使用了支持證據(jù)筐高。
PKs的鑒定依賴于Pfam數(shù)據(jù)庫中與PF00069
和PF07714
的hits。鑒定到的PK通過與比較一系列的HMMs( Lehti-Shiu MD, Shiu S-H (2012))將其劃分到不同的基因家族丑瞧。
我來bici兩句:iTAK發(fā)表文章中指出了兩個數(shù)據(jù)庫(PlnTFDB和PlantTFDB)各自的一些缺陷柑土。plnTFDB我沒用過,但是PlantTFDB在iTAK出來后是有更新的绊汹,高老師看不到這篇文章和這個工具不太可能稽屏。如果提出的問題確實存在且合理,我相信后面更新中肯定會修正的(這只是我的臆想西乖,我的水平還不到去校對文中提到問題的水平)狐榔,所以大家也不要看到iTAK
發(fā)文中提到了PlantTFDB
的問題就不用PlantTFDB
預(yù)測TF了。
工具有沒有人在用获雕?
這個工具薄腻,我是在一個學(xué)長的畢業(yè)答辯上聽來的。
我昨天在pubmed搜了下届案,印象比較深的是有兩篇中藥論文中都用到了這個工具庵楷。
另外,我在網(wǎng)上搜到了一家生信分析報告模板楣颠,其中就有用這個工具尽纽。
關(guān)于軟件本地部署,中文中有些本地部署的流程童漩,但不建議大家本地部署(數(shù)據(jù)庫的更新依賴mysql)弄贿,因為github中的數(shù)據(jù)庫文件沒有在線網(wǎng)頁版的新。雖然我不更新數(shù)據(jù)庫的本地部署與在線版的預(yù)測結(jié)果條數(shù)一致(具體序列ID并沒有進行比較)睁冬,但我還是用了在線版本的分析結(jié)果挎春。
iTAK 1.6 在線版本主頁
http://itak.feilab.net/cgi-bin/itak/index.cgi
過程
第一步
:進入主頁http://itak.feilab.net/cgi-bin/itak/index.cgi
不需要工具,就是網(wǎng)絡(luò)慢點豆拨。
第二步
:輸入數(shù)據(jù)直奋,選擇數(shù)據(jù)類型
蛋白質(zhì)序列數(shù)據(jù),以文件形式上傳或者直接粘貼FASTA格式序列施禾。
輸入數(shù)據(jù)要求與限制(≈沒限制)
:fasta格式脚线,核苷酸
或者蛋白序列
,序列數(shù)<50k條
且文件大小<100M
弥搞。
第三步
:填寫接收數(shù)據(jù)郵箱邮绿。
雖然可以在線等渠旁,但是寫個郵箱穩(wěn)妥點。
如果提交成功則應(yīng)該會跳轉(zhuǎn)類似如下界面船逮。
第四步
:下載結(jié)果
我測試的3萬多條蛋白序列顾腊,用了大概50分鐘。
在線等結(jié)果或者復(fù)制郵箱中的網(wǎng)頁鏈接到瀏覽器打開挖胃。
呈現(xiàn)如下結(jié)果(這里只截圖了TF杂靶,TR):
點擊左上角"Download
" 就可以下載所有結(jié)果。
結(jié)果文件內(nèi)容
解壓結(jié)果文件酱鸭,層層打開文件夾PXXXXXXXXXX_output\home\kentnf\webfiles\bioinfo\itak\itak_web\itak_html\tmp\itak_online\PXXXXXXXXXX_output (這個文件夾屬是有點深不可測)即可看到6個結(jié)果文件
- tf_sequence.fasta
所有鑒定的TF/TR序列
- tf_classification.txt
所有TF/TR的分類吗垮,tab制表符分割,包含序列的ID和各自的家族凹髓。
- tf_alignment.txt
制表符分割的txt文檔烁登,包含所有鑒定到的TF/TR比對蛋白結(jié)構(gòu)域數(shù)據(jù)庫。
- pk_sequence.fasta
所有鑒定到的PK蛋白序列蔚舀。
- Shiu_classification.txt
所有鑒定到的PK蛋白分類饵沧。制表符分割的txt文件,包含序列ID和相應(yīng)的蛋白激酶家族蝗敢。
- Shiu_alignment.txt
制表符分割的txt文檔捷泞,包含所有鑒定到的PK比對蛋白結(jié)構(gòu)域數(shù)據(jù)庫足删。
后話=廢話
其實寿谴,這個工具我是先直接本地部署的,但是github上數(shù)據(jù)庫這么久沒更新失受,心里屬實不踏實讶泰。看了下iTAK.pl
拂到,當(dāng)然是看不懂的痪署,但是我發(fā)現(xiàn)了一些隱藏的選項和內(nèi)容。在腳本最后的email模塊發(fā)現(xiàn)了這個在線網(wǎng)址鏈接才知道原來還有在線版本兄旬。同時網(wǎng)站提供了最新數(shù)據(jù)庫狼犯,但是看了下部署,竟然有用到mysql领铐,然后直接對本地版說了拜拜∶跎現(xiàn)在還沒時間學(xué)習(xí)mysql。