最近有同學(xué)向我反映想要大規(guī)模替換基因ID實在太難。今天為大家提供SPDE的解決方案悬襟。順便嘮叨一句衅码,SPDE是我在生信實踐過程中遇到問題以及解決問題的產(chǎn)物,如果有些問題我覺得大家可能普遍遇到脊岳,基本會給大家提供一鍵式的解決方法逝段,如果有些不常遇到則有可能需要通過幾個功能的組合來實現(xiàn),當(dāng)然這就需要同學(xué)們對SPDE足夠熟悉割捅,但請大家堅信一點兒奶躯,SPDE基本可以為大家解決超過80%的生信問題,剩下一些則主要涉及組學(xué)拼接組裝等方面的問題亿驾,這些現(xiàn)在都在想辦法解決嘹黔,所以請大家持續(xù)關(guān)注,在未來版本中會向大家逐一講解。好儡蔓,下面言歸正傳郭蕉。
想要批量替換ID,所用到的核心功能就是批量替換功能喂江,這個功能在文件操作模塊:
①輸入的是你想要對其內(nèi)容進(jìn)行替換的文件召锈,比如你想要將A文件中的ARF關(guān)鍵詞替換為GRF,那么①放入的就是A文件获询;②是你需要進(jìn)行替換的關(guān)鍵詞涨岁,這里包括兩種模式,如果只是單個關(guān)鍵詞替換吉嚣,比如ARF變GRF梢薪,那么②你填入的內(nèi)容應(yīng)該是ARF,GRF(注意要在英文狀態(tài)下),第二種模式是多個關(guān)鍵詞的同時替換尝哆,這種更適用于兩個基因序列文件中基因ID的轉(zhuǎn)換秉撇,方法是打開excel,第一列是要替換的對象秋泄,第二列是以什么內(nèi)容對其進(jìn)行替換畜疾,如下:
保存的時候我們?nèi)匀贿x擇以制表符格式進(jìn)行保存。在SPDE中一旦你用到與excel相關(guān)的操作保存成制表符是一定沒有問題的印衔。
將保存好的文件就放到②啡捶,然后③填入的是保存的路徑(當(dāng)然,還是要注意路徑里不要有空格)奸焙,在這里別忘記對文件命名瞎暑。然后點擊運行就好了。這是核心功能介紹与帆,那么接下來要解決的問題是替換文件如何批量生成:
這個功能在Alignment/hmmer模塊中了赌。可以算是有三種方式吧:第一個是如果你的文件是fasta格式的DNA文件且你并不知道兩個文件的序列方向是否一致(也就是兩個文件中的序列是否都是正鏈上的序列或者是否都是負(fù)鏈上的序列)玄糟,這個時候你使用的是blastn功能(具體的使用方法參考本文集之前的介紹)勿她;第二種是它確實是DNA的文件且你知道它們都是正鏈序列(這種情況常見于從網(wǎng)上下載的基因組的cds文件,大家細(xì)心觀察會發(fā)現(xiàn)這個文件序列一般都是從ATG開始的~)阵翎,這個時候可以考慮使用diamond-blast功能逢并;第三種是蛋白序列文件,這個時候建議大家使用diamond-blast比對郭卫。對為什么會有第二種方式的解釋:diamond是最新推出的算法砍聊,它的速度快且輸出的文件格式比較好整理。
后續(xù)的操作是贰军,如果使用的是blastn玻蝌,那么你需要使用文件操作模塊中的提取最佳比對結(jié)果的功能:
①放的是blastn比對的結(jié)果,②是保存位置以及命名。然后箭頭所示的按鈕俯树,SPDE就會自動將比對結(jié)果中最好的那一對比對給你提取出來帘腹,之后用excel打開把不需要的行和內(nèi)容刪除即可得到兩個文件序列ID的對應(yīng)關(guān)系。
而如果你使用的是diamond比對則在比對結(jié)果里展示的就是最佳的许饿,但仍然需要注意一個問題竹椒,如果一個文件里有兩條序列對應(yīng)了另外一個文件里的同一條序列,那么這個時候軟件已經(jīng)無能為力了米辐,需要同學(xué)們根據(jù)自己的判斷對內(nèi)容進(jìn)行一個取舍。當(dāng)然书释,雖然洋洋灑灑寫了這么多翘贮,真的操作起來還是很快的~有操作上的其他問題可以給我留言