寫(xiě)在前面
前述啤贩,為了開(kāi)展基因組相關(guān)課題待秃,獲取準(zhǔn)確的基因結(jié)構(gòu)注釋信息,我舍棄了 IGV-GSAme痹屹,因?yàn)樗膶?shí)現(xiàn)不夠優(yōu)雅章郁。基于多次嘗試多次失敗的基因組瀏覽器開(kāi)發(fā)基因志衍,我最后還是選擇重新改造暖庄,并得到了 IGV-GSAman。這個(gè)軟件推出來(lái)后楼肪,不少朋友都挺感興趣培廓。事實(shí)上,這塊確實(shí)是剛需淹辞,主要場(chǎng)景有二:
- 基因組項(xiàng)目医舆,往往需要配套高質(zhì)量的基因結(jié)構(gòu)注釋,不然序列再準(zhǔn)確象缀,大伙也用不起來(lái);
- 基因家族分析項(xiàng)目爷速,由于絕大多數(shù)基因組并無(wú)準(zhǔn)確的基因結(jié)構(gòu)注釋(擬南芥都有基因結(jié)構(gòu)注釋錯(cuò)誤央星,不談水稻,甚至其他更為復(fù)雜的基因組)惫东;我基本每天都會(huì)收到基因家族分析文稿的審稿莉给,看一下基因結(jié)構(gòu)圖就可以決定是否讓重做毙石。原因無(wú)他,基因家族分析的基礎(chǔ)是正確的序列颓遏。在錯(cuò)誤的基因組基因結(jié)構(gòu)注釋的背景下徐矩,沒(méi)有對(duì)每一個(gè)成員進(jìn)行準(zhǔn)確結(jié)構(gòu)矯正,其實(shí)論文從一開(kāi)始就錯(cuò)了叁幢,必然不適合發(fā)表滤灯。
那么如何做「基因結(jié)構(gòu)注釋矯正」?當(dāng)然是使用 IGV-GSAman曼玩。自然鳞骤,最好的證據(jù)是基因結(jié)構(gòu)得到 RNAseq 測(cè)序數(shù)據(jù)支持,尤其是外顯子邊界和UTR部分黍判。于是涉及到回帖豫尽,如此會(huì)有兩個(gè)新場(chǎng)景:
- 對(duì)整個(gè)物種全基因組進(jìn)行結(jié)構(gòu)注釋矯正,如此結(jié)果很好顷帖,一勞永逸美旧,但是工作量巨大,除非常年研究某一物種贬墩,否則不一定能投入足夠資源去完成陈症,即使有了 GSAman;
- 對(duì)物種感興趣的基因集合震糖,或者基因家族進(jìn)行結(jié)構(gòu)注釋矯正录肯,如此普遍適用于一般基因組課題,或者基因家族分析課題吊说,以及普通濕實(shí)驗(yàn)的特定基因功能研究課題论咏。
對(duì)于前者,往往實(shí)施人員有足夠的計(jì)算資源可以進(jìn)行大規(guī)模RNAseq讀段回貼颁井;但對(duì)于后者厅贪,則往往不然,許多時(shí)候雅宾,我們可能只有一臺(tái)內(nèi)存 4g ( 8g ) 的筆記本养涮,同時(shí)電腦的硬盤資源也不是很充裕。但是眉抬,我們就關(guān)注到幾個(gè)基因贯吓,那么如何對(duì)著這幾個(gè)基因進(jìn)行充分的基因結(jié)構(gòu)注釋矯正?如何利用 RNAseq 測(cè)序數(shù)據(jù)蜀变?
為此悄谐,我猶豫了許久,也加上最近有個(gè)可能的項(xiàng)目申請(qǐng)库北,幾個(gè)老師一起討論到爬舰,干脆就寫(xiě)出來(lái)们陆,方便大伙使用(PS:如果這個(gè)插件有遇到問(wèn)題,不要來(lái)問(wèn)我情屹,我挺忙的坪仇,直接去 TBtools技能易物群 即是)。命名為 Target Genome Region Mapping垃你。
功能簡(jiǎn)單介紹
Target Genome Region Mapping 可以正常在 Windows (已測(cè)試)和 MacOS(沒(méi)錢買設(shè)備椅文,未測(cè)試)下使用。功能簡(jiǎn)單蜡镶,基于用戶提供的基因組序列以及目標(biāo)基因組區(qū)間(一般為一些基因所在的染色體區(qū)間)雾袱,進(jìn)行有限制的 RNAseq 讀段回帖。做了一些邏輯優(yōu)化官还,所以整體表現(xiàn)跟進(jìn)行全基因組回帖類似芹橡。
可以看到,是上下兩個(gè) Track (上面是 Target Genome Region Mapping 的結(jié)果望伦,下面是全基因組作為參考輸入的結(jié)果)的 MisMatch Pattern 是完全一樣的林说,覆蓋度只差1個(gè)read(這個(gè)是IGV窗口scale的問(wèn)題,對(duì)基因結(jié)構(gòu)注釋矯正完全不影響)屯伞,這說(shuō)明不存在非特異性回帖腿箩。整體效果良好。具體放大這個(gè)區(qū)間來(lái)看
因?yàn)槭褂昧?Target Region 限制劣摇,所以在現(xiàn)在區(qū)間外的部分珠移,完全沒(méi)有讀段。那么好處是什么:
- 使用超低內(nèi)存末融,擬南芥钧惧,對(duì)130+個(gè)MYB進(jìn)行區(qū)間mapping,只需要用不到 5M內(nèi)存(注意勾习,是內(nèi)存)浓瞪;如果是對(duì)于一些超大基因組,比如辣椒 3G巧婶,實(shí)際編碼序列很少乾颁,那么完全可以在筆記本上進(jìn)行完成;
- 速度更快艺栈!因?yàn)橄拗屏嘶靥麉^(qū)間英岭,所以速度快得到。擬南芥的眼滤,30M RNAseq(大概20G的測(cè)序數(shù)據(jù)文件)巴席,跑下來(lái)只有 5min 左右一個(gè)樣品;如果是全基因組诅需,同等配置下漾唉,則需要跑一個(gè)多小時(shí),更不談大型基因組堰塌;
- 真的很準(zhǔn)赵刑, idea 我想到的時(shí)候是興奮的, 不過(guò)設(shè)計(jì)半天场刑,發(fā)現(xiàn)類似的 idea 2020年有個(gè)大佬在他的軟件更新上寫(xiě)進(jìn)去了般此,anyway..... 還是有不少區(qū)別,從具體實(shí)現(xiàn)和最終目的牵现,盡管concept是類似的铐懊。
回到主題....
插件的安裝
直接在 TBtools 的插件商店獲取即可,
點(diǎn)擊安裝會(huì)跳轉(zhuǎn)到奶畔固郏快傳科乎,注意!文件夾中有一個(gè)是插件文件贼急,另一個(gè)壓縮包是示例數(shù)據(jù)茅茂,示例數(shù)據(jù)如不無(wú)需要,其實(shí)不用下載太抓。
插件文件下載好了空闲,直接從主界面 Others -> Plugins -> Install Plugin 安裝即可(目前完全開(kāi)放,不確定后面是不是會(huì)因?yàn)橛脩魡?wèn)題太多走敌,干脆不開(kāi)放)
至于使用
打開(kāi)插件碴倾,按照界面文本提示操作即可,
輸出文件是 SAM 格式(注意到掉丽,因?yàn)樽隽?Target Region Mapping跌榔,所以文件也很小,對(duì)硬盤大小要求也變低)机打,幾乎所有人都能干這事~
實(shí)際示例
按照界面提示矫户,設(shè)置參數(shù)即可,其線程數(shù)自己調(diào)整下残邀。輸出目錄最好自己創(chuàng)建一個(gè)皆辽。
支持批量輸入,比如有10個(gè)樣品的測(cè)序數(shù)據(jù)(雙端芥挣,一共20個(gè)文件)驱闷,可以一次丟入。速度還是比較快空免。
注意到其中輸入的是 AthMYB.bed 空另,信息如下
其實(shí)就是每個(gè)基因的染色體位置,因?yàn)榧傧肽繕?biāo)就是矯正這些基因結(jié)構(gòu)注釋信息蹋砚《蟛ぃ或者說(shuō)摄杂,具體查看。當(dāng)然循榆,其實(shí)如果你對(duì)其他區(qū)間析恢,想看看他在不同樣品里面到底有沒(méi)有表達(dá),你有很多幾十個(gè)測(cè)序數(shù)據(jù)秧饮,想看看到底某個(gè)區(qū)間在那一套數(shù)據(jù)里面的測(cè)序深度最高映挂,邏輯上,也可以試試盗尸。至于其他使用柑船,大伙感興趣都可以試試。
等待幾分鐘(具體看CPU和硬盤IO泼各,抱歉鞍时,我發(fā)現(xiàn)我的新電腦,只花了2分鐘历恐,驚呆了)寸癌,可以在輸出目錄看到輸出文件。
對(duì)于這個(gè)文件弱贼,直接使用 TBtools 的 SAMtools GUI Wrapper 插件蒸苇,進(jìn)行排序即可(這個(gè)插件也在插件商店可以下載,也支持批量操作)吮旅。
排序結(jié)束溪烤,可以看到輸出文件
其中有了兩個(gè)文件就可以直接用 IGV 進(jìn)行可視化了。
縮小后
也可以直接導(dǎo)入 bed 為 Region of Interest庇勃,進(jìn)行超便捷多基因快速矯正
寫(xiě)在最后
路漫漫其修遠(yuǎn)兮~ 后來(lái)我仔細(xì)想想檬嘀,寫(xiě)的每一個(gè)軟件,每一個(gè)功能责嚷,似乎都是環(huán)環(huán)相扣鸳兽,緊密關(guān)聯(lián)。到底罕拂,還是期望能有更好用的工具揍异,可以輔助更多科研工作人員開(kāi)展工作,花更少的時(shí)間爆班,做更好的工作衷掷。
We Make Practical Tools.