寫在前面
今天周末惨驶,轉(zhuǎn)眼10月份只剩一周。萬萬沒想到庸诱,一個月下去捻浦,我還是花了不少時間在完善「GSAman」。至于為什么本來「兩個小時」就干完的事情桥爽,可以干成「22天」朱灿?到底還是我對前面的版本,不太滿意钠四。當(dāng)然盗扒,我想今天應(yīng)該要告一段落,起碼在新功能的特性的增加上,可以基本告一段落侣灶。暫時我沒想到新的非常 exciting 或者用戶也沒提出讓我覺得確實(shí)非常值得盡快更新的功能习霹。于是,今天對 GSAman 已有的功能特性做一個匯總炫隶,同時也做一個 GSAman 相關(guān)推文目錄貼淋叶,方便大伙了解。
主要特性匯總
1. 超快的裝載速度
相比于 IGV 原版本伪阶,GSAman在裝載基因結(jié)構(gòu)注釋信息文件時煞檩,采用完全索引方式,第一次裝載后栅贴,后續(xù)任何一次打開 GSAman斟湃,都直接利用已有索引,速度極快
2. 更好看且直觀的顯示模式
使用橙色表示當(dāng)前基因組正鏈上的轉(zhuǎn)錄本檐薯,使用藍(lán)色表示當(dāng)前基因組反鏈上的轉(zhuǎn)錄本凝赛,使用深灰色表示無鏈性的轉(zhuǎn)錄本。
針對 CDS坛缕,使用黑色框線標(biāo)識墓猎,方便顯示極小CDS;同時對外顯子左右便捷使用紅色線條標(biāo)注赚楚,方便辨識極小內(nèi)含子毙沾;此外,支持 1-bp 外顯子宠页,盡管這類可能性不大左胞。
3. 支持豐富的信息展示
官方版本只能展示轉(zhuǎn)錄本ID或者基因ID等,但事實(shí)上举户,很多時候我們希望同時看到轉(zhuǎn)錄本ID和基因ID烤宙,更甚至各類豐富的信息,如基因功能注釋信息俭嘁,此處為「Note」標(biāo)簽躺枕。
4. 支持實(shí)時編輯修改基因結(jié)構(gòu)注釋信息
通過鼠標(biāo)右鍵點(diǎn)擊轉(zhuǎn)錄本,在彈出菜單中點(diǎn)擊「Edit Transcript Info.」即可修改轉(zhuǎn)錄本注釋信息兄淫,比如增加一些個人對該轉(zhuǎn)錄本的評述信息屯远。或者調(diào)整轉(zhuǎn)錄本歸屬的基因ID信息捕虽。
5. 直接支持本地BLAT檢索
GSAman 安裝器直接附帶了 BLAT 可執(zhí)行程序(支持Windows和MacOS)慨丐。相比于IGV原始版本多年未解決且可能未計劃解決的基因組瀏覽器中序列查找痛點(diǎn),GSAman增加了相應(yīng)選項和功能泄私。用戶可在主菜單「View」->「Preference」->「Advanced」勾選「Local BLAT」選項房揭,從而啟用本地 BLAT 功能(注意:無需自行安裝BLAT备闲,GSAman已經(jīng)全部準(zhǔn)備好了)。
啟動后捅暴,GSAman中所有與BLAT相關(guān)功能都不再依賴于UCSC網(wǎng)站更甚至是自建服務(wù)器恬砂,在本地就可以直接完成。
堪稱完美蓬痒。簡單檢索下泻骤,發(fā)現(xiàn)相關(guān)問題,真的有不少人問梧奢,或者要么放棄狱掂,要么折騰不少時間才搞定「自建服務(wù)器」(從某個角度還依賴網(wǎng)絡(luò)或者對本地計算設(shè)備有更高計算資源負(fù)擔(dān))。
6. 支持 CDS/mRNA 序列直接復(fù)制
這個功能可太重要了亲轨,很多時候趋惨,我們關(guān)注到某個Region,看到某個基因惦蚊,結(jié)合上述的多信息展示器虾,常常希望拿到一個基因的 CDS 或者 mRNA 序列,前者比如用于 BLAST比對蹦锋,后者比如用于小RNA靶向分析等兆沙。這些在 GSAman 中直接支持。
7. 支持鼠標(biāo)拖拽矯正基因結(jié)構(gòu)注釋信息
幾乎所有植物的基因組基因結(jié)構(gòu)注釋都不夠準(zhǔn)確晕粪。對于少數(shù)模式植物挤悉,如擬南芥或者水稻也是一樣,只是相對較少巫湘。但也有做水稻的朋友,因?yàn)樗镜幕蚪Y(jié)構(gòu)注釋有問題昏鹃,最終白做一年實(shí)驗(yàn)尚氛。非模式生物,比如所有園藝植物的基因結(jié)構(gòu)注釋洞渤,可以說阅嘶,幾乎只有 50% 的基因結(jié)構(gòu)注釋是正確的。換句話說载迄,實(shí)驗(yàn)白做的概率是 50% 讯柔,如果沒有提前確認(rèn)過。這也是開發(fā) GSAman 的主要出發(fā)點(diǎn)(也是上一代GSAme開發(fā)的出發(fā)點(diǎn))护昧。為此魂迄,對于注釋有誤,其中邊界錯誤最為常見惋耙,故拖拽矯正注釋也最為重要捣炬。幾年前熊昌,我優(yōu)化過IGV代碼,并提交了一個 Pull Request湿酸,目前這個特性已經(jīng)在 IGV 官方版本中推出婿屹,即支持了 RegionOfInterest 的拖拽調(diào)整。
但是這個遠(yuǎn)遠(yuǎn)不夠推溃,最好還是優(yōu)雅的支持拖拽調(diào)整基因結(jié)構(gòu)注釋信息昂利,即外顯子邊界。于是最后舍棄GSAme铁坎,從頭開始蜂奸,寫一道 Track,叫「GSAmanTrack」厢呵。在這道Track中窝撵,我們只要鼠標(biāo)摁住 Ctrl,拖拽某個外顯子襟铭,即可直接調(diào)整外顯子的坐標(biāo)位置碌奉,非常方便。注意:結(jié)果也是實(shí)時保存寒砖。
8. 支持極為豐富的基因結(jié)構(gòu)注釋編輯項目
在人工矯正基因結(jié)構(gòu)注釋過程中赐劣,涉及大量編輯操作,包括對轉(zhuǎn)錄本哩都、外顯子魁兼、CDS的增刪改,整體如下:
- SoftBerry Predict漠嵌,用戶可以直接針對當(dāng)前基因組區(qū)域?qū)?Softberry 編碼基因預(yù)測結(jié)果咐汞。非常方便,支持一次多基因多位點(diǎn)預(yù)測結(jié)果導(dǎo)入儒鹿;
- Add a Transcript/Gene化撕,在鼠標(biāo)點(diǎn)擊位置,直接添加一個新轉(zhuǎn)錄本(對應(yīng)了一個新基因)约炎;
- Fork a Transcript植阴,以鼠標(biāo)點(diǎn)擊的轉(zhuǎn)錄本為模板,復(fù)制一個新的轉(zhuǎn)錄本圾浅,簡單來說掠手,歸屬于同一個基因的另一個mRNA可變剪接本;
- Divide the Gene狸捕,從鼠標(biāo)點(diǎn)擊的內(nèi)含子位置喷鸽,將一個轉(zhuǎn)錄本斷開為兩個轉(zhuǎn)錄本(變成兩個新的基因),這個功能對于常見的轉(zhuǎn)錄組過拼接尤為有用府寒;
- Reanme the Transcript魁衙,重命名鼠標(biāo)點(diǎn)擊的轉(zhuǎn)錄本
- Edit Transcript Info. 报腔,調(diào)整轉(zhuǎn)錄本的標(biāo)簽信息,如重新指定歸屬的基因標(biāo)簽剖淀,或者增加一些評述信息纯蛾,參考上述;
- Slice the Exon纵隔,有時候我們需要把一個錯誤注釋的外顯子翻诉,切分為兩個;
- Add/Insert an Exon捌刮,結(jié)構(gòu)注釋中碰煌,常常可能錯誤忽略了一些實(shí)際存在的外顯子绅作,可以直接在內(nèi)含子位置添加一個外顯子芦圾;
- Delete this Exon,有些時候俄认,基因結(jié)構(gòu)注釋多了一些外顯子个少,這是需要刪除掉;
- Delete this Transcript眯杏,一些確實(shí)是注釋錯誤的轉(zhuǎn)錄本夜焦,可以直接清理(注意如果對應(yīng)的基因只有這一個轉(zhuǎn)錄本,那么基因也會被刪除)岂贩;
- Switch Strand茫经,調(diào)整鏈方向,當(dāng)我們知道轉(zhuǎn)錄本轉(zhuǎn)錄方向時萎津,可以強(qiáng)制指定卸伞;
- Predict CDS,預(yù)測當(dāng)前轉(zhuǎn)錄本的 CDS
-
Clear CDS锉屈,清除該轉(zhuǎn)錄本上的 CDS 預(yù)測信息
- Export to GFF3瞪慧,GSAman的修改結(jié)果是實(shí)時保存的,邏輯上不需要導(dǎo)出部念。不過,對于其他下游數(shù)據(jù)分析氨菇,我們需要一個完整可用且靠譜的GFF3文件儡炼,那么可以從此選項導(dǎo)出。
當(dāng)然查蓉,還有一些其他更新和優(yōu)化乌询,此處就不再贅述,感興趣的朋友豌研,可翻看相關(guān)歷史推文妹田,大體如下:
寫在最后
正確的開始唬党,不一定能到底計劃的終點(diǎn);但錯誤的開發(fā)鬼佣,一定難以完成既定目標(biāo)驶拱。我們已經(jīng)聽過看過太多人因?yàn)榛蚪Y(jié)構(gòu)注釋信息不準(zhǔn)確而耽誤了數(shù)月甚至數(shù)年實(shí)驗(yàn),也看到過不少學(xué)術(shù)論文報道晶衷,其中一些內(nèi)容其實(shí)就是有基因結(jié)構(gòu)注釋偏差,然而很多人并不知道,也有很多人是無奈像云。因?yàn)榫成觯C正基因結(jié)構(gòu)注釋信息,真的很難锹漱。最難難在安裝軟件以及復(fù)雜的使用體驗(yàn)箭养。而 GSAman 的出現(xiàn),完全解決這些問題哥牍。我們相信毕泌,GSAman 可以極大程度讓同行們少走彎路,也提高功能基因組學(xué)研究效率砂心。
感謝
GSAman 開發(fā)應(yīng)是基本告一段落懈词,大半個月來,200多人的內(nèi)測群有不少朋友提出大量修改建議和意見辩诞,其中主要感謝朋友如下(有缺漏坎弯,請見諒):
揚(yáng)州大學(xué)農(nóng)學(xué)院-趙劍華
植生所-徐洲更
華南農(nóng)業(yè)大學(xué)夏瑞課題組-夏瑞、劉鴻森译暂、麥迎曉抠忘、呂梓欣
東北林業(yè)大學(xué)-安澤宇
agis-侯壯偉
華中農(nóng)業(yè)大學(xué)-劉潛
熱科院-馮筠庭
熱科院南亞所-楊子平
南京中山植物園-王鵬
南京農(nóng)業(yè)大學(xué)-靳建鋒
slu-陳俊浩
植生所-劉楚彬
.....