雖然我注,我在 IGV 的基礎上按咒,優(yōu)化增強,并開發(fā)了 IGV-GSAman但骨,但其實我也就前幾天才認認真真自己用了下励七,也做了不少優(yōu)化。大體上奔缠,應該是花了兩三天時間掠抬,優(yōu)化了20Mb*3 ,一共三條染色體的基因結(jié)構注釋校哎。
當然两波,我們知道,二代測序數(shù)據(jù)闷哆,更或者是三代測序數(shù)據(jù)從某個角度來說是最優(yōu)標準腰奋?但也有不少時候,二代數(shù)據(jù)根本看不清楚抱怔,而三代測序數(shù)據(jù)(轉(zhuǎn)錄本完整度OK劣坊,可是覆蓋率低)常常測不到不少位置的轉(zhuǎn)錄本。
于是屈留,往往會出現(xiàn)下述類似情況(其中橙色為擬南芥或和水稻比對到當然參考基因組的gff3結(jié)果)
此時讼稚,二代數(shù)據(jù)來看,很可能兩個轉(zhuǎn)錄本绕沈,在原始電子注釋中锐想,只注釋出左邊的部分。而同源蛋白注釋(水稻或者擬南芥)則表示乍狐,這里應該是一個蛋白赠摇。所以準確的注釋是一個蛋白,而不是兩個基因。當然藕帜,這個是比較簡單的情況烫罩。
很多時候,當一個位點的可變剪切模式過多的時候洽故,或者兩個位點靠得非常近贝攒,同源蛋白注釋可以告訴我們,這是兩個基因时甚,不是一個基因隘弊。而二代測序數(shù)據(jù),不行荒适。
更比如下面這個位點梨熙,其實也是一個。那么為什么中間二代測序數(shù)據(jù)會突然下降刀诬,一個是錯配問題咽扇,事實上,我們猜測是 hisat2 在這塊有小bug陕壹,提議用 STAR 质欲。另外,這個位點是原來沒有注釋出來的糠馆,同源注釋也讓我們更明確把敞,這就是一個可信的coding位點。
更或者這種時候榨惠,我們會更明確,其實中間有一個靠譜的蛋白需要我們?nèi)プ⑨尦鰜怼?/p>
那么問題來了盛霎,我們?nèi)绾蔚玫揭粋€「同源蛋白比對到當前物種基因組的 GFF3 文件」赠橙?答案就是lh3大神前面發(fā)表的一個軟件工作「miniprot」。這個軟件可以很快將蛋白序列比對到基因組序列上愤炸,快速重構出GFF3期揪。感覺非常不錯。使用起來也非常簡單规个,其實就是一個命令
miniprot -t 4 --gff ref.genome.fa query.prot.faa > out.gff3
當然凤薛,盡管只是一個命令,用起來還是不太方便诞仓。比如我還是看了一下manual缤苫,(或者說,以前我用過了墅拭,每次我還要看manual)活玲。同時呢,不少朋友其實就沒有服務器....在本地比如windows上跑起來不太方便。于是我想了想舒憾,方便以后操作镀钓,干脆做一個界面化功能出來。
用 TBtools 的「CLI Program Wrapper Creator」快速界面化已有軟件
我完全沒想到镀迂,整體使用非常簡單丁溅,感興趣的朋友可以參考之前的視頻教程,
前后居然不到 10min探遵,我相信窟赏,就算我自己來 Coding 一個出來,也不知道要寫是不是大半個小時别凤。同時還要debug饰序。但是現(xiàn)在,我一遍過规哪,導出來就是一個「實用插件」直接可以上架到 TBtools 的 Plugin Store....
太強了求豫!
寫在最后
Emmm,還是歡迎大伙一起來做做一些插件诉稍。一定要相信蝠嘉,有些事情,真的可以一勞永逸杯巨!