寫在前面
故事一
最近,帶著一個師弟搞合作課題追城,期間發(fā)現(xiàn)刹碾,基因結(jié)構(gòu)注釋矯正非常重要。錯誤的基因結(jié)構(gòu)注釋會引發(fā)錯誤的判斷漓柑,從而甚至錯失一些課題故事亮點(diǎn)教硫。(當(dāng)然,我們有我之前寫的IGV-sRNA和IGV-GSAme辆布,分分鐘搞定)瞬矩。很久很久以前,我基于IGV源碼個性化開發(fā)了IGV-GSAme锋玲,目的就是快速矯正基因結(jié)構(gòu)注釋景用,更或者一邊挖生物學(xué)故事,一邊矯正基因結(jié)構(gòu)注釋惭蹂。開展這一部分工作的前提是依賴轉(zhuǎn)錄組測序數(shù)據(jù)回帖文件伞插,就是SAM/BAM。
可以說盾碗,這是我一直不爽的事情媚污,難道不能讓所有人都可以自己回帖,自己矯正數(shù)據(jù)嗎廷雅?
故事二
前面耗美,調(diào)用 Kallisto京髓,我已經(jīng)搞定了RNAseq數(shù)據(jù)分析,從測序原始數(shù)據(jù)(甚至是SRA)文件到表達(dá)量以及Read Counts 的界面化商架,所有人堰怨,只要用的是 Windows 或 MacOS 系統(tǒng),都可以輕松完成蛇摸。再借助 TBtools 老鐵用戶們貢獻(xiàn)的 R Plugins备图,可以說,差異表達(dá)分析赶袄,富集分析揽涮,也全了。我自認(rèn)為弃鸦,幾乎完美绞吁!
但這個仍舊美中不足,為什么唬格?因?yàn)?Kallisto 只是真mapping家破,而“假”比對。無論怎么說购岗,他的準(zhǔn)確程度嚴(yán)重依賴與基因結(jié)構(gòu)注釋汰聋。換句話說,盡管趨勢沒啥問題喊积,數(shù)值偏差不大烹困,但偏差并不會消失。要盡可能準(zhǔn)確乾吻,還是得Align髓梅,而不是 Quant。
一切一切绎签,讓我很不爽枯饿!搞個基因結(jié)構(gòu)注釋矯正,就那么難诡必?不能讓所有人都搞得了嗎奢方?
當(dāng)然不是!
“山重水復(fù)疑無路爸舒,生信分析 TBtools蟋字!”,花了一點(diǎn)點(diǎn)時間扭勉,先搞了第一步鹊奖,Hisat2-build,即索引構(gòu)建涂炎。
我們很清楚嫉入,對于轉(zhuǎn)錄組回帖軟件來說焰盗,索引構(gòu)建總是比回帖時需要占用的內(nèi)存大得多。只要能構(gòu)建索引(或者下載到別人構(gòu)建好的索引)咒林,那就可以回帖。
于是爷光,TBtools 又增加了一個插件5婢骸(本帖預(yù)告)
在Windows下,4G內(nèi)存的PC蛀序,測試索引構(gòu)建欢瞪,完美!
在MacOS下徐裸,VMware虛擬機(jī)遣鼓,4G內(nèi)存,測試香蕉基因組的索引構(gòu)建重贺,完美骑祟!
大概花了 15 min。
怎么說呢气笙?這里有一個 Trick 的地方次企。索引構(gòu)建其實(shí)可以通過插入剪切位點(diǎn)位置和外顯子位置,搞得需要非常高的內(nèi)存潜圃,以至于人類基因組就需要上百G缸棵。但這類索引則一般更適合在成熟的物種上,比如模式生物谭期。這就有趣了堵第,因?yàn)槟J缴锏腍isat index,直接去官網(wǎng)下載構(gòu)建好的就行了隧出。對于非模式生物踏志,其實(shí)已知注釋本來就不準(zhǔn),那么插入就幾乎不存在意義鸳劳。常規(guī)模式挺好~
于是狰贯,剩下的就是下一步,Hisat-align ~
寫在后面
假期更是忙碌赏廓,
那么這個車開不開涵紊?車票定多少合適呢?