寫在前面
前述口叙,我已經(jīng)寫了兩個(gè) TBtools 插件澳腹,實(shí)現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機(jī),非WSL)巫财,使用 Hisat2 進(jìn)行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖盗似。最近家里事情較多,期間不少時(shí)間可以天馬行空的想事情平项。過于具體的生物學(xué)問題難以思考出個(gè)答案赫舒,畢竟是以實(shí)踐為主。但數(shù)據(jù)分析上的鬼點(diǎn)子倒是非常合適闽瓢。
過去幾年隶症,正是這類時(shí)間醋界,讓我能設(shè)計(jì)出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式儡司,也是臨時(shí)想到的實(shí)現(xiàn)方式拖刃。
今天躺著薯演,突然想著:
- 目的是矯正基因注釋
- 手段是在我改造的基因?yàn)g覽器 IGV-GSAme 矯正
- 輸入是基因組贸诚,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM
- 操作是基于RNA的Alignments,手動(dòng)調(diào)整注釋
那么問題來了销钝,要在windows完成全部工作有咨,我們會(huì)遇到幾個(gè)問題
- IGV的特性不足,通過 IGV-GSAme 已經(jīng)解決
- 轉(zhuǎn)錄組回帖蒸健,通過 TBtools 的 Hisat2 插件也解決了
- 基因組局部區(qū)域的有參考組裝摔吏,無解!
既然無解,那我完全可以鼓搗一個(gè)windows下的stringTie纵装,中間做個(gè)接口,那么就可以實(shí)現(xiàn)局部組裝(注意据某,指定一個(gè)區(qū)域組裝橡娄,常常反而能組裝出準(zhǔn)確的結(jié)果,具體自行思考)癣籽。千里之行始于足下挽唉,在讓 IGV-GSAme 變得更強(qiáng)之前滤祖,先做一個(gè)簡單的東西,TBtools插件瓶籽。
StringTie Wrapper - 新的 TBtools 插件
一共兩個(gè)對應(yīng)的是 Stringtie 兩個(gè)主要功能:
- Stringtie Assembly : 轉(zhuǎn)錄組組裝
- Stringtie Quantify : 轉(zhuǎn)錄本表達(dá)量估計(jì)
StringTie Assembly 插件的使用
對于組裝一步匠童,參數(shù)簡單,用戶只需要提供排序好的BAM文件即可塑顺,這些文件汤求,事實(shí)上可以通過前幾天推的 Hisat-build 和 Hisat-align 插件來獲取。需要注意的有三點(diǎn):
- 參考物種基因結(jié)構(gòu)注釋是可選的
- 設(shè)置輸出目錄而不是輸出文件严拒,因?yàn)榻M裝時(shí)是單個(gè)bam文件單獨(dú)組裝扬绪,最后再進(jìn)行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取裤唠,可直接使用 TBtools 的 GXF Sequence Extract挤牛,請參考公號(hào)前述推文)
-
并行線程數(shù),應(yīng)該注意种蘸,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價(jià)墓赴。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運(yùn)行航瞭,但windows系統(tǒng)限制诫硕,所以只能單線程,且速度上不來沧奴。這沒關(guān)系痘括,我們可以多個(gè)文件同時(shí)組裝,這樣也就只需要使用stringtie的單線程模式滔吠,畢竟很多時(shí)候纲菌,我們并不可能做一個(gè)樣品的轉(zhuǎn)錄組測序和組裝 - PS:windows下可能會(huì)慢不少,比如6G的轉(zhuǎn)錄組疮绷,估計(jì)組裝時(shí)間大概要到 1個(gè)小時(shí)翰舌,在我的筆記本上。不過同時(shí)跑2個(gè)冬骚,那么也是1個(gè)小時(shí)嘛..)
組裝結(jié)果大體如下椅贱,我做了兩個(gè)實(shí)際數(shù)據(jù)的,
StringTie Quantify 插件的使用
使用簡單只冻,用戶需要的注意的幾乎只有三點(diǎn):
- 排序好的BAM文件
- 一個(gè)必須的基因結(jié)構(gòu)注釋文件庇麦,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果喜德。
- ReadLength, 這一參數(shù)即測序讀長山橄。因?yàn)镾tringTie計(jì)算的其實(shí)是Coverage,并沒有讀段計(jì)數(shù)這一步舍悯。常見的操作是簡單地基于Coverage反推raw counts航棱。于是read length成為必要睡雇。
整體上會(huì)輸出六個(gè)矩陣,具體大伙自己看名字就知道是啥饮醇。
即它抱,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM朴艰,TPM矩陣观蓄。可查看其中某個(gè)呵晚。
注意到蜘腌,我前面做StringTie Assembly的時(shí)候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實(shí)上是沒有被組裝出來的饵隙,一般是覆蓋率極低)撮珠,而MSTRGXXXX等為已有注釋中被當(dāng)前樣品覆蓋以及新注釋出來的基因。
PS:四個(gè)插件將會(huì)一并上線至插件商店金矛,暫時(shí)票價(jià)應(yīng)該會(huì)定位 100芯急,打包估計(jì) 365,具體再定驶俊。
感興趣的娶耍,想上車的,請參考前述《Plugin | 高速版插件商店饼酿!我又有一個(gè)絕妙的 idea》推文榕酒。
寫在最后
現(xiàn)在是大年三十晚上九點(diǎn),也算是在新春到來之時(shí)故俐,了卻一個(gè)鬼點(diǎn)子想鹰。
在此祝大伙新春快樂,牛年大吉药版!