StringTie 插件 | 直接在 Windows 下進(jìn)行轉(zhuǎn)錄組組裝與讀段計(jì)數(shù)

寫在前面

前述口叙,我已經(jīng)寫了兩個(gè) TBtools 插件澳腹,實(shí)現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機(jī),非WSL)巫财,使用 Hisat2 進(jìn)行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖盗似。最近家里事情較多,期間不少時(shí)間可以天馬行空的想事情平项。過于具體的生物學(xué)問題難以思考出個(gè)答案赫舒,畢竟是以實(shí)踐為主。但數(shù)據(jù)分析上的鬼點(diǎn)子倒是非常合適闽瓢。
過去幾年隶症,正是這類時(shí)間醋界,讓我能設(shè)計(jì)出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式儡司,也是臨時(shí)想到的實(shí)現(xiàn)方式拖刃。
今天躺著薯演,突然想著:

  • 目的是矯正基因注釋
  • 手段是在我改造的基因?yàn)g覽器 IGV-GSAme 矯正
  • 輸入是基因組贸诚,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM
  • 操作是基于RNA的Alignments,手動(dòng)調(diào)整注釋

那么問題來了销钝,要在windows完成全部工作有咨,我們會(huì)遇到幾個(gè)問題

  1. IGV的特性不足,通過 IGV-GSAme 已經(jīng)解決
  2. 轉(zhuǎn)錄組回帖蒸健,通過 TBtools 的 Hisat2 插件也解決了
  3. 基因組局部區(qū)域的有參考組裝摔吏,無解!

既然無解,那我完全可以鼓搗一個(gè)windows下的stringTie纵装,中間做個(gè)接口,那么就可以實(shí)現(xiàn)局部組裝(注意据某,指定一個(gè)區(qū)域組裝橡娄,常常反而能組裝出準(zhǔn)確的結(jié)果,具體自行思考)癣籽。千里之行始于足下挽唉,在讓 IGV-GSAme 變得更強(qiáng)之前滤祖,先做一個(gè)簡單的東西,TBtools插件瓶籽。

StringTie Wrapper - 新的 TBtools 插件


一共兩個(gè)對應(yīng)的是 Stringtie 兩個(gè)主要功能:

  1. Stringtie Assembly : 轉(zhuǎn)錄組組裝
  2. Stringtie Quantify : 轉(zhuǎn)錄本表達(dá)量估計(jì)

StringTie Assembly 插件的使用


對于組裝一步匠童,參數(shù)簡單,用戶只需要提供排序好的BAM文件即可塑顺,這些文件汤求,事實(shí)上可以通過前幾天推的 Hisat-build 和 Hisat-align 插件來獲取。需要注意的有三點(diǎn):

  1. 參考物種基因結(jié)構(gòu)注釋是可選的
  2. 設(shè)置輸出目錄而不是輸出文件严拒,因?yàn)榻M裝時(shí)是單個(gè)bam文件單獨(dú)組裝扬绪,最后再進(jìn)行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取裤唠,可直接使用 TBtools 的 GXF Sequence Extract挤牛,請參考公號(hào)前述推文)
  3. 并行線程數(shù),應(yīng)該注意种蘸,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價(jià)墓赴。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運(yùn)行航瞭,但windows系統(tǒng)限制诫硕,所以只能單線程,且速度上不來沧奴。這沒關(guān)系痘括,我們可以多個(gè)文件同時(shí)組裝,這樣也就只需要使用stringtie的單線程模式滔吠,畢竟很多時(shí)候纲菌,我們并不可能做一個(gè)樣品的轉(zhuǎn)錄組測序和組裝 - PS:windows下可能會(huì)慢不少,比如6G的轉(zhuǎn)錄組疮绷,估計(jì)組裝時(shí)間大概要到 1個(gè)小時(shí)翰舌,在我的筆記本上。不過同時(shí)跑2個(gè)冬骚,那么也是1個(gè)小時(shí)嘛..)
    組裝結(jié)果大體如下椅贱,我做了兩個(gè)實(shí)際數(shù)據(jù)的,



StringTie Quantify 插件的使用


使用簡單只冻,用戶需要的注意的幾乎只有三點(diǎn):

  1. 排序好的BAM文件
  2. 一個(gè)必須的基因結(jié)構(gòu)注釋文件庇麦,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果喜德。
  3. ReadLength, 這一參數(shù)即測序讀長山橄。因?yàn)镾tringTie計(jì)算的其實(shí)是Coverage,并沒有讀段計(jì)數(shù)這一步舍悯。常見的操作是簡單地基于Coverage反推raw counts航棱。于是read length成為必要睡雇。

整體上會(huì)輸出六個(gè)矩陣,具體大伙自己看名字就知道是啥饮醇。



即它抱,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM朴艰,TPM矩陣观蓄。可查看其中某個(gè)呵晚。



注意到蜘腌,我前面做StringTie Assembly的時(shí)候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實(shí)上是沒有被組裝出來的饵隙,一般是覆蓋率極低)撮珠,而MSTRGXXXX等為已有注釋中被當(dāng)前樣品覆蓋以及新注釋出來的基因。
PS:四個(gè)插件將會(huì)一并上線至插件商店金矛,暫時(shí)票價(jià)應(yīng)該會(huì)定位 100芯急,打包估計(jì) 365,具體再定驶俊。

感興趣的娶耍,想上車的,請參考前述《Plugin | 高速版插件商店饼酿!我又有一個(gè)絕妙的 idea》推文榕酒。

寫在最后

現(xiàn)在是大年三十晚上九點(diǎn),也算是在新春到來之時(shí)故俐,了卻一個(gè)鬼點(diǎn)子想鹰。
在此祝大伙新春快樂,牛年大吉药版!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辑舷,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子槽片,更是在濱河造成了極大的恐慌何缓,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件还栓,死亡現(xiàn)場離奇詭異碌廓,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)剩盒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門谷婆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事波材。” “怎么了身隐?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵廷区,是天一觀的道長。 經(jīng)常有香客問我贾铝,道長隙轻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任垢揩,我火速辦了婚禮玖绿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘叁巨。我一直安慰自己斑匪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布锋勺。 她就那樣靜靜地躺著蚀瘸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪庶橱。 梳的紋絲不亂的頭發(fā)上贮勃,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機(jī)與錄音苏章,去河邊找鬼寂嘉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛枫绅,可吹牛的內(nèi)容都是我干的泉孩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼撑瞧,長吁一口氣:“原來是場噩夢啊……” “哼棵譬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起预伺,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤订咸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后酬诀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脏嚷,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年瞒御,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了父叙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖趾唱,靈堂內(nèi)的尸體忽然破棺而出涌乳,到底是詐尸還是另有隱情,我是刑警寧澤甜癞,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布夕晓,位于F島的核電站,受9級特大地震影響悠咱,放射性物質(zhì)發(fā)生泄漏蒸辆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一析既、第九天 我趴在偏房一處隱蔽的房頂上張望躬贡。 院中可真熱鬧,春花似錦眼坏、人聲如沸拂玻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纺讲。三九已至,卻和暖如春囤屹,著一層夾襖步出監(jiān)牢的瞬間熬甚,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工肋坚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乡括,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓智厌,卻偏偏與公主長得像诲泌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子铣鹏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容