寫在前面
高通量測序技術(shù)的普及制市,帶來的是遍地的基因組。昨日弊予,OneKP項(xiàng)目又發(fā)了一個(gè)Paper【因?yàn)楹芫靡郧八麄兙桶l(fā)過,數(shù)據(jù)也早就可以獲取】开财。他們再發(fā)多少paper汉柒,事實(shí)上,我并沒有太多感觸责鳍,因?yàn)镺neKP項(xiàng)目的參與者都是奉獻(xiàn)的科研工作者碾褂,他們早早就共享了數(shù)據(jù),造福人類历葛,而我們也早就受益匪淺正塌。千種植物轉(zhuǎn)錄組測序當(dāng)然提供了大量數(shù)據(jù)。而事實(shí)上恤溶,各位都非常清楚乓诽,轉(zhuǎn)錄組本身測定的是基因的有表達(dá),甚至說咒程,是pol II聚合酶所轉(zhuǎn)錄的基因區(qū)間鸠天,本身是一個(gè)非常簡化的基因組,涵蓋的基因組信息并不大帐姻。而對于一個(gè)物種而言稠集,基因組序列的穩(wěn)定性比轉(zhuǎn)錄組序列的穩(wěn)定性更強(qiáng)健奶段。一個(gè)非常明顯的事實(shí)是,換個(gè)組織或者時(shí)期測定轉(zhuǎn)錄組剥纷,那么得到的序列集合就會(huì)有所變化痹籍,而基因組的往往只存在極小的序列變化』扌基因組蹲缠,更多的序列,也提供了更多的生物信息鳖宾。從其中挖掘出有趣的信息吼砂,往往有助于我們?nèi)蘸蟆岸ㄏ蛴N”。而簡單的“比較基因組”分析鼎文,常常會(huì)讓我們眼前一亮渔肩。這點(diǎn),我們可以在多數(shù)基因組分析相關(guān)文章中看到拇惋,此處不再贅述周偎。如果感興趣,或許也可以去柑橘撑帖,辣椒等相關(guān)的一些研究報(bào)道蓉坎。
Naive的做法
最簡單而且最普通的操作,先來一遍胡嘿。多數(shù)人可能會(huì)是這個(gè)操作:
- 提取兩個(gè)物種對應(yīng)的序列區(qū)段蛉艾,各數(shù)百Kb
- 使用Blast進(jìn)行兩個(gè)區(qū)間的比對
- 可視化
這些操作當(dāng)然可以使用TBtools來完成全部,首先使用Amazing Fasta Extractor
然后使用Blast Compare Two Sequences Sets
序列放進(jìn)去衷敌,點(diǎn)擊Start即可自動(dòng)完成Blast勿侯。由于TBtools是會(huì)根據(jù)輸入序列類型選擇Blast類型,正常情況下缴罗,你得到的結(jié)果是BlastN的結(jié)果助琐。你可以點(diǎn)擊Visulaize摁鈕直接可視化
從這個(gè)結(jié)果看來,這兩個(gè)100多Kb的序列似乎完全沒關(guān)系面氓。當(dāng)然不是兵钮!我們知道,如果是同科的物種舌界,比如粳稻和秈稻掘譬,那么他們的核酸序列相似度還會(huì)不錯(cuò),但是對于水稻和菠蘿這兩個(gè)不同科的禀横,那么保守的可能就只能在蛋白水平檢測到屁药。所以,我們需要強(qiáng)制限定,使用tBlastX酿箭。
重復(fù)上述操作复亏,那么我們可以得到
很明顯,這兩條序列確實(shí)有相似度缭嫡,而且應(yīng)該是共線性區(qū)塊【事實(shí)上缔御,我就是從共線性區(qū)塊確定的坐標(biāo)】。
然而妇蛀,這樣的分析并沒有太大的意義耕突,因?yàn)檫€是一個(gè)循環(huán)驗(yàn)證,重新說明我們找的共線性區(qū)塊并沒有問題评架,而無法給我們提供更多的信息眷茁。
關(guān)鍵是,巨丑無比纵诞,在顏值即正義的時(shí)代上祈,此圖可能無法生存。
于是浙芙,我想起了多年前登刺,已經(jīng)在TBtools中寫好的工具
Mutiple GXF Viewer。下述演示嗡呼,將會(huì)是手把手教會(huì)任何一個(gè)人纸俭,完成這類分析與可視化匿乃。
任何人快速上手
推文重點(diǎn)在于給課題組師弟演示如何高效完成兩個(gè)基因組指定區(qū)段的物種相似性仁热。所以我們直接實(shí)操。
分析第一步辆雾,打開TBtools
先喝一碗英文雞湯万伤。
首先女轿,需要準(zhǔn)備必須的輸入文件有四個(gè)【以示例數(shù)據(jù)為例】:
- 水稻基因組序列
- 水稻基因組結(jié)構(gòu)注釋信息【注意保持染色體ID一致,最好是直接下載的】
- 菠蘿基因組序列【舊版的壕翩,我懶得更新】
- 菠蘿基因結(jié)構(gòu)注釋信息
我們大體想要比較的是
水稻的染色體區(qū)間:Chr3 1579883 1692849
菠蘿的染色體區(qū)間:LG03 13458687 13601407
輸入文件信息的結(jié)果是
然后你點(diǎn)擊Start
。
很快傅寡,TBtools就會(huì)告訴你放妈,你的Blast已經(jīng)跑完了,主要是因?yàn)檫@個(gè)區(qū)間也就~250kb荐操。
隨后芜抒,我們需要用另一個(gè)工具大概整理下
基本上,一秒就搞定了托启。
關(guān)鍵步驟宅倒,可視化分析
分析第三步,繼續(xù)開另一個(gè)TBtools功能
前面的輸入文件和分析步驟屯耸,各位都很清楚了拐迁,把那些信息放到這下面
于是你就可以馬上得到下圖
稍微調(diào)整
于是你就可以蹭劈,同時(shí)結(jié)合基因組注釋信息和具體的Blast結(jié)果。
這個(gè)時(shí)候线召,或許你想要高亮某些區(qū)間铺韧,那么你需要自己制備一個(gè)染色體區(qū)間文件信息,格式如下
ChrID StartPos EndPos
如下
于是你會(huì)得到
是的缓淹,我是隨便選擇高亮的哈打。
拓展!讯壶!
事實(shí)上料仗,這個(gè)功能一開始寫出來,是拿來探索共線性區(qū)塊伏蚊,所以上述并不是這個(gè)功能的主要操作姿勢立轧。
時(shí)間問題,這里我僅說明我個(gè)人會(huì)使用的操作姿勢:
- 整理共線性分析結(jié)果為LinkedRegion丙挽,具體格式請參考上述對應(yīng)的輸出文件
- 將共線性分析結(jié)果輸入到TBtools
- 探索你感興趣的任意Region
【請注意肺孵,TBtools有自己實(shí)現(xiàn)的GXF index,所以探索起來颜阐,速度很快平窘!】
同樣的區(qū)段,你可能會(huì)得到完全不同的結(jié)果凳怨,示例如下
于是瑰艘,一切就更清晰了。
而有時(shí)候肤舞,你會(huì)發(fā)現(xiàn)兩個(gè)區(qū)段分別位于基因組的正鏈和負(fù)鏈紫新,所以你需要把位置調(diào)轉(zhuǎn)一下,
寫在最后
是的李剖,給你四個(gè)文件芒率,你就可以玩出花樣。
但是篙顺,玩歸玩偶芍,鬧歸鬧,別拿科研開玩笑德玫。你再流弊的分析能力匪蟀,編程,可視化宰僧,如果找不到生物學(xué)意義材彪,那么就毫無意義。
最后,不要為這個(gè)工具的使用問題來問題段化,我真的沒有時(shí)間嘁捷。不過課題組是歡迎合作的,你感興趣可以練習(xí)穗泵。