如何高效而且優(yōu)雅地比較多物種的不同基因組區(qū)域轮洋?

寫在前面

高通量測序技術(shù)的普及制市,帶來的是遍地的基因組。昨日弊予,OneKP項(xiàng)目又發(fā)了一個(gè)Paper【因?yàn)楹芫靡郧八麄兙桶l(fā)過,數(shù)據(jù)也早就可以獲取】开财。他們再發(fā)多少paper汉柒,事實(shí)上,我并沒有太多感觸责鳍,因?yàn)镺neKP項(xiàng)目的參與者都是奉獻(xiàn)的科研工作者碾褂,他們早早就共享了數(shù)據(jù),造福人類历葛,而我們也早就受益匪淺正塌。千種植物轉(zhuǎn)錄組測序當(dāng)然提供了大量數(shù)據(jù)。而事實(shí)上恤溶,各位都非常清楚乓诽,轉(zhuǎn)錄組本身測定的是基因的有表達(dá),甚至說咒程,是pol II聚合酶所轉(zhuǎn)錄的基因區(qū)間鸠天,本身是一個(gè)非常簡化的基因組,涵蓋的基因組信息并不大帐姻。而對于一個(gè)物種而言稠集,基因組序列的穩(wěn)定性比轉(zhuǎn)錄組序列的穩(wěn)定性更強(qiáng)健奶段。一個(gè)非常明顯的事實(shí)是,換個(gè)組織或者時(shí)期測定轉(zhuǎn)錄組剥纷,那么得到的序列集合就會(huì)有所變化痹籍,而基因組的往往只存在極小的序列變化』扌基因組蹲缠,更多的序列,也提供了更多的生物信息鳖宾。從其中挖掘出有趣的信息吼砂,往往有助于我們?nèi)蘸蟆岸ㄏ蛴N”。而簡單的“比較基因組”分析鼎文,常常會(huì)讓我們眼前一亮渔肩。這點(diǎn),我們可以在多數(shù)基因組分析相關(guān)文章中看到拇惋,此處不再贅述周偎。如果感興趣,或許也可以去柑橘撑帖,辣椒等相關(guān)的一些研究報(bào)道蓉坎。

Naive的做法

最簡單而且最普通的操作,先來一遍胡嘿。多數(shù)人可能會(huì)是這個(gè)操作:

  1. 提取兩個(gè)物種對應(yīng)的序列區(qū)段蛉艾,各數(shù)百Kb
  2. 使用Blast進(jìn)行兩個(gè)區(qū)間的比對
  3. 可視化

這些操作當(dāng)然可以使用TBtools來完成全部,首先使用Amazing Fasta Extractor


然后使用Blast Compare Two Sequences Sets

序列放進(jìn)去衷敌,點(diǎn)擊Start即可自動(dòng)完成Blast勿侯。由于TBtools是會(huì)根據(jù)輸入序列類型選擇Blast類型,正常情況下缴罗,你得到的結(jié)果是BlastN的結(jié)果助琐。你可以點(diǎn)擊Visulaize摁鈕直接可視化


從這個(gè)結(jié)果看來,這兩個(gè)100多Kb的序列似乎完全沒關(guān)系面氓。當(dāng)然不是兵钮!我們知道,如果是同科的物種舌界,比如粳稻和秈稻掘譬,那么他們的核酸序列相似度還會(huì)不錯(cuò),但是對于水稻和菠蘿這兩個(gè)不同科的禀横,那么保守的可能就只能在蛋白水平檢測到屁药。所以,我們需要強(qiáng)制限定,使用tBlastX酿箭。

重復(fù)上述操作复亏,那么我們可以得到

很明顯,這兩條序列確實(shí)有相似度缭嫡,而且應(yīng)該是共線性區(qū)塊【事實(shí)上缔御,我就是從共線性區(qū)塊確定的坐標(biāo)】。
然而妇蛀,這樣的分析并沒有太大的意義耕突,因?yàn)檫€是一個(gè)循環(huán)驗(yàn)證,重新說明我們找的共線性區(qū)塊并沒有問題评架,而無法給我們提供更多的信息眷茁。
關(guān)鍵是,巨丑無比纵诞,在顏值即正義的時(shí)代上祈,此圖可能無法生存

于是浙芙,我想起了多年前登刺,已經(jīng)在TBtools中寫好的工具
Mutiple GXF Viewer。下述演示嗡呼,將會(huì)是手把手教會(huì)任何一個(gè)人纸俭,完成這類分析與可視化匿乃。

任何人快速上手

推文重點(diǎn)在于給課題組師弟演示如何高效完成兩個(gè)基因組指定區(qū)段的物種相似性仁热。所以我們直接實(shí)操。

分析第一步辆雾,打開TBtools


先喝一碗英文雞湯万伤。

首先女轿,需要準(zhǔn)備必須的輸入文件有四個(gè)【以示例數(shù)據(jù)為例】:

  1. 水稻基因組序列
  2. 水稻基因組結(jié)構(gòu)注釋信息【注意保持染色體ID一致,最好是直接下載的】
  3. 菠蘿基因組序列【舊版的壕翩,我懶得更新】
  4. 菠蘿基因結(jié)構(gòu)注釋信息

我們大體想要比較的是

水稻的染色體區(qū)間:Chr3   1579883 1692849
菠蘿的染色體區(qū)間:LG03   13458687    13601407

輸入文件信息的結(jié)果是

然后你點(diǎn)擊Start

很快傅寡,TBtools就會(huì)告訴你放妈,你的Blast已經(jīng)跑完了,主要是因?yàn)檫@個(gè)區(qū)間也就~250kb荐操。
隨后芜抒,我們需要用另一個(gè)工具大概整理下



基本上,一秒就搞定了托启。

關(guān)鍵步驟宅倒,可視化分析

分析第三步,繼續(xù)開另一個(gè)TBtools功能



前面的輸入文件和分析步驟屯耸,各位都很清楚了拐迁,把那些信息放到這下面


于是你就可以馬上得到下圖


稍微調(diào)整


于是你就可以蹭劈,同時(shí)結(jié)合基因組注釋信息和具體的Blast結(jié)果。

這個(gè)時(shí)候线召,或許你想要高亮某些區(qū)間铺韧,那么你需要自己制備一個(gè)染色體區(qū)間文件信息,格式如下

ChrID  StartPos EndPos

如下



于是你會(huì)得到



是的缓淹,我是隨便選擇高亮的哈打。

拓展!讯壶!

事實(shí)上料仗,這個(gè)功能一開始寫出來,是拿來探索共線性區(qū)塊伏蚊,所以上述并不是這個(gè)功能的主要操作姿勢立轧。
時(shí)間問題,這里我僅說明我個(gè)人會(huì)使用的操作姿勢:

  1. 整理共線性分析結(jié)果為LinkedRegion丙挽,具體格式請參考上述對應(yīng)的輸出文件
  2. 將共線性分析結(jié)果輸入到TBtools
  3. 探索你感興趣的任意Region
    【請注意肺孵,TBtools有自己實(shí)現(xiàn)的GXF index,所以探索起來颜阐,速度很快平窘!】

同樣的區(qū)段,你可能會(huì)得到完全不同的結(jié)果凳怨,示例如下


于是瑰艘,一切就更清晰了。
而有時(shí)候肤舞,你會(huì)發(fā)現(xiàn)兩個(gè)區(qū)段分別位于基因組的正鏈和負(fù)鏈紫新,所以你需要把位置調(diào)轉(zhuǎn)一下,


寫在最后

是的李剖,給你四個(gè)文件芒率,你就可以玩出花樣。
但是篙顺,玩歸玩偶芍,鬧歸鬧,別拿科研開玩笑德玫。你再流弊的分析能力匪蟀,編程,可視化宰僧,如果找不到生物學(xué)意義材彪,那么就毫無意義。
最后,不要為這個(gè)工具的使用問題來問題段化,我真的沒有時(shí)間嘁捷。不過課題組是歡迎合作的,你感興趣可以練習(xí)穗泵。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末普气,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子佃延,更是在濱河造成了極大的恐慌现诀,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件履肃,死亡現(xiàn)場離奇詭異仔沿,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)尺棋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門封锉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人膘螟,你說我怎么就攤上這事成福。” “怎么了荆残?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵奴艾,是天一觀的道長。 經(jīng)常有香客問我内斯,道長蕴潦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任俘闯,我火速辦了婚禮潭苞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘真朗。我一直安慰自己此疹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布遮婶。 她就那樣靜靜地躺著秀菱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蹭睡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天赶么,我揣著相機(jī)與錄音肩豁,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛清钥,可吹牛的內(nèi)容都是我干的琼锋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼祟昭,長吁一口氣:“原來是場噩夢啊……” “哼缕坎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起篡悟,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對情侶失蹤谜叹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后搬葬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荷腊,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年急凰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了女仰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抡锈,死狀恐怖疾忍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情床三,我是刑警寧澤一罩,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站勿璃,受9級(jí)特大地震影響擒抛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜补疑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一歧沪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧莲组,春花似錦诊胞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至竭望,卻和暖如春邪码,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咬清。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工闭专, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奴潘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓影钉,卻偏偏與公主長得像画髓,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子平委,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容