如何在5分鐘內(nèi)拿到細(xì)胞器基因組的進(jìn)化樹(shù)

作者 - 雷神之錘

前記-HomoBlock

雷神之錘的我铜靶,之前設(shè)計(jì)了一個(gè)HomBlocks流程,可以很方便地幫助大家構(gòu)建細(xì)胞器基因組的比對(duì)序列,再用來(lái)建樹(shù)呐籽。大家如果不明所以的話盏浇,可以搜索查看基迪奧論壇上我的其他的帖子变丧,就知道這個(gè)流程具體怎么運(yùn)行,最終用來(lái)干什么了绢掰。

HomBlocks也發(fā)表在了Genomics上痒蓬,地址:http://www.sciencedirect.com/sci ... i/S088875431730068X

當(dāng)時(shí)發(fā)帖的時(shí)候,號(hào)稱一天之內(nèi)拿到細(xì)胞器基因組樹(shù)滴劲。自然攻晒,在序列數(shù)目不多的時(shí)候,HomBlocks的運(yùn)行還是比較快的班挖,一天之內(nèi)拿到比對(duì)好的序列鲁捏,用MEGA跑一下NJ樹(shù)還是沒(méi)有問(wèn)題的。但是隨著序列數(shù)目的增加萧芙、物種親緣性的疏遠(yuǎn)给梅、序列長(zhǎng)度差異越大或者清一色使用葉綠體基因組假丧,會(huì)導(dǎo)致軟件運(yùn)行的時(shí)間還是比較久。比如使用70個(gè)葉綠體序列动羽,來(lái)跑HomBlocks可能會(huì)花上幾天時(shí)間包帚。

因?yàn)镸auve的比對(duì)只能單線程運(yùn)行,所以速度上沒(méi)有辦法再提高运吓。

雖然HomBlocks的依然能跑出結(jié)果渴邦,但是讓人等待的過(guò)程也實(shí)在是煎熬。什么時(shí)候能跑出來(lái)拘哨?跑到哪里了几莽?程序是不是中斷了?

再雖然宅静,HomBlocks相比傳統(tǒng)手動(dòng)方法(手動(dòng)挑取基因序列進(jìn)行比對(duì)再合并序列)在效率上和簡(jiǎn)便性上章蚣,已經(jīng)算得上很不錯(cuò)啦。起碼你只需要等待姨夹,無(wú)須手動(dòng)纤垂,也不怕出來(lái)的序列有問(wèn)題。

但是磷账!就真沒(méi)有更快的方法了嗎峭沦?

升級(jí)-BLAST2OGMSA

雷神の錘告訴你,還真有逃糟!我給你搞出來(lái)了吼鱼!現(xiàn)在的方法號(hào)稱:

“五!分绰咽!鐘菇肃!內(nèi)!拿取募!到琐谤!細(xì)!胞玩敏!器斗忌!基!因旺聚!組织阳!的!進(jìn)砰粹!化唧躲!樹(shù)!”。

我們這個(gè)新的方法(也算不上什么流程)惊窖,叫做BLAST2OGMSA。

這個(gè)新方法的文章題目我也想好了——BLAST2OGMSA: an convenient way to construct whole organelle genomes alignment to facilitate phylogeny analysis.

大家看到這個(gè)題目大概也了解了厘贼,為什么我們能在5分鐘之內(nèi)拿到這么個(gè)東西了界酒。

比對(duì)的話,什么最快嘴秸?mafft?clustalw?muscle? No, No, No, No毁欣。是BLAST!

不然NT數(shù)據(jù)庫(kù)那么大,你怎么能夠那么快速地在網(wǎng)頁(yè)上檢索序列呢岳掐?

那我們需要自行構(gòu)建序列的庫(kù)凭疮,然后兩兩比對(duì),再解析blast結(jié)果嗎串述?

不需要执解!

正常的思路的確是這樣,利用blast的快速比對(duì)(雖然在比對(duì)精度上不如其他正統(tǒng)序列比對(duì)軟件)纲酗,來(lái)解析blast結(jié)果衰腌。但是,還是挺麻煩的觅赊。首先要把blast結(jié)果保存成xml格式右蕊,然后再提取序列,序列再定位吮螺,再提取.............然后你會(huì)發(fā)現(xiàn)饶囚,對(duì)位還是有問(wèn)題,還不如直接用mafft來(lái)比呢鸠补。

BLAST2OGMSA直接避開(kāi)了這么個(gè)過(guò)程萝风,直接使用ncbi網(wǎng)頁(yè)版BLAST工具就行了。

BLAST2OGMSA就是一個(gè)腳本紫岩,只需要你提供兩個(gè)文件就行闹丐。

那這兩個(gè)文件從哪來(lái)?

操作-超快

那順便說(shuō)一下BLAST2OGMSA的使用方法:

  1. 首先被因,將你需要構(gòu)建系統(tǒng)發(fā)生樹(shù)的所有序列卿拴,合并在一個(gè)文件里。

  2. 打開(kāi)ncbi的BLAST工具梨与, 點(diǎn)開(kāi)Align two or more sequences選項(xiàng)堕花。

image
  1. 將你準(zhǔn)備好的序列,隨便選一個(gè)粥鞋,放入第一欄缘挽;將所有序列選中,放入第二欄,然后比對(duì)啦壕曼。
Blast.png
  1. 在蹦出來(lái)的結(jié)果頁(yè)面苏研,點(diǎn)開(kāi)MSA View項(xiàng)。


    MSA view.png
  2. 在蹦出來(lái)的MSA View界面腮郊,將blast比對(duì)出來(lái)的結(jié)果download下來(lái)(這個(gè)是最初的結(jié)果摹蘑,但不能用,我們需要從中提取有效信息)轧飞,舉個(gè)例子我們保存成X.aln文件衅鹿。


    x.aln.png
  3. 在原來(lái)的結(jié)果界面,在下部分的結(jié)果部分过咬,我們選中所有序列大渤,選擇download,文件名就默認(rèn)為seqdump.txt就好掸绞。


    seqdump.txt.png

    seqdump2.txt.png
  4. 我們有了X.aln和seqdump.txt兩個(gè)文件泵三,然后運(yùn)行BLAST2OGMSA:

perl BLAST2OGMSA.pl -method=Gblocks X.aln seqdump.txt output.fasta

然后產(chǎn)生的output.fasta就是我們可以用來(lái)建樹(shù)的序列啦!然后簡(jiǎn)單跑一下NJ:


nj.png

結(jié)果-完美

還記得我第一篇帖子中的36個(gè)嚙齒類動(dòng)物線粒體的系統(tǒng)發(fā)生樹(shù)嗎衔掸?結(jié)構(gòu)一致哦切黔,節(jié)點(diǎn)的支持度都OK!這個(gè)過(guò)程花了多長(zhǎng)時(shí)間具篇?5分鐘都沒(méi)有吧纬霞!
BLAST2OGMSA也跟HomBlocks提供了4中序列修剪方法:

  • Gblock
  • trimAl
  • BMGE
  • Noisy
    所以大家用的時(shí)候,可以按照自己的需要進(jìn)行選擇驱显。
    BLAST2OGMSA的用法也實(shí)在很簡(jiǎn)單诗芜,沒(méi)有別的參數(shù),只需要按順序把文件列好就行了埃疫,可以參考例子中的命令伏恐,如果不知道怎么用,那么直接perl BLAST2OGMSA.pl查看一下就行了栓霜。

軟件下載與使用

BLAST2OGMSA的地址:https://github.com/fenghen360/BLAST2OGMSA
下載解壓之后翠桦,需要將bin目錄下的所有文件可執(zhí)行化:chmod 755 * 就行。
剛有空寫(xiě)出來(lái)胳蛮,readme都沒(méi)來(lái)得及詳細(xì)寫(xiě)销凑,大家忽略readme就行,我有空再好好寫(xiě)寫(xiě)仅炊。

引用

大家引用的話斗幼,就先這么寫(xiě)就好:

the genome-wide alignment of XXX genomes was constructed by BLAST2OGMSA ([https://github.com/fenghen360/BLAST2OGMSA) (https://github.com/fenghen360/BLAST2OGMSA), resulting in XXXXX characters of each species, which including all PCGs and rRNA genes.

后記-聯(lián)系作者

有三個(gè)方式可以找到作者

  1. bioinformatics{*}中國(guó)(276151571) - 還剩幾個(gè)空位
  2. bioinformatics{*}中國(guó)大分舵(744366744)
  3. Omicshare論壇
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市抚垄,隨后出現(xiàn)的幾起案子蜕窿,更是在濱河造成了極大的恐慌谋逻,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件桐经,死亡現(xiàn)場(chǎng)離奇詭異毁兆,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)阴挣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門气堕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人屯吊,你說(shuō)我怎么就攤上這事送巡∧〔ぃ” “怎么了盒卸?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)次氨。 經(jīng)常有香客問(wèn)我蔽介,道長(zhǎng),這世上最難降的妖魔是什么煮寡? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任虹蓄,我火速辦了婚禮,結(jié)果婚禮上幸撕,老公的妹妹穿的比我還像新娘薇组。我一直安慰自己,他們只是感情好坐儿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布律胀。 她就那樣靜靜地躺著,像睡著了一般貌矿。 火紅的嫁衣襯著肌膚如雪炭菌。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,604評(píng)論 1 305
  • 那天逛漫,我揣著相機(jī)與錄音黑低,去河邊找鬼。 笑死酌毡,一個(gè)胖子當(dāng)著我的面吹牛克握,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枷踏,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼玛荞,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了呕寝?” 一聲冷哼從身側(cè)響起勋眯,我...
    開(kāi)封第一講書(shū)人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤婴梧,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后客蹋,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體塞蹭,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年讶坯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了番电。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辆琅,死狀恐怖漱办,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情婉烟,我是刑警寧澤娩井,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站似袁,受9級(jí)特大地震影響洞辣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昙衅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一扬霜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧而涉,春花似錦著瓶、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至谭羔,卻和暖如春华糖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瘟裸。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工客叉, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人话告。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓兼搏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親沙郭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子佛呻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容