作者 - 雷神之錘
前記-HomoBlock
雷神之錘的我铜靶,之前設(shè)計(jì)了一個(gè)HomBlocks流程,可以很方便地幫助大家構(gòu)建細(xì)胞器基因組的比對(duì)序列,再用來(lái)建樹(shù)呐籽。大家如果不明所以的話盏浇,可以搜索查看基迪奧論壇上我的其他的帖子变丧,就知道這個(gè)流程具體怎么運(yùn)行,最終用來(lái)干什么了绢掰。
HomBlocks也發(fā)表在了Genomics上痒蓬,地址:http://www.sciencedirect.com/sci ... i/S088875431730068X
當(dāng)時(shí)發(fā)帖的時(shí)候,號(hào)稱一天之內(nèi)拿到細(xì)胞器基因組樹(shù)滴劲。自然攻晒,在序列數(shù)目不多的時(shí)候,HomBlocks的運(yùn)行還是比較快的班挖,一天之內(nèi)拿到比對(duì)好的序列鲁捏,用MEGA跑一下NJ樹(shù)還是沒(méi)有問(wèn)題的。但是隨著序列數(shù)目的增加萧芙、物種親緣性的疏遠(yuǎn)给梅、序列長(zhǎng)度差異越大或者清一色使用葉綠體基因組假丧,會(huì)導(dǎo)致軟件運(yùn)行的時(shí)間還是比較久。比如使用70個(gè)葉綠體序列动羽,來(lái)跑HomBlocks可能會(huì)花上幾天時(shí)間包帚。
因?yàn)镸auve的比對(duì)只能單線程運(yùn)行,所以速度上沒(méi)有辦法再提高运吓。
雖然HomBlocks的依然能跑出結(jié)果渴邦,但是讓人等待的過(guò)程也實(shí)在是煎熬。什么時(shí)候能跑出來(lái)拘哨?跑到哪里了几莽?程序是不是中斷了?
再雖然宅静,HomBlocks相比傳統(tǒng)手動(dòng)方法(手動(dòng)挑取基因序列進(jìn)行比對(duì)再合并序列)在效率上和簡(jiǎn)便性上章蚣,已經(jīng)算得上很不錯(cuò)啦。起碼你只需要等待姨夹,無(wú)須手動(dòng)纤垂,也不怕出來(lái)的序列有問(wèn)題。
但是磷账!就真沒(méi)有更快的方法了嗎峭沦?
升級(jí)-BLAST2OGMSA
雷神の錘告訴你,還真有逃糟!我給你搞出來(lái)了吼鱼!現(xiàn)在的方法號(hào)稱:
“五!分绰咽!鐘菇肃!內(nèi)!拿取募!到琐谤!細(xì)!胞玩敏!器斗忌!基!因旺聚!組织阳!的!進(jìn)砰粹!化唧躲!樹(shù)!”。
我們這個(gè)新的方法(也算不上什么流程)惊窖,叫做BLAST2OGMSA。
這個(gè)新方法的文章題目我也想好了——BLAST2OGMSA: an convenient way to construct whole organelle genomes alignment to facilitate phylogeny analysis.
大家看到這個(gè)題目大概也了解了厘贼,為什么我們能在5分鐘之內(nèi)拿到這么個(gè)東西了界酒。
比對(duì)的話,什么最快嘴秸?mafft?clustalw?muscle? No, No, No, No毁欣。是BLAST!
不然NT數(shù)據(jù)庫(kù)那么大,你怎么能夠那么快速地在網(wǎng)頁(yè)上檢索序列呢岳掐?
那我們需要自行構(gòu)建序列的庫(kù)凭疮,然后兩兩比對(duì),再解析blast結(jié)果嗎串述?
不需要执解!
正常的思路的確是這樣,利用blast的快速比對(duì)(雖然在比對(duì)精度上不如其他正統(tǒng)序列比對(duì)軟件)纲酗,來(lái)解析blast結(jié)果衰腌。但是,還是挺麻煩的觅赊。首先要把blast結(jié)果保存成xml格式右蕊,然后再提取序列,序列再定位吮螺,再提取.............然后你會(huì)發(fā)現(xiàn)饶囚,對(duì)位還是有問(wèn)題,還不如直接用mafft來(lái)比呢鸠补。
但BLAST2OGMSA直接避開(kāi)了這么個(gè)過(guò)程萝风,直接使用ncbi網(wǎng)頁(yè)版BLAST工具就行了。
BLAST2OGMSA就是一個(gè)腳本紫岩,只需要你提供兩個(gè)文件就行闹丐。
那這兩個(gè)文件從哪來(lái)?
操作-超快
那順便說(shuō)一下BLAST2OGMSA的使用方法:
首先被因,將你需要構(gòu)建系統(tǒng)發(fā)生樹(shù)的所有序列卿拴,合并在一個(gè)文件里。
打開(kāi)ncbi的BLAST工具梨与, 點(diǎn)開(kāi)Align two or more sequences選項(xiàng)堕花。
- 將你準(zhǔn)備好的序列,隨便選一個(gè)粥鞋,放入第一欄缘挽;將所有序列選中,放入第二欄,然后比對(duì)啦壕曼。
-
在蹦出來(lái)的結(jié)果頁(yè)面苏研,點(diǎn)開(kāi)MSA View項(xiàng)。
MSA view.png -
在蹦出來(lái)的MSA View界面腮郊,將blast比對(duì)出來(lái)的結(jié)果download下來(lái)(這個(gè)是最初的結(jié)果摹蘑,但不能用,我們需要從中提取有效信息)轧飞,舉個(gè)例子我們保存成X.aln文件衅鹿。
x.aln.png -
在原來(lái)的結(jié)果界面,在下部分的結(jié)果部分过咬,我們選中所有序列大渤,選擇download,文件名就默認(rèn)為seqdump.txt就好掸绞。
seqdump.txt.png
seqdump2.txt.png 我們有了X.aln和seqdump.txt兩個(gè)文件泵三,然后運(yùn)行BLAST2OGMSA:
perl BLAST2OGMSA.pl -method=Gblocks X.aln seqdump.txt output.fasta
然后產(chǎn)生的output.fasta就是我們可以用來(lái)建樹(shù)的序列啦!然后簡(jiǎn)單跑一下NJ:
結(jié)果-完美
還記得我第一篇帖子中的36個(gè)嚙齒類動(dòng)物線粒體的系統(tǒng)發(fā)生樹(shù)嗎衔掸?結(jié)構(gòu)一致哦切黔,節(jié)點(diǎn)的支持度都OK!這個(gè)過(guò)程花了多長(zhǎng)時(shí)間具篇?5分鐘都沒(méi)有吧纬霞!
BLAST2OGMSA也跟HomBlocks提供了4中序列修剪方法:
- Gblock
- trimAl
- BMGE
- Noisy
所以大家用的時(shí)候,可以按照自己的需要進(jìn)行選擇驱显。
BLAST2OGMSA的用法也實(shí)在很簡(jiǎn)單诗芜,沒(méi)有別的參數(shù),只需要按順序把文件列好就行了埃疫,可以參考例子中的命令伏恐,如果不知道怎么用,那么直接perl BLAST2OGMSA.pl查看一下就行了栓霜。
軟件下載與使用
BLAST2OGMSA的地址:https://github.com/fenghen360/BLAST2OGMSA
下載解壓之后翠桦,需要將bin目錄下的所有文件可執(zhí)行化:chmod 755 * 就行。
剛有空寫(xiě)出來(lái)胳蛮,readme都沒(méi)來(lái)得及詳細(xì)寫(xiě)销凑,大家忽略readme就行,我有空再好好寫(xiě)寫(xiě)仅炊。
引用
大家引用的話斗幼,就先這么寫(xiě)就好:
the genome-wide alignment of XXX genomes was constructed by BLAST2OGMSA ([https://github.com/fenghen360/BLAST2OGMSA) (https://github.com/fenghen360/BLAST2OGMSA), resulting in XXXXX characters of each species, which including all PCGs and rRNA genes.
后記-聯(lián)系作者
有三個(gè)方式可以找到作者
- bioinformatics{*}中國(guó)(276151571) - 還剩幾個(gè)空位
- bioinformatics{*}中國(guó)大分舵(744366744)
- Omicshare論壇