[ZT] 常用在線序列比對工具

文章來源:企鵝號 - 卡嘿喲

從早期序列比對工具Needleman-Wunsch敢靡、Smith-Waterman到后來的Clustal算法挂滓,以及近幾年的Muscle、MAFFT序列比對算法啸胧。算法在向更快赶站、更精確、能處理更多數(shù)據(jù)這些方向進(jìn)行緩慢而有力的發(fā)展吓揪。常用的在線序列比對工具主要由EMBL-EBI提供亲怠,包括但不限于Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具柠辞;常用的序列相似性搜索工具有NCBI提供的BLAST团秽、UCSC提供的BLAT等。EMBL-EBI與NCBI同時期也開發(fā)了一套序列相似性搜索工具FASTA叭首,然后最終沒能流行起來习勤。BLAST一家獨(dú)大,BLAT依賴UCSC占據(jù)一點(diǎn)小市場焙格,F(xiàn)ASTA的親爹同時提供了FASTA及BLAST服務(wù)图毕,可能現(xiàn)在說FASTA人們只會想到FASTA文件格式吧。EMBL-EBI提供大量的對比工具在線服務(wù)眷唉,并不代表其擁有這些工具的所有權(quán)予颤。

按工具功能大致可以分為3類:配對序列比對工具多序列比對工具以及序列相似性搜索工具冬阳。

image

配對序列比對是用來研究兩條序列(核酸序列或者蛋白序列)之間功能蛤虐、結(jié)構(gòu)或者進(jìn)化關(guān)系。

多序列比對工具當(dāng)然也支持配對序列比對肝陪,不過更多的是用來比對3條及以上序列驳庭,研究序列之間是否同源以及序列間的進(jìn)化關(guān)系。

序列相似性搜索工具主要是在一個序列數(shù)據(jù)庫中查找一條序列,找出與查詢序列最相似的序列饲常。

配對序列比對工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/psa/

這些可能是史前比對工具了蹲堂,現(xiàn)在估計沒有什么人在用了,可能也沒人聽過還有這樣的工具存在贝淤。但是他大爺畢竟是他大爺柒竞,如果想比對兩條序列全局情況,Needle仍是不錯的選擇霹娄,至于Smith-Waterman算法能犯,在許多二代比對算法里仍可見,比如bwa-sw算法犬耻,Minimap2計算overlap時使用的也是Smith-Waterman算法踩晶;Smith-Waterman也擁有CUDA版本程序。

Needle比對工具

以Needle工具為例進(jìn)行一下簡單的演示枕磁,其提供了核酸及蛋白比對兩個版本渡蜻,比對不同類型的序列需要選擇不同的工具。Needle是全局比對工具计济,將兩條序列全部內(nèi)部進(jìn)行比對并展示茸苇。

1. 打開Needle核酸比對工具頁面

https://www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html

2. 輸入兩條需要比對的序列

一個文本框里輸入一條FASTA記錄,其他參數(shù)不需要調(diào)整沦寂。

image

3. 查看結(jié)果

Needle的結(jié)果看起來是非常友好的学密,類似于NCBI BLAST顯示結(jié)果,

image

多序列比對工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/msa/

該主頁提供了多款多序列比對工具传藏,其中Clustal Omega結(jié)果形式是全局比對形式腻暮,但是算法還是局部比對算法,不建議在分子進(jìn)化樹分析過程使用Clustal相關(guān)程序毯侦,因為其速度及準(zhǔn)確度均遜色于下述的MAFFT及MUSCLE哭靖。

下表列出了常用的多序列比對工具,在平時學(xué)習(xí)或者工作中建議使用MAFFT或者M(jìn)USCLE進(jìn)行多序列比對侈离。

MAFFT比對工具

MAFFT是2002年開發(fā)的一款快速的局部/全局多序列比對工具试幽,與之相對的是2004年開發(fā)的MUSCLE多序列比對工具,在網(wǎng)頁使用過程中卦碾,兩者差異不明顯铺坞,但是MUSCLE在比對數(shù)百條、數(shù)千條序列時洲胖,速度較慢康震,這時候使用MAFFT效果會好一點(diǎn)。

1. 打開MAFFT主頁

https://www.ebi.ac.uk/Tools/msa/mafft/

image

2. 輸入自己想要進(jìn)行比對的多序列

支持2條以上序列比對宾濒,目前EMBL-EBI提供的網(wǎng)頁版本MAFFT最大支持500條序列且文件大小不超過1MB(差不多1,000,000bp的堿基)。如果自己提交的文件較大屏箍,可以在提交時勾選Be notified by email绘梦。這樣在比對完成時橘忱,EMBL-EBI會郵件通知你比對結(jié)果。

image

3. 查看結(jié)果

提交任務(wù)卸奉,過一段時間后就可以查看到比對結(jié)果了钝诚。其中Phylogenetic Tree可以查看分子進(jìn)化樹。

image

不同序列比對工具對比

其他工具使用方式與MAFFT一致榄棵,相對于ClustalW/Clustal Omega凝颇,MAFFT及MUSCLE比對結(jié)果無計數(shù)。但是MAFFT及MUSCLE在處理INDEL時疹鳄,效果比ClustalW/Clustal Omega要好拧略。

image

相同兩條序列不同軟件比對結(jié)果

可以很明顯的看出各種工具對INDEL的處理,這主要是不同工具使用算法不同有關(guān)瘪弓。Clustal垫蛆,Water及blast2seq,在遇到Gap及Gap持續(xù)延長時腺怯,比對分值線性下降袱饭,而其他幾種算法在遇到Gap及Gap持續(xù)延長時,比對分值會下降但不會低于0呛占,不會線性下降虑乖。

序列相似性搜索工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/sss

EMBL-EBI提供了FASTA及BLAST兩款序列相似性搜索工具,不過序列相似性工具還是使用NCBI的BLAST以及UCSC的BLAT比較好晾虑。

NCBI BLAST

BLAST是目前最常用的生信工具之一疹味,NCBI圍繞BLAST開發(fā)了大量的周邊工具,比如引物設(shè)計及特異性驗證工具Primer-BLAST走贪。

1.打開BLAST主頁

https://blast.ncbi.nlm.nih.gov/Blast.cgi

其提供了4款BLAST子工具佛猛,常用的是核酸BLAST以及蛋白BLAST,點(diǎn)擊核酸BLAST進(jìn)入工具內(nèi)部坠狡。

2. 選擇適合的參數(shù)進(jìn)行搜索

image

3. 搜索結(jié)果查看

有疑問可以點(diǎn)擊整個頁面右上角的HELP继找,進(jìn)行個人自助。

image

4. 圖形化瀏覽比對結(jié)果

這里又可以使用NCBI強(qiáng)大的基因組瀏覽功能了逃沿,可以添加自己想要的track進(jìn)行數(shù)據(jù)關(guān)聯(lián)展示婴渡,可惜好多人不太喜歡這個功能。

image

UCSC BLAT

1.打開BLAT主頁

https://genome.ucsc.edu/cgi-bin/hgBlat

2. 選擇合適參數(shù)進(jìn)行序列搜索

image

3. 搜索結(jié)果查看

詳細(xì)結(jié)果支持兩種查看方式:基因組瀏覽器以及文本形式凯亮”呔剩基因組瀏覽器形式可以查看全局比對情況,以及匹配區(qū)域在基因組中的位置假消、注釋等情況柠并,文本形式可以詳細(xì)的查看比對結(jié)果。

4. 基因組瀏覽器查看比對結(jié)果

image

5. 文本形式比對結(jié)果

image

BLAT更多體現(xiàn)的是一個定位功能,將查詢序列定位到目標(biāo)基因組上臼予,而BLAST更加的是搜索功能鸣戴,從序列數(shù)據(jù)庫中搜索出與查詢序列接近的目標(biāo)序列。

總結(jié):

對于鏈相反的序列比對建議使用blast2seq粘拾;

對于序列相似窄锅,想要查看序列全局比對的建議使用needle及MAFFT;

對于多條序列比對缰雇,建議使用MAFFTT入偷;

實(shí)在特別想要Clustal計數(shù)形式結(jié)果,建議使用Clustal Omega或者Needle械哟;

想做多條序列分子進(jìn)化樹疏之,建議MAFFT;

未知序列搜索戒良,想要研究序列功能可以使用blast体捏,速度稍慢,但搜索庫數(shù)據(jù)量大糯崎;

某一物種未知序列定位几缭,建議使用blat,速度快沃呢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末年栓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子薄霜,更是在濱河造成了極大的恐慌某抓,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惰瓜,死亡現(xiàn)場離奇詭異否副,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)崎坊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門备禀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人奈揍,你說我怎么就攤上這事曲尸。” “怎么了男翰?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵另患,是天一觀的道長。 經(jīng)常有香客問我蛾绎,道長昆箕,這世上最難降的妖魔是什么鸦列? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮为严,結(jié)果婚禮上敛熬,老公的妹妹穿的比我還像新娘。我一直安慰自己第股,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布话原。 她就那樣靜靜地躺著夕吻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪繁仁。 梳的紋絲不亂的頭發(fā)上涉馅,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音黄虱,去河邊找鬼稚矿。 笑死,一個胖子當(dāng)著我的面吹牛捻浦,可吹牛的內(nèi)容都是我干的晤揣。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼朱灿,長吁一口氣:“原來是場噩夢啊……” “哼昧识!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盗扒,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤跪楞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后侣灶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甸祭,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年褥影,在試婚紗的時候發(fā)現(xiàn)自己被綠了池户。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡伪阶,死狀恐怖煞檩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情栅贴,我是刑警寧澤斟湃,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站檐薯,受9級特大地震影響凝赛,放射性物質(zhì)發(fā)生泄漏注暗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一墓猎、第九天 我趴在偏房一處隱蔽的房頂上張望捆昏。 院中可真熱鬧,春花似錦毙沾、人聲如沸骗卜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寇仓。三九已至,卻和暖如春烤宙,著一層夾襖步出監(jiān)牢的瞬間遍烦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工躺枕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留服猪,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓拐云,卻偏偏與公主長得像罢猪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子慨丐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容