【陪你學·生信】九葫录、多序列比對-Multiple Sequence Alignment（MSA）

一挺邀、多序列比對能干嘛蝠嘉？

下面是多序列比對的主要應用：

1. 推測——Extrapolation

可以推測一條未知的aa序列屬于某個已知的蛋白質家族或者擁有相似蛋白質結構域甚至相似的蛋白質3D結構等缴允。

2. 系統(tǒng)發(fā)育分析——Phylogenetic?Analysis

如果選擇合適的序列進行多序列比對荚守，可以分析他們的系統(tǒng)發(fā)育關系艾栋。比如利用BioWeb（https://bioweb.pasteur.fr/welcome）的Pasteur Phylip（https://evolution.gs.washington.edu/phylip.html）或者Phylogeny.fr等網(wǎng)頁上的工具可以實現(xiàn)（http://phylogeny.lirmm.fr/phylo_cgi/index.cgi忍法，這個網(wǎng)站的新版：https://ngphylogeny.fr/ 剛剛朋友M還給我介紹了另一個工具：SMS，如果用PhyML建樹的話杜恰，可以在SMS上先跑一下薄料，得到建樹的推薦參數(shù)設定）缩功。

SMS的那篇論文

預測結構，預測功能都办，構建系統(tǒng)發(fā)育樹嫡锌？聽上去都是生物研究中需要分析的基礎項。那么怎么做琳钉？就是將目標序列與數(shù)據(jù)庫中多條同源序列的相似部分擺放在同一欄势木，同一位置。

有一些工具可以幫助我們進行多序列比對歌懒，但是最好再根據(jù)結構啦桌、進化、功能及皂、序列相似性人工矯正一下比對結果甫男。

二、選擇合適的序列

1. 選擇序列時要注意的問題

選擇要比對的序列很重要验烧，不然結果沒有意義板驳。這些序列一般同源、同一家族等碍拆。但是同源若治，同一家族的蛋白質也太多了，我們選擇時一般可以注意以下幾個方面（比較通用的幾點感混，有特殊實驗要求的另外考慮）：

（1）一般選擇比較蛋白質序列比DNA更好（因為蛋白質序列短而且含有的20種氨基酸信息比DNA有的的4種核苷酸信息更多端幼；如果是非編碼區(qū)就只能選DNA序列比對）；

（2）選擇的數(shù)據(jù)庫中的序列最好有一些有詳細的注釋弧满，這樣可以提供很多信息婆跑；

（3）多序列比對選用10-15條序列開始比對（如果10條的結果不錯，又想再加別的序列進行分析也可以庭呜。如果結果不好滑进，需要對現(xiàn)有的序列進行處理摹迷，比如刪除，剪輯等郊供。比對序列的數(shù)量不是越多結果越好峡碉，多了反倒增加軟件出錯概率，除非工作需要）驮审；

（4）如果有一條序列與半數(shù)以上的其他序列一致性低于30%鲫寄，比對會有些問題（一般aa序列一致性在30%-70%之間，E-value在10^-40到10^-5疯淫，不過這并不是硬性規(guī)定）地来；

（5）如果有序列之間一致性太高的，進行多序列比對也沒有什么價值（除非有特殊實驗目的熙掺，具體問題具體分析未斑。需要權衡結果是要能更多地體現(xiàn)相似性還是提供新信息。序列之間高度相似币绩，一定會有很好的比對結果蜡秽。但是提供的新信息會少）；

（6）很多工具善于比對總長度類似的序列缆镣，對長短不一的分析結果不好芽突，如果可以，需要提前剪輯董瞻；

（7）一般工具對有重復片段的多序列進行比對時存在問題寞蚌，尤其序列間重復的次數(shù)不同時問題更大，需要人工提取這部分钠糊，進行分析挟秤。

2. 操作示例

以人的鈣依賴性肌酶蛋白calcium-dependent kinase proteins——?序列號為P20472的序列為例〕椋可以在ExPASy艘刚、Swiss-Prot、NCBI的blastp頁面上直接輸入序列號逝慧，檢索昔脯，得到一系列同源序列啄糙，再按照上述規(guī)則選擇合適的多條序列笛臣，下載FASTA格式文件。

（1）下面截圖是ExPASy-blastp網(wǎng)頁的（https://web.expasy.org/blast/）隧饼，如果選擇的序列它們長度相似且不需要額外剪輯沈堡，還可以直接勾選發(fā)送到ExPASy-Clustal W，進行多序列比對燕雁。

輸入序列號或者原始序列

得到多條比對結果诞丽，選擇并且導出FASTA格式或者直接發(fā)送到ExPASy-Clustal W（如下圖）

很多網(wǎng)站都有Clustal鲸拥，MUSCLE的插件，在下面【三僧免、選擇合適的多序列比對的方法】中會多介紹刑赶，這里是因為ExPASy等網(wǎng)站可以直接將數(shù)據(jù)發(fā)送到多序列比對MSA的頁面，就先寫了懂衩；同樣撞叨，很多MSA網(wǎng)頁又可以直接將比對結果send to系統(tǒng)發(fā)育分析的網(wǎng)頁。

（2）在UniProt網(wǎng)站使用序列號提取全部序列

如果我們知道自己要比對的多條序列的序列號浊洞，可以直接在這里（https://www.uniprot.org/uploadlists/）提取牵敷，點擊底下的submit即可。

輸入序列號

這里除了提取序列法希，還可以通過序列號直接提取序列的其他信息

三枷餐、多序列比對軟件/程序

目前常見的有Clustal,、MUSCLE苫亦、T-Coffee和MAFFT等毛肋。

1. Clustal?

由于是第一款多序列比對的軟件，所以使用較多屋剑，很多網(wǎng)頁都有這個的功能插件（比如EBI村生，EMBnet，PIR饼丘，GenomeNet趁桃，DDBJ等）。它的更新版本也蠻多肄鸽，之前是Clustalx卫病，Clustal W系列。現(xiàn)在最新的是Clustal Omega典徘，可最多比對4000條序列/小于4MB的文件蟀苛。

EMBL-EBI-Clustal Omega

https://www.ebi.ac.uk/Tools/msa/clustalo/

GenomeNet-Clustal W

https://www.genome.jp/tools-bin/clustalw

Clustal Omega算法流程圖，整體來講逮诲，Clustal系列采用累進算法（progressive methods）帜平。首先進行序列兩兩比對，構建距離矩陣→基于兩兩比對距離矩陣梅鹦，由關系近的序列逐漸加入關系遠的序列構建引導樹guide tree→進行多序列比對裆甩。由此可見，比對的準確性高度依賴于一開始的兩兩比對齐唆，比較適用于親緣關系較近的序列嗤栓。Clustal Omega中改進的新兩兩比對和建guide tree算法使Omega在W的基礎上，速度、準確度和數(shù)據(jù)處理量上與所提升茉帅。

2. MUSCLE（MUltiple?Sequence?Comparison by?Log-?Expectation）

https://www.ebi.ac.uk/Tools/msa/muscle/

最多比對500條序列/小于1MB的文件叨叙。

MUSCLE第一篇論文，介紹了算法堪澎。整體看也是累進算法擂错，但是在此基礎上還有對引導樹受限分區(qū)進行調整和修正。

3. T-Coffee

最多比對500條序列/小于1MB的文件樱蛤。

https://www.ebi.ac.uk/Tools/msa/tcoffee/

官網(wǎng)：http://tcoffee.crg.cat/apps/tcoffee/index.html

Coffee系列感覺很不錯啊马昙，我是它顏粉。M-Coffee很與時俱進刹悴，顯示結果會指出其他的軟件行楞，比如Clustal，MUSCLE等比對與Coffee結果一致的部分土匀，一致部分比對可信度高子房，給科研工作者以參考，不用手動去不同平臺比對再進行比較了就轧。

Coffee還推出了一個對MSA結果評估的工具TCS：

T-Coffee算法流程圖证杭，方形框是操作，圓角框是數(shù)據(jù)結構妒御。整體上還是累進算法解愤，基于Clustal的算法。

4. MAFFT（Multiple?Alignment using?Fast?Fourier?Transform）

https://www.ebi.ac.uk/Tools/msa/mafft/

最多比對500條序列/小于1MB的文件乎莉。特定是速度快送讲。

MAFFT中實現(xiàn)了兩種不同的算法，即累進方法（FFT‐NS‐2）和迭代優(yōu)化方法（FFT‐NS‐i）惋啃。迭代方法（iterative methods）針對累進比對的不足哼鬓，在比對過程中不斷重新比對各個亞組序列，再把亞組序列重排成包括所有序列在內的整體比對边灭，從而獲得最優(yōu)比對异希。

若我們在UniProt提取編號為P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627的蛋白質序列的FASTA格式，上傳上述四個網(wǎng)站绒瘦，結果是差不多的（應該是我找的這幾個序列對比太簡單了称簿，序列長度都類似）。硬要仔細比較惰帽，可能是MUSCLE吧憨降，它的distance矩陣看起來好些。

搜了一下別人的看法善茎，大家都各有慣用的工具券册。另外有一個上文沒有提到的工具“PRANK”在發(fā)現(xiàn)多序列保守區(qū)域中表現(xiàn)很好，只是速度太慢垂涯，不適合較大文件烁焙。而且用這些工具進行比對之后，往往還需要手動調整耕赘、裁剪等骄蝇，再進行下一步分析。

用不同的工具進行多序列比對時操骡，還可看看它們能設定的參數(shù)九火。有的明顯更加適合你的數(shù)據(jù)（或者有的數(shù)據(jù)用什么工具的結果都類似，就像我文中選的這10條序列）册招。找到自己喜歡的工具和網(wǎng)頁岔激，多了解可以設定的參數(shù)（一般網(wǎng)站設定參數(shù)后面都有小問號解釋），更好的進行分析是掰。

MUSCLE的distance matrix

一組簡單序列用不同工具的MSA結果：

四虑鼎、評估多序列比對結果

1. 從結果的顯示可以簡單看出：

保守程度由高到低為“ *→：→ · ”?

*? ?保守欄，序列一致键痛。

：?保守性突變炫彩，那幾個氨基酸可能是同種性質的，如分子量絮短，電荷極性等江兢。

·? ?半保守性突變。

2. Coffee-TCS也可以評估：?

從粉到藍丁频，good→bad

3. 對結果進行進一步分析

我們進行MSA多數(shù)是為了找到這些序列的重要片段杉允，重要片段的序列組成保守，不易突變席里，即使是在親緣關系較遠的序列間也相對保守夺颤。

上面的例子中幾個蛋白序列的MSA比對結果較好，通過評估只可以看出來N末端比C末端更加保守胁勺，推測在N末端更有可能是活性位點世澜。但是范圍有些大且究竟是不是，還需引入差異大一些的序列進一步分析署穗。

我們可以在擁有很好比對結果的序列基礎上引入兔子（P02586）和老鼠（P19123）的相應鈣依賴性肌酶蛋白的序列寥裂，再進行一次MSA（P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627, P02586, P19123）。

直接提取相關序列并下載

MUSCLE比對加T-Coffee-TCS評估

原來一大塊比對的粉色區(qū)域被拆開了案疲，可見粉色深的區(qū)域更加保守封恰，很可能這些蛋白的活性位點在這個區(qū)域。

在Geneious軟件上的MUSCLE比對結果圖也很直觀：綠色identity=100%褐啡；軍綠色identity>30%诺舔；紅色identity<30%。引入兩條序列后，根據(jù)新的MSA結果推測鈣依賴性肌酶蛋白的活性位點（鈣離子結合位點）在下圖的圈里低飒，這個推測也與數(shù)據(jù)庫中的注釋信息一致许昨，耶！開心褥赊。

Geneious MUSCLE比對結果

數(shù)據(jù)庫中關于人類鈣依賴性肌酶蛋白P20472的功能區(qū)域注釋糕档，位置和比對結果可以對應

五、在一些unaligned蛋白序列中尋找保守功能域/DNA序列中找蛋白質結合位點（非比對MSA）

有時候我們要比較親緣關系太遠或沒有同源性的序列之間相似的部分拌喉，或想發(fā)現(xiàn)蛋白序列中復雜可變的模體速那。上面介紹的MSA程序就都不好用了，這時可以試試基于統(tǒng)計學方法的Pratt等工具尿背，用以發(fā)現(xiàn)不能比對的序列的保守motif端仰。

Pratt（https://www.ebi.ac.uk/Tools/pfa/pratt/），EMBL上的描述如下：

類似的分析不方便比對的序列的保守motif的工具還有：

Bioprospector?(http://ai.stanford.edu/~xsliu/BioProspector/)

Improbizer(https://users.soe.ucsc.edu/~kent/improbizer/improbizer.html)

六田藐、多序列比對總體思路

這個圖體現(xiàn)了多序列比對總體思路荔烧，我在國內外很多講義上看到，沒有注明來源坞淮，我也沒有找到是哪本書上的茴晋。這匯總的很棒，很清晰回窘。今天這個推送里主要介紹的就是這張圖中兩個紅圈方塊诺擅，上方紅圈是比對MSA，下方紅圈是非比對MSA啡直。如果小伙伴知道是哪本書的還請留言哈烁涌。

這期有點長，給看到這里的小伙伴筆芯?

如果有錯誤還請留言哦酒觅，共同進步?

往期相關內容：

【陪你學·生信】序

【陪你學·生信】一撮执、生信能幫我們做什么

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三舷丹、核苷酸序列數(shù)據(jù)庫的使用

【陪你學·生信】四抒钱、蛋白質相關的數(shù)據(jù)庫

【陪你學·生信】五、當你有一段待分析的DNA序列（基礎操作介紹）

【陪你學·生信】六颜凯、當你有一段待分析的氨基酸序列（基礎操作介紹）

【陪你學·生信】七谋币、在數(shù)據(jù)庫中檢索相似的序列

【陪你學·生信】八、序列兩兩比對

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末症概，一起剝皮案震驚了整個濱河市蕾额，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌彼城，老刑警劉巖诅蝶，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件退个，死亡現(xiàn)場離奇詭異，居然都是意外死亡调炬，警方通過查閱死者的電腦和手機语盈，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來筐眷，“玉大人黎烈，你說我怎么就攤上這事习柠≡纫ィ” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵资溃，是天一觀的道長武翎。經(jīng)常有香客問我，道長溶锭，這世上最難降的妖魔是什么宝恶？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮趴捅，結果婚禮上垫毙，老公的妹妹穿的比我還像新娘。我一直安慰自己拱绑，他們只是感情好综芥，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著猎拨，像睡著了一般膀藐。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上红省，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天额各，我揣著相機與錄音，去河邊找鬼吧恃。笑死虾啦，一個胖子當著我的面吹牛，可吹牛的內容都是我干的痕寓。我是一名探鬼主播傲醉，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼厂抽！你這毒婦竟也來了需频？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤筷凤，失蹤者是張志新（化名）和其女友劉穎昭殉，沒想到半個月后苞七，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡挪丢，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年蹂风，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾蓬。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡惠啄，死狀恐怖，靈堂內的尸體忽然破棺而出任内，到底是詐尸還是另有隱情撵渡，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布死嗦，位于F島的核電站趋距，受9級特大地震影響，放射性物質發(fā)生泄漏越除。R本人自食惡果不足惜节腐，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望摘盆。院中可真熱鬧翼雀，春花似錦、人聲如沸孩擂。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽肋殴。三九已至囤锉，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間护锤，已是汗流浹背官地。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留烙懦，地道東北人驱入。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像氯析，于是被迫代替她去往敵國和親亏较。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

【陪你學·生信】九斤吐、多序列比對-Multiple Sequence Alignment（MSA）

【陪你學·生信】九葫录、多序列比對-Multiple Sequence Alignment（MSA）

推薦閱讀更多精彩內容