一挺邀、多序列比對能干嘛蝠嘉?
下面是多序列比對的主要應用:
1. 推測——Extrapolation
可以推測一條未知的aa序列屬于某個已知的蛋白質家族或者擁有相似蛋白質結構域甚至相似的蛋白質3D結構等缴允。
2. 系統(tǒng)發(fā)育分析——Phylogenetic?Analysis
如果選擇合適的序列進行多序列比對荚守,可以分析他們的系統(tǒng)發(fā)育關系艾栋。比如利用BioWeb(https://bioweb.pasteur.fr/welcome)的Pasteur Phylip(https://evolution.gs.washington.edu/phylip.html)或者Phylogeny.fr等網(wǎng)頁上的工具可以實現(xiàn)(http://phylogeny.lirmm.fr/phylo_cgi/index.cgi忍法,這個網(wǎng)站的新版:https://ngphylogeny.fr/ 剛剛朋友M還給我介紹了另一個工具:SMS,如果用PhyML建樹的話杜恰,可以在SMS上先跑一下薄料,得到建樹的推薦參數(shù)設定)缩功。
SMS的那篇論文
預測結構,預測功能都办,構建系統(tǒng)發(fā)育樹嫡锌?聽上去都是生物研究中需要分析的基礎項。那么怎么做琳钉?就是將目標序列與數(shù)據(jù)庫中多條同源序列的相似部分擺放在同一欄势木,同一位置。
有一些工具可以幫助我們進行多序列比對歌懒,但是最好再根據(jù)結構啦桌、進化、功能及皂、序列相似性人工矯正一下比對結果甫男。
二、選擇合適的序列
1. 選擇序列時要注意的問題
選擇要比對的序列很重要验烧,不然結果沒有意義板驳。這些序列一般同源、同一家族等碍拆。但是同源若治,同一家族的蛋白質也太多了,我們選擇時一般可以注意以下幾個方面(比較通用的幾點感混,有特殊實驗要求的另外考慮):
(1)一般選擇比較蛋白質序列比DNA更好(因為蛋白質序列短而且含有的20種氨基酸信息比DNA有的的4種核苷酸信息更多端幼;如果是非編碼區(qū)就只能選DNA序列比對);
(2)選擇的數(shù)據(jù)庫中的序列最好有一些有詳細的注釋弧满,這樣可以提供很多信息婆跑;
(3)多序列比對選用10-15條序列開始比對(如果10條的結果不錯,又想再加別的序列進行分析也可以庭呜。如果結果不好滑进,需要對現(xiàn)有的序列進行處理摹迷,比如刪除,剪輯等郊供。比對序列的數(shù)量不是越多結果越好峡碉,多了反倒增加軟件出錯概率,除非工作需要)驮审;
(4)如果有一條序列與半數(shù)以上的其他序列一致性低于30%鲫寄,比對會有些問題(一般aa序列一致性在30%-70%之間,E-value在10^-40到10^-5疯淫,不過這并不是硬性規(guī)定)地来;
(5)如果有序列之間一致性太高的,進行多序列比對也沒有什么價值(除非有特殊實驗目的熙掺,具體問題具體分析未斑。需要權衡結果是要能更多地體現(xiàn)相似性還是提供新信息。序列之間高度相似币绩,一定會有很好的比對結果蜡秽。但是提供的新信息會少);
(6)很多工具善于比對總長度類似的序列缆镣,對長短不一的分析結果不好芽突,如果可以,需要提前剪輯董瞻;
(7)一般工具對有重復片段的多序列進行比對時存在問題寞蚌,尤其序列間重復的次數(shù)不同時問題更大,需要人工提取這部分钠糊,進行分析挟秤。
2. 操作示例
以人的鈣依賴性肌酶蛋白calcium-dependent kinase proteins——?序列號為P20472的序列為例〕椋可以在ExPASy艘刚、Swiss-Prot、NCBI的blastp頁面上直接輸入序列號逝慧,檢索昔脯,得到一系列同源序列啄糙,再按照上述規(guī)則選擇合適的多條序列笛臣,下載FASTA格式文件。
(1)下面截圖是ExPASy-blastp網(wǎng)頁的(https://web.expasy.org/blast/)隧饼,如果選擇的序列它們長度相似且不需要額外剪輯沈堡,還可以直接勾選發(fā)送到ExPASy-Clustal W,進行多序列比對燕雁。
輸入序列號或者原始序列
得到多條比對結果诞丽,選擇并且導出FASTA格式或者直接發(fā)送到ExPASy-Clustal W(如下圖)
很多網(wǎng)站都有Clustal鲸拥,MUSCLE的插件,在下面【三僧免、選擇合適的多序列比對的方法】中會多介紹刑赶,這里是因為ExPASy等網(wǎng)站可以直接將數(shù)據(jù)發(fā)送到多序列比對MSA的頁面,就先寫了懂衩;同樣撞叨,很多MSA網(wǎng)頁又可以直接將比對結果send to系統(tǒng)發(fā)育分析的網(wǎng)頁。
(2)在UniProt網(wǎng)站使用序列號提取全部序列
如果我們知道自己要比對的多條序列的序列號浊洞,可以直接在這里(https://www.uniprot.org/uploadlists/)提取牵敷,點擊底下的submit即可。
輸入序列號
這里除了提取序列法希,還可以通過序列號直接提取序列的其他信息
三枷餐、多序列比對軟件/程序
目前常見的有Clustal,、MUSCLE苫亦、T-Coffee和MAFFT等毛肋。
1. Clustal?
由于是第一款多序列比對的軟件,所以使用較多屋剑,很多網(wǎng)頁都有這個的功能插件(比如EBI村生,EMBnet,PIR饼丘,GenomeNet趁桃,DDBJ等)。它的更新版本也蠻多肄鸽,之前是Clustalx卫病,Clustal W系列。現(xiàn)在最新的是Clustal Omega典徘,可最多比對4000條序列/小于4MB的文件蟀苛。
EMBL-EBI-Clustal Omega
https://www.ebi.ac.uk/Tools/msa/clustalo/
GenomeNet-Clustal W
https://www.genome.jp/tools-bin/clustalw
Clustal Omega算法流程圖,整體來講逮诲,Clustal系列采用累進算法(progressive methods)帜平。首先進行序列兩兩比對,構建距離矩陣→基于兩兩比對距離矩陣梅鹦,由關系近的序列逐漸加入關系遠的序列構建引導樹guide tree→進行多序列比對裆甩。由此可見,比對的準確性高度依賴于一開始的兩兩比對齐唆,比較適用于親緣關系較近的序列嗤栓。Clustal Omega中改進的新兩兩比對和建guide tree算法使Omega在W的基礎上,速度、準確度和數(shù)據(jù)處理量上與所提升茉帅。
2. MUSCLE(MUltiple?Sequence?Comparison by?Log-?Expectation)
https://www.ebi.ac.uk/Tools/msa/muscle/
最多比對500條序列/小于1MB的文件叨叙。
MUSCLE第一篇論文,介紹了算法堪澎。整體看也是累進算法擂错,但是在此基礎上還有對引導樹受限分區(qū)進行調整和修正。
3. T-Coffee
最多比對500條序列/小于1MB的文件樱蛤。
https://www.ebi.ac.uk/Tools/msa/tcoffee/
官網(wǎng):http://tcoffee.crg.cat/apps/tcoffee/index.html
Coffee系列感覺很不錯啊马昙,我是它顏粉。M-Coffee很與時俱進刹悴,顯示結果會指出其他的軟件行楞,比如Clustal,MUSCLE等比對與Coffee結果一致的部分土匀,一致部分比對可信度高子房,給科研工作者以參考,不用手動去不同平臺比對再進行比較了就轧。
Coffee還推出了一個對MSA結果評估的工具TCS:
T-Coffee算法流程圖证杭,方形框是操作,圓角框是數(shù)據(jù)結構妒御。整體上還是累進算法解愤,基于Clustal的算法。
4. MAFFT(Multiple?Alignment using?Fast?Fourier?Transform)
https://www.ebi.ac.uk/Tools/msa/mafft/
最多比對500條序列/小于1MB的文件乎莉。特定是速度快送讲。
MAFFT中實現(xiàn)了兩種不同的算法,即累進方法(FFT‐NS‐2)和迭代優(yōu)化方法(FFT‐NS‐i)惋啃。迭代方法(iterative methods)針對累進比對的不足哼鬓,在比對過程中不斷重新比對各個亞組序列,再把亞組序列重排成包括所有序列在內的整體比對边灭,從而獲得最優(yōu)比對异希。
若我們在UniProt提取編號為P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627的蛋白質序列的FASTA格式,上傳上述四個網(wǎng)站绒瘦,結果是差不多的(應該是我找的這幾個序列對比太簡單了称簿,序列長度都類似)。硬要仔細比較惰帽,可能是MUSCLE吧憨降,它的distance矩陣看起來好些。
搜了一下別人的看法善茎,大家都各有慣用的工具券册。另外有一個上文沒有提到的工具“PRANK”在發(fā)現(xiàn)多序列保守區(qū)域中表現(xiàn)很好,只是速度太慢垂涯,不適合較大文件烁焙。而且用這些工具進行比對之后,往往還需要手動調整耕赘、裁剪等骄蝇,再進行下一步分析。
用不同的工具進行多序列比對時操骡,還可看看它們能設定的參數(shù)九火。有的明顯更加適合你的數(shù)據(jù)(或者有的數(shù)據(jù)用什么工具的結果都類似,就像我文中選的這10條序列)册招。找到自己喜歡的工具和網(wǎng)頁岔激,多了解可以設定的參數(shù)(一般網(wǎng)站設定參數(shù)后面都有小問號解釋),更好的進行分析是掰。
MUSCLE的distance matrix
一組簡單序列用不同工具的MSA結果:
四虑鼎、評估多序列比對結果
1. 從結果的顯示可以簡單看出:
保守程度由高到低為“ *→:→ · ”?
*? ?保守欄,序列一致键痛。
:?保守性突變炫彩,那幾個氨基酸可能是同種性質的,如分子量絮短,電荷極性等江兢。
·? ?半保守性突變。
2. Coffee-TCS也可以評估:?
從粉到藍丁频,good→bad
3. 對結果進行進一步分析
我們進行MSA多數(shù)是為了找到這些序列的重要片段杉允,重要片段的序列組成保守,不易突變席里,即使是在親緣關系較遠的序列間也相對保守夺颤。
上面的例子中幾個蛋白序列的MSA比對結果較好,通過評估只可以看出來N末端比C末端更加保守胁勺,推測在N末端更有可能是活性位點世澜。但是范圍有些大且究竟是不是,還需引入差異大一些的序列進一步分析署穗。
我們可以在擁有很好比對結果的序列基礎上引入兔子(P02586)和老鼠(P19123)的相應鈣依賴性肌酶蛋白的序列寥裂,再進行一次MSA(P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627, P02586, P19123)。
直接提取相關序列并下載
MUSCLE比對加T-Coffee-TCS評估
原來一大塊比對的粉色區(qū)域被拆開了案疲,可見粉色深的區(qū)域更加保守封恰,很可能這些蛋白的活性位點在這個區(qū)域。
在Geneious軟件上的MUSCLE比對結果圖也很直觀:綠色identity=100%褐啡;軍綠色identity>30%诺舔;紅色identity<30%。引入兩條序列后,根據(jù)新的MSA結果推測鈣依賴性肌酶蛋白的活性位點(鈣離子結合位點)在下圖的圈里低飒,這個推測也與數(shù)據(jù)庫中的注釋信息一致许昨,耶!開心褥赊。
Geneious MUSCLE比對結果
數(shù)據(jù)庫中關于人類鈣依賴性肌酶蛋白P20472的功能區(qū)域注釋糕档,位置和比對結果可以對應
五、在一些unaligned蛋白序列中尋找保守功能域/DNA序列中找蛋白質結合位點(非比對MSA)
有時候我們要比較親緣關系太遠或沒有同源性的序列之間相似的部分拌喉,或想發(fā)現(xiàn)蛋白序列中復雜可變的模體速那。上面介紹的MSA程序就都不好用了,這時可以試試基于統(tǒng)計學方法的Pratt等工具尿背,用以發(fā)現(xiàn)不能比對的序列的保守motif端仰。
Pratt(https://www.ebi.ac.uk/Tools/pfa/pratt/),EMBL上的描述如下:
類似的分析不方便比對的序列的保守motif的工具還有:
Bioprospector?(http://ai.stanford.edu/~xsliu/BioProspector/)
Improbizer(https://users.soe.ucsc.edu/~kent/improbizer/improbizer.html)
六田藐、多序列比對總體思路
這個圖體現(xiàn)了多序列比對總體思路荔烧,我在國內外很多講義上看到,沒有注明來源坞淮,我也沒有找到是哪本書上的茴晋。這匯總的很棒,很清晰回窘。今天這個推送里主要介紹的就是這張圖中兩個紅圈方塊诺擅,上方紅圈是比對MSA,下方紅圈是非比對MSA啡直。如果小伙伴知道是哪本書的還請留言哈烁涌。
這期有點長,給看到這里的小伙伴筆芯?
如果有錯誤還請留言哦酒觅,共同進步?
往期相關內容:
【陪你學·生信】三舷丹、核苷酸序列數(shù)據(jù)庫的使用
【陪你學·生信】四抒钱、蛋白質相關的數(shù)據(jù)庫
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)
【陪你學·生信】六颜凯、當你有一段待分析的氨基酸序列(基礎操作介紹)