作者:Masatoshi Nei, Sudhir Kumar
簡介:
https://baike.baidu.com/item/%E5%88%86%E5%AD%90%E8%BF%9B%E5%8C%96%E4%B8%8E%E7%B3%BB%E7%BB%9F%E5%8F%91%E8%82%B2/10082116?fr=aladdin
前言:
統(tǒng)計(jì)學(xué)是一門用途極為廣泛的學(xué)科洲敢,但有效的應(yīng)用者卻寥寥無幾降铸。對(duì)大多數(shù)人而言薄啥,傳統(tǒng)的通往統(tǒng)計(jì)學(xué)知識(shí)之路被數(shù)學(xué)這堵令人望而生畏的高墻所阻擋镊屎。我們這里走的路就是避開這堵墻链瓦。
Efron & Tibshirani(1993)
分子水平進(jìn)化方面有兩門不同的學(xué)科:重建生物進(jìn)化歷史和研究進(jìn)化的機(jī)制发乔。近幾十年來熟妓,這兩門學(xué)科都取得了顯著進(jìn)展,主要是由于PCR和測序技術(shù)的飛速發(fā)展栏尚,使得大量DNA序列得以測定起愈,大大加速了研究分子進(jìn)化遺傳學(xué)的研究速度。除此之外還有另一個(gè)原因就是數(shù)據(jù)分析的統(tǒng)計(jì)方法以及計(jì)算機(jī)技術(shù)的發(fā)展。
本書的目的是:為分子進(jìn)化研究提供有用的統(tǒng)計(jì)方法抬虽,并以實(shí)際數(shù)據(jù)為例官觅,說明如何運(yùn)用這些方法。
第一章:進(jìn)化的分子基礎(chǔ)
1.1 生命的進(jìn)化樹
從達(dá)爾文開始阐污,許多生物學(xué)家都想重建地球上所有生命的進(jìn)化歷史缰猴,并以系統(tǒng)樹的形式描述這部歷史。之前主要的研究途徑有化石(零散且不完整)疤剑、形態(tài)學(xué)和生理學(xué)的比較(比較復(fù)雜滑绒,不能得出非常清晰的結(jié)論),隨著分子生物學(xué)的進(jìn)展隘膘,人們可以通過比較DNA來研究生物之間的進(jìn)化關(guān)系疑故。
DNA蘊(yùn)藏的的信息量巨大,同時(shí)DNA的進(jìn)化演變或多或少是有規(guī)律的弯菊,因此能用數(shù)學(xué)模型來描述其變化纵势,并且可以比較親緣關(guān)系較遠(yuǎn)的生物間的DNA。
形態(tài)性狀的進(jìn)化演變管钳,即使在一段較短的進(jìn)化時(shí)間钦铁,也是及其復(fù)雜的(體現(xiàn)在什么方面?)
系統(tǒng)學(xué)或分類學(xué)是生命科學(xué)中爭議最多的領(lǐng)域之一才漆。一些分類單元的定義常常帶有主觀性牛曹。相對(duì)而言,系統(tǒng)發(fā)育學(xué)的爭論少一點(diǎn)醇滥,因?yàn)樗饕芯康氖怯袡C(jī)體之間的進(jìn)化關(guān)系黎比,而分類的工作相對(duì)沒那么重要。
分類應(yīng)反映有機(jī)體的進(jìn)化歷史鸳玩。
1.2 進(jìn)化機(jī)制
進(jìn)化的第一原因是基因突變(替代阅虫,indel,重組等)不跟。然后通過遺傳漂變或自然選擇進(jìn)行擴(kuò)散颓帝,最終固定在物種中。
當(dāng)對(duì)某一類群構(gòu)建了一顆有效的系統(tǒng)樹窝革,我們就可以找到具有此突變性狀的譜系购城。
通過將具有某特定形狀的譜系所處的環(huán)境條件與無此性狀的譜系所處的環(huán)境條件進(jìn)行比較,就有可能會(huì)搞清楚該性狀是由自然選擇還是隨機(jī)演化而決定的聊闯。
現(xiàn)在一些遺傳學(xué)家正在對(duì)一個(gè)基因座上的不同等位基因進(jìn)行測序工猜,來了解他們的進(jìn)化歷史。構(gòu)建一個(gè)物種不同等位基因的系統(tǒng)樹菱蔬。
1.3 基因的結(jié)構(gòu)與功能
從功能上看,基因分為兩類:蛋白質(zhì)編碼基因和RNA編碼基因。(補(bǔ)充基礎(chǔ)知識(shí)而已拴泌,如蛋白質(zhì)的編碼方式等魏身,密碼子的簡并性和偏好性)
1.4 DNA序列的突變:
轉(zhuǎn)換、顛換蚪腐、InDel箭昵、倒位、移碼突變回季,提前終止突變等
同義突變家制,非同義突變和無義突變
短的插入缺失是由于DNA復(fù)制差錯(cuò),長的插入和缺失要借助不等交換和轉(zhuǎn)座泡一。
基因轉(zhuǎn)換會(huì)改變一個(gè)DNA片段颤殴,使其與另一個(gè)片段完全相同,但是不改變基因的拷貝數(shù)鼻忠。涵但,這是由于異源DNA的錯(cuò)配修復(fù)引起的。
1.5 密碼子的使用頻率:
原因:1帖蔓、tRNA豐度不同導(dǎo)致的(高表達(dá))
2矮瘟、突變壓。如不同基因組中GC含量不同塑娇,同時(shí)也影響了密碼子的使用澈侠。突變壓和凈化選擇共同影響了密碼子的偏好性。
不同的物種埋酬,堿基替換模式是不同的埋涧,主要體現(xiàn)在GC含量的不同,這給系統(tǒng)發(fā)育研究帶來了困難奇瘦。
動(dòng)植物中棘催,GC含量變化范圍很窄,特別是脊椎動(dòng)物只在40~45% 之間浮動(dòng)耳标〈及樱基因組可根據(jù)GC含量的不同分為富GC區(qū)和貧GC區(qū),有趣的是次坡,在同質(zhì)區(qū)呼猪,GC含量與第三個(gè)密碼子的GC含量很接近。
密碼子用法偏倚的統(tǒng)計(jì)測度:
使用密碼子出現(xiàn)的絕對(duì)次數(shù)經(jīng)常會(huì)出現(xiàn)不便之處砸琅,因?yàn)樗鶛z驗(yàn)的密碼子總數(shù)不一定是相同的宋距,因此密碼子用法偏倚的更有用的測度是相對(duì)同義密碼子使用頻率(relative synonymous codon usage,RSCU)症脂,
RSCU=Xi / X_ave
Xi:編碼該氨基酸低i個(gè)密碼子的觀測數(shù)
X_ave:所有編碼該氨基酸的密碼子的平均使用次數(shù)
第二章:氨基酸序列的進(jìn)化演變
1977年谚赎,DNA快速測序法發(fā)明(sanger 一代測序)之前淫僻,多數(shù)分子進(jìn)化研究是基于氨基酸序列數(shù)據(jù)的,如分子鐘理論的提出壶唤,雳灵。
2.1 氨基酸差異和不同氨基酸的比例
對(duì)于長度相同的序列,通過比較他們差異的氨基酸數(shù)目就可以度量序列間的分歧程度闸盔,但是當(dāng)他們之間有插入或者缺失的時(shí)候沒計(jì)算氨基酸差異數(shù)是沒有意義的悯辙,需要將插入缺失的部分排除掉再計(jì)算。其實(shí)一般都是用比例值表示迎吵,稱為p值距離躲撰。
泊松矯正:
p(差異堿基比例)與t(分化時(shí)間)呈現(xiàn)非線性關(guān)系的原因有重復(fù)突變和選擇壓力等。
令r為一個(gè)特定位點(diǎn)每年的氨基酸替換率击费,并且假設(shè)所有位點(diǎn)的r都相同拢蛋,t年后,每個(gè)位點(diǎn)氨基酸替代的平均數(shù)是rt荡灾。在一個(gè)給定點(diǎn)氨基酸替換數(shù)k(k=0,1,2,3,4,5,6...)的發(fā)生頻率遵循泊松分布:
P(k;t)=e^ -r t * ((rt)^k) /k!
因此瓤狐,在某一位點(diǎn)氨基酸不變的概率是p(0,t)=e ^ rt
如果多肽鏈長度為n,不變氨基酸的期望值為ne ^(-rt)