0 導(dǎo)語(yǔ)
再過不到一個(gè)月愉老,就要高考了场绿。
考試固然重要,它檢驗(yàn)的是努力嫉入,決定了起點(diǎn)的高度焰盗;
報(bào)考更重要,它是方向咒林,讓考生從無限可能步入可能中的一種熬拒,決定了考生的未來。
是啊垫竞,任你分?jǐn)?shù)再高澎粟,只要報(bào)考出點(diǎn)問題,豈不是多年的努力多半付之東流欢瞪?
記得那年高考的時(shí)候活烙,我上屆本省某大哥以671分這種穩(wěn)進(jìn)Top2的成績(jī)?nèi)チ藮|北電力學(xué)院。
幾無例外遣鼓,大家報(bào)考時(shí)都會(huì)查一查中國(guó)大學(xué)排行榜啸盏。
這類排行榜有網(wǎng)大、武書連骑祟、中國(guó)校友會(huì)等多種版本回懦。
評(píng)價(jià)方式大同小異,即根據(jù)科研實(shí)力曾我、學(xué)生就業(yè)率等指標(biāo)計(jì)算出一個(gè)總的分?jǐn)?shù)進(jìn)行排名粉怕。
盡管這個(gè)排名很具有指導(dǎo)意義,但多數(shù)考生只會(huì)關(guān)心排名抒巢,往往忽略了一些重要信息贫贝,比如高校之間的聯(lián)系和區(qū)別,而這些信息也是非常有價(jià)值的。
舉例來說吧稚晚!
假如你是個(gè)學(xué)霸崇堵,分?jǐn)?shù)高,性子倔客燕,想報(bào)考工科專業(yè)鸳劳,且非清華北大不去。
這時(shí)候就要研究下清華和北大的聯(lián)系和區(qū)別是什么也搓?
都在北京海淀區(qū)赏廓,都很牛逼;
北大側(cè)重于理科和文科傍妒,清華更側(cè)重于工科幔摸。
這時(shí)候,如何選擇颤练,一目了然既忆。
倘若分?jǐn)?shù)不太濟(jì),可能剛剛好夠不上清華嗦玖,咋整患雇?
中科大,哈工大宇挫,華南理工苛吱,西工大……都是中國(guó)頂級(jí)工科類院校。
倘若分?jǐn)?shù)繼續(xù)不濟(jì)捞稿,且特想學(xué)建筑又谋,“985”上不了,”211”有風(fēng)險(xiǎn)娱局,怎么辦彰亥?
此時(shí)你就需要知道建筑領(lǐng)域有“老八校”和“建筑新四軍”這倆說法衰齐,
“老八腥握”和“新四軍”代表業(yè)界公認(rèn)最強(qiáng)的十二所建筑強(qiáng)校。
建筑“老八谐芴危”發(fā)展到現(xiàn)在废酷,只有一所既不是“985”也不是“211”;
那么不要猶豫抹缕,此時(shí)最佳選項(xiàng)就是“老八谐后。”里最差的那個(gè)。
倘若分?jǐn)?shù)仍然不濟(jì)卓研,連一本都懸趴俘,咋整睹簇?
問題也不大,因?yàn)椤靶滤能姟袄锩嫔踔吝€有一所學(xué)校在我當(dāng)年高考的時(shí)候連“一本”都不是寥闪。
此時(shí)太惠,“新四軍“里“最挫”的那個(gè)就是夜空中最亮的星。
以低于名校分?jǐn)?shù)疲憋,享受著名校的教育凿渊,何樂而不為呢?
像“學(xué)科側(cè)重方向”缚柳,“老八邪T啵”,“新四軍”秋忙,這些信息是排行榜這類榜單無法給出的剂癌。
如此說來,報(bào)考不但要考慮到排名翰绊,還要研究學(xué)校之間的區(qū)別與聯(lián)系,是一門高深的學(xué)問旁壮。
其實(shí)监嗜,生物多樣性的研究也是如此。
1 "Within和Between"
宏基因組分析中最常用的群落多樣性指標(biāo)包括Alpha多樣性和Beta多樣性抡谐。
Alpha多樣性指標(biāo)裁奇,是一個(gè)一維的數(shù)值,指的是環(huán)境樣本內(nèi)物種多樣性大小麦撵,即Within Sample刽肠,如同高校排行榜可作為高校實(shí)力的排名參考,Alpha多樣性指標(biāo)能體現(xiàn)各群落物種多樣性指標(biāo)的大小免胃。
比如表1就是在A(A1~3)和(B1~3)兩組樣本中以觀察到物種數(shù)(Observed Species音五,Obs)或操作分類單元(Operational Taxonomic Units,OTUs)降序排列獲得Obs指標(biāo)龍虎榜羔沙。
表1 兩組樣本的Alpha多樣性指標(biāo)
Sample | Obs | Chao1 | ACE | Shannon | Simpson |
---|---|---|---|---|---|
A1 | 2781 | 3011.970 | 3145.893 | 9.381 | 0.996 |
A3 | 2511 | 2717.473 | 2829.702 | 9.062 | 0.994 |
A2 | 2321 | 2538.997 | 2586.814 | 9.045 | 0.995 |
B2 | 2010 | 2231.791 | 2337.814 | 8.370 | 0.989 |
B1 | 1977 | 2315.182 | 2415.277 | 8.403 | 0.991 |
B3 | 1828 | 2039.566 | 2068.423 | 8.256 | 0.989 |
這里倘若A組是處理組躺涝,B組是對(duì)照代虾,則可應(yīng)用假設(shè)檢驗(yàn)計(jì)算P值以說明顯著性爆袍。說明一定的生物學(xué)意義,A組的生物多樣性顯著大于B組继蜡。
當(dāng)然诗充,我們也可以應(yīng)用其他指標(biāo)(Chao1苍蔬、Shannon等)進(jìn)行降序排名。
在實(shí)際的研究項(xiàng)目中蝴蜓,科學(xué)家們往往會(huì)用添加變量的的方式去表現(xiàn)Alpha多樣性以說明此現(xiàn)象的生物學(xué)意義碟绑,比如加個(gè)坐標(biāo)軸,或者再給點(diǎn)顏色看看(圖1)。
圖1來自于2012年發(fā)表在Nature上的一篇經(jīng)典文章[1]蜈敢,主要講的是人類菌群結(jié)構(gòu)隨年齡和地域的變化辜荠。
圖1a是不同年齡不同地區(qū)人群腸道微生物群落物種數(shù)量(OTU數(shù)量)的分布散點(diǎn)圖。橫縱坐標(biāo)分別表示年齡和腸道中觀察到的物種數(shù)抓狭。其中的規(guī)律顯而易見伯病,從出生開始隨著年齡的增長(zhǎng),人的腸道微生物不斷增加否过,在3歲左右達(dá)到一個(gè)平臺(tái)期午笛,這個(gè)可參考圖1b。
圖中點(diǎn)的顏色用來區(qū)分來自不同地區(qū)的人:非洲馬拉維人(Malawians)苗桂,美洲印第安人(Amerindian)和美國(guó)公民(US residents)药磺,成年人中經(jīng)濟(jì)條件差的地區(qū)(馬拉維人和美洲印第安人居住地)人腸道微生物種類要顯著高于經(jīng)濟(jì)條件好的地區(qū)(P<0.005),而兒童中卻并未發(fā)現(xiàn)這種顯著差異煤伟。
這讓我想起了孔圣人曾經(jīng)說的那句話:人之初癌佩,性本善,性相近便锨,習(xí)相遠(yuǎn)围辙。目測(cè)此研究跟古人想法暗合啊。如此從腸道數(shù)據(jù)上來看放案,大家差不多是生而平等的姚建,也就是說大家出生的時(shí)候跟王思聰?shù)囊矝]什么差別,沒必要先天性地對(duì)他進(jìn)行個(gè)人崇拜吱殉。
Alpha多樣性指標(biāo)可描述樣本內(nèi)物種多樣性掸冤,僅僅是描述樣本內(nèi)物種數(shù)量和均勻度的指標(biāo),這類指標(biāo)僅與當(dāng)前樣本有關(guān)友雳,與其他樣本無關(guān)稿湿,因此樣本之間的差異遠(yuǎn)近關(guān)系用Alpha多樣性難以較為完整表達(dá)。一個(gè)較為極端但很有可能發(fā)生的例子就是兩個(gè)群落的Alpha多樣性一致沥阱,但是物種的種類完全不一致缎罢。
因此,對(duì)于環(huán)境樣本考杉,不同的樣本中往往分布著不同的生物群落策精。對(duì)這些生物群落之間的差異進(jìn)行量化,不僅可以幫助研究者理解各個(gè)樣本的生物多樣性如何崇棠,還可以幫助解釋樣本為什么以這種方式聚集或分散咽袜。這就涉及到生物群落多樣性的另外一種表達(dá)方式,即Beta多樣性枕稀。
Beta多樣性是Whittaker于1960年[2]提出询刹,定義為群落組成變化的程度谜嫉,或群落分化的程度,與環(huán)境的復(fù)雜梯度或環(huán)境的模式有關(guān)凹联。這么看有點(diǎn)難以理解沐兰,我們換句好理解的話說,就是樣本間的相對(duì)差距蔽挠,針對(duì)的是Between Samples住闯,請(qǐng)注意要與Alpha多樣性所針對(duì)的的Within Sample有所區(qū)分。Beta多樣性澳淑,不僅可以反映樣本之間的多樣性距離關(guān)系比原,而且還可以反映生物群落之間的分化程度。
結(jié)合本文開頭的內(nèi)容杠巡,對(duì)兩種多樣性做個(gè)一句話總結(jié)就是:Alpha多樣性相當(dāng)于以打分的方式給大學(xué)打分量窘,可得出排名;Beta多樣性則是研究大學(xué)之間的區(qū)別氢拥、聯(lián)系蚌铜、遠(yuǎn)近親疏關(guān)系。
2 Beta多樣性分析方法
廣義上說嫩海,Beta多樣性分析包括分兩部分:距離的計(jì)算和距離的展示厘线。
2.1 距離的計(jì)算
狹義上說,Beta多樣性僅僅就指是樣本間相對(duì)差異距離出革。
當(dāng)然這個(gè)狹義和廣義僅僅是我個(gè)人的理解。
如何計(jì)算兩樣本Beta多樣性差異距離渡讼?
還是老套路骂束,從最簡(jiǎn)單直接的開始。
一個(gè)極粗野豪邁的計(jì)算公式:
是指樣本1中包含的物種數(shù)成箫;
是指樣本2中包含的物種數(shù)展箱;
指的是樣本1和樣本2中共有的物種數(shù);
比如兩個(gè)環(huán)境樣本中共有5個(gè)物種:OTU1蹬昌、OTU2混驰、OTU3、OTU4皂贩、OTU5栖榨。
樣本1中有3個(gè)物種:OTU1、OTU2和OTU4明刷;
樣本2中也有3個(gè)物種: OTU2婴栽、OTU4和OTU5。
單純從觀察到的物種(Obs)這個(gè)指標(biāo)來看辈末,它們的Alpha多樣性是一致的愚争,但Beta多樣性距離是不一致的映皆。
兩者共有的物種有2個(gè):OTU2和OTU4。
樣本1獨(dú)有的物種是OTU1轰枝;樣本2獨(dú)有的物種是OTU5捅彻。
那么它們的差異距離,代入公式就是:
這兩個(gè)樣本的差異距離為2鞍陨。
也就是說步淹,有2個(gè)物種要么只存在于樣本1中,要么只存在于樣本2中湾戳。
這就是最簡(jiǎn)單的距離計(jì)算方法贤旷,學(xué)名叫漢明距離(Hamming Distance)[3]。
另外還有很多計(jì)算距離的方法砾脑,比如Euclidean距離幼驶、Bray-Curtis距離、Pearson距離韧衣、非加權(quán)或加權(quán)UniFrac距離等[4]。
兩個(gè)樣本的距離計(jì)算大抵如此畅铭,那么多個(gè)樣本兩兩計(jì)算距離則會(huì)產(chǎn)生一個(gè)距離矩陣(圖2)氏淑。
如圖2所示炉擅,3個(gè)樣本的距離矩陣可很容易找出兩兩樣本的距離遠(yuǎn)近辉懒。
倘若是10個(gè)甚至是50個(gè)以上樣本呢?
我們要考察樣本的聚類關(guān)系怎么辦谍失?
這種距離矩陣的表示方法就變得非常不直觀眶俩,
我們需要尋找到更好得展示距離的方式。
2.2 距離的展示
那么啥是數(shù)據(jù)降維呢快鱼?
其實(shí)平時(shí)大家都玩過的用手機(jī)拍照就是一種數(shù)據(jù)降維颠印。
現(xiàn)在桌上有半包紅塔山。
需要我們用圖片的方式把這半包煙的數(shù)據(jù)完整的表述出來抹竹。
采集完備數(shù)據(jù)的科學(xué)做法是采用機(jī)械制圖方法线罕,繪制出半包煙的正視圖、左視圖窃判、右視圖闻坚、俯視圖、甚至細(xì)節(jié)剖面圖等(圖3a-d)兢孝。應(yīng)用這些圖窿凤,我們能夠描述出這半包煙的完整信息仅偎,但是它們是多維的數(shù)據(jù)很不直觀。
這相當(dāng)于我們分析16S序列數(shù)據(jù)后得到的OTU豐度表雳殊,你從這張表中很難發(fā)現(xiàn)樣本之間的關(guān)系有何規(guī)律橘沥。
因此為求直觀,你只能用一張照片盡可能多地展示這半包煙的信息夯秃,這張照片其實(shí)大家都會(huì)拍座咆。
為了更全面展示剖面信息,我們甚至可以把煙盒打開仓洼,露出半包煙的更多信息介陶,即煙桿、內(nèi)襯錫紙等色建。
較為重要的是要選擇好拍攝角度哺呜,差不多斜上方45°角。
這樣基本上這半包煙在一張照片上的信息量就做到了盡可能多箕戳。
盡管這樣會(huì)損失一些信息(圖3σ照片中不可見的幾個(gè)面)某残,但這可僅僅是二維數(shù)據(jù),包含信息最全的二維數(shù)據(jù)陵吸,直觀安J!
原始數(shù)據(jù)要正視圖壮虫、左右視圖澳厢、俯視圖、分層剖面圖等才能表達(dá)最完整信息囚似。而降維之后赏酥,僅僅一張二維圖片即可展示出相對(duì)來說較完整的半包煙是什么樣的。這就是降維谆构,選擇能夠捕捉到的最全面的拍攝角度,把高維數(shù)據(jù)轉(zhuǎn)換成盡可能包含最全信息的低維數(shù)據(jù)框都。拍照中轉(zhuǎn)換拍攝角度搬素,放在數(shù)據(jù)分析中就是指變換坐標(biāo)。
降維是一種很好的數(shù)據(jù)可視化方式魏保。在Beta多樣性分析中熬尺,常用的降維分析方法有三種:主成分分析(Principle Compounent Analysis, PCA)、多維尺度分析(Multidimensional Scaling, MDS)和主坐標(biāo)分析(Principal Co-ordinates Analysis, PCoA)谓罗。這三者的原理基本大同小異粱哼,不同之處就是開始時(shí)應(yīng)用的數(shù)據(jù)關(guān)系矩陣不同,PCA用的是屬性之間的相關(guān)性矩陣檩咱,而PCoA和MDS應(yīng)用的是屬性之間的距離矩陣揭措。
如圖4所示,距離的計(jì)算和降維包括下述4個(gè)基本步驟绊含。
- 數(shù)據(jù)標(biāo)準(zhǔn)化
首先根據(jù)OTU豐度分布表對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化桑嘶,即某樣本的某OTU豐度減去該屬性的平均值。 - 距離計(jì)算
根據(jù)標(biāo)準(zhǔn)化后的OTU豐度分布表躬充,計(jì)算出屬性的相關(guān)性或者是距離矩陣逃顶。 - 尋找坐標(biāo)系
數(shù)據(jù)分析中則是尋找屬性距離矩陣的特征值和特征向量,并根據(jù)特征值對(duì)特征向量從大到小排序充甚。其中特征值可理解為該坐標(biāo)包含的信息量大小的度量值以政,特征向量則是坐標(biāo)的方向。該過程可相當(dāng)于上文紅塔山例子中調(diào)整拍攝的囊括的信息量(特征值)和角度(特征向量)伴找。 -
線性變換
找到了新的坐標(biāo)系之后盈蛮,用標(biāo)準(zhǔn)化之后的數(shù)據(jù)分別右乘囊括信息量最大的坐標(biāo),即特征值排名第一(PC1)和第二(PC2)的特征向量疆瑰,所有的樣本就已經(jīng)用新的2維坐標(biāo)系定位啦眉反。然后,再計(jì)算出每個(gè)特征向量解釋度穆役,就是囊括信息量的占比寸五。最后在新的直角坐標(biāo)系中作圖,所得到的就是大家最后看到的二維平面圖耿币。
針對(duì)上面的二進(jìn)制OTU分布表(圖2)梳杏,包含5種OTUs,也就是5維數(shù)據(jù)淹接。
我們根據(jù)上面的步驟十性,采用PCA的降維方式把它降到2維。如下圖:
依舊延續(xù)先前的問題塑悼,倘若是10個(gè)甚至是50個(gè)樣本呢劲适?
再來看一張圖(圖6),該圖依然來自于前文所述的那篇經(jīng)典文章厢蒜,是根據(jù)16S rDNA數(shù)據(jù)分析得到的OTU多樣性對(duì)比霞势,計(jì)算出Unifrac距離矩陣,據(jù)此進(jìn)行了PCoA分析獲得的二維數(shù)據(jù)斑鸦。
PC1和PC2分別表示數(shù)據(jù)降維后解釋度排名前兩位的主坐標(biāo)軸愕贡,這兩個(gè)主坐標(biāo)分別占25%和6.6%的數(shù)據(jù)解釋度∠镉欤可明顯觀察出發(fā)達(dá)地區(qū)(藍(lán)色)的多樣性距離聚集現(xiàn)象固以,并與欠發(fā)達(dá)地區(qū)(紅色和綠色)可明顯分開。這說明在后天環(huán)境的影響下嘱巾,成人的腸道菌群差距還是蠻大的憨琳,即“性相近诫钓,習(xí)相遠(yuǎn)”。
如果降維后栽渴,二維沒法得到自己想要的結(jié)果尖坤,比如本來分成兩組的樣本卻分不開,如圖6中紅色和綠色的點(diǎn)闲擦,或者說所有的樣本點(diǎn)都近乎平均的分散在坐標(biāo)系中慢味,可以增加一個(gè)維度,采用三維展示(圖7)[5]墅冷。
另外叫编,那篇經(jīng)典Nature文章[1],曾用一維的距離數(shù)據(jù)展示過Beta多樣性霹抛。
這里可狗尾續(xù)貂般地說一說搓逾!
看圖8,這張圖與圖1a唯一不同的僅有縱坐標(biāo)杯拐∠即郏縱坐標(biāo)數(shù)值是應(yīng)用一種叫UniFrac距離的計(jì)算方法,量化了各組樣本中的未成年人對(duì)比成年人數(shù)據(jù)的差異端逼。每一個(gè)點(diǎn)都表示了一個(gè)未成年人和所有來自同一國(guó)家朗兵、且與他無關(guān)的成年人之間的平均UniFrac距離。此圖和圖1a的表達(dá)出來的意思基本相吻合顶滩,隨著年齡的增長(zhǎng)余掖,未成年人和成年人的腸道微生多樣性差距越來越小。此文獻(xiàn)上的官方說法是在所有三個(gè)不同地區(qū)的人中礁鲁,腸道菌群的系統(tǒng)發(fā)育組成在出生后的三年內(nèi)都向著成人的狀態(tài)變化盐欺。
3 后記
本篇是Beta多樣性的第一篇,與Alpha多樣性相比救氯,Beta多樣性的內(nèi)容相當(dāng)多,光距離的計(jì)算我所聽說過的就有60余種之多歌憨;而降維等距離展示的方式涉及到線性代數(shù)等基礎(chǔ)內(nèi)容着憨。
這倒是頗有些像修煉絕世武功,學(xué)習(xí)六脈神劍务嫡,必須要有深厚的內(nèi)功和一陽(yáng)指做基礎(chǔ)甲抖。
不過總結(jié)起來漆改,萬變不離其宗。Beta多樣性准谚,“無他挫剑,唯距離之計(jì)算與展示爾!”
對(duì)于本文開頭提到的關(guān)于高校報(bào)名柱衔,還想再說幾句樊破。
我們查尋各個(gè)學(xué)校的有關(guān)資料會(huì)發(fā)現(xiàn)學(xué)校之間的區(qū)別和聯(lián)系等信息。
倘若把所包含的學(xué)科看做樣本中存在的物種/OTU唆铐,各學(xué)科目水平分?jǐn)?shù)看做物種/OTU的絕對(duì)豐度哲戚。
按照上述的分析方式根據(jù)相關(guān)性或者距離指標(biāo)做個(gè)PCA或PCoA等分析,哪些學(xué)校會(huì)和哪些學(xué)校聚為一類呢艾岂?這些學(xué)校之間的直觀差距到底有多大呢顺少?
這個(gè)Idea就免費(fèi)送給相關(guān)學(xué)者去研究啦。
作為生物狗王浴,我就不攙和了脆炎。
備注:本文于2019年5月20日發(fā)表于e媛微生態(tài)公眾號(hào)。
參考文獻(xiàn)
[1] Yatsunenko, T. et al. Human gut microbiome viewed across age and geography[J]. Nature, 2012, 486, 222-227.
[2] Whittaker, R. H. Vegetation of the Siskiyou Mountains, Oregon and California[J]. Ecological Monographs, 1960, 30, 280-338.
[3] https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
[4] http://qiime.org/1.3.0/scripts/beta_diversity_metrics.html
[5] Debebe T, Biagi E, Soverini M, et al. Unraveling the gut microbiome of the long-lived naked mole-rat[J]. Scientific reports, 2017, 7(1): 9590.