相信不少人看過下面這個類型的故事,我把它稍作了個改編病游。
超逸和艾斯發(fā)現(xiàn)有兩個比自己來的晚的同事唇跨,山農(nóng)和辛普森,都已升職加薪衬衬,而自己卻一直原地不動买猖。
終于有一天,超逸忍不住了滋尉,冒著被解雇的危險玉控,找老板阿爾法理論:“老板,我有過遲到狮惜、早退或亂章違紀的現(xiàn)象嗎高诺?”
“沒有!”
那是公司對我有偏見嗎讽挟?”?
“沒有懒叛!”
“為什么比我資歷淺的人,工資卻比我高耽梅?”
阿爾法說:”咱先不說這個薛窥,眼下有個事兒,你去調(diào)查下今天市場上在賣哪幾種蔬菜眼姐?“
超逸很快去市場轉(zhuǎn)了一圈诅迷,很快回來說:“報告老板,今天市場上的蔬菜主要有白菜众旗、蘿卜罢杉、番茄、土豆……贡歧!”
“價格分別是多少滩租?”
“這個我沒問赋秀!”
“都是哪些公司的產(chǎn)品?”
“這個您也沒叫我問奥上搿猎莲!”
“你先在這等會〖技矗”
阿爾法打電話叫來了山農(nóng)著洼,并把同樣的任務用同樣的表達方式交代給了山農(nóng)。
山農(nóng)也去市場轉(zhuǎn)了很大一圈而叼,手中拿著一張表格身笤,向阿爾法匯報:“報告老板,今天市場上主要有……等公司的蔬菜葵陵,蔬菜的種類分別有……液荸,我做了張表,蔬菜產(chǎn)地脱篙、價格等信息都在上面莹弊,并做了分析,推測明天XXX蔬菜價格有可能會上漲涡尘,請您過目!”
阿爾法看完表格响迂,滿意的點點頭考抄,向超逸看去。
超逸剛接觸到阿爾法的眼神蔗彤,就連忙說:“老板川梅,謝謝您,我知道該怎么做了然遏!”
故事講完了贫途。
首先,我們看超逸和艾斯這類普通員工待侵,雖然干活很麻利丢早,但考慮問題較為片面,讓調(diào)查蔬菜種類秧倾,就只知道考查種類怨酝,而山農(nóng)和辛普森這類優(yōu)秀員工則比較擅長全面思考,同樣調(diào)查蔬菜那先,他們會綜合調(diào)查农猬,考慮種類和價格。老板眼光是雪亮的售淡,所以工資孰高孰低的原因斤葱,不言自明慷垮。
相信看過前一篇文章《群落多樣性之Alpha多樣性(一)》的諸位大哥們,對故事中的人名似乎有些許耳熟吧揍堕。
不必回想了料身,相信我們賦值一下您肯定就明白了,以下是賦值代碼鹤啡,‘’#‘’后為代碼的注釋:
阿爾法=Alpha
超逸=Chao1
艾斯=ACE (Abundance-based Coverage Estimator)
#Chao1和ACE是兩個Alpha多樣性指標惯驼,僅衡量樣本中物種種類數(shù)量(Richness),递瑰。
山農(nóng)=Shannon
#很多文獻Shannon翻譯為香農(nóng)(克勞德·香農(nóng))祟牲,個人認為如果翻譯成山農(nóng)的話,跟英文匹配度很高抖部,更接近漢語拼音的發(fā)音規(guī)則说贝,而且感覺有味道,較為接地氣慎颗。
辛普森=Simpson
#Shannon 和 Simpson也是兩個Alpha多樣性指標乡恕,是把物種種類數(shù)量和各個物種的豐度全部考慮在內(nèi)用以兼顧衡量樣本中物種種類數(shù)量(Richness)和均勻度(Evenness)的指標。
所以俯萎,這里要祭出一個公式:傲宜。
Chao1和ACE前面已經(jīng)具體說過是怎么回事,今天的重點是從宏基因組微生態(tài)學的角度解釋山農(nóng)(Shannon)和辛普森(Simpson)為啥工資高夫啊。
在講解之前函卒,我們需要強調(diào)幾點與生物多樣性有關的幾個概念,且后面會反復用到撇眯。
----------------------------------------------幾個概念----------------------------------------------------
1. 先簡單回顧下前一篇文章《群落多樣性之Alpha多樣性(一)》提到過的OTU和標記基因序列报嵌。
OTU,即可操作分類單元熊榛,這里要求很低锚国,只需要知道“1個OTU對應一個物種,一個物種對應一個OTU”即可玄坦。這相當于出生于某地區(qū)的人(物種)對應的身份證號前六位(OTU)血筑,比如我的身份證號前六位220524,對應的就是我家鄉(xiāng)煎楣,“物華天寶云挟,人杰地靈”的吉林省通化市柳河縣。
標記基因序列转质,以下簡稱序列园欣,即測序得到的能夠標記細菌個體的DNA序列。這里繼續(xù)要求很低休蟹,只需要知道“一個序列對應一個細菌個體沸枯,一個細菌個體對應一個序列”即可日矫,根據(jù)序列可知其OTU歸屬。這相當于一個人對應的一個身份證號绑榴,比如你知道我的身份證號220524***********5哪轿,你上網(wǎng)一查“220524”,百度顯示“吉林省通化市柳河縣”翔怎。
2. :觀察到OTU的數(shù)量窃诉,即觀察到的物種數(shù)。
3. :第i個OTU在樣本細菌總個體數(shù)中的占比赤套,即物種相對豐度飘痛,也可以理解為在樣本中隨便揪出一個細菌個體,這個個體屬于第個OTU或物種的概率容握。其中宣脉,第個OTU的序列數(shù),即某物種的個體數(shù)剔氏,也是個觀察值塑猖;:樣本中的細菌個體總數(shù)。
---------------------------------------------------------------------------------------------------------------
步入正題谈跛,從宏基因組微生態(tài)學的角度羊苟,具體剖析一下,為什么山農(nóng)(Shannon)的工資那么高感憾?
Shannon的計算方式如下:
這個公式到底什么意思践险,需要把這個公式做個變換:
是負數(shù)(),為符合人們的習慣吹菱,公式里加個負號將之修為正數(shù)。
根據(jù)上述公式彭则,由于所有值的和等于1鳍刷,即等于值的加權幾何平均數(shù),即
俯抖,值本身用作幾何權重(方程中的指數(shù))输瓜。
因此括號內(nèi)的項等于真正的多樣性, 等于。
為方便理解芬萍,這里介紹下加權幾何平均數(shù)的意義尤揣,對這部分理解者可跳過此處。
------------------------------------------幾何平均數(shù)的意義---------------------------------------------
啥也不說柬祠,先上寶圖北戏。
假設a和b這兩個數(shù)是兩種細菌的個體數(shù),它們構(gòu)成一個菌群樣本漫蛔。他們的幾何平均數(shù)是:
結(jié)合上述寶圖和中學數(shù)學知識可知嗜愈,AE為a和b的幾何平均數(shù)旧蛾,AE這條垂線段越靠近B,a和b差距越大蠕嫁,即越不均勻锨天。
極度均勻的情況是AE和OD重合,a=b剃毒,樣本最均勻病袄,樣本的幾何平均數(shù)AE最大。
如果菌群中存在3種菌赘阀,那么幾何平均數(shù)為
益缠,
此時需要畫個三維寶圖解析一下,感興趣不嫌麻煩的大哥可自繪纤壁,空間想象力好的大哥可直接腦補左刽。
如果菌群中是n種菌,那么幾何平均數(shù)為
,
由此可看出幾何平均數(shù)可以反映數(shù)據(jù)的均勻度酌媒。
加權的意義只不過是把相同數(shù)據(jù)的頻數(shù)組合放在一起而已欠痴,僅為計算方便,具體理解可見下式:
和的指數(shù)便是權秒咨,G就是加權幾何平均數(shù)喇辽,這個式子也可畫個3D的寶圖解析。
如果是i維呢雨席?
如果是維呢菩咨?
--------------------------------------------------------------------------------------------------------------
由此,我們知道了加權幾何平均數(shù)可以反映樣本的均一性陡厘,shannon指數(shù)最核心部分就是它抽米。
為了更直觀感受shannon指數(shù),這里再介紹一種便于理解和感知的數(shù)學公式的方法糙置,我稱之為極限感知大法云茸,也就是將一個極端數(shù)據(jù)帶入公式去感知公式的意義。
首先谤饭,假設樣本中所有物種的相對豐度都極端一致就是相等标捺,那么所有值都等于,因此Shannon取值為揉抵。
當類型豐度越不均勻亡容,pi值的加權幾何平均數(shù)越大,對應的Shannon越小冤今。
然后闺兢,假設某群體中所有的個體都屬于一個物種,值等于1戏罢,代入公式列敲,Shannon取值為0阱佛。
開篇的故事中除了山農(nóng),辛普森(Simpson)的工資也很高戴而,接下來我們還是從宏基因組微生態(tài)學的角度說明下原因凑术。
Simpson指數(shù)的計算方法如下:
這個公式相對來說比shannon更好理解一些。所意,可理解為從當前的菌群中隨機挑選1個細菌淮逊,這個細菌屬于第個物種的概率。那么就是從當前的菌群中隨機挑選1個細菌扶踊,然后把這個細菌放回去泄鹏,再從這個菌群中隨機挑選1個細菌,這2個細菌都屬于第i個物種的概率秧耗。然后把所有加到一起的意義就是在當前的菌群中隨機挑選(有放回抽樣)2個細菌备籽,這兩個細菌屬于同一個物種的概率。
我們繼續(xù)采用極限感知大法:
一個極端就是分井,讓群落物種豐度極低且分布極端不均勻车猬,只包含有1種細菌,其他細菌都是0尺锚,即珠闰,此時
另一個極端,讓群落物種豐度極端均勻瘫辩,菌群包含種細菌伏嗜,每種細菌的個數(shù)是1,即伐厌,此時
承绸。
由此可見,Simpson值在0-1之間挣轨,值越小军熏,多樣性越高,均勻度均勻刃唐。
不過這怎么看著這么別扭呢,為了解決這個問題界轩,通常用Inverse Simpson index(計算方法為)或者Gini–Simpson index(計算方法為)替代Simpson画饥。
搜底斯奈,這下能看出點規(guī)律了吧浊猾。
另外抖甘,對于Simpson指數(shù)的計算,還存在另外一個版本:
?????????????????????????????????????????????????????????????????
兩個版本原理基本一致葫慎,唯一的不同就是這個版本在菌群種隨機挑選2個細菌的時候是無放回抽樣衔彻,而前面那個版本是有放回抽樣薇宠。
那到底用哪個版本呢?
最科學建議是:想用哪個就用哪個艰额!
為什么澄港?
最充分的理由是:看心情!
如果你實在是有選擇困難癥柄沮,建議拋硬幣占卜一下回梧,看天意吧。
電視劇《甄嬛傳》中甄嬛曾吟過一句詩祖搓,“逆風如解意狱意,容易莫摧殘≌罚”详囤,階段性地俘獲了雍正的心。
這句詩的大意是“北風如果能夠理解梅花的心意镐作,就請不要再摧殘她了藏姐。”
可見解意很重要滑肉。對待公式也要充分解意包各,不然有人提問,答不上來靶庙,就是對公式的摧殘问畅。
極限感知大法固然能對公式有個初步的意會,然而真正更直觀的解意可用計算和比較的方法六荒。
比如有這么道判斷題护姆,Shannon和Simpson指數(shù)是否與細菌的絕對豐度有關?
通過公式的推導我們可以解答這類問題掏击,不過用具體的數(shù)字代入計算會更直觀一些卵皂。
如果對公式充分理解的話,計算部分可直接跳過砚亭。
---------------------------------------------規(guī)避各個因素后的計算-------------------------------------
這里我列舉出一組數(shù)據(jù):
A組:2, 3, 6, 9
B組:20, 30, 60, 90
C組:5, 5, 5, 5
D組:5, 5, 5, 5, 5
E組:4, 4, 4, 4, 4
F組:17, 1, 1, 1
求各組數(shù)據(jù)的Shannon和Simpson灯变。
可直接代入公式。
A組捅膘。
B組添祸。
數(shù)據(jù)占比相同的情況下,AB兩組的兩個參數(shù)相等寻仗,原因是這兩個參數(shù)只與有關刃泌,與和兩個絕對豐度無關。
C組。
D組耙替。
E組亚侠。
F組。
C和D規(guī)避了均勻度和的干擾俗扇,物種數(shù)量越多硝烂,Shannon越大,Simpson越小狐援,與無關钢坦。
C和E規(guī)避了均勻度和的干擾,物種數(shù)量越多啥酱,Shannon越大爹凹,Simpson越小,與無關镶殷。
D和E基本上與A和B的比較情況一致禾酱,故不再多言。
C和F對比绘趋,N相同的情況下颤陶,不均勻的情況下,Shannon降低陷遮,Simpson升高滓走。
注:這部分磨嘰了點,本糾結(jié)要不要把這部分放上帽馋,還是不糾結(jié)了搅方,一起充分感受一下。
------------------------------------------------------------------------------------------------------------------
綜上所述可見绽族,倘若菌群中幾乎所有的個體都屬于一個物種姨涡,而其他物種非常罕見,即使物種類別有很多吧慢,Shannon也會趨近于0涛漂,Simpsion也會趨于1。當數(shù)據(jù)集中只有一種類型時检诗,Shannon正好等于0匈仗,Simpsion正好等于1。
末了逢慌,我們再回頭想想前面那個小故事悠轩,為什么公司的老板沒炒掉超逸(Chao1)和艾斯(ACE)呢?
因為經(jīng)營一家公司涕癣,山農(nóng)(Shannon)和辛普森(Simpson)這樣全面考慮問題的優(yōu)秀員工公司必然需要哗蜈,但是超逸和艾斯這樣,雖說考慮問題不全面但有一定執(zhí)行力的員工我們也需要坠韩,分工不同嘛距潘。
我們做群落Alpha多樣性分析也是一樣,各類指標都有需求只搁。
當我們只需要知道這堆細菌種有多少物種音比,Chao1和ACE足夠;
想知道多樣性(diversity)呢氢惋?那就是時候祭出Shannon和Simpson了洞翩!
不過呢?
有可能某位大哥會說焰望,
“我就想考察均勻度(Evenness)怎么辦骚亿?”
看來阿爾法老板要繼續(xù)招聘新員工了,
欲知后事如何熊赖,請看下集《群落多樣性之Alpha多樣性(三)》来屠。
備注:此文于2019年3月29日發(fā)于e源微生態(tài)。
參考文獻:
[1] https://mothur.org/wiki/Shannon
[2] https://en.wikipedia.org/wiki/Diversity_index#cite_note-Simpson1949-7
[3] Simpson, E. H. (1949). Measurement of diversity. Nature.163: 688.
[4] http://www.countrysideinfo.co.uk/simpsons.htm