群落多樣性之Alpha多樣性(二)

相信不少人看過下面這個類型的故事,我把它稍作了個改編病游。
超逸和艾斯發(fā)現(xiàn)有兩個比自己來的晚的同事唇跨,山農(nóng)和辛普森,都已升職加薪衬衬,而自己卻一直原地不動买猖。
終于有一天,超逸忍不住了滋尉,冒著被解雇的危險玉控,找老板阿爾法理論:“老板,我有過遲到狮惜、早退或亂章違紀的現(xiàn)象嗎高诺?”
“沒有!”
那是公司對我有偏見嗎讽挟?”?
“沒有懒叛!”
“為什么比我資歷淺的人,工資卻比我高耽梅?”
阿爾法說:”咱先不說這個薛窥,眼下有個事兒,你去調(diào)查下今天市場上在賣哪幾種蔬菜眼姐?“
超逸很快去市場轉(zhuǎn)了一圈诅迷,很快回來說:“報告老板,今天市場上的蔬菜主要有白菜众旗、蘿卜罢杉、番茄、土豆……贡歧!”
“價格分別是多少滩租?”
“這個我沒問赋秀!”
“都是哪些公司的產(chǎn)品?”
“這個您也沒叫我問奥上搿猎莲!”
“你先在這等會〖技矗”
阿爾法打電話叫來了山農(nóng)著洼,并把同樣的任務用同樣的表達方式交代給了山農(nóng)。
山農(nóng)也去市場轉(zhuǎn)了很大一圈而叼,手中拿著一張表格身笤,向阿爾法匯報:“報告老板,今天市場上主要有……等公司的蔬菜葵陵,蔬菜的種類分別有……液荸,我做了張表,蔬菜產(chǎn)地脱篙、價格等信息都在上面莹弊,并做了分析,推測明天XXX蔬菜價格有可能會上漲涡尘,請您過目!”
阿爾法看完表格响迂,滿意的點點頭考抄,向超逸看去。
超逸剛接觸到阿爾法的眼神蔗彤,就連忙說:“老板川梅,謝謝您,我知道該怎么做了然遏!”

故事講完了贫途。
首先,我們看超逸和艾斯這類普通員工待侵,雖然干活很麻利丢早,但考慮問題較為片面,讓調(diào)查蔬菜種類秧倾,就只知道考查種類怨酝,而山農(nóng)和辛普森這類優(yōu)秀員工則比較擅長全面思考,同樣調(diào)查蔬菜那先,他們會綜合調(diào)查农猬,考慮種類和價格。老板眼光是雪亮的售淡,所以工資孰高孰低的原因斤葱,不言自明慷垮。

相信看過前一篇文章《群落多樣性之Alpha多樣性(一)》的諸位大哥們,對故事中的人名似乎有些許耳熟吧揍堕。
不必回想了料身,相信我們賦值一下您肯定就明白了,以下是賦值代碼鹤啡,‘’#‘’后為代碼的注釋:

阿爾法=Alpha
超逸=Chao1
艾斯=ACE (Abundance-based Coverage Estimator)
#Chao1和ACE是兩個Alpha多樣性指標惯驼,僅衡量樣本中物種種類數(shù)量(Richness),递瑰。
山農(nóng)=Shannon
#很多文獻Shannon翻譯為香農(nóng)(克勞德·香農(nóng))祟牲,個人認為如果翻譯成山農(nóng)的話,跟英文匹配度很高抖部,更接近漢語拼音的發(fā)音規(guī)則说贝,而且感覺有味道,較為接地氣慎颗。
辛普森=Simpson
#Shannon 和 Simpson也是兩個Alpha多樣性指標乡恕,是把物種種類數(shù)量和各個物種的豐度全部考慮在內(nèi)用以兼顧衡量樣本中物種種類數(shù)量(Richness)和均勻度(Evenness)的指標。
所以俯萎,這里要祭出一個公式:richness+eveness=diversity傲宜。

Chao1和ACE前面已經(jīng)具體說過是怎么回事,今天的重點是從宏基因組微生態(tài)學的角度解釋山農(nóng)(Shannon)和辛普森(Simpson)為啥工資高夫啊。
在講解之前函卒,我們需要強調(diào)幾點與生物多樣性有關的幾個概念,且后面會反復用到撇眯。
----------------------------------------------幾個概念----------------------------------------------------
1. 先簡單回顧下前一篇文章《群落多樣性之Alpha多樣性(一)》提到過的OTU和標記基因序列报嵌。
OTU,即可操作分類單元熊榛,這里要求很低锚国,只需要知道“1個OTU對應一個物種,一個物種對應一個OTU”即可玄坦。這相當于出生于某地區(qū)的人(物種)對應的身份證號前六位(OTU)血筑,比如我的身份證號前六位220524,對應的就是我家鄉(xiāng)煎楣,“物華天寶云挟,人杰地靈”的吉林省通化市柳河縣。
標記基因序列转质,以下簡稱序列园欣,即測序得到的能夠標記細菌個體的DNA序列。這里繼續(xù)要求很低休蟹,只需要知道“一個序列對應一個細菌個體沸枯,一個細菌個體對應一個序列”即可日矫,根據(jù)序列可知其OTU歸屬。這相當于一個人對應的一個身份證號绑榴,比如你知道我的身份證號220524***********5哪轿,你上網(wǎng)一查“220524”,百度顯示“吉林省通化市柳河縣”翔怎。
2. S_{obs}:觀察到OTU的數(shù)量窃诉,即觀察到的物種數(shù)。
3. p_i=\frac{n_i}{N} :第i個OTU在樣本細菌總個體數(shù)中的占比赤套,即物種相對豐度飘痛,也可以理解為在樣本中隨便揪出一個細菌個體,這個個體屬于第個OTU或物種的概率容握。其中宣脉,第個OTU的序列數(shù),即某物種的個體數(shù)剔氏,也是個觀察值塑猖;N:樣本中的細菌個體總數(shù)。
---------------------------------------------------------------------------------------------------------------

步入正題谈跛,從宏基因組微生態(tài)學的角度羊苟,具體剖析一下,為什么山農(nóng)(Shannon)的工資那么高感憾?
Shannon的計算方式如下:
H_{shannon} = - \sum_{i=1}^{S_{obs}} p_i ln p_i
這個公式到底什么意思践险,需要把這個公式做個變換:
H_{shannon} = - \sum_{i=1}^{S_{obs}} p_i ln p_i=- \sum_{i=1}^{S_{obs}} ln {p_i}^{p_i}=-(ln {p_1}^{p_1}+ln {p_2}^{p_2}+ln {p_3}^{p_3}+...+ln {p_{S_{obs}}}^{p_{S_{obs}}})
H_{shannon} =-(ln {p_1}^{p_1}{p_2}^{p_2}{p_3}^{p_3}...{p_{S_{obs}}}^{p_{S_{obs}}})=ln(\frac{1}{{p_1}^{p_1}{p_2}^{p_2}{p_3}^{p_3}...{p_{S_{obs}}}^{p_{S_{obs}}}} )=ln(\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} )
 ln \frac{n_i}{N}是負數(shù)(n_i<N),為符合人們的習慣吹菱,公式里加個負號將之修為正數(shù)。
根據(jù)上述公式彭则,由于所有p_i值的和等于1鳍刷,即等于p_i值的加權幾何平均數(shù),即
\sqrt[\sum\nolimits_{i=1}^{S_{obs}}p_i]{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}}=\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}

俯抖,p_i值本身用作幾何權重(方程中的指數(shù))输瓜。
因此括號內(nèi)的項等于真正的多樣性\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} , H_{shannon}等于ln(\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} )
為方便理解芬萍,這里介紹下加權幾何平均數(shù)的意義尤揣,對這部分理解者可跳過此處。
------------------------------------------幾何平均數(shù)的意義---------------------------------------------
啥也不說柬祠,先上寶圖北戏。

引自知乎:https://www.zhihu.com/question/36176004/answer/139623544

假設a和b這兩個數(shù)是兩種細菌的個體數(shù),它們構(gòu)成一個菌群樣本漫蛔。他們的幾何平均數(shù)是:
G_2 =\sqrt{ab}
結(jié)合上述寶圖和中學數(shù)學知識可知嗜愈,AE為a和b的幾何平均數(shù)旧蛾,AE這條垂線段越靠近B,a和b差距越大蠕嫁,即越不均勻锨天。
極度均勻的情況是AE和OD重合,a=b剃毒,樣本最均勻病袄,樣本的幾何平均數(shù)AE最大。
如果菌群中存在3種菌赘阀,那么幾何平均數(shù)為
G_3=\sqrt[3]{abc} 益缠,
此時需要畫個三維寶圖解析一下,感興趣不嫌麻煩的大哥可自繪纤壁,空間想象力好的大哥可直接腦補左刽。
如果菌群中是n種菌,那么幾何平均數(shù)為
G_i=\sqrt[i]{abc...i} ,
由此可看出幾何平均數(shù)可以反映數(shù)據(jù)的均勻度酌媒。
加權的意義只不過是把相同數(shù)據(jù)的頻數(shù)組合放在一起而已欠痴,僅為計算方便,具體理解可見下式:
G_3=\sqrt[2+1]{a_1^2a_2^{1}}
a_1a_2的指數(shù)便是權秒咨,G就是加權幾何平均數(shù)喇辽,這個式子也可畫個3D的寶圖解析。
如果是i維呢雨席?
G_{i}=\sqrt[i]{a_1a_2...a_i}
如果是p_1+p_2+...+p_i維呢菩咨?
G_{p_1+p_2+...+p_i}=\sqrt[p_1+p_2+...+p_i]{a_1^{p_1}a_2^{p_2}...a_i^{p_i}}
--------------------------------------------------------------------------------------------------------------
由此,我們知道了加權幾何平均數(shù)可以反映樣本的均一性陡厘,shannon指數(shù)最核心部分就是它抽米。
為了更直觀感受shannon指數(shù),這里再介紹一種便于理解和感知的數(shù)學公式的方法糙置,我稱之為極限感知大法云茸,也就是將一個極端數(shù)據(jù)帶入公式去感知公式的意義。
首先谤饭,假設樣本中所有物種的相對豐度都極端一致就是相等标捺,那么所有p_i值都等于\frac{1}{S_{obs}},因此Shannon取值為ln(S_{obs})揉抵。
當類型豐度越不均勻亡容,pi值的加權幾何平均數(shù)越大,對應的Shannon越小冤今。
然后闺兢,假設某群體中所有的個體都屬于一個物種,p_i值等于1戏罢,代入公式列敲,Shannon取值為0阱佛。

開篇的故事中除了山農(nóng),辛普森(Simpson)的工資也很高戴而,接下來我們還是從宏基因組微生態(tài)學的角度說明下原因凑术。
Simpson指數(shù)的計算方法如下:
D_{simpson} =\sum_{i=1}^{S_{obs}}p_i^2
這個公式相對來說比shannon更好理解一些。p_i=\frac{n_i}{N_i} 所意,可理解為從當前的菌群中隨機挑選1個細菌淮逊,這個細菌屬于第i個物種的概率。那么p_i^2就是從當前的菌群中隨機挑選1個細菌扶踊,然后把這個細菌放回去泄鹏,再從這個菌群中隨機挑選1個細菌,這2個細菌都屬于第i個物種的概率秧耗。然后把所有p_i^2加到一起的意義就是在當前的菌群中隨機挑選(有放回抽樣)2個細菌备籽,這兩個細菌屬于同一個物種的概率。
我們繼續(xù)采用極限感知大法
一個極端就是分井,讓群落物種豐度極低且分布極端不均勻车猬,只包含有1種細菌,其他細菌都是0尺锚,即n_1=N珠闰,此時
D_{simpson} =(\frac{n_1}{N}) ^2=1
另一個極端,讓群落物種豐度極端均勻瘫辩,菌群包含S_{obs}種細菌伏嗜,每種細菌的個數(shù)是1,即S_{obs}=N伐厌,此時
D_{simpson} =(\frac{1}{N}) ^2\times S_{obs}=\frac{1}{S_{obs} } 或\frac{1}{N} 承绸。
由此可見,Simpson值在0-1之間挣轨,值越小军熏,多樣性越高,均勻度均勻刃唐。
不過這怎么看著這么別扭呢,為了解決這個問題界轩,通常用Inverse Simpson index(計算方法為1-D_{simpson} )或者Gini–Simpson index(計算方法為\frac{1}{D_{simpson} } )替代Simpson画饥。
搜底斯奈,這下能看出點規(guī)律了吧浊猾。
另外抖甘,對于Simpson指數(shù)的計算,還存在另外一個版本:
D_{simpson} =\frac {\sum_{i=1}^{S_{obs}} {n_i \left ( n_i - 1 \right )}}{N \left( N-1 \right )}?????????????????????????????????????????????????????????????????
兩個版本原理基本一致葫慎,唯一的不同就是這個版本在菌群種隨機挑選2個細菌的時候是無放回抽樣衔彻,而前面那個版本是有放回抽樣薇宠。
那到底用哪個版本呢?
最科學建議是:想用哪個就用哪個艰额!
為什么澄港?
最充分的理由是:看心情!
如果你實在是有選擇困難癥柄沮,建議拋硬幣占卜一下回梧,看天意吧。

電視劇《甄嬛傳》中甄嬛曾吟過一句詩祖搓,“逆風如解意狱意,容易莫摧殘≌罚”详囤,階段性地俘獲了雍正的心。
這句詩的大意是“北風如果能夠理解梅花的心意镐作,就請不要再摧殘她了藏姐。”
可見解意很重要滑肉。對待公式也要充分解意包各,不然有人提問,答不上來靶庙,就是對公式的摧殘问畅。
極限感知大法固然能對公式有個初步的意會,然而真正更直觀的解意可用計算和比較的方法六荒。
比如有這么道判斷題护姆,Shannon和Simpson指數(shù)是否與細菌的絕對豐度有關?
通過公式的推導我們可以解答這類問題掏击,不過用具體的數(shù)字代入計算會更直觀一些卵皂。
如果對公式充分理解的話,計算部分可直接跳過砚亭。
---------------------------------------------規(guī)避各個因素后的計算-------------------------------------
這里我列舉出一組數(shù)據(jù):
A組:2, 3, 6, 9
B組:20, 30, 60, 90
C組:5, 5, 5, 5
D組:5, 5, 5, 5, 5
E組:4, 4, 4, 4, 4
F組:17, 1, 1, 1
求各組數(shù)據(jù)的Shannon和Simpson灯变。
可直接代入公式。
A組捅膘。
N_A=2+3+6+9=20H_{shannon\_A}=-[\frac{2}{20} ln(\frac{2}{20} )+\frac{3}{20} ln(\frac{3}{20} )+\frac{6}{20} ln(\frac{6}{20} )+\frac{9}{20} ln(\frac{9}{20} )]=1.235
D_{simpson\_A} =\frac{2}{20}\times \frac{2}{20}+\frac{3}{20} \times \frac{3}{20}+\frac{6}{20} \times \frac{6}{20}+\frac{9}{20} \times \frac{9}{20}=0.325
B組添祸。
N_B=20+30+60+90=200
H_{shannon\_B}=-[\frac{20}{200} ln(\frac{20}{200} )+\frac{30}{200} ln(\frac{30}{200} )+\frac{60}{200} ln(\frac{60}{200} )+\frac{90}{200} ln(\frac{90}{200} )]=1.235

D_{simpson\_B} =\frac{20}{200}\times \frac{20}{200}+\frac{30}{200} \times \frac{30}{200}+\frac{60}{200} \times \frac{60}{200}+\frac{90}{200} \times \frac{90}{200}=0.325
數(shù)據(jù)占比相同的情況下,AB兩組的兩個參數(shù)相等寻仗,原因是這兩個參數(shù)只與p_i=\frac{n_i}{N} 有關刃泌,與n_iN兩個絕對豐度無關。
C組。
N_C=5+5+5+5=20
H_{shannon\_C}=-[\frac{5}{20} ln(\frac{5}{20})\times 4]=1.386
D_{simpson\_C} =(\frac{5}{20}\times \frac{5}{20} )\times 4=0.25
D組耙替。
N_D=5+5+5+5+5=25
H_{shannon\_D}=-[\frac{5}{25} ln(\frac{5}{25})\times 5]=1.609
D_{simpson\_D} =(\frac{4}{20}\times \frac{4}{20})\times 5=0.2
E組亚侠。
N_E=4+4+4+4+4=20
H_{shannon\_E}=-[\frac{4}{20} ln(\frac{4}{20})\times 5]=1.609
D_{simpson\_E} =( \frac{4}{20}\times \frac{4}{20} )\times 5=0.2
F組。
N_F=17+1+1+1=20
H_{shannon\_F}=-[\frac{17}{20} ln(\frac{17}{20})+\frac{1}{20} ln(\frac{1}{20})\times 3]=0.5875
D_{simpson\_F} =\frac{17}{20}\times \frac{17}{20}+(\frac{1}{20}\times \frac{1}{20})\times 3=0.7300
C和D規(guī)避了均勻度和n_i的干擾俗扇,物種數(shù)量越多硝烂,Shannon越大,Simpson越小狐援,與n_i無關钢坦。
C和E規(guī)避了均勻度和N的干擾,物種數(shù)量越多啥酱,Shannon越大爹凹,Simpson越小,與N無關镶殷。
D和E基本上與A和B的比較情況一致禾酱,故不再多言。
C和F對比绘趋,N相同的情況下颤陶,不均勻的情況下,Shannon降低陷遮,Simpson升高滓走。
注:這部分磨嘰了點,本糾結(jié)要不要把這部分放上帽馋,還是不糾結(jié)了搅方,一起充分感受一下。
------------------------------------------------------------------------------------------------------------------

綜上所述可見绽族,倘若菌群中幾乎所有的個體都屬于一個物種姨涡,而其他物種非常罕見,即使物種類別有很多吧慢,Shannon也會趨近于0涛漂,Simpsion也會趨于1。當數(shù)據(jù)集中只有一種類型時检诗,Shannon正好等于0匈仗,Simpsion正好等于1。

末了逢慌,我們再回頭想想前面那個小故事悠轩,為什么公司的老板沒炒掉超逸(Chao1)和艾斯(ACE)呢?
因為經(jīng)營一家公司涕癣,山農(nóng)(Shannon)和辛普森(Simpson)這樣全面考慮問題的優(yōu)秀員工公司必然需要哗蜈,但是超逸和艾斯這樣,雖說考慮問題不全面但有一定執(zhí)行力的員工我們也需要坠韩,分工不同嘛距潘。
我們做群落Alpha多樣性分析也是一樣,各類指標都有需求只搁。
當我們只需要知道這堆細菌種有多少物種音比,Chao1和ACE足夠;
想知道多樣性(diversity)呢氢惋?那就是時候祭出Shannon和Simpson了洞翩!
不過呢?
有可能某位大哥會說焰望,
“我就想考察均勻度(Evenness)怎么辦骚亿?”
看來阿爾法老板要繼續(xù)招聘新員工了,
欲知后事如何熊赖,請看下集《群落多樣性之Alpha多樣性(三)》来屠。

備注:此文于2019年3月29日發(fā)于e源微生態(tài)

參考文獻:
[1] https://mothur.org/wiki/Shannon
[2] https://en.wikipedia.org/wiki/Diversity_index#cite_note-Simpson1949-7
[3] Simpson, E. H. (1949). Measurement of diversity. Nature.163: 688.
[4] http://www.countrysideinfo.co.uk/simpsons.htm

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末震鹉,一起剝皮案震驚了整個濱河市俱笛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌传趾,老刑警劉巖迎膜,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異浆兰,居然都是意外死亡磕仅,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門镊讼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宽涌,“玉大人,你說我怎么就攤上這事蝶棋⌒读粒” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵玩裙,是天一觀的道長兼贸。 經(jīng)常有香客問我,道長吃溅,這世上最難降的妖魔是什么溶诞? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮决侈,結(jié)果婚禮上螺垢,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好枉圃,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布功茴。 她就那樣靜靜地躺著,像睡著了一般孽亲。 火紅的嫁衣襯著肌膚如雪坎穿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天返劲,我揣著相機與錄音玲昧,去河邊找鬼。 笑死篮绿,一個胖子當著我的面吹牛孵延,可吹牛的內(nèi)容都是我干的葫笼。 我是一名探鬼主播活合,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼厉萝,長吁一口氣:“原來是場噩夢啊……” “哼束莫!你這毒婦竟也來了糙申?” 一聲冷哼從身側(cè)響起挚赊,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤拨齐,失蹤者是張志新(化名)和其女友劉穎鬓椭,沒想到半個月后鲸睛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體娜饵,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年官辈,在試婚紗的時候發(fā)現(xiàn)自己被綠了箱舞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡拳亿,死狀恐怖晴股,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肺魁,我是刑警寧澤电湘,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站鹅经,受9級特大地震影響寂呛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瘾晃,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一贷痪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蹦误,春花似錦劫拢、人聲如沸肉津。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽阀圾。三九已至,卻和暖如春狗唉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背涡真。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工分俯, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人哆料。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓缸剪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親东亦。 傳聞我的和親對象是個殘疾皇子杏节,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容