在實際生活當中掌动,我們最常見的是正態(tài)分布和拉普拉斯分布,這兩個分布反映了現(xiàn)實生活當中隱藏在數(shù)據(jù)背后的“勢”粗恢。了解這些數(shù)據(jù)的趨勢,才可以讓你更好地了解實際的工作和生活本身匙赞。
正態(tài)分布
我們先來看正態(tài)分布妖碉。正態(tài)分布就是你在課本里曾經(jīng)學過的那個兩頭低涌庭、中間高然后左右軸對稱的鐘形曲線嗅绸。
學術上是這么來定義正態(tài)分布的:“如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認為這個量具有正態(tài)分布”猛拴。
大數(shù)定律研究的是隨機變量序列依概率收斂到其均值的算術平均蚀狰,說白了就是為了說明頻率在概率附近搖擺愉昆,也為我們將頻率當作概率提供了依據(jù)麻蹋。
而中心極限定理要求的是獨立隨機樣本,在中心極限定理下芳室,隨著樣本數(shù)量趨于無窮大,獨立隨機樣本和獨立隨機樣本和的分布會越來越像正態(tài)分布堪侯。
還是用拋骰子的例子來給你解釋一下中心極限定理。比如你拋 6 次骰子發(fā)現(xiàn)求和是 18伍宦,你又拋 6 次發(fā)現(xiàn)加起來是 20,你又拋了 6 次关贵,這次發(fā)現(xiàn)加起來是 25卖毁。如果你拋的次數(shù)足夠多揖曾,你把 18势篡、20模暗、25 等這些數(shù)據(jù)畫出一個圖來,這個圖是符合正態(tài)分布的碍侦。
所以大數(shù)定律和中心極限定理說的不是一個維度的事情。大數(shù)定律算的是概率瓷产,中心極限定理算的是樣本和的分布枚驻。
拉普拉斯分布
還記得我們這節(jié)課開頭提到的房價這件事嗎?理論上房價應該和人的身高一樣再登,在某一個地區(qū)有一個均價,并且整體的房價和身高是一樣呈正態(tài)分布锉矢。但為什么在某一個區(qū)域可能就隔了一條街,房價卻翻了好幾倍灯节,而且數(shù)量也不少?這不符合剛剛說的中心極限定理呀炎疆。
關于這個問題,我的答案是:我們的房價其實和我們的身高是不一樣的偿警,它不是我們想象當中的正態(tài)分布,而是我下面提到的拉普拉斯分布螟蒸。
拉普拉斯分布就和上圖一樣崩掘,是一個“凸”字形的塔尖兒曲線,從左到右苞慢,斜率先緩慢增大再快速增大,到達最高點后變?yōu)樨撝道^續(xù)先快速減小挽放,最后再緩慢地減小,所以有點像“往里邊凹陷的金字塔”
而全國的城市房價分布吗蚌、一個城市當中的小區(qū)房價分布現(xiàn)在也是符合拉普拉斯分布的纯出。因為在信息透明和市場競爭的情況下,工資暂筝、房價、股票都會符合一個特點:越塔尖的個體越具有資源吸附能力焕襟。那么在整體資源恒定的情況下,這已經(jīng)不是一個簡單的符合隨機分布的市場了务漩,簡單來講卫漫,“大勢”變了菲饼。
所以當你在做數(shù)據(jù)分析的時候列赎,一定得先考慮一下镐确,原有的數(shù)據(jù)分布模型是否還適用于現(xiàn)有的市場情況饼煞?
準確把握住數(shù)據(jù)分布這個大勢,我們才能夠做出更為正確的決策息堂。
正態(tài)分布和拉普拉斯分布块促,這是我們在現(xiàn)實生活當中最常用到的兩個分布荣堰。希望這兩個分布能夠幫助你分析工作生活里數(shù)據(jù)背后的“勢”竭翠,做好對生活、工作的決策渡八。
將來無論在什么場景下做數(shù)據(jù)分析传货,數(shù)據(jù)的分布應該能貼合地描述我們社會上的“大勢”屎鳍,所以當你面臨生活中的決策時问裕,而不能就數(shù)據(jù)套數(shù)據(jù)、為了算法而算法貌踏,領域背后的知識對于我們更加重要窟勃。
就像今天我給你講的正態(tài)分布和拉普拉斯分布的例子一樣逗堵,現(xiàn)如今我們的生活中秉氧,有的事物符合正態(tài)分布蜒秤,有的事物符合拉普拉斯分布。就比如說我們在買房的時候攘滩,沒有判斷好我們所處城市的房價到底是正態(tài)分布還是拉普拉斯分布纸泡,很有可能會導致你錯誤的投資決策漂问。
更進一步來說,這兩個數(shù)據(jù)分布其實給我們的工作生活也有一個大的啟示栏饮,那就是為什么會有這樣一句話的流行:“Work Hard, Play Hard”磷仰,因為這句話背后的含義其實是指當你要獲得更多的自由的時候,你也要付出同等的甚至更多的自律(控制自己既能使勁玩也能使勁工作)灶平。當今社會的人才分布是呈拉普拉斯分布的,我們要爭取做頂尖泵殴,這樣才會有更多的資源和機會。
此文章為11月Day21學習筆記笑诅,內(nèi)容來源于極客時間《數(shù)據(jù)分析思維課》疮鲫,強烈推薦該課