5個(gè)統(tǒng)計(jì)基本概念譬涡!數(shù)據(jù)分析師必須要了解

從高的角度來(lái)看,統(tǒng)計(jì)學(xué)是一種利用數(shù)學(xué)理論來(lái)進(jìn)行數(shù)據(jù)分析的技術(shù)啥辨。象柱狀圖這種基本的可視化形式涡匀,會(huì)給你更加全面的信息。但是溉知,通過(guò)統(tǒng)計(jì)學(xué)我們可以以更富有信息驅(qū)動(dòng)力和針對(duì)性的方式對(duì)數(shù)據(jù)進(jìn)行操作陨瘩。所涉及的數(shù)學(xué)理論幫助我們形成數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測(cè)级乍。

利用統(tǒng)計(jì)學(xué)拾酝,我們可以更深入、更細(xì)致地觀察數(shù)據(jù)是如何進(jìn)行精確組織的卡者,并且基于這種組織結(jié)構(gòu)蒿囤,如何能夠以最佳的形式來(lái)應(yīng)用其它相關(guān)的技術(shù)以獲取更多的信息。今天崇决,我們來(lái)看看數(shù)據(jù)分析師需要掌握的5個(gè)基本的統(tǒng)計(jì)學(xué)概念材诽,以及如何有效地進(jìn)行應(yīng)用。

01 特征統(tǒng)計(jì)

特征統(tǒng)計(jì)可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計(jì)學(xué)概念恒傻。它是你在研究數(shù)據(jù)集時(shí)經(jīng)常使用的統(tǒng)計(jì)技術(shù)脸侥,包括偏差、方差盈厘、平均值睁枕、中位數(shù)、百分?jǐn)?shù)等等沸手。理解特征統(tǒng)計(jì)并且在代碼中實(shí)現(xiàn)都是非常容易的外遇。請(qǐng)看下圖:

上圖中,中間的直線表示數(shù)據(jù)的中位數(shù)契吉。中位數(shù)用在平均值上跳仿,因?yàn)樗鼘?duì)異常值更具有魯棒性。第一個(gè)四分位數(shù)本質(zhì)上是第二十五百分位數(shù)捐晶,即數(shù)據(jù)中的25%要低于該值菲语。第三個(gè)四分位數(shù)是第七十五百分位數(shù)妄辩,即數(shù)據(jù)中的75%要低于該值。而最大值和最小值表示該數(shù)據(jù)范圍的上下兩端山上。

箱形圖很好地說(shuō)明了基本統(tǒng)計(jì)特征的作用:

當(dāng)箱形圖很短時(shí)眼耀,就意味著很多數(shù)據(jù)點(diǎn)是相似的,因?yàn)楹芏嘀凳窃谝粋€(gè)很小的范圍內(nèi)分布佩憾;

當(dāng)箱形圖較高時(shí)哮伟,就意味著大部分的數(shù)據(jù)點(diǎn)之間的差異很大,因?yàn)檫@些值分布的很廣鸯屿;

如果中位數(shù)接近了底部澈吨,那么大部分的數(shù)據(jù)具有較低的值。如果中位數(shù)比較接近頂部寄摆,那么大多數(shù)的數(shù)據(jù)具有更高的值谅辣。基本上婶恼,如果中位線不在框的中間桑阶,那么就表明了是偏斜數(shù)據(jù);

如果框上下兩邊的線很長(zhǎng)表示數(shù)據(jù)具有很高的標(biāo)準(zhǔn)偏差和方差勾邦,意味著這些值被分散了蚣录,并且變化非常大。如果在框的一邊有長(zhǎng)線眷篇,另一邊的不長(zhǎng)萎河,那么數(shù)據(jù)可能只在一個(gè)方向上變化很大;

02 概率分布

我們可以將概率定義為一些事件將要發(fā)生的可能性大小蕉饼,以百分?jǐn)?shù)來(lái)表示虐杯。在數(shù)據(jù)科學(xué)領(lǐng)域中,這通常被量化到0到1的區(qū)間范圍內(nèi)昧港,其中0表示事件確定不會(huì)發(fā)生擎椰,而1表示事件確定會(huì)發(fā)生。那么创肥,概率分布就是表示所有可能值出現(xiàn)的幾率的函數(shù)达舒。請(qǐng)看下圖:

常見(jiàn)的概率分布,均勻分布(上)叹侄、正態(tài)分布(中間)巩搏、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個(gè)只出現(xiàn)在一定范圍內(nèi)的值圈膏,而在該范圍之外的都是0塔猾。我們也可以把它考慮為是一個(gè)具有兩個(gè)分類(lèi)的變量:0或另一個(gè)值。分類(lèi)變量可能具有除0之外的多個(gè)值稽坤,但我們?nèi)匀豢梢詫⑵淇梢暬癁槎鄠€(gè)均勻分布的分段函數(shù);

正態(tài)分布丈甸,通常也稱(chēng)為高斯分布,具體是由它的平均值和標(biāo)準(zhǔn)偏差來(lái)定義的尿褪。平均值是在空間上來(lái)回變化位置進(jìn)行分布的睦擂,而標(biāo)準(zhǔn)偏差控制著它的分布擴(kuò)散范圍。與其它的分布方式的主要區(qū)別在于杖玲,在所有方向上標(biāo)準(zhǔn)偏差是相同的顿仇。因此,通過(guò)高斯分布摆马,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的擴(kuò)散分布臼闻,即它在比較廣的范圍上擴(kuò)展,還是主要圍繞在少數(shù)幾個(gè)值附近集中分布囤采。

泊松分布與正態(tài)分布相似述呐,但存在偏斜率。象正態(tài)分布一樣蕉毯,在偏斜度值較低的情況下乓搬,泊松分布在各個(gè)方向上具有相對(duì)均勻的擴(kuò)散。但是代虾,當(dāng)偏斜度值非常大的時(shí)候进肯,我們的數(shù)據(jù)在不同方向上的擴(kuò)散將會(huì)是不同的。在一個(gè)方向上棉磨,數(shù)據(jù)的擴(kuò)散程度非常高江掩,而在另一個(gè)方向上,擴(kuò)散的程度則非常低乘瓤。

如果遇到一個(gè)高斯分布环形,那么我們知道有很多算法,在默認(rèn)情況下高思分布將會(huì)被執(zhí)行地很好馅扣,因此首先應(yīng)該找到那些算法斟赚。如果是泊松分布,我們必須要特別謹(jǐn)慎差油,選擇一個(gè)在空間擴(kuò)展上對(duì)變化要有很好魯棒性的算法拗军。

03 降維

降維這個(gè)術(shù)語(yǔ)可以很直觀的理解,意思是降低一個(gè)數(shù)據(jù)集的維數(shù)蓄喇。在數(shù)據(jù)科學(xué)中发侵,這是特征變量的數(shù)量。請(qǐng)看下圖:

上圖中的立方體表示我們的數(shù)據(jù)集妆偏,它有3個(gè)維度刃鳄,總共1000個(gè)點(diǎn)。以現(xiàn)在的計(jì)算能力钱骂,計(jì)算1000個(gè)點(diǎn)很容易叔锐,但如果更大的規(guī)模挪鹏,就會(huì)遇到麻煩了。然而愉烙,僅僅從二維的角度來(lái)看我們的數(shù)據(jù)讨盒,比如從立方體一側(cè)的角度,可以看到劃分所有的顏色是很容易的步责。

通過(guò)降維返顺,我們將3D數(shù)據(jù)展現(xiàn)到2D平面上,這有效地把我們需要計(jì)算的點(diǎn)的數(shù)量減少到100個(gè)蔓肯,大大節(jié)省了計(jì)算量遂鹊。

另一種方式是我們可以通過(guò)特征剪枝來(lái)減少維數(shù)。利用這種方法蔗包,我們刪除任何所看到的特征對(duì)分析都不重要秉扑。

例如,在研究數(shù)據(jù)集之后气忠,我們可能會(huì)發(fā)現(xiàn)邻储,在10個(gè)特征中,有7個(gè)特征與輸出具有很高的相關(guān)性旧噪,而其它3個(gè)則具有非常低的相關(guān)性吨娜。那么,這3個(gè)低相關(guān)性的特征可能不值得計(jì)算淘钟,我們可能只是能在不影響輸出的情況下將它們從分析中去掉宦赠。

用于降維的最常見(jiàn)的統(tǒng)計(jì)技術(shù)是PCA,它本質(zhì)上創(chuàng)建了特征的向量表示米母,表明了它們對(duì)輸出的重要性勾扭,即相關(guān)性。PCA可以用來(lái)進(jìn)行上述兩種降維方式的操作铁瞒。

04 過(guò)采樣和欠采樣

過(guò)采樣和欠采樣是用于分類(lèi)問(wèn)題的技術(shù)妙色。例如,我們有1種分類(lèi)的2000個(gè)樣本慧耍,但第2種分類(lèi)只有200個(gè)樣本身辨。這將拋開(kāi)我們嘗試和使用的許多機(jī)器學(xué)習(xí)技術(shù)來(lái)給數(shù)據(jù)建模并進(jìn)行預(yù)測(cè)。那么芍碧,過(guò)采樣和欠采樣可以應(yīng)對(duì)這種情況煌珊。請(qǐng)看下圖:

在上面圖中的左右兩側(cè),藍(lán)色分類(lèi)比橙色分類(lèi)有更多的樣本泌豆。在這種情況下定庵,我們有2個(gè)預(yù)處理選擇,可以幫助機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。

欠采樣意味著我們將只從樣本多的分類(lèi)中選擇一些數(shù)據(jù)蔬浙,而盡量多的使用樣本少的分類(lèi)樣本猪落。這種選擇應(yīng)該是為了保持分類(lèi)的概率分布。我們只是通過(guò)更少的抽樣來(lái)讓數(shù)據(jù)集更均衡敛滋。

過(guò)采樣意味著我們將要?jiǎng)?chuàng)建少數(shù)分類(lèi)的副本许布,以便具有與多數(shù)分類(lèi)相同的樣本數(shù)量兴革。副本將被制作成保持少數(shù)分類(lèi)的分布绎晃。我們只是在沒(méi)有獲得更多數(shù)據(jù)的情況下讓數(shù)據(jù)集更加均衡。

05 貝葉斯統(tǒng)計(jì)

完全理解為什么在我們使用貝葉斯統(tǒng)計(jì)的時(shí)候杂曲,要求首先理解頻率統(tǒng)計(jì)失敗的地方庶艾。大多數(shù)人在聽(tīng)到“概率”這個(gè)詞的時(shí)候,頻率統(tǒng)計(jì)是首先想到的統(tǒng)計(jì)類(lèi)型擎勘。它涉及應(yīng)用一些數(shù)學(xué)理論來(lái)分析事件發(fā)生的概率咱揍,明確地說(shuō),我們唯一計(jì)算的數(shù)據(jù)是先驗(yàn)數(shù)據(jù)(prior data)棚饵。

假設(shè)我給了你一個(gè)骰子煤裙,問(wèn)你擲出6點(diǎn)的幾率是多少,大多數(shù)人都會(huì)說(shuō)是六分之一噪漾。

但是硼砰,如果有人給你個(gè)特定的骰子總能擲出6個(gè)點(diǎn)呢?因?yàn)轭l率分析僅僅考慮之前的數(shù)據(jù),而給你作弊的骰子的因素并沒(méi)有被考慮進(jìn)去欣硼。

貝葉斯統(tǒng)計(jì)確實(shí)考慮了這一點(diǎn)题翰,我們可以通過(guò)貝葉斯法則來(lái)進(jìn)行說(shuō)明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關(guān)于事件發(fā)生概率的數(shù)據(jù)诈胜。方程中的P(E|H)稱(chēng)為可能性豹障,根據(jù)頻率分析得到的信息,實(shí)質(zhì)上是現(xiàn)象正確的概率焦匈。

例如血公,如果你要擲骰子10000次,并且前1000次全部擲出了6個(gè)點(diǎn)缓熟,那么你會(huì)非常自信地認(rèn)為是骰子作弊了累魔。如果頻率分析做的非常好的話,那么我們會(huì)非常自信地確定荚虚,猜測(cè)6個(gè)點(diǎn)是正確的薛夜。同時(shí),如果骰子作弊是真的版述,或者不是基于其自身的先驗(yàn)概率和頻率分析的梯澜,我們也會(huì)考慮作弊的因素。

正如你從方程式中看到的,貝葉斯統(tǒng)計(jì)把一切因素都考慮在內(nèi)了晚伙。當(dāng)你覺(jué)得之前的數(shù)據(jù)不能很好地代表未來(lái)的數(shù)據(jù)和結(jié)果的時(shí)候吮龄,就應(yīng)該使用貝葉斯統(tǒng)計(jì)方法。

End.

作者:George Seif

來(lái)源:中國(guó)統(tǒng)計(jì)網(wǎng)

譯者:奧特曼

The End

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末咆疗,一起剝皮案震驚了整個(gè)濱河市漓帚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌午磁,老刑警劉巖尝抖,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異迅皇,居然都是意外死亡昧辽,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)登颓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)搅荞,“玉大人,你說(shuō)我怎么就攤上這事框咙」就矗” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵喇嘱,是天一觀的道長(zhǎng)茉贡。 經(jīng)常有香客問(wèn)我,道長(zhǎng)婉称,這世上最難降的妖魔是什么块仆? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮王暗,結(jié)果婚禮上悔据,老公的妹妹穿的比我還像新娘。我一直安慰自己俗壹,他們只是感情好科汗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著绷雏,像睡著了一般头滔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上涎显,一...
    開(kāi)封第一講書(shū)人閱讀 51,190評(píng)論 1 299
  • 那天坤检,我揣著相機(jī)與錄音,去河邊找鬼期吓。 笑死早歇,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播箭跳,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼晨另,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了谱姓?” 一聲冷哼從身側(cè)響起借尿,我...
    開(kāi)封第一講書(shū)人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屉来,沒(méi)想到半個(gè)月后路翻,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奶躯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年帚桩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘹黔。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖莫瞬,靈堂內(nèi)的尸體忽然破棺而出儡蔓,到底是詐尸還是另有隱情,我是刑警寧澤疼邀,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布喂江,位于F島的核電站,受9級(jí)特大地震影響旁振,放射性物質(zhì)發(fā)生泄漏获询。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一拐袜、第九天 我趴在偏房一處隱蔽的房頂上張望吉嚣。 院中可真熱鬧,春花似錦蹬铺、人聲如沸尝哆。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)秋泄。三九已至,卻和暖如春规阀,著一層夾襖步出監(jiān)牢的瞬間恒序,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工谁撼, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留歧胁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像与帆,于是被迫代替她去往敵國(guó)和親了赌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容