數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)(三)

01 寫(xiě)在前面

數(shù)據(jù)分析師的必備技能棧里嚷缭,除了熟悉業(yè)務(wù)、掌握業(yè)務(wù)分析思維和工具外耍贾,還有一個(gè)特別重要的知識(shí)點(diǎn)阅爽,就是統(tǒng)計(jì)學(xué),無(wú)論在簡(jiǎn)歷的技能描述中還是實(shí)際的面試過(guò)程中荐开,統(tǒng)計(jì)學(xué)都是必備的基礎(chǔ)知識(shí)优床。

為什么對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)統(tǒng)計(jì)學(xué)那么重要?其實(shí)答案顯而易見(jiàn)誓焦,數(shù)據(jù)分析的價(jià)值就是通過(guò)數(shù)據(jù)去洞察業(yè)務(wù)背后的信息胆敞,避免之前的“一拍腦袋決定,二拍胸脯保證杂伟,三拍屁股走人”的主觀誤判移层,一切用數(shù)據(jù)說(shuō)話!數(shù)據(jù)怎么能說(shuō)話呢赫粥,算出一個(gè)數(shù)據(jù)观话,怎么知道這個(gè)數(shù)據(jù)是好還是壞?有多好有多壞越平??jī)山M數(shù)據(jù)呈現(xiàn)在你面前频蛔,怎么判斷這兩組數(shù)據(jù)是否有明顯差異?要回答這些問(wèn)題秦叛,就必須要用到統(tǒng)計(jì)學(xué)知識(shí)晦溪,而不是相信自己的眼睛,因?yàn)檠劬τ袝r(shí)候也會(huì)說(shuō)謊挣跋,你看到的“好”不一定是好三圆,你看到的“沒(méi)有差異”不代表沒(méi)有差異。

但是很多剛?cè)腴T(mén)的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí)時(shí)都很頭疼(也包括我哈哈哈)避咆,因?yàn)榻y(tǒng)計(jì)學(xué)的書(shū)籍里都是寫(xiě)晦澀難懂的公式舟肉,真不是一般人能看懂的。其實(shí)查库,對(duì)于大部分?jǐn)?shù)據(jù)分析師來(lái)說(shuō)路媚,我們并不需要掌握的那么全面和深入,我們只需要掌握部分知識(shí)點(diǎn)樊销,理論看不懂整慎,但是知道在什么場(chǎng)景下用就行适荣,用起來(lái)你才會(huì)慢慢地搞懂!

所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)院领,這里整理了數(shù)據(jù)分析工作中最常見(jiàn)的一些統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),盡量用簡(jiǎn)單白話的形式去解釋够吩,這樣無(wú)論是在面試中還是以后的工作中比然,都能把統(tǒng)計(jì)學(xué)的知識(shí)用起來(lái)!

02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)

Q1周循、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?

講顯著性水平α我們就得提到前面文章中提到的第一類錯(cuò)誤和第二類錯(cuò)誤强法,可以翻看系列文章:【數(shù)分面試寶典】數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)(一)

我們還是舉之前談戀愛(ài)的栗子,面前有一個(gè)男生湾笛,我們有2個(gè)假設(shè):

H0:一個(gè)真心愛(ài)你的男生

H1:一個(gè)不是真心愛(ài)你的男生

如果H0實(shí)際上成立饮怯,而你憑經(jīng)驗(yàn)拒絕了H0,也就是說(shuō)嚎研,你拒絕了一個(gè)你認(rèn)為不愛(ài)你而實(shí)際上真心愛(ài)你的男生蓖墅,那么你就犯了第一類“棄真”錯(cuò)誤,也稱為α風(fēng)險(xiǎn)临扮,錯(cuò)殺了好人论矾;

如果H0實(shí)際上不成立,而你接受了H0杆勇,同樣的道理贪壳,你接受了一個(gè)你感覺(jué)愛(ài)你而實(shí)際上并不愛(ài)你的男生,那么你就犯了第二類“納偽”錯(cuò)誤蚜退,也稱為β風(fēng)險(xiǎn)闰靴,放走了壞人。

第一類錯(cuò)誤和第二類錯(cuò)誤這兩個(gè)錯(cuò)誤概率互相制約钻注,你大我就會(huì)變小蚂且,你小我就會(huì)變大,基于保護(hù)零假設(shè)的原則幅恋,我們一般把一類錯(cuò)誤概率固定住膘掰,讓第一類錯(cuò)誤概率不超過(guò)某個(gè)閥值(也就是α值),也就是我們常說(shuō)的“顯著性水平α”佳遣,即代表好人被冤枉的概率识埋。通常情況下,我們不希望好人被冤枉零渐,所以顯著性水平α通常比較小窒舟。

顯著性水平α是你冤枉好人的可能性,然而诵盼,每個(gè)人在這一點(diǎn)上是有分歧的惠豺,有的人希望α大一點(diǎn)兒枷莉,有的人希望α小一點(diǎn)兒(α越大,意味著檢驗(yàn)越嚴(yán)格哀九,我們?cè)┩骱萌说母怕示驮酱螅?/p>

在這種情況下掉弛,我們就期望回答一個(gè)問(wèn)題:對(duì)于面前的這個(gè)男生,我們不會(huì)冤枉他的最嚴(yán)格的檢驗(yàn)水平热监,即最大的α是多少呢捺弦?得到了這個(gè)問(wèn)題的答案,我們就可以輕松完成在任意嚴(yán)格程度上的檢驗(yàn)了孝扛,即如果α大于這個(gè)值列吼,那么我們就認(rèn)為該男生不喜歡你,反之亦可苦始。

而這個(gè)最大的α,就是我們的P值陌选。只是這2個(gè)概念是有明顯的區(qū)別的理郑。顯著性水平α是在每次統(tǒng)計(jì)檢驗(yàn)之前人為規(guī)定的,通常取α=0.05或α=0.01宴霸。這表明囱晴,當(dāng)做出拒絕原假設(shè)的決定時(shí),其犯錯(cuò)誤的可能性為α=0.05或α=0.01瓢谢,而P值是根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算得出的畸写。如果計(jì)算出來(lái)的概率(P值)小于這個(gè)標(biāo)準(zhǔn)(顯著性水平α),就說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性很小氓扛,那就可以放心地拒絕原假設(shè)枯芬,認(rèn)為這個(gè)男生確實(shí)是不愛(ài)你的;反之采郎,大于這個(gè)標(biāo)準(zhǔn)則說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性較大千所,那還是接受原假設(shè),也就是沒(méi)有充足的證據(jù)蒜埋,認(rèn)為這個(gè)男生還是愛(ài)你的淫痰。

Q2、如何理解置信度與置信區(qū)間整份?

置信區(qū)間是我們所計(jì)算出的變量存在的范圍待错,置信水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范圍的可信程度籽孙。

舉例來(lái)講,如果我們有95%的把握火俄,讓真正的數(shù)值在我們所計(jì)算的范圍里犯建,那么在這里,95%是置信水平瓜客,而計(jì)算出的范圍适瓦,就是置信區(qū)間。

如果置信度為95%忆家, 則抽取100個(gè)樣本來(lái)估計(jì)總體的均值,由100個(gè)樣本所構(gòu)造的100個(gè)區(qū)間中德迹,約有95個(gè)區(qū)間包含總體均值芽卿。

Q3、如何理解極大似然估計(jì)胳搞?

利用已知的樣本結(jié)果卸例,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值〖∫悖“似然”是“像這個(gè)樣子”的意思筷转。

極大似然估計(jì),通俗理解來(lái)說(shuō)悬而,就是利用已知的樣本結(jié)果信息呜舒,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值!換句話說(shuō)笨奠,極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法袭蝗,即:“模型已定,參數(shù)未知”般婆。

假如有一個(gè)黑箱子到腥,里面有黑白兩種顏色的球,數(shù)目多少不知蔚袍,兩種顏色的比例也不知乡范。我們想知道箱子中白球和黑球的比例,但我們不能把箱子中的球全部拿出來(lái)數(shù)∑⊙剩現(xiàn)在我們可以每次任意從已經(jīng)搖勻的箱子中拿一個(gè)球出來(lái)晋辆,記錄球的顏色,然后把拿出來(lái)的球再放回箱中宇整。這個(gè)過(guò)程可以重復(fù)栈拖,我們可以用記錄的球的顏色來(lái)估計(jì)箱中黑白球的比例。假如在前面的一百次重復(fù)記錄中没陡,有70次是白球涩哟,請(qǐng)問(wèn)箱子中白球所占的比例最有可能是多少索赏?

很多人馬上就有答案了:70%。而其后的理論支撐是什么呢贴彼?

我們假設(shè)罐中白球的比例是p潜腻,那么黑球的比例就是1-p。因?yàn)槊砍橐粋€(gè)球出來(lái)器仗,在記錄顏色之后融涣,我們把抽出的球放回了罐中并搖勻,所以每次抽出來(lái)的球的顏色服從同一獨(dú)立分布精钮。

這里我們把一次抽出來(lái)球的顏色稱為一次抽樣威鹿。題目中在一百次抽樣中,70次是白球的,30次為黑球事件的概率是P(樣本結(jié)果|Model)轨香。

如果第一次抽象的結(jié)果記為x1,第二次抽樣的結(jié)果記為x2....那么樣本結(jié)果為(x1,x2.....,x100)忽你。這樣,我們可以得到如下表達(dá)式:

P(樣本結(jié)果|Model)

  = P(x1,x2,…,x100|Model)

  = P(x1|Model)P(x2|Model)…P(x100|Model)

  = p^70(1-p)^30.

好的臂容,我們已經(jīng)有了觀察樣本結(jié)果出現(xiàn)的概率表達(dá)式了科雳。那么我們要求的模型的參數(shù),也就是求的式中的p脓杉。

那么我們?cè)趺磥?lái)求這個(gè)p呢糟秘?

不同的p,直接導(dǎo)致P(樣本結(jié)果|Model)的不同球散。

好的尿赚,我們的p實(shí)際上是有無(wú)數(shù)多種分布的。如下:

那么求出 p^70(1-p)^30為 7.8 * 10^(-31)

p的分布也可以是如下:

那么也可以求出p^70(1-p)^30為2.95* 10^(-27)

那么問(wèn)題來(lái)了蕉堰,既然有無(wú)數(shù)種分布可以選擇吼畏,極大似然估計(jì)應(yīng)該按照什么原則去選取這個(gè)分布呢?

答:采取的方法是讓這個(gè)樣本結(jié)果出現(xiàn)的可能性最大嘁灯,也就是使得p^70(1-p)^30值最大泻蚊,那么我們就可以看成是p的方程,求導(dǎo)即可丑婿!

那么既然事情已經(jīng)發(fā)生了性雄,為什么不讓這個(gè)出現(xiàn)的結(jié)果的可能性最大呢?這也就是最大似然估計(jì)的核心羹奉。

我們想辦法讓觀察樣本出現(xiàn)的概率最大秒旋,轉(zhuǎn)換為數(shù)學(xué)問(wèn)題就是使得:

p^70(1-p)^30最大,這太簡(jiǎn)單了诀拭,未知數(shù)只有一個(gè)p迁筛,我們令其導(dǎo)數(shù)為0,即可求出p為70%耕挨,與我們一開(kāi)始認(rèn)為的70%是一致的细卧。其中蘊(yùn)含著我們的數(shù)學(xué)思想在里面尉桩。

Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法贪庙,并敘述其優(yōu)缺點(diǎn)

非參數(shù)統(tǒng)計(jì):對(duì)總體的分布不作假設(shè)或僅作非常一般性假設(shè)條件下的統(tǒng)計(jì)方法蜘犁。

機(jī)器學(xué)習(xí):決策樹(shù),隨機(jī)森林止邮,SVM这橙;

假設(shè)檢驗(yàn):符號(hào),符號(hào)秩导披,秩和檢驗(yàn)

優(yōu)點(diǎn):

非參數(shù)統(tǒng)計(jì)方法要求的假定條件比較少屈扎,因而它的適用范圍比較廣泛。

多數(shù)非參數(shù)統(tǒng)計(jì)方法要求的思想與運(yùn)算比較簡(jiǎn)單撩匕,可以迅速完成計(jì)算取得結(jié)果鹰晨。

缺點(diǎn):

由于方法簡(jiǎn)單,用的計(jì)量水準(zhǔn)較低滑沧,因此并村,如果能與參數(shù)統(tǒng)計(jì)方法同時(shí)使用時(shí)巍实,就不如參數(shù)統(tǒng)計(jì)方法敏感滓技。若為追求簡(jiǎn)單而使用非參數(shù)統(tǒng)計(jì)方法,其檢驗(yàn)功效就要差些棚潦。這就是說(shuō)令漂,在給定的顯著性水平下進(jìn)行檢驗(yàn)時(shí),非參數(shù)統(tǒng)計(jì)方法與參數(shù)統(tǒng)計(jì)方法相比丸边,第Ⅱ類錯(cuò)誤的概率β要大些叠必。

對(duì)于大樣本,如不采用適當(dāng)?shù)慕泼媒眩?jì)算可能變得十分復(fù)雜纬朝。

Q5、如何簡(jiǎn)單理解過(guò)擬合骄呼?如何防止過(guò)擬合共苛?

好比你想找個(gè)女朋友。

你可能會(huì)先找你表妹問(wèn)她喜歡什么蜓萄,表妹說(shuō)她喜歡陽(yáng)光干凈的男生隅茎,還說(shuō)她喜歡王力宏,喜歡火鍋嫉沽,喜歡日料辟犀,七七八八合計(jì)一百個(gè)愛(ài)好。你規(guī)規(guī)矩矩地按照這個(gè)標(biāo)準(zhǔn)學(xué)訓(xùn)練自己绸硕,終于符合表妹的一切要求堂竟,完美零誤差魂毁,訓(xùn)練完成,超級(jí)自信準(zhǔn)備出去試試追個(gè)妹子跃捣。

可是換了個(gè)妹子漱牵,發(fā)現(xiàn)學(xué)到的完全沒(méi)用。第二個(gè)妹子只要你陽(yáng)光干凈疚漆。剩下的她都不care酣胀,她甚至討厭王力宏,那后面的那些只會(huì)增加誤差娶聘。這就事過(guò)擬合了闻镶。

怎么防止過(guò)擬合呢?應(yīng)該用cross validation丸升,交叉比對(duì)铆农。解釋起來(lái)就是,你在你表妹那兒學(xué)到的東西狡耻,在你表姐那兒測(cè)試一下對(duì)不對(duì)墩剖。在你表姐那兒學(xué)到的,在你女同學(xué)那測(cè)試一下夷狰。來(lái)來(lái)回回用不同的測(cè)試對(duì)象和訓(xùn)練對(duì)象做交叉比對(duì)岭皂。這樣學(xué)到規(guī)律就不會(huì)過(guò)擬合啦。

以上就是【數(shù)分面試寶典】系列—統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)第3篇文章的內(nèi)容沼头,部分歷史文章請(qǐng)回翻及時(shí)文章爷绘,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中,敬請(qǐng)期待进倍,如果覺(jué)得不錯(cuò)土至,也歡迎分享、點(diǎn)贊和收藏哈~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末猾昆,一起剝皮案震驚了整個(gè)濱河市陶因,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌垂蜗,老刑警劉巖楷扬,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異么抗,居然都是意外死亡毅否,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)蝇刀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)螟加,“玉大人,你說(shuō)我怎么就攤上這事±μ剑” “怎么了然爆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)黍图。 經(jīng)常有香客問(wèn)我曾雕,道長(zhǎng),這世上最難降的妖魔是什么助被? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任剖张,我火速辦了婚禮,結(jié)果婚禮上揩环,老公的妹妹穿的比我還像新娘搔弄。我一直安慰自己,他們只是感情好丰滑,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布顾犹。 她就那樣靜靜地躺著,像睡著了一般褒墨。 火紅的嫁衣襯著肌膚如雪炫刷。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天郁妈,我揣著相機(jī)與錄音浑玛,去河邊找鬼。 笑死圃庭,一個(gè)胖子當(dāng)著我的面吹牛锄奢,可吹牛的內(nèi)容都是我干的失晴。 我是一名探鬼主播剧腻,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼涂屁!你這毒婦竟也來(lái)了书在?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤拆又,失蹤者是張志新(化名)和其女友劉穎儒旬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體帖族,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡栈源,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了竖般。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片甚垦。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出艰亮,到底是詐尸還是另有隱情闭翩,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布迄埃,位于F島的核電站疗韵,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏侄非。R本人自食惡果不足惜蕉汪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逞怨。 院中可真熱鬧肤无,春花似錦、人聲如沸骇钦。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)眯搭。三九已至窥翩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鳞仙,已是汗流浹背寇蚊。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棍好,地道東北人仗岸。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像借笙,于是被迫代替她去往敵國(guó)和親扒怖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容