01 寫(xiě)在前面
數(shù)據(jù)分析師的必備技能棧里嚷缭,除了熟悉業(yè)務(wù)、掌握業(yè)務(wù)分析思維和工具外耍贾,還有一個(gè)特別重要的知識(shí)點(diǎn)阅爽,就是統(tǒng)計(jì)學(xué),無(wú)論在簡(jiǎn)歷的技能描述中還是實(shí)際的面試過(guò)程中荐开,統(tǒng)計(jì)學(xué)都是必備的基礎(chǔ)知識(shí)优床。
為什么對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)統(tǒng)計(jì)學(xué)那么重要?其實(shí)答案顯而易見(jiàn)誓焦,數(shù)據(jù)分析的價(jià)值就是通過(guò)數(shù)據(jù)去洞察業(yè)務(wù)背后的信息胆敞,避免之前的“一拍腦袋決定,二拍胸脯保證杂伟,三拍屁股走人”的主觀誤判移层,一切用數(shù)據(jù)說(shuō)話!數(shù)據(jù)怎么能說(shuō)話呢赫粥,算出一個(gè)數(shù)據(jù)观话,怎么知道這個(gè)數(shù)據(jù)是好還是壞?有多好有多壞越平??jī)山M數(shù)據(jù)呈現(xiàn)在你面前频蛔,怎么判斷這兩組數(shù)據(jù)是否有明顯差異?要回答這些問(wèn)題秦叛,就必須要用到統(tǒng)計(jì)學(xué)知識(shí)晦溪,而不是相信自己的眼睛,因?yàn)檠劬τ袝r(shí)候也會(huì)說(shuō)謊挣跋,你看到的“好”不一定是好三圆,你看到的“沒(méi)有差異”不代表沒(méi)有差異。
但是很多剛?cè)腴T(mén)的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計(jì)學(xué)知識(shí)時(shí)都很頭疼(也包括我哈哈哈)避咆,因?yàn)榻y(tǒng)計(jì)學(xué)的書(shū)籍里都是寫(xiě)晦澀難懂的公式舟肉,真不是一般人能看懂的。其實(shí)查库,對(duì)于大部分?jǐn)?shù)據(jù)分析師來(lái)說(shuō)路媚,我們并不需要掌握的那么全面和深入,我們只需要掌握部分知識(shí)點(diǎn)樊销,理論看不懂整慎,但是知道在什么場(chǎng)景下用就行适荣,用起來(lái)你才會(huì)慢慢地搞懂!
所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)院领,這里整理了數(shù)據(jù)分析工作中最常見(jiàn)的一些統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),盡量用簡(jiǎn)單白話的形式去解釋够吩,這樣無(wú)論是在面試中還是以后的工作中比然,都能把統(tǒng)計(jì)學(xué)的知識(shí)用起來(lái)!
02 數(shù)據(jù)分析中的統(tǒng)計(jì)學(xué)
Q1周循、如何理解假設(shè)檢驗(yàn)中的P值和顯著性水平α?
講顯著性水平α我們就得提到前面文章中提到的第一類錯(cuò)誤和第二類錯(cuò)誤强法,可以翻看系列文章:【數(shù)分面試寶典】數(shù)據(jù)分析必備的統(tǒng)計(jì)學(xué)知識(shí)(一)
我們還是舉之前談戀愛(ài)的栗子,面前有一個(gè)男生湾笛,我們有2個(gè)假設(shè):
H0:一個(gè)真心愛(ài)你的男生
H1:一個(gè)不是真心愛(ài)你的男生
如果H0實(shí)際上成立饮怯,而你憑經(jīng)驗(yàn)拒絕了H0,也就是說(shuō)嚎研,你拒絕了一個(gè)你認(rèn)為不愛(ài)你而實(shí)際上真心愛(ài)你的男生蓖墅,那么你就犯了第一類“棄真”錯(cuò)誤,也稱為α風(fēng)險(xiǎn)临扮,錯(cuò)殺了好人论矾;
如果H0實(shí)際上不成立,而你接受了H0杆勇,同樣的道理贪壳,你接受了一個(gè)你感覺(jué)愛(ài)你而實(shí)際上并不愛(ài)你的男生,那么你就犯了第二類“納偽”錯(cuò)誤蚜退,也稱為β風(fēng)險(xiǎn)闰靴,放走了壞人。
第一類錯(cuò)誤和第二類錯(cuò)誤這兩個(gè)錯(cuò)誤概率互相制約钻注,你大我就會(huì)變小蚂且,你小我就會(huì)變大,基于保護(hù)零假設(shè)的原則幅恋,我們一般把一類錯(cuò)誤概率固定住膘掰,讓第一類錯(cuò)誤概率不超過(guò)某個(gè)閥值(也就是α值),也就是我們常說(shuō)的“顯著性水平α”佳遣,即代表好人被冤枉的概率识埋。通常情況下,我們不希望好人被冤枉零渐,所以顯著性水平α通常比較小窒舟。
顯著性水平α是你冤枉好人的可能性,然而诵盼,每個(gè)人在這一點(diǎn)上是有分歧的惠豺,有的人希望α大一點(diǎn)兒枷莉,有的人希望α小一點(diǎn)兒(α越大,意味著檢驗(yàn)越嚴(yán)格哀九,我們?cè)┩骱萌说母怕示驮酱螅?/p>
在這種情況下掉弛,我們就期望回答一個(gè)問(wèn)題:對(duì)于面前的這個(gè)男生,我們不會(huì)冤枉他的最嚴(yán)格的檢驗(yàn)水平热监,即最大的α是多少呢捺弦?得到了這個(gè)問(wèn)題的答案,我們就可以輕松完成在任意嚴(yán)格程度上的檢驗(yàn)了孝扛,即如果α大于這個(gè)值列吼,那么我們就認(rèn)為該男生不喜歡你,反之亦可苦始。
而這個(gè)最大的α,就是我們的P值陌选。只是這2個(gè)概念是有明顯的區(qū)別的理郑。顯著性水平α是在每次統(tǒng)計(jì)檢驗(yàn)之前人為規(guī)定的,通常取α=0.05或α=0.01宴霸。這表明囱晴,當(dāng)做出拒絕原假設(shè)的決定時(shí),其犯錯(cuò)誤的可能性為α=0.05或α=0.01瓢谢,而P值是根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算得出的畸写。如果計(jì)算出來(lái)的概率(P值)小于這個(gè)標(biāo)準(zhǔn)(顯著性水平α),就說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性很小氓扛,那就可以放心地拒絕原假設(shè)枯芬,認(rèn)為這個(gè)男生確實(shí)是不愛(ài)你的;反之采郎,大于這個(gè)標(biāo)準(zhǔn)則說(shuō)明拒絕原假設(shè)錯(cuò)誤的可能性較大千所,那還是接受原假設(shè),也就是沒(méi)有充足的證據(jù)蒜埋,認(rèn)為這個(gè)男生還是愛(ài)你的淫痰。
Q2、如何理解置信度與置信區(qū)間整份?
置信區(qū)間是我們所計(jì)算出的變量存在的范圍待错,置信水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范圍的可信程度籽孙。
舉例來(lái)講,如果我們有95%的把握火俄,讓真正的數(shù)值在我們所計(jì)算的范圍里犯建,那么在這里,95%是置信水平瓜客,而計(jì)算出的范圍适瓦,就是置信區(qū)間。
如果置信度為95%忆家, 則抽取100個(gè)樣本來(lái)估計(jì)總體的均值,由100個(gè)樣本所構(gòu)造的100個(gè)區(qū)間中德迹,約有95個(gè)區(qū)間包含總體均值芽卿。
Q3、如何理解極大似然估計(jì)胳搞?
利用已知的樣本結(jié)果卸例,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值〖∫悖“似然”是“像這個(gè)樣子”的意思筷转。
極大似然估計(jì),通俗理解來(lái)說(shuō)悬而,就是利用已知的樣本結(jié)果信息呜舒,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值!換句話說(shuō)笨奠,極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法袭蝗,即:“模型已定,參數(shù)未知”般婆。
假如有一個(gè)黑箱子到腥,里面有黑白兩種顏色的球,數(shù)目多少不知蔚袍,兩種顏色的比例也不知乡范。我們想知道箱子中白球和黑球的比例,但我們不能把箱子中的球全部拿出來(lái)數(shù)∑⊙剩現(xiàn)在我們可以每次任意從已經(jīng)搖勻的箱子中拿一個(gè)球出來(lái)晋辆,記錄球的顏色,然后把拿出來(lái)的球再放回箱中宇整。這個(gè)過(guò)程可以重復(fù)栈拖,我們可以用記錄的球的顏色來(lái)估計(jì)箱中黑白球的比例。假如在前面的一百次重復(fù)記錄中没陡,有70次是白球涩哟,請(qǐng)問(wèn)箱子中白球所占的比例最有可能是多少索赏?
很多人馬上就有答案了:70%。而其后的理論支撐是什么呢贴彼?
我們假設(shè)罐中白球的比例是p潜腻,那么黑球的比例就是1-p。因?yàn)槊砍橐粋€(gè)球出來(lái)器仗,在記錄顏色之后融涣,我們把抽出的球放回了罐中并搖勻,所以每次抽出來(lái)的球的顏色服從同一獨(dú)立分布精钮。
這里我們把一次抽出來(lái)球的顏色稱為一次抽樣威鹿。題目中在一百次抽樣中,70次是白球的,30次為黑球事件的概率是P(樣本結(jié)果|Model)轨香。
如果第一次抽象的結(jié)果記為x1,第二次抽樣的結(jié)果記為x2....那么樣本結(jié)果為(x1,x2.....,x100)忽你。這樣,我們可以得到如下表達(dá)式:
P(樣本結(jié)果|Model)
= P(x1,x2,…,x100|Model)
= P(x1|Model)P(x2|Model)…P(x100|Model)
= p^70(1-p)^30.
好的臂容,我們已經(jīng)有了觀察樣本結(jié)果出現(xiàn)的概率表達(dá)式了科雳。那么我們要求的模型的參數(shù),也就是求的式中的p脓杉。
那么我們?cè)趺磥?lái)求這個(gè)p呢糟秘?
不同的p,直接導(dǎo)致P(樣本結(jié)果|Model)的不同球散。
好的尿赚,我們的p實(shí)際上是有無(wú)數(shù)多種分布的。如下:
那么求出 p^70(1-p)^30為 7.8 * 10^(-31)
p的分布也可以是如下:
那么也可以求出p^70(1-p)^30為2.95* 10^(-27)
那么問(wèn)題來(lái)了蕉堰,既然有無(wú)數(shù)種分布可以選擇吼畏,極大似然估計(jì)應(yīng)該按照什么原則去選取這個(gè)分布呢?
答:采取的方法是讓這個(gè)樣本結(jié)果出現(xiàn)的可能性最大嘁灯,也就是使得p^70(1-p)^30值最大泻蚊,那么我們就可以看成是p的方程,求導(dǎo)即可丑婿!
那么既然事情已經(jīng)發(fā)生了性雄,為什么不讓這個(gè)出現(xiàn)的結(jié)果的可能性最大呢?這也就是最大似然估計(jì)的核心羹奉。
我們想辦法讓觀察樣本出現(xiàn)的概率最大秒旋,轉(zhuǎn)換為數(shù)學(xué)問(wèn)題就是使得:
p^70(1-p)^30最大,這太簡(jiǎn)單了诀拭,未知數(shù)只有一個(gè)p迁筛,我們令其導(dǎo)數(shù)為0,即可求出p為70%耕挨,與我們一開(kāi)始認(rèn)為的70%是一致的细卧。其中蘊(yùn)含著我們的數(shù)學(xué)思想在里面尉桩。
Q4、詳細(xì)介紹一種非參數(shù)統(tǒng)計(jì)方法贪庙,并敘述其優(yōu)缺點(diǎn)
非參數(shù)統(tǒng)計(jì):對(duì)總體的分布不作假設(shè)或僅作非常一般性假設(shè)條件下的統(tǒng)計(jì)方法蜘犁。
機(jī)器學(xué)習(xí):決策樹(shù),隨機(jī)森林止邮,SVM这橙;
假設(shè)檢驗(yàn):符號(hào),符號(hào)秩导披,秩和檢驗(yàn)
優(yōu)點(diǎn):
非參數(shù)統(tǒng)計(jì)方法要求的假定條件比較少屈扎,因而它的適用范圍比較廣泛。
多數(shù)非參數(shù)統(tǒng)計(jì)方法要求的思想與運(yùn)算比較簡(jiǎn)單撩匕,可以迅速完成計(jì)算取得結(jié)果鹰晨。
缺點(diǎn):
由于方法簡(jiǎn)單,用的計(jì)量水準(zhǔn)較低滑沧,因此并村,如果能與參數(shù)統(tǒng)計(jì)方法同時(shí)使用時(shí)巍实,就不如參數(shù)統(tǒng)計(jì)方法敏感滓技。若為追求簡(jiǎn)單而使用非參數(shù)統(tǒng)計(jì)方法,其檢驗(yàn)功效就要差些棚潦。這就是說(shuō)令漂,在給定的顯著性水平下進(jìn)行檢驗(yàn)時(shí),非參數(shù)統(tǒng)計(jì)方法與參數(shù)統(tǒng)計(jì)方法相比丸边,第Ⅱ類錯(cuò)誤的概率β要大些叠必。
對(duì)于大樣本,如不采用適當(dāng)?shù)慕泼媒眩?jì)算可能變得十分復(fù)雜纬朝。
Q5、如何簡(jiǎn)單理解過(guò)擬合骄呼?如何防止過(guò)擬合共苛?
好比你想找個(gè)女朋友。
你可能會(huì)先找你表妹問(wèn)她喜歡什么蜓萄,表妹說(shuō)她喜歡陽(yáng)光干凈的男生隅茎,還說(shuō)她喜歡王力宏,喜歡火鍋嫉沽,喜歡日料辟犀,七七八八合計(jì)一百個(gè)愛(ài)好。你規(guī)規(guī)矩矩地按照這個(gè)標(biāo)準(zhǔn)學(xué)訓(xùn)練自己绸硕,終于符合表妹的一切要求堂竟,完美零誤差魂毁,訓(xùn)練完成,超級(jí)自信準(zhǔn)備出去試試追個(gè)妹子跃捣。
可是換了個(gè)妹子漱牵,發(fā)現(xiàn)學(xué)到的完全沒(méi)用。第二個(gè)妹子只要你陽(yáng)光干凈疚漆。剩下的她都不care酣胀,她甚至討厭王力宏,那后面的那些只會(huì)增加誤差娶聘。這就事過(guò)擬合了闻镶。
怎么防止過(guò)擬合呢?應(yīng)該用cross validation丸升,交叉比對(duì)铆农。解釋起來(lái)就是,你在你表妹那兒學(xué)到的東西狡耻,在你表姐那兒測(cè)試一下對(duì)不對(duì)墩剖。在你表姐那兒學(xué)到的,在你女同學(xué)那測(cè)試一下夷狰。來(lái)來(lái)回回用不同的測(cè)試對(duì)象和訓(xùn)練對(duì)象做交叉比對(duì)岭皂。這樣學(xué)到規(guī)律就不會(huì)過(guò)擬合啦。
以上就是【數(shù)分面試寶典】系列—統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)第3篇文章的內(nèi)容沼头,部分歷史文章請(qǐng)回翻及時(shí)文章爷绘,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中,敬請(qǐng)期待进倍,如果覺(jué)得不錯(cuò)土至,也歡迎分享、點(diǎn)贊和收藏哈~