數(shù)據(jù)分析必備的統(tǒng)計學(xué)知識（一）

數(shù)據(jù)分析師的必備技能棧里游添，除了熟悉業(yè)務(wù)惨恭、掌握業(yè)務(wù)分析思維和工具外酷麦，還有一個特別重要的知識點，就是統(tǒng)計學(xué)喉恋，無論在簡歷的技能描述中還是實際的面試過程中沃饶，統(tǒng)計學(xué)都是必備的基礎(chǔ)知識。

為什么對于數(shù)據(jù)分析師來說統(tǒng)計學(xué)那么重要轻黑？其實答案顯而易見糊肤，數(shù)據(jù)分析的價值就是通過數(shù)據(jù)去洞察業(yè)務(wù)背后的信息，避免之前的“一拍腦袋決定氓鄙，二拍胸脯保證馆揉，三拍屁股走人”的主觀誤判，一切用數(shù)據(jù)說話抖拦！數(shù)據(jù)怎么能說話呢升酣，算出一個數(shù)據(jù)，怎么知道這個數(shù)據(jù)是好還是壞态罪？有多好有多壞噩茄？兩組數(shù)據(jù)呈現(xiàn)在你面前，怎么判斷這兩組數(shù)據(jù)是否有明顯差異复颈？要回答這些問題绩聘，就必須要用到統(tǒng)計學(xué)知識，而不是相信自己的眼睛耗啦，因為眼睛有時候也會說謊凿菩，你看到的“好”不一定是好，你看到的“沒有差異”不代表沒有差異帜讲。

但是很多剛?cè)腴T的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計學(xué)知識時都很頭疼（也包括我哈哈哈）衅谷，因為統(tǒng)計學(xué)的書籍里都是寫晦澀難懂的公式，真不是一般人能看懂的似将。其實获黔，對于大部分?jǐn)?shù)據(jù)分析師來說，我們并不需要掌握的那么全面和深入玩郊，我們只需要掌握部分知識點肢执，理論看不懂，但是知道在什么場景下用就行译红，用起來你才會慢慢地搞懂预茄！

所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計學(xué)的基礎(chǔ)知識，這里整理了數(shù)據(jù)分析工作中最常見的一些統(tǒng)計學(xué)基礎(chǔ)知識，盡量用簡單白話的形式去解釋耻陕，這樣無論是在面試中還是以后的工作中拙徽，都能把統(tǒng)計學(xué)的知識用起來！

02 數(shù)據(jù)分析中的統(tǒng)計學(xué)

Q1诗宣、什么是辛普森悖論?為什么會出現(xiàn)膘怕？

細(xì)分的結(jié)果和整體的結(jié)果相悖，這就是我們常說的辛普森悖論召庞。辛普森悖論主要是因為2組樣本不均衡岛心，抽樣不合理。正確的試驗實施方案里篮灼，除被測試的變量外忘古，其他可能影響結(jié)果的變量的比例都應(yīng)該保持一致，這就需要對流量進(jìn)行均勻合理的分割诅诱。例如：

如原來男性20人髓堪，點擊1人；女性100人娘荡，點擊99人干旁，總點擊率100/120。

現(xiàn)在男性100人炮沐，點擊6人争群；女性20人，點擊20人央拖，總點擊率26/120祭阀。

男生和女生的點擊率雖然都增加了，但是由于點擊率更高的女生所占的比例過小鲜戒，未能拉動整體的點擊率上升。

Q2抹凳、協(xié)方差與相關(guān)系數(shù)的區(qū)別和聯(lián)系

協(xié)方差：

協(xié)方差表示的是兩個變量的總體的誤差遏餐，這與只表示一個變量誤差的方差不同。如果兩個變量的變化趨勢一致赢底，也就是說如果其中一個大于自身的期望值失都，另外一個也大于自身的期望值，那么兩個變量之間的協(xié)方差就是正值幸冻。如果兩個變量的變化趨勢相反粹庞，即其中一個大于自身的期望值，另外一個卻小于自身的期望值洽损，那么兩個變量之間的協(xié)方差就是負(fù)值庞溜。

相關(guān)系數(shù)：

研究變量之間線性相關(guān)程度的量，取值范圍是[-1,1]碑定。相關(guān)系數(shù)也可以看成協(xié)方差：一種剔除了兩個變量量綱影響流码、標(biāo)準(zhǔn)化后的特殊協(xié)方差又官。

Q3、AB測試統(tǒng)計顯著但實際不顯著是什么原因漫试？

這個可能的原因是我們在AB測試當(dāng)中所選取的樣本量過大六敬，導(dǎo)致和總體數(shù)據(jù)量差異很小，這樣的話即使我們發(fā)現(xiàn)一個細(xì)微的差別驾荣，它在統(tǒng)計上來說是顯著的外构，在實際的案例當(dāng)中可能會變得不顯著了。

舉個栗子播掷，對應(yīng)到我們的互聯(lián)網(wǎng)產(chǎn)品實踐當(dāng)中典勇，我們做了一個改動，APP的啟動時間的優(yōu)化了0.001秒叮趴，這個數(shù)字可能在統(tǒng)計學(xué)上對應(yīng)的P值很小割笙，也就是說統(tǒng)計學(xué)上是顯著的，但是在實際中用戶0.01秒的差異是感知不出來的眯亦。那么這樣一個顯著的統(tǒng)計差別伤溉，其實對我們來說是沒有太大的實際意義的。所以統(tǒng)計學(xué)上的顯著并不意味著實際效果的顯著妻率。

Q4乱顾、怎么理解中心極限定理？

中心極限定理定義：

（1）任何一個樣本的平均值將會約等于其所在總體的平均值宫静。

（2）不管總體是什么分布走净，任意一個總體的樣本平均值都會圍繞在總體的平均值周圍，并且呈正態(tài)分布孤里。

中心極限定理作用：

（1）在沒有辦法得到總體全部數(shù)據(jù)的情況下伏伯，我們可以用樣本來估計總體。

（2）根據(jù)總體的平均值和標(biāo)準(zhǔn)差捌袜，判斷某個樣本是否屬于總體说搅。

Q5、怎么給小孩子講解正態(tài)分布虏等？

拿出小朋友班級的成績表弄唧，每隔2分統(tǒng)計一下人數(shù)（因為小學(xué)一年級大家成績很接近），畫出鐘形霍衫。然后說這就是正態(tài)分布候引，大多數(shù)的人都集中在中間，只有少數(shù)特別好和不夠好敦跌，拿出隔壁班的成績表澄干，讓小朋友自己畫畫看，發(fā)現(xiàn)也是這樣的現(xiàn)象，然后拿出班級的身高表傻寂，發(fā)現(xiàn)也是這個樣子的息尺。

大部分人之間是沒有太大差別的，只有少數(shù)人特別好和不夠好疾掰，這是生活里普遍看到的現(xiàn)象搂誉，這就是正態(tài)分布。

Q6静檬、什么是聚類炭懊？聚類算法有哪幾種？選擇一種詳細(xì)介紹

（1）聚類分析是一種無監(jiān)督的學(xué)習(xí)方法拂檩，根據(jù)一定條件將相對同質(zhì)的樣本歸到一個類（俗話說人以類聚侮腹，物以群分）。

正式一點的：聚類是對點集進(jìn)行考察并按照某種距離測度將他們聚成多個“簇”的過程稻励。聚類的目標(biāo)是使得同一簇內(nèi)的點之間的距離較短父阻，而不同簇中點之間的距離較大。

（2）聚類方法主要有：

a. 層次聚類

層次法（hierarchical methods）望抽，這種方法對給定的數(shù)據(jù)集進(jìn)行層次似的分解加矛，直到某種條件滿足為止。煤篙。具體又可分為“自底向上”和“自頂向下”兩種方案斟览。

b. 劃分聚類：（經(jīng)典算法為kmeans）

劃分法（parTITIoning methods），給定一個有N個元組或者記錄的數(shù)據(jù)集辑奈，分裂法將構(gòu)造K個分組苛茂，每一個分組就代表一個聚類。

c. 密度聚類

基于密度的方法（density-based methods）鸠窗，基于密度的方法與其它方法的一個根本區(qū)別是：它不是基于各種各樣的距離的妓羊，而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點塌鸯。

經(jīng)典算法：DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法侍瑟，該算法采用空間索引技術(shù)來搜索對象的鄰域，引入了“核心對象”和“密度可達(dá)”等概念丙猬，從核心對象出發(fā)，把所有密度可達(dá)的對象組成一個簇费韭。

d. 網(wǎng)格聚類

基于網(wǎng)格的方法（grid-based methods）茧球，這種方法首先將數(shù)據(jù)空間劃分成為有限個單元（cell）的網(wǎng)格結(jié)構(gòu)，所有的處理都是以單個的單元為對象的星持。這么處理的一個突出的優(yōu)點就是處理速度很快抢埋，通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的，它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。

經(jīng)典算法：STING：利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息揪垄，從而實現(xiàn)多分辨率的聚類穷吮。

（3）k-means比較好介紹，選k個點開始作為聚類中心饥努，然后剩下的點根據(jù)距離劃分到類中捡鱼；找到新的類中心；重新分配點酷愧；迭代直到達(dá)到收斂條件或者迭代次數(shù)驾诈。優(yōu)點是快；缺點是要先指定k溶浴，同時對異常值很敏感乍迄。

Q7、線性回歸和邏輯回歸的區(qū)別是什么士败？

線性回歸針對的目標(biāo)變量是區(qū)間型的闯两，邏輯回歸針對的目標(biāo)變量是類別型的，

線性回歸模型的目標(biāo)變量和自變量之間的關(guān)系假設(shè)是線性相關(guān)的谅将，邏輯回歸模型中的目標(biāo)變量和自變量是非線性的漾狼。

線性回歸中通常會用假設(shè)，對應(yīng)于自變量x的某個值戏自，目標(biāo)變量y的觀察值是服從正太分布的邦投。邏輯回歸中目標(biāo)變量y是服從二項分布0和1或者多項分布的

邏輯回歸中不存在線性回歸中常見的殘差。

參數(shù)估值上擅笔，線性回歸采用最小平方法志衣，邏輯回歸采用最大似然法。

Q8猛们、為什么說樸素貝葉斯是“樸素”的念脯？

樸素貝葉斯是一種簡單但極為強(qiáng)大的預(yù)測建模算法。之所以稱為樸素貝葉斯弯淘，是因為它假設(shè)每個輸入變量是獨(dú)立的绿店。這是一個強(qiáng)硬的假設(shè)，實際情況并不一定庐橙，但是這項技術(shù)對于絕大部分的復(fù)雜問題仍然非常有效假勿。

Q9、K-Means 和 KNN 的區(qū)別是什么态鳖？

首先转培，這兩個算法解決的是數(shù)據(jù)挖掘中的兩類問題。

K-Means 是聚類算法浆竭，KNN 是分類算法浸须。其次惨寿，這兩個算法分別是兩種不同的學(xué)習(xí)方式。K-Means 是非監(jiān)督學(xué)習(xí)删窒，也就是不需要事先給出分類標(biāo)簽裂垦，而 KNN 是有監(jiān)督學(xué)習(xí)，需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識肌索。最后蕉拢，K 值的含義不同。K-Means 中的 K 值代表 K 類驶社。KNN 中的 K 值代表 K 個最接近的鄰居企量。

Q10、邏輯回歸和線性回歸的區(qū)別亡电？

線性回歸要求因變量必須是連續(xù)性數(shù)據(jù)變量届巩；邏輯回歸要求因變量必須是分類變量，二分類或者多分類的份乒；比如要分析性別恕汇、年齡、身高或辖、飲食習(xí)慣對于體重的影響瘾英，如果這個體重是屬于實際的重量，是連續(xù)性的數(shù)據(jù)變量颂暇，這個時候就用線性回歸來做缺谴；如果將體重分類，分成了高耳鸯、中湿蛔、低這三種體重類型作為因變量，則采用logistic回歸县爬。兩者的區(qū)別還體現(xiàn)在以下方面：

一阳啥、性質(zhì)不同

1、邏輯回歸：是一種廣義的線性回歸分析模型财喳。

2察迟、線性回歸：利用數(shù)理統(tǒng)計中回歸分析，來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法耳高。

二扎瓶、應(yīng)用不同

1、邏輯回歸：常用于數(shù)據(jù)挖掘泌枪，疾病自動診斷栗弟，經(jīng)濟(jì)預(yù)測等領(lǐng)域。

2工闺、線性回歸：常運(yùn)用于數(shù)學(xué)乍赫、金融、趨勢線陆蟆、經(jīng)濟(jì)學(xué)等領(lǐng)域雷厂。

以上就是【數(shù)分面試寶典】系列—統(tǒng)計學(xué)基礎(chǔ)知識第1篇文章的內(nèi)容，部分歷史文章請回翻公眾號叠殷，更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中改鲫，敬請期待，如果覺得不錯林束，也歡迎分享像棘、點贊和收藏哈~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市壶冒，隨后出現(xiàn)的幾起案子缕题，更是在濱河造成了極大的恐慌，老刑警劉巖胖腾，帶你破解...
沈念sama閱讀 221,198評論 6贊 514
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件烟零，死亡現(xiàn)場離奇詭異，居然都是意外死亡咸作，警方通過查閱死者的電腦和手機(jī)锨阿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,334評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來记罚，“玉大人墅诡，你說我怎么就攤上這事⊥┲牵” “怎么了末早？”我有些...
開封第一講書人閱讀 167,643評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長酵使。經(jīng)常有香客問我荐吉，道長，這世上最難降的妖魔是什么口渔？我笑而不...
開封第一講書人閱讀 59,495評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任样屠，我火速辦了婚禮，結(jié)果婚禮上缺脉，老公的妹妹穿的比我還像新娘痪欲。我一直安慰自己，他們只是感情好攻礼，可當(dāng)我...
茶點故事閱讀 68,502評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布业踢。她就那樣靜靜地躺著，像睡著了一般礁扮。火紅的嫁衣襯著肌膚如雪知举。梳的紋絲不亂的頭發(fā)上瞬沦，一...
開封第一講書人閱讀 52,156評論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音雇锡，去河邊找鬼逛钻。笑死，一個胖子當(dāng)著我的面吹牛锰提，可吹牛的內(nèi)容都是我干的曙痘。我是一名探鬼主播，決...
沈念sama閱讀 40,743評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼立肘，長吁一口氣：“原來是場噩夢啊……” “哼边坤！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起谅年，我...
開封第一講書人閱讀 39,659評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤茧痒，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后踢故，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體文黎，經(jīng)...
沈念sama閱讀 46,200評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,282評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年殿较，在試婚紗的時候發(fā)現(xiàn)自己被綠了耸峭。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,424評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡淋纲，死狀恐怖劳闹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情洽瞬，我是刑警寧澤本涕，帶...
沈念sama閱讀 36,107評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站伙窃，受9級特大地震影響菩颖，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜为障，卻給世界環(huán)境...
茶點故事閱讀 41,789評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一晦闰、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧鳍怨，春花似錦呻右、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,264評論 0贊 23
一樁弒父案声滥，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至侦香，卻和暖如春落塑，著一層夾襖步出監(jiān)牢的瞬間纽疟，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,390評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工芜赌，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留仰挣，地道東北人。一個月前我還...
沈念sama閱讀 48,798評論 3贊 376
代替公主和親
正文我出身青樓缠沈，卻偏偏與公主長得像，于是被迫代替她去往敵國和親错蝴。傳聞我的和親對象是個殘疾皇子洲愤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,435評論 2贊 359