數(shù)據(jù)分析師的必備技能棧里游添,除了熟悉業(yè)務(wù)惨恭、掌握業(yè)務(wù)分析思維和工具外酷麦,還有一個特別重要的知識點,就是統(tǒng)計學(xué)喉恋,無論在簡歷的技能描述中還是實際的面試過程中沃饶,統(tǒng)計學(xué)都是必備的基礎(chǔ)知識。
為什么對于數(shù)據(jù)分析師來說統(tǒng)計學(xué)那么重要轻黑?其實答案顯而易見糊肤,數(shù)據(jù)分析的價值就是通過數(shù)據(jù)去洞察業(yè)務(wù)背后的信息,避免之前的“一拍腦袋決定氓鄙,二拍胸脯保證馆揉,三拍屁股走人”的主觀誤判,一切用數(shù)據(jù)說話抖拦!數(shù)據(jù)怎么能說話呢升酣,算出一個數(shù)據(jù),怎么知道這個數(shù)據(jù)是好還是壞态罪?有多好有多壞噩茄?兩組數(shù)據(jù)呈現(xiàn)在你面前,怎么判斷這兩組數(shù)據(jù)是否有明顯差異复颈?要回答這些問題绩聘,就必須要用到統(tǒng)計學(xué)知識,而不是相信自己的眼睛耗啦,因為眼睛有時候也會說謊凿菩,你看到的“好”不一定是好,你看到的“沒有差異”不代表沒有差異帜讲。
但是很多剛?cè)腴T的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計學(xué)知識時都很頭疼(也包括我哈哈哈)衅谷,因為統(tǒng)計學(xué)的書籍里都是寫晦澀難懂的公式,真不是一般人能看懂的似将。其實获黔,對于大部分?jǐn)?shù)據(jù)分析師來說,我們并不需要掌握的那么全面和深入玩郊,我們只需要掌握部分知識點肢执,理論看不懂,但是知道在什么場景下用就行译红,用起來你才會慢慢地搞懂预茄!
所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計學(xué)的基礎(chǔ)知識,這里整理了數(shù)據(jù)分析工作中最常見的一些統(tǒng)計學(xué)基礎(chǔ)知識,盡量用簡單白話的形式去解釋耻陕,這樣無論是在面試中還是以后的工作中拙徽,都能把統(tǒng)計學(xué)的知識用起來!
02 數(shù)據(jù)分析中的統(tǒng)計學(xué)
Q1诗宣、什么是辛普森悖論?為什么會出現(xiàn)膘怕?
細(xì)分的結(jié)果和整體的結(jié)果相悖,這就是我們常說的辛普森悖論召庞。辛普森悖論主要是因為2組樣本不均衡岛心,抽樣不合理。正確的試驗實施方案里篮灼,除被測試的變量外忘古,其他可能影響結(jié)果的變量的比例都應(yīng)該保持一致,這就需要對流量進(jìn)行均勻合理的分割诅诱。例如:
如原來男性20人髓堪,點擊1人;女性100人娘荡,點擊99人干旁,總點擊率100/120。
現(xiàn)在男性100人炮沐,點擊6人争群;女性20人,點擊20人央拖,總點擊率26/120祭阀。
男生和女生的點擊率雖然都增加了,但是由于點擊率更高的女生所占的比例過小鲜戒,未能拉動整體的點擊率上升。
Q2抹凳、協(xié)方差與相關(guān)系數(shù)的區(qū)別和聯(lián)系
協(xié)方差:
協(xié)方差表示的是兩個變量的總體的誤差遏餐,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致赢底,也就是說如果其中一個大于自身的期望值失都,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值幸冻。 如果兩個變量的變化趨勢相反粹庞,即其中一個大于自身的期望值,另外一個卻小于自身的期望值洽损,那么兩個變量之間的協(xié)方差就是負(fù)值庞溜。
相關(guān)系數(shù):
研究變量之間線性相關(guān)程度的量,取值范圍是[-1,1]碑定。相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響流码、標(biāo)準(zhǔn)化后的特殊協(xié)方差又官。
Q3、AB測試統(tǒng)計顯著但實際不顯著是什么原因漫试?
這個可能的原因是我們在AB測試當(dāng)中所選取的樣本量過大六敬,導(dǎo)致和總體數(shù)據(jù)量差異很小,這樣的話即使我們發(fā)現(xiàn)一個細(xì)微的差別驾荣,它在統(tǒng)計上來說是顯著的外构,在實際的案例當(dāng)中可能會變得不顯著了。
舉個栗子播掷,對應(yīng)到我們的互聯(lián)網(wǎng)產(chǎn)品實踐當(dāng)中典勇,我們做了一個改動,APP的啟動時間的優(yōu)化了0.001秒叮趴,這個數(shù)字可能在統(tǒng)計學(xué)上對應(yīng)的P值很小割笙,也就是說統(tǒng)計學(xué)上是顯著的,但是在實際中用戶0.01秒的差異是感知不出來的眯亦。那么這樣一個顯著的統(tǒng)計差別伤溉,其實對我們來說是沒有太大的實際意義的。所以統(tǒng)計學(xué)上的顯著并不意味著實際效果的顯著妻率。
Q4乱顾、怎么理解中心極限定理?
中心極限定理定義:
(1)任何一個樣本的平均值將會約等于其所在總體的平均值宫静。
(2)不管總體是什么分布走净,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態(tài)分布孤里。
中心極限定理作用:
(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下伏伯,我們可以用樣本來估計總體。
(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差捌袜,判斷某個樣本是否屬于總體说搅。
Q5、怎么給小孩子講解正態(tài)分布虏等?
拿出小朋友班級的成績表弄唧,每隔2分統(tǒng)計一下人數(shù)(因為小學(xué)一年級大家成績很接近),畫出鐘形霍衫。然后說這就是正態(tài)分布候引,大多數(shù)的人都集中在中間,只有少數(shù)特別好和不夠好敦跌,拿出隔壁班的成績表澄干,讓小朋友自己畫畫看,發(fā)現(xiàn)也是這樣的現(xiàn)象,然后拿出班級的身高表傻寂,發(fā)現(xiàn)也是這個樣子的息尺。
大部分人之間是沒有太大差別的,只有少數(shù)人特別好和不夠好疾掰,這是生活里普遍看到的現(xiàn)象搂誉,這就是正態(tài)分布。
Q6静檬、什么是聚類炭懊?聚類算法有哪幾種?選擇一種詳細(xì)介紹
(1)聚類分析是一種無監(jiān)督的學(xué)習(xí)方法拂檩,根據(jù)一定條件將相對同質(zhì)的樣本歸到一個類(俗話說人以類聚侮腹,物以群分)。
正式一點的:聚類是對點集進(jìn)行考察并按照某種距離測度將他們聚成多個“簇”的過程稻励。聚類的目標(biāo)是使得同一簇內(nèi)的點之間的距離較短父阻,而不同簇中點之間的距離較大。
(2)聚類方法主要有:
a. 層次聚類
層次法(hierarchical methods)望抽,這種方法對給定的數(shù)據(jù)集進(jìn)行層次似的分解加矛,直到某種條件滿足為止。煤篙。具體又可分為“自底向上”和“自頂向下”兩種方案斟览。
b. 劃分聚類:(經(jīng)典算法為kmeans)
劃分法(parTITIoning methods),給定一個有N個元組或者記錄的數(shù)據(jù)集辑奈,分裂法將構(gòu)造K個分組苛茂,每一個分組就代表一個聚類。
c. 密度聚類
基于密度的方法(density-based methods)鸠窗,基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的妓羊,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點塌鸯。
經(jīng)典算法:DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法侍瑟,該算法采用空間索引技術(shù)來搜索對象的鄰域,引入了“核心對象”和“密度可達(dá)”等概念丙猬,從核心對象出發(fā),把所有密度可達(dá)的對象組成一個簇费韭。
d. 網(wǎng)格聚類
基于網(wǎng)格的方法(grid-based methods)茧球,這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的星持。這么處理的一個突出的優(yōu)點就是處理速度很快抢埋,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。
經(jīng)典算法:STING:利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息揪垄,從而實現(xiàn)多分辨率的聚類穷吮。
(3)k-means比較好介紹,選k個點開始作為聚類中心饥努,然后剩下的點根據(jù)距離劃分到類中捡鱼;找到新的類中心;重新分配點酷愧;迭代直到達(dá)到收斂條件或者迭代次數(shù)驾诈。 優(yōu)點是快;缺點是要先指定k溶浴,同時對異常值很敏感乍迄。
Q7、線性回歸和邏輯回歸的區(qū)別是什么士败?
線性回歸針對的目標(biāo)變量是區(qū)間型的闯两, 邏輯回歸針對的目標(biāo)變量是類別型的,
線性回歸模型的目標(biāo)變量和自變量之間的關(guān)系假設(shè)是線性相關(guān)的 谅将,邏輯回歸模型中的目標(biāo)變量和自變量是非線性的漾狼。
線性回歸中通常會用假設(shè),對應(yīng)于自變量x的某個值戏自,目標(biāo)變量y的觀察值是服從正太分布的邦投。邏輯回歸中目標(biāo)變量y是服從二項分布0和1或者多項分布的
邏輯回歸中不存在線性回歸中常見的殘差。
參數(shù)估值上擅笔,線性回歸采用最小平方法志衣,邏輯回歸采用最大似然法。
Q8猛们、為什么說樸素貝葉斯是“樸素”的念脯?
樸素貝葉斯是一種簡單但極為強(qiáng)大的預(yù)測建模算法。之所以稱為樸素貝葉斯弯淘,是因為它假設(shè)每個輸入變量是獨(dú)立的绿店。這是一個強(qiáng)硬的假設(shè),實際情況并不一定庐橙,但是這項技術(shù)對于絕大部分的復(fù)雜問題仍然非常有效假勿。
Q9、K-Means 和 KNN 的區(qū)別是什么态鳖?
首先转培,這兩個算法解決的是數(shù)據(jù)挖掘中的兩類問題。
K-Means 是聚類算法浆竭,KNN 是分類算法浸须。其次惨寿,這兩個算法分別是兩種不同的學(xué)習(xí)方式。K-Means 是非監(jiān)督學(xué)習(xí)删窒,也就是不需要事先給出分類標(biāo)簽裂垦,而 KNN 是有監(jiān)督學(xué)習(xí),需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識肌索。最后蕉拢,K 值的含義不同。K-Means 中的 K 值代表 K 類驶社。KNN 中的 K 值代表 K 個最接近的鄰居企量。
Q10、邏輯回歸和線性回歸的區(qū)別亡电?
線性回歸要求因變量必須是連續(xù)性數(shù)據(jù)變量届巩;邏輯回歸要求因變量必須是分類變量,二分類或者多分類的份乒;比如要分析性別恕汇、年齡、身高或辖、飲食習(xí)慣對于體重的影響瘾英,如果這個體重是屬于實際的重量,是連續(xù)性的數(shù)據(jù)變量颂暇,這個時候就用線性回歸來做缺谴;如果將體重分類,分成了高耳鸯、中湿蛔、低這三種體重類型作為因變量,則采用logistic回歸县爬。兩者的區(qū)別還體現(xiàn)在以下方面:
一阳啥、性質(zhì)不同
1、邏輯回歸:是一種廣義的線性回歸分析模型财喳。
2察迟、線性回歸:利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法耳高。
二扎瓶、應(yīng)用不同
1、邏輯回歸:常用于數(shù)據(jù)挖掘泌枪,疾病自動診斷栗弟,經(jīng)濟(jì)預(yù)測等領(lǐng)域。
2工闺、線性回歸:常運(yùn)用于數(shù)學(xué)乍赫、金融、趨勢線陆蟆、經(jīng)濟(jì)學(xué)等領(lǐng)域雷厂。
以上就是【數(shù)分面試寶典】系列—統(tǒng)計學(xué)基礎(chǔ)知識第1篇文章的內(nèi)容,部分歷史文章請回翻公眾號叠殷,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中改鲫,敬請期待,如果覺得不錯林束,也歡迎分享像棘、點贊和收藏哈~