數(shù)據(jù)分析必備的統(tǒng)計學(xué)知識(一)

數(shù)據(jù)分析師的必備技能棧里游添,除了熟悉業(yè)務(wù)惨恭、掌握業(yè)務(wù)分析思維和工具外酷麦,還有一個特別重要的知識點,就是統(tǒng)計學(xué)喉恋,無論在簡歷的技能描述中還是實際的面試過程中沃饶,統(tǒng)計學(xué)都是必備的基礎(chǔ)知識。

為什么對于數(shù)據(jù)分析師來說統(tǒng)計學(xué)那么重要轻黑?其實答案顯而易見糊肤,數(shù)據(jù)分析的價值就是通過數(shù)據(jù)去洞察業(yè)務(wù)背后的信息,避免之前的“一拍腦袋決定氓鄙,二拍胸脯保證馆揉,三拍屁股走人”的主觀誤判,一切用數(shù)據(jù)說話抖拦!數(shù)據(jù)怎么能說話呢升酣,算出一個數(shù)據(jù),怎么知道這個數(shù)據(jù)是好還是壞态罪?有多好有多壞噩茄?兩組數(shù)據(jù)呈現(xiàn)在你面前,怎么判斷這兩組數(shù)據(jù)是否有明顯差異复颈?要回答這些問題绩聘,就必須要用到統(tǒng)計學(xué)知識,而不是相信自己的眼睛耗啦,因為眼睛有時候也會說謊凿菩,你看到的“好”不一定是好,你看到的“沒有差異”不代表沒有差異帜讲。

但是很多剛?cè)腴T的數(shù)據(jù)分析師在學(xué)習(xí)統(tǒng)計學(xué)知識時都很頭疼(也包括我哈哈哈)衅谷,因為統(tǒng)計學(xué)的書籍里都是寫晦澀難懂的公式,真不是一般人能看懂的似将。其實获黔,對于大部分?jǐn)?shù)據(jù)分析師來說,我們并不需要掌握的那么全面和深入玩郊,我們只需要掌握部分知識點肢执,理論看不懂,但是知道在什么場景下用就行译红,用起來你才會慢慢地搞懂预茄!

所以為了讓大家更容易學(xué)習(xí)掌握統(tǒng)計學(xué)的基礎(chǔ)知識,這里整理了數(shù)據(jù)分析工作中最常見的一些統(tǒng)計學(xué)基礎(chǔ)知識,盡量用簡單白話的形式去解釋耻陕,這樣無論是在面試中還是以后的工作中拙徽,都能把統(tǒng)計學(xué)的知識用起來!


02 數(shù)據(jù)分析中的統(tǒng)計學(xué)

Q1诗宣、什么是辛普森悖論?為什么會出現(xiàn)膘怕?

細(xì)分的結(jié)果和整體的結(jié)果相悖,這就是我們常說的辛普森悖論召庞。辛普森悖論主要是因為2組樣本不均衡岛心,抽樣不合理。正確的試驗實施方案里篮灼,除被測試的變量外忘古,其他可能影響結(jié)果的變量的比例都應(yīng)該保持一致,這就需要對流量進(jìn)行均勻合理的分割诅诱。例如:

如原來男性20人髓堪,點擊1人;女性100人娘荡,點擊99人干旁,總點擊率100/120。

現(xiàn)在男性100人炮沐,點擊6人争群;女性20人,點擊20人央拖,總點擊率26/120祭阀。

男生和女生的點擊率雖然都增加了,但是由于點擊率更高的女生所占的比例過小鲜戒,未能拉動整體的點擊率上升。

Q2抹凳、協(xié)方差與相關(guān)系數(shù)的區(qū)別和聯(lián)系

協(xié)方差:

協(xié)方差表示的是兩個變量的總體的誤差遏餐,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致赢底,也就是說如果其中一個大于自身的期望值失都,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值幸冻。 如果兩個變量的變化趨勢相反粹庞,即其中一個大于自身的期望值,另外一個卻小于自身的期望值洽损,那么兩個變量之間的協(xié)方差就是負(fù)值庞溜。

相關(guān)系數(shù):

研究變量之間線性相關(guān)程度的量,取值范圍是[-1,1]碑定。相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響流码、標(biāo)準(zhǔn)化后的特殊協(xié)方差又官。

Q3、AB測試統(tǒng)計顯著但實際不顯著是什么原因漫试?

這個可能的原因是我們在AB測試當(dāng)中所選取的樣本量過大六敬,導(dǎo)致和總體數(shù)據(jù)量差異很小,這樣的話即使我們發(fā)現(xiàn)一個細(xì)微的差別驾荣,它在統(tǒng)計上來說是顯著的外构,在實際的案例當(dāng)中可能會變得不顯著了。

舉個栗子播掷,對應(yīng)到我們的互聯(lián)網(wǎng)產(chǎn)品實踐當(dāng)中典勇,我們做了一個改動,APP的啟動時間的優(yōu)化了0.001秒叮趴,這個數(shù)字可能在統(tǒng)計學(xué)上對應(yīng)的P值很小割笙,也就是說統(tǒng)計學(xué)上是顯著的,但是在實際中用戶0.01秒的差異是感知不出來的眯亦。那么這樣一個顯著的統(tǒng)計差別伤溉,其實對我們來說是沒有太大的實際意義的。所以統(tǒng)計學(xué)上的顯著并不意味著實際效果的顯著妻率。

Q4乱顾、怎么理解中心極限定理?

中心極限定理定義:

(1)任何一個樣本的平均值將會約等于其所在總體的平均值宫静。

(2)不管總體是什么分布走净,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態(tài)分布孤里。

中心極限定理作用:

(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下伏伯,我們可以用樣本來估計總體。

(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差捌袜,判斷某個樣本是否屬于總體说搅。

Q5、怎么給小孩子講解正態(tài)分布虏等?

拿出小朋友班級的成績表弄唧,每隔2分統(tǒng)計一下人數(shù)(因為小學(xué)一年級大家成績很接近),畫出鐘形霍衫。然后說這就是正態(tài)分布候引,大多數(shù)的人都集中在中間,只有少數(shù)特別好和不夠好敦跌,拿出隔壁班的成績表澄干,讓小朋友自己畫畫看,發(fā)現(xiàn)也是這樣的現(xiàn)象,然后拿出班級的身高表傻寂,發(fā)現(xiàn)也是這個樣子的息尺。

大部分人之間是沒有太大差別的,只有少數(shù)人特別好和不夠好疾掰,這是生活里普遍看到的現(xiàn)象搂誉,這就是正態(tài)分布。

Q6静檬、什么是聚類炭懊?聚類算法有哪幾種?選擇一種詳細(xì)介紹

(1)聚類分析是一種無監(jiān)督的學(xué)習(xí)方法拂檩,根據(jù)一定條件將相對同質(zhì)的樣本歸到一個類(俗話說人以類聚侮腹,物以群分)。

正式一點的:聚類是對點集進(jìn)行考察并按照某種距離測度將他們聚成多個“簇”的過程稻励。聚類的目標(biāo)是使得同一簇內(nèi)的點之間的距離較短父阻,而不同簇中點之間的距離較大。

(2)聚類方法主要有:

a. 層次聚類

層次法(hierarchical methods)望抽,這種方法對給定的數(shù)據(jù)集進(jìn)行層次似的分解加矛,直到某種條件滿足為止。煤篙。具體又可分為“自底向上”和“自頂向下”兩種方案斟览。

b. 劃分聚類:(經(jīng)典算法為kmeans)

劃分法(parTITIoning methods),給定一個有N個元組或者記錄的數(shù)據(jù)集辑奈,分裂法將構(gòu)造K個分組苛茂,每一個分組就代表一個聚類。

c. 密度聚類

基于密度的方法(density-based methods)鸠窗,基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的妓羊,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點塌鸯。

經(jīng)典算法:DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法侍瑟,該算法采用空間索引技術(shù)來搜索對象的鄰域,引入了“核心對象”和“密度可達(dá)”等概念丙猬,從核心對象出發(fā),把所有密度可達(dá)的對象組成一個簇费韭。

d. 網(wǎng)格聚類

基于網(wǎng)格的方法(grid-based methods)茧球,這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的星持。這么處理的一個突出的優(yōu)點就是處理速度很快抢埋,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。

經(jīng)典算法:STING:利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息揪垄,從而實現(xiàn)多分辨率的聚類穷吮。

(3)k-means比較好介紹,選k個點開始作為聚類中心饥努,然后剩下的點根據(jù)距離劃分到類中捡鱼;找到新的類中心;重新分配點酷愧;迭代直到達(dá)到收斂條件或者迭代次數(shù)驾诈。 優(yōu)點是快;缺點是要先指定k溶浴,同時對異常值很敏感乍迄。

Q7、線性回歸和邏輯回歸的區(qū)別是什么士败?

線性回歸針對的目標(biāo)變量是區(qū)間型的闯两, 邏輯回歸針對的目標(biāo)變量是類別型的,

線性回歸模型的目標(biāo)變量和自變量之間的關(guān)系假設(shè)是線性相關(guān)的 谅将,邏輯回歸模型中的目標(biāo)變量和自變量是非線性的漾狼。

線性回歸中通常會用假設(shè),對應(yīng)于自變量x的某個值戏自,目標(biāo)變量y的觀察值是服從正太分布的邦投。邏輯回歸中目標(biāo)變量y是服從二項分布0和1或者多項分布的

邏輯回歸中不存在線性回歸中常見的殘差。

參數(shù)估值上擅笔,線性回歸采用最小平方法志衣,邏輯回歸采用最大似然法。

Q8猛们、為什么說樸素貝葉斯是“樸素”的念脯?

樸素貝葉斯是一種簡單但極為強(qiáng)大的預(yù)測建模算法。之所以稱為樸素貝葉斯弯淘,是因為它假設(shè)每個輸入變量是獨(dú)立的绿店。這是一個強(qiáng)硬的假設(shè),實際情況并不一定庐橙,但是這項技術(shù)對于絕大部分的復(fù)雜問題仍然非常有效假勿。

Q9、K-Means 和 KNN 的區(qū)別是什么态鳖?

首先转培,這兩個算法解決的是數(shù)據(jù)挖掘中的兩類問題。

K-Means 是聚類算法浆竭,KNN 是分類算法浸须。其次惨寿,這兩個算法分別是兩種不同的學(xué)習(xí)方式。K-Means 是非監(jiān)督學(xué)習(xí)删窒,也就是不需要事先給出分類標(biāo)簽裂垦,而 KNN 是有監(jiān)督學(xué)習(xí),需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識肌索。最后蕉拢,K 值的含義不同。K-Means 中的 K 值代表 K 類驶社。KNN 中的 K 值代表 K 個最接近的鄰居企量。

Q10、邏輯回歸和線性回歸的區(qū)別亡电?

線性回歸要求因變量必須是連續(xù)性數(shù)據(jù)變量届巩;邏輯回歸要求因變量必須是分類變量,二分類或者多分類的份乒;比如要分析性別恕汇、年齡、身高或辖、飲食習(xí)慣對于體重的影響瘾英,如果這個體重是屬于實際的重量,是連續(xù)性的數(shù)據(jù)變量颂暇,這個時候就用線性回歸來做缺谴;如果將體重分類,分成了高耳鸯、中湿蛔、低這三種體重類型作為因變量,則采用logistic回歸县爬。兩者的區(qū)別還體現(xiàn)在以下方面:

一阳啥、性質(zhì)不同

1、邏輯回歸:是一種廣義的線性回歸分析模型财喳。

2察迟、線性回歸:利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法耳高。

二扎瓶、應(yīng)用不同

1、邏輯回歸:常用于數(shù)據(jù)挖掘泌枪,疾病自動診斷栗弟,經(jīng)濟(jì)預(yù)測等領(lǐng)域。

2工闺、線性回歸:常運(yùn)用于數(shù)學(xué)乍赫、金融、趨勢線陆蟆、經(jīng)濟(jì)學(xué)等領(lǐng)域雷厂。

以上就是【數(shù)分面試寶典】系列—統(tǒng)計學(xué)基礎(chǔ)知識第1篇文章的內(nèi)容,部分歷史文章請回翻公眾號叠殷,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中改鲫,敬請期待,如果覺得不錯林束,也歡迎分享像棘、點贊和收藏哈~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市壶冒,隨后出現(xiàn)的幾起案子缕题,更是在濱河造成了極大的恐慌,老刑警劉巖胖腾,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烟零,死亡現(xiàn)場離奇詭異,居然都是意外死亡咸作,警方通過查閱死者的電腦和手機(jī)锨阿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來记罚,“玉大人墅诡,你說我怎么就攤上這事⊥┲牵” “怎么了末早?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長酵使。 經(jīng)常有香客問我荐吉,道長,這世上最難降的妖魔是什么口渔? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任样屠,我火速辦了婚禮,結(jié)果婚禮上缺脉,老公的妹妹穿的比我還像新娘痪欲。我一直安慰自己,他們只是感情好攻礼,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布业踢。 她就那樣靜靜地躺著,像睡著了一般礁扮。 火紅的嫁衣襯著肌膚如雪知举。 梳的紋絲不亂的頭發(fā)上瞬沦,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機(jī)與錄音雇锡,去河邊找鬼逛钻。 笑死,一個胖子當(dāng)著我的面吹牛锰提,可吹牛的內(nèi)容都是我干的曙痘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼立肘,長吁一口氣:“原來是場噩夢啊……” “哼边坤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谅年,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤茧痒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后踢故,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體文黎,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年殿较,在試婚紗的時候發(fā)現(xiàn)自己被綠了耸峭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡淋纲,死狀恐怖劳闹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情洽瞬,我是刑警寧澤本涕,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站伙窃,受9級特大地震影響菩颖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜为障,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一晦闰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鳍怨,春花似錦呻右、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至侦香,卻和暖如春落塑,著一層夾襖步出監(jiān)牢的瞬間纽疟,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工芜赌, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留仰挣,地道東北人。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓缠沈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親错蝴。 傳聞我的和親對象是個殘疾皇子洲愤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容