我的轉(zhuǎn)行數(shù)據(jù)分析師專欄-2描述統(tǒng)計分析

導(dǎo)語:數(shù)據(jù)分析師日常工作接觸離不開數(shù)據(jù)前计,甚至大部分工作時間都會面對數(shù)據(jù)所體現(xiàn)的各種問題蔬顾,單純看數(shù)據(jù)并沒有具體作用隅居,帶著業(yè)務(wù)目的去挖掘分析才會讓數(shù)據(jù)顯得更有價值峡碉,就需要學(xué)習(xí)描述統(tǒng)計分析的一些知識须揣。

本篇內(nèi)容主要根據(jù)3大主題盐股,去深入了解一下描述統(tǒng)計分析:

1、學(xué)習(xí)統(tǒng)計對我有什么意義

(1)首當(dāng)其沖的是耻卡,轉(zhuǎn)行數(shù)據(jù)分析師必要懂統(tǒng)計學(xué)原理:描述統(tǒng)計和推斷統(tǒng)計

(2)職場疯汁、生活、娛樂卵酪、創(chuàng)業(yè)都離不開統(tǒng)計學(xué)的魅力幌蚊,例如

你工作2年了,工資處于行業(yè)的什么水平溃卡;

你一生中每年摔倒的次數(shù)分布溢豆;

手機記錄著你一天使用每個APP的分布時間(該時候提高一下學(xué)習(xí)軟件占用的時間);

人的一生中平均所遇到的失敗次數(shù)塑煎;

(3)進一步了解世界變化的原理沫换,看世界的視角會有所變化


2、描述統(tǒng)計中常用描述數(shù)據(jù)集的指標(biāo)(平均數(shù)、四分位數(shù)讯赏、標(biāo)準(zhǔn)差垮兑、標(biāo)準(zhǔn)分)

學(xué)習(xí)這些指標(biāo)前,先來了解什么是描述統(tǒng)計學(xué):

描述統(tǒng)計學(xué)是研究如何取得反映客觀現(xiàn)象的數(shù)據(jù) 漱挎,并通過圖表形式對所搜集的數(shù)據(jù)進行加工處理和顯示系枪,進而通過綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征的一門學(xué)科。描述統(tǒng)計學(xué)內(nèi)容包括統(tǒng)計數(shù)據(jù)的收集方法磕谅、數(shù)據(jù)的加工處理方法私爷、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等膊夹。

平均數(shù)

平均數(shù)是統(tǒng)計學(xué)中最常用的統(tǒng)計量衬浑,用來表明資料中各觀測值相對集中較多的中心位置。

優(yōu)勢:在統(tǒng)計中算術(shù)平均數(shù)常用于表示統(tǒng)計對象的一般水平放刨,它是描述數(shù)據(jù)集中位置的一個統(tǒng)計量工秩。既可以用它來反映一組數(shù)據(jù)的一般情況、和平均水平进统,也可以用它進行不同組數(shù)據(jù)的比較助币,以看出組與組之間的差別。

局限性:易受極端值的影響,這里的極端值是指偏大或偏小數(shù),當(dāng)出現(xiàn)偏大數(shù)時,平均數(shù)將會被抬高,當(dāng)出現(xiàn)偏小數(shù)時,平均數(shù)會降低螟碎,例如:一間企業(yè)里眉菱,有老板,高層掉分,中層和基層俭缓,如果算這間企業(yè)平均月薪水平在30000,高層月薪100000叉抡,而作為基層的你拿著4000月薪尔崔,直接跟企業(yè)平均工資來對比,并無太大意義褥民;同時單純看企業(yè)平均月薪,也體現(xiàn)不到一個平均水平情況

公式:

四分位數(shù)

四分位數(shù)也稱四分位點洗搂,是指在統(tǒng)計學(xué)中把所有數(shù)值由小到大排列并分成四等份消返,處于三個分割點位置的數(shù)值。多應(yīng)用于統(tǒng)計學(xué)中的箱線圖繪制耘拇。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值撵颊。四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)惫叛。很顯然倡勇,中間的四分位數(shù)就是中位數(shù)(Q2),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù)嘉涌,Q1)和處在75%位置上的數(shù)值(稱為上四分位數(shù)妻熊,Q3)

優(yōu)勢:與數(shù)據(jù)的排列位置有關(guān),某些數(shù)據(jù)的變動對它沒有影響夸浅;它是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響,常用于比較不同類別數(shù)據(jù)的整體情況和識別出可能的異常值扔役。

局限性:作為一組數(shù)據(jù)的代表,可靠性比較差,因為它只利用了部分數(shù)據(jù)帆喇;

實例1(當(dāng)項數(shù)為奇數(shù)時)-數(shù)據(jù)總量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的結(jié)果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11項

Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6亿胸, Q3的位置=(11+1) × 0.75=9

Q1 = 15坯钦,Q2 = 40,Q3 = 43

實例2(當(dāng)項數(shù)為偶數(shù)時)-數(shù)據(jù)總量: 7, 15, 36, 39, 40, 41

由小到大排列的結(jié)果: 7, 15, 36, 39, 40, 41侈玄,一共6項

數(shù)列項為偶數(shù)項時婉刀,Q2為該組數(shù)列中間兩個數(shù)字和的平均值,Q1在第一與第二個數(shù)字之間序仙, Q3在第五與第六個數(shù)字之間路星,

Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5诱桂,Q3 = 0.25*41+0.75*40 = 40.25.

實例3(當(dāng)項數(shù)為偶數(shù)時)-分析就餐人員與餐館的距離洋丐,數(shù)據(jù)單位為公里

標(biāo)準(zhǔn)差

簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量挥等。一個較大的標(biāo)準(zhǔn)差友绝,代表大部分數(shù)值和其平均值之間差異較大;一個較小的標(biāo)準(zhǔn)差肝劲,代表這些數(shù)值較接近平均值迁客。

優(yōu)勢:告訴我們數(shù)據(jù)的波動性有多大,例如兩個班的學(xué)生分數(shù)辞槐,標(biāo)準(zhǔn)差的大小能說明兩個班的學(xué)生成權(quán)績誰的波動大掷漱,也就是哪個班的學(xué)生成績穩(wěn)定些,標(biāo)準(zhǔn)差大的不穩(wěn)定些榄檬,標(biāo)準(zhǔn)差小的穩(wěn)定些

局限性:如果兩個數(shù)據(jù)差別比較大卜范,那么就無法比較,這時可以用變異系數(shù)可以彌補這個缺點

什么是變異系數(shù)呢鹿榜?

當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候海雪,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同舱殿,直接使用標(biāo)準(zhǔn)差來進行比較不合適奥裸,此時就應(yīng)當(dāng)消除測量尺度和量綱的影響,而變異系數(shù)可以做到這一點沪袭,它是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比湾宙。

標(biāo)準(zhǔn)差計算方式:

數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差?

變異系數(shù)計算方式:

標(biāo)準(zhǔn)分

也叫z分數(shù),是一種具有相等單位的量數(shù)。它是將原始分數(shù)與團體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù)侠鳄,是以標(biāo)準(zhǔn)差為單位度量原始分數(shù)離開其平均數(shù)的分數(shù)之上多少個標(biāo)準(zhǔn)差埠啃,或是在平均數(shù)之下多少個標(biāo)準(zhǔn)差。

數(shù)據(jù)集:?

平均值:?

標(biāo)準(zhǔn)差:?

標(biāo)準(zhǔn)分:?

?(? 為具體的某個數(shù)值)

最后一張圖總結(jié)剛才所介紹4個指標(biāo)的大致描述

3畦攘、熟悉數(shù)據(jù)集霸妹,嘗試從數(shù)據(jù)集中分析哪些業(yè)務(wù)問題?

數(shù)據(jù)集鏈接:騰訊文檔?docs.qq.com

購買信息表

(1)每個商品一級分類下知押,哪個二級分類的商品賣得更多

(2)每個分類下叹螟,爆款商品是哪一個(購買數(shù)量越大,就是爆款)

(3)每個一級分類台盯、二級分類罢绽、商品,在不同時間段購買情況的分布

(4)每個商品一級分類下静盅,二級分類的銷售分布情況

(5)找出每個分類下的淡旺季購買情況

嬰兒信息表:

(1)嬰兒總體的男女占比

(2)嬰兒不同年齡段的數(shù)量分布情況

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末良价,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蒿叠,更是在濱河造成了極大的恐慌明垢,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件市咽,死亡現(xiàn)場離奇詭異痊银,居然都是意外死亡,警方通過查閱死者的電腦和手機施绎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門溯革,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谷醉,你說我怎么就攤上這事致稀。” “怎么了俱尼?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵抖单,是天一觀的道長。 經(jīng)常有香客問我号显,道長臭猜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任押蚤,我火速辦了婚禮,結(jié)果婚禮上羹应,老公的妹妹穿的比我還像新娘揽碘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布雳刺。 她就那樣靜靜地躺著劫灶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪掖桦。 梳的紋絲不亂的頭發(fā)上本昏,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天,我揣著相機與錄音枪汪,去河邊找鬼涌穆。 笑死,一個胖子當(dāng)著我的面吹牛雀久,可吹牛的內(nèi)容都是我干的宿稀。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼赖捌,長吁一口氣:“原來是場噩夢啊……” “哼祝沸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起越庇,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤罩锐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后卤唉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體涩惑,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年搬味,在試婚紗的時候發(fā)現(xiàn)自己被綠了境氢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡碰纬,死狀恐怖萍聊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情悦析,我是刑警寧澤寿桨,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站强戴,受9級特大地震影響亭螟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜骑歹,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一预烙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧道媚,春花似錦扁掸、人聲如沸翘县。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锈麸。三九已至,卻和暖如春牺蹄,著一層夾襖步出監(jiān)牢的瞬間忘伞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工沙兰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留氓奈,地道東北人。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓僧凰,卻偏偏與公主長得像探颈,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子训措,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容