Chapter 3 Descriptive Statistics
本篇是第三章踢俄,內(nèi)容是描述性統(tǒng)計。同時在這一章會開始滲透R語言的相關(guān)內(nèi)容。但整體還是以理論為主。
1.數(shù)據(jù)的預處理
本章正式進入統(tǒng)計學的一大分支——描述統(tǒng)計碍遍。
很多人會疑惑做一個Project或者寫一篇Paper,最難的是什么阳液?我曾經(jīng)不止一次說過怕敬,最難的是數(shù)據(jù)。數(shù)據(jù)收集完成帘皿,項目完成了50%东跪。而數(shù)據(jù)收集完成之后,很多人就會馬上開始進行數(shù)據(jù)處理和分析鹰溜,事實上這是不對的虽填。因為你不清楚你的數(shù)據(jù)是否有問題(什么問題都有可能,會導致你的分析出現(xiàn)各種問題)曹动。所以你拿到數(shù)據(jù)后的第一步斋日,應(yīng)該是對數(shù)據(jù)做預處理,或者用大數(shù)據(jù)時代的話——叫數(shù)據(jù)清洗或者ETL(Extract-Transform-Load)墓陈,我想預處理還會占掉Project花費時間的20%吧恶守。
那么接下來先介紹下預處理的內(nèi)容第献。
數(shù)據(jù)預處理:
- 數(shù)據(jù)審核
- 數(shù)據(jù)篩選
- 數(shù)據(jù)排序
- 數(shù)據(jù)透視
數(shù)據(jù)審核,包括直接數(shù)據(jù)的完整性審核以及準確性審核(是否客觀)兔港,間接數(shù)據(jù)的適用性審核以及時效性審核庸毫;數(shù)據(jù)篩選,就是對于數(shù)據(jù)里面的異常值(存在錯誤押框,不符合調(diào)查要求等)岔绸,在現(xiàn)在來說就是dirty data(臟數(shù)據(jù)),將這些數(shù)據(jù)剔除橡伞;數(shù)據(jù)排序盒揉,事實上數(shù)據(jù)排序更多的目的還是為了更方便地發(fā)現(xiàn)異常值,是做數(shù)據(jù)清洗的手段兑徘;數(shù)據(jù)透視刚盈,借鑒于Excel里的數(shù)據(jù)透視表,事實上就是數(shù)據(jù)的重鑄挂脑,融合和匯總藕漱,從而得到我們需要的數(shù)據(jù)。
總的來說崭闲,前期預處理需要對數(shù)據(jù)進行排序肋联、匯總和觀察發(fā)現(xiàn)相關(guān)的數(shù)據(jù)異常值等。在這個階段刁俭,不喜編程的同學推薦用Excel來做數(shù)據(jù)預處理(通過數(shù)據(jù)透視圖橄仍、替換數(shù)據(jù)、排序牍戚、Countif等工具和Excel函數(shù)高效完成預處理)侮繁,更高級的一般可以考慮用R、Python等編程語言進行清洗預處理如孝,或者像在數(shù)據(jù)庫里用SQL語句也是可以的宪哩。
響應(yīng)一下本部分的標題,R語言實現(xiàn)第晰,交代幾個簡單的語句進行數(shù)據(jù)清洗锁孟。
#x為數(shù)據(jù)框、數(shù)組或矩陣茁瘦,通過summary可以獲取平均值罗岖、中位數(shù)、四分位數(shù)等腹躁,如果有缺失數(shù)據(jù)桑包,則會顯示NAN等。
summary(x)
#表示y是按照x的第一行先升序排列纺非,然后再按x的第二列降序排列得到的數(shù)據(jù)哑了,-表示降序赘方。
y<-x[order(x[1],-x[2)]
#去除NA所在行和列
y<-na.omit(x)
2.數(shù)據(jù)的整理與展示
這部分的數(shù)據(jù)整理是在預處理完畢后,根據(jù)我們需要對數(shù)據(jù)進行整理和簡單可視化(多畫圖弱左,多可視化窄陡,你能發(fā)現(xiàn)很多事情)。那么第一步就是先把我們的數(shù)據(jù)類型搞清楚拆火。因為不同類型數(shù)據(jù)跳夭,整理方式不同。
對于分類數(shù)據(jù)和順序數(shù)據(jù)主要是分類整理们镜。
對于數(shù)值數(shù)據(jù)主要是做分組整理币叹。
- 分類數(shù)據(jù)的整理核心就是計算頻數(shù)、比例模狭、百分比颈抚、比率,一般可視化用條形圖(柱狀圖)嚼鹉。此外還可以考慮使用帕累托圖贩汉。帕累托圖(Pareto chart)是以意大利經(jīng)濟學家V.Pareto的名字而命名的。這是一個雙坐標軸圖锚赤,一側(cè)縱坐標是頻率匹舞,另一側(cè)縱坐標是累計頻率。是在條形圖基礎(chǔ)上加上一條折線圖(累計頻率曲線)线脚。通常用帕累托圖來表示赐稽,就是研究事物特征是否存在二八定律(20/80規(guī)律,典型案例:20%的人擁有80%的財富)酒贬。
除此之外,分類型數(shù)據(jù)還可以用餅圖來進行可視化翠霍。- 順序數(shù)據(jù)則一般選用累計頻率曲線和環(huán)狀圖進行可視化锭吨。
- 數(shù)值型數(shù)據(jù)的可視化方式是最多的。主要包括了直方圖寒匙、折線圖(頻數(shù)多邊形圖)零如、打點圖、莖葉圖锄弱、箱線圖考蕾、線圖(時間序列數(shù)據(jù))、雙變量問題(二維散點圖與散點圖矩陣)会宪、三變量問題(三維散點圖或氣泡圖)肖卧、多變量問題(雷達圖)。
其中這里面有一個直方圖分組使用的經(jīng)驗公式掸鹅。
K為組數(shù)塞帐,n為樣本數(shù)拦赠。確定組數(shù),通過極差和組數(shù)求組距即可分組葵姥。
這部分有很多可視化內(nèi)容荷鼠,暫時就不在這部分講述了(第14章會重點講解幾個典型的可視化方式的R語言繪制)。
最后小結(jié)下數(shù)據(jù)可視化的內(nèi)容榔幸。
- 品質(zhì)數(shù)據(jù)——先制作匯總表允乐,然后可以采用條形圖、餅圖削咆、環(huán)狀圖可視化牍疏;
- 數(shù)值數(shù)據(jù)中的原始數(shù)據(jù)——莖葉圖、箱線圖可視化态辛;
- 數(shù)值數(shù)據(jù)中的分組數(shù)據(jù)——直方圖麸澜、折線圖;
- 數(shù)值數(shù)據(jù)中的時間序列數(shù)據(jù)——線圖奏黑;
- 數(shù)值數(shù)據(jù)中的多元數(shù)據(jù)——散點圖炊邦、氣泡圖、雷達圖熟史。
此外對于圖表可視化來說馁害,好的圖表可視化應(yīng)當具有如下特征:
- 顯示數(shù)據(jù);
- 讓讀者把注意力集中在圖表的內(nèi)容上蹂匹,而不是制作圖表的程序上碘菜;
- 強調(diào)數(shù)據(jù)之間的比較;
- 服務(wù)于一個明確的目的限寞;
- 有對圖表的統(tǒng)計描述和文字說明忍啸。
鑒別圖表優(yōu)劣的準則:
- 精心設(shè)計、 有助于洞察問題的實質(zhì)履植;
- 使復雜的觀點得到簡明计雌、 確切、 高效的闡述玫霎;
- 能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息凿滤;
- 表述數(shù)據(jù)的真實情況, 避免歪曲庶近。
當然圖表可視化不僅僅只有R翁脆,Excel、SPSS鼻种、Tableau都可以使用反番。
3.數(shù)據(jù)的概括性度量
當你面對一堆數(shù)據(jù)時,你還是不知道從何下手,因為我們不可能強行記住每個數(shù)據(jù)恬口,然后在腦海里對各個數(shù)據(jù)的分布進行比較校读,所以科學家們在處理數(shù)據(jù)的時候,都希望用數(shù)據(jù)規(guī)模盡可能小的一個指標去描述數(shù)據(jù)盡可能多的信息祖能。那么從數(shù)據(jù)的角度出發(fā)歉秫,針對數(shù)據(jù)分布的不同方面,科學家們也都找出了不相同的指標來進行描述养铸。
簡單來說雁芙,數(shù)據(jù)分布包括了集中趨勢、離散程度钞螟、分布形狀三個方面的內(nèi)容兔甘。
- 集中趨勢:眾數(shù)、中位數(shù)鳞滨、平均數(shù)洞焙;
- 離散程度:異眾比率、四分位差拯啦、極差澡匪、方差或標準差、離散系數(shù)褒链;
- 分布形狀:偏態(tài)系數(shù)唁情、峰態(tài)系數(shù)。
集中趨勢的幾個指標想必大家較為清楚甫匹,就不展開詳述了甸鸟。而離散程度中極差、方差和標準差也是如此兵迅,同上抢韭,不過單獨解釋下自由度的概念(一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù),與附加給獨立觀測值的約束或限制的個數(shù)
有關(guān)恍箭,比如三個數(shù)據(jù)的均值已經(jīng)知道刻恭,知道其中兩個數(shù)據(jù),第三個數(shù)據(jù)是固定的季惯,也就是說在添加了均值這個約束之后吠各,觀測數(shù)據(jù)自由取值的個數(shù)是n-1=2個)臀突。這里重點解釋異眾比率勉抓,四分位差、離散系數(shù)候学、偏態(tài)系數(shù)和峰態(tài)系數(shù)藕筋。
異眾比率——從字面理解即可,非眾數(shù)的比率梳码。也就是——不是眾數(shù)的組的頻數(shù)占總頻數(shù)的比率隐圾。
四分位差——上四分位數(shù)減去下四分位數(shù)伍掀。
離散系數(shù)——也就是標準差系數(shù),即用標準差除以平均值暇藏。
偏態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征(分布偏斜程度)的系數(shù)蜜笤,該系數(shù)>0為右偏分布,<0為左偏分布盐碱,=0為對稱分布把兔。
峰態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征(分布扁平程度)的系數(shù),該系數(shù)>0為尖峰分布瓮顽,<0為扁平分布县好,=0為扁平峰度適中。
最后單列出以上部分指標的公式(有數(shù)學恐懼癥的同學請?zhí)^):