應(yīng)用統(tǒng)計學與R語言實現(xiàn)學習筆記（三）——描述性統(tǒng)計

Chapter 3 Descriptive Statistics

本篇是第三章踢俄，內(nèi)容是描述性統(tǒng)計。同時在這一章會開始滲透R語言的相關(guān)內(nèi)容。但整體還是以理論為主。

1.數(shù)據(jù)的預處理

本章正式進入統(tǒng)計學的一大分支——描述統(tǒng)計碍遍。
很多人會疑惑做一個Project或者寫一篇Paper，最難的是什么阳液？我曾經(jīng)不止一次說過怕敬，最難的是數(shù)據(jù)。數(shù)據(jù)收集完成帘皿，項目完成了50%东跪。而數(shù)據(jù)收集完成之后，很多人就會馬上開始進行數(shù)據(jù)處理和分析鹰溜，事實上這是不對的虽填。因為你不清楚你的數(shù)據(jù)是否有問題（什么問題都有可能，會導致你的分析出現(xiàn)各種問題）曹动。所以你拿到數(shù)據(jù)后的第一步斋日，應(yīng)該是對數(shù)據(jù)做預處理，或者用大數(shù)據(jù)時代的話——叫數(shù)據(jù)清洗或者ETL（Extract-Transform-Load）墓陈，我想預處理還會占掉Project花費時間的20%吧恶守。
那么接下來先介紹下預處理的內(nèi)容第献。
數(shù)據(jù)預處理：

數(shù)據(jù)審核

數(shù)據(jù)篩選

數(shù)據(jù)排序

數(shù)據(jù)透視

數(shù)據(jù)審核，包括直接數(shù)據(jù)的完整性審核以及準確性審核（是否客觀）兔港，間接數(shù)據(jù)的適用性審核以及時效性審核庸毫；數(shù)據(jù)篩選，就是對于數(shù)據(jù)里面的異常值（存在錯誤押框，不符合調(diào)查要求等）岔绸，在現(xiàn)在來說就是dirty data（臟數(shù)據(jù)），將這些數(shù)據(jù)剔除橡伞；數(shù)據(jù)排序盒揉，事實上數(shù)據(jù)排序更多的目的還是為了更方便地發(fā)現(xiàn)異常值，是做數(shù)據(jù)清洗的手段兑徘；數(shù)據(jù)透視刚盈，借鑒于Excel里的數(shù)據(jù)透視表，事實上就是數(shù)據(jù)的重鑄挂脑，融合和匯總藕漱，從而得到我們需要的數(shù)據(jù)。
總的來說崭闲，前期預處理需要對數(shù)據(jù)進行排序肋联、匯總和觀察發(fā)現(xiàn)相關(guān)的數(shù)據(jù)異常值等。在這個階段刁俭，不喜編程的同學推薦用Excel來做數(shù)據(jù)預處理（通過數(shù)據(jù)透視圖橄仍、替換數(shù)據(jù)、排序牍戚、Countif等工具和Excel函數(shù)高效完成預處理）侮繁，更高級的一般可以考慮用R、Python等編程語言進行清洗預處理如孝，或者像在數(shù)據(jù)庫里用SQL語句也是可以的宪哩。
響應(yīng)一下本部分的標題，R語言實現(xiàn)第晰，交代幾個簡單的語句進行數(shù)據(jù)清洗锁孟。

#x為數(shù)據(jù)框、數(shù)組或矩陣茁瘦，通過summary可以獲取平均值罗岖、中位數(shù)、四分位數(shù)等腹躁，如果有缺失數(shù)據(jù)桑包，則會顯示NAN等。
summary(x)

#表示y是按照x的第一行先升序排列纺非，然后再按x的第二列降序排列得到的數(shù)據(jù)哑了，-表示降序赘方。
y<-x[order(x[1],-x[2)]

#去除NA所在行和列
y<-na.omit(x)

2.數(shù)據(jù)的整理與展示

這部分的數(shù)據(jù)整理是在預處理完畢后，根據(jù)我們需要對數(shù)據(jù)進行整理和簡單可視化（多畫圖弱左，多可視化窄陡，你能發(fā)現(xiàn)很多事情）。那么第一步就是先把我們的數(shù)據(jù)類型搞清楚拆火。因為不同類型數(shù)據(jù)跳夭，整理方式不同。
對于分類數(shù)據(jù)和順序數(shù)據(jù)主要是分類整理们镜。
對于數(shù)值數(shù)據(jù)主要是做分組整理币叹。

分類數(shù)據(jù)的整理核心就是計算頻數(shù)、比例模狭、百分比颈抚、比率，一般可視化用條形圖（柱狀圖）嚼鹉。此外還可以考慮使用帕累托圖贩汉。帕累托圖（Pareto chart）是以意大利經(jīng)濟學家V.Pareto的名字而命名的。這是一個雙坐標軸圖锚赤，一側(cè)縱坐標是頻率匹舞，另一側(cè)縱坐標是累計頻率。是在條形圖基礎(chǔ)上加上一條折線圖（累計頻率曲線）线脚。通常用帕累托圖來表示赐稽，就是研究事物特征是否存在二八定律（20/80規(guī)律，典型案例：20%的人擁有80%的財富）酒贬。
除此之外，分類型數(shù)據(jù)還可以用餅圖來進行可視化翠霍。

順序數(shù)據(jù)則一般選用累計頻率曲線和環(huán)狀圖進行可視化锭吨。

數(shù)值型數(shù)據(jù)的可視化方式是最多的。主要包括了直方圖寒匙、折線圖（頻數(shù)多邊形圖）零如、打點圖、莖葉圖锄弱、箱線圖考蕾、線圖（時間序列數(shù)據(jù)）、雙變量問題（二維散點圖與散點圖矩陣）会宪、三變量問題（三維散點圖或氣泡圖）肖卧、多變量問題（雷達圖）。

其中這里面有一個直方圖分組使用的經(jīng)驗公式掸鹅。

K為組數(shù)塞帐，n為樣本數(shù)拦赠。確定組數(shù)，通過極差和組數(shù)求組距即可分組葵姥。
這部分有很多可視化內(nèi)容荷鼠，暫時就不在這部分講述了（第14章會重點講解幾個典型的可視化方式的R語言繪制)。
最后小結(jié)下數(shù)據(jù)可視化的內(nèi)容榔幸。

品質(zhì)數(shù)據(jù)——先制作匯總表允乐，然后可以采用條形圖、餅圖削咆、環(huán)狀圖可視化牍疏；

數(shù)值數(shù)據(jù)中的原始數(shù)據(jù)——莖葉圖、箱線圖可視化态辛；

數(shù)值數(shù)據(jù)中的分組數(shù)據(jù)——直方圖麸澜、折線圖；

數(shù)值數(shù)據(jù)中的時間序列數(shù)據(jù)——線圖奏黑；

數(shù)值數(shù)據(jù)中的多元數(shù)據(jù)——散點圖炊邦、氣泡圖、雷達圖熟史。

此外對于圖表可視化來說馁害，好的圖表可視化應(yīng)當具有如下特征：

顯示數(shù)據(jù)；

讓讀者把注意力集中在圖表的內(nèi)容上蹂匹，而不是制作圖表的程序上碘菜；

強調(diào)數(shù)據(jù)之間的比較；

服務(wù)于一個明確的目的限寞；

有對圖表的統(tǒng)計描述和文字說明忍啸。

鑒別圖表優(yōu)劣的準則：

精心設(shè)計、有助于洞察問題的實質(zhì)履植；

使復雜的觀點得到簡明计雌、確切、高效的闡述玫霎；

能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息凿滤；

表述數(shù)據(jù)的真實情況，避免歪曲庶近。

當然圖表可視化不僅僅只有R翁脆，Excel、SPSS鼻种、Tableau都可以使用反番。

3.數(shù)據(jù)的概括性度量

當你面對一堆數(shù)據(jù)時，你還是不知道從何下手，因為我們不可能強行記住每個數(shù)據(jù)恬口，然后在腦海里對各個數(shù)據(jù)的分布進行比較校读，所以科學家們在處理數(shù)據(jù)的時候，都希望用數(shù)據(jù)規(guī)模盡可能小的一個指標去描述數(shù)據(jù)盡可能多的信息祖能。那么從數(shù)據(jù)的角度出發(fā)歉秫，針對數(shù)據(jù)分布的不同方面，科學家們也都找出了不相同的指標來進行描述养铸。
簡單來說雁芙，數(shù)據(jù)分布包括了集中趨勢、離散程度钞螟、分布形狀三個方面的內(nèi)容兔甘。

集中趨勢：眾數(shù)、中位數(shù)鳞滨、平均數(shù)洞焙；

離散程度：異眾比率、四分位差拯啦、極差澡匪、方差或標準差、離散系數(shù)褒链；

分布形狀：偏態(tài)系數(shù)唁情、峰態(tài)系數(shù)。

集中趨勢的幾個指標想必大家較為清楚甫匹，就不展開詳述了甸鸟。而離散程度中極差、方差和標準差也是如此兵迅，同上抢韭，不過單獨解釋下自由度的概念（一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)，與附加給獨立觀測值的約束或限制的個數(shù)
有關(guān)恍箭，比如三個數(shù)據(jù)的均值已經(jīng)知道刻恭，知道其中兩個數(shù)據(jù)，第三個數(shù)據(jù)是固定的季惯，也就是說在添加了均值這個約束之后吠各，觀測數(shù)據(jù)自由取值的個數(shù)是n-1=2個）臀突。這里重點解釋異眾比率勉抓，四分位差、離散系數(shù)候学、偏態(tài)系數(shù)和峰態(tài)系數(shù)藕筋。
異眾比率——從字面理解即可，非眾數(shù)的比率梳码。也就是——不是眾數(shù)的組的頻數(shù)占總頻數(shù)的比率隐圾。
四分位差——上四分位數(shù)減去下四分位數(shù)伍掀。
離散系數(shù)——也就是標準差系數(shù)，即用標準差除以平均值暇藏。
偏態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征（分布偏斜程度）的系數(shù)蜜笤，該系數(shù)>0為右偏分布，<0為左偏分布盐碱，=0為對稱分布把兔。
峰態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征（分布扁平程度）的系數(shù)，該系數(shù)>0為尖峰分布瓮顽，<0為扁平分布县好，=0為扁平峰度適中。
最后單列出以上部分指標的公式（有數(shù)學恐懼癥的同學請?zhí)^）：

最后編輯于：2017.12.07 02:39:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末暖混，一起剝皮案震驚了整個濱河市缕贡，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌拣播，老刑警劉巖晾咪，帶你破解...
沈念sama閱讀 217,657評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異诫尽，居然都是意外死亡禀酱，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,889評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門牧嫉，熙熙樓的掌柜王于貴愁眉苦臉地迎上來剂跟，“玉大人，你說我怎么就攤上這事酣藻〔芮ⅲ” “怎么了？”我有些...
開封第一講書人閱讀 164,057評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵辽剧，是天一觀的道長送淆。經(jīng)常有香客問我，道長怕轿，這世上最難降的妖魔是什么偷崩？我笑而不...
開封第一講書人閱讀 58,509評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮撞羽，結(jié)果婚禮上阐斜，老公的妹妹穿的比我還像新娘。我一直安慰自己诀紊，他們只是感情好谒出，可當我...
茶點故事閱讀 67,562評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般笤喳。火紅的嫁衣襯著肌膚如雪为居。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,443評論 1贊 302
城市分裂傳說
那天杀狡，我揣著相機與錄音蒙畴，去河邊找鬼。笑死呜象，一個胖子當著我的面吹牛忍抽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播董朝，決...
沈念sama閱讀 40,251評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鸠项，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了子姜？” 一聲冷哼從身側(cè)響起祟绊，我...
開封第一講書人閱讀 39,129評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎哥捕，沒想到半個月后牧抽，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,561評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡遥赚，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,779評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年扬舒，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凫佛。...
茶點故事閱讀 39,902評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡讲坎，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出愧薛，到底是詐尸還是另有隱情晨炕，我是刑警寧澤，帶...
沈念sama閱讀 35,621評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布毫炉，位于F島的核電站瓮栗，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏瞄勾。R本人自食惡果不足惜费奸，卻給世界環(huán)境...
茶點故事閱讀 41,220評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望进陡。院中可真熱鬧愿阐，春花似錦、人聲如沸四濒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,838評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽盗蟆。三九已至戈二，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間喳资，已是汗流浹背觉吭。一陣腳步聲響...
開封第一講書人閱讀 32,971評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仆邓，地道東北人鲜滩。一個月前我還...
沈念sama閱讀 48,025評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像节值，于是被迫代替她去往敵國和親徙硅。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,843評論 2贊 354

應(yīng)用統(tǒng)計學與R語言實現(xiàn)學習筆記（三）——描述性統(tǒng)計

Chapter 3 Descriptive Statistics

1.數(shù)據(jù)的預處理

2.數(shù)據(jù)的整理與展示

3.數(shù)據(jù)的概括性度量

推薦閱讀更多精彩內(nèi)容