應(yīng)用統(tǒng)計學與R語言實現(xiàn)學習筆記(三)——描述性統(tǒng)計

Chapter 3 Descriptive Statistics

本篇是第三章踢俄,內(nèi)容是描述性統(tǒng)計。同時在這一章會開始滲透R語言的相關(guān)內(nèi)容。但整體還是以理論為主。

1.數(shù)據(jù)的預處理

本章正式進入統(tǒng)計學的一大分支——描述統(tǒng)計碍遍。
很多人會疑惑做一個Project或者寫一篇Paper,最難的是什么阳液?我曾經(jīng)不止一次說過怕敬,最難的是數(shù)據(jù)。數(shù)據(jù)收集完成帘皿,項目完成了50%东跪。而數(shù)據(jù)收集完成之后,很多人就會馬上開始進行數(shù)據(jù)處理和分析鹰溜,事實上這是不對的虽填。因為你不清楚你的數(shù)據(jù)是否有問題(什么問題都有可能,會導致你的分析出現(xiàn)各種問題)曹动。所以你拿到數(shù)據(jù)后的第一步斋日,應(yīng)該是對數(shù)據(jù)做預處理,或者用大數(shù)據(jù)時代的話——叫數(shù)據(jù)清洗或者ETL(Extract-Transform-Load)墓陈,我想預處理還會占掉Project花費時間的20%吧恶守。
那么接下來先介紹下預處理的內(nèi)容第献。
數(shù)據(jù)預處理:

  • 數(shù)據(jù)審核
  • 數(shù)據(jù)篩選
  • 數(shù)據(jù)排序
  • 數(shù)據(jù)透視

數(shù)據(jù)審核,包括直接數(shù)據(jù)的完整性審核以及準確性審核(是否客觀)兔港,間接數(shù)據(jù)的適用性審核以及時效性審核庸毫;數(shù)據(jù)篩選,就是對于數(shù)據(jù)里面的異常值(存在錯誤押框,不符合調(diào)查要求等)岔绸,在現(xiàn)在來說就是dirty data(臟數(shù)據(jù)),將這些數(shù)據(jù)剔除橡伞;數(shù)據(jù)排序盒揉,事實上數(shù)據(jù)排序更多的目的還是為了更方便地發(fā)現(xiàn)異常值,是做數(shù)據(jù)清洗的手段兑徘;數(shù)據(jù)透視刚盈,借鑒于Excel里的數(shù)據(jù)透視表,事實上就是數(shù)據(jù)的重鑄挂脑,融合和匯總藕漱,從而得到我們需要的數(shù)據(jù)。
總的來說崭闲,前期預處理需要對數(shù)據(jù)進行排序肋联、匯總和觀察發(fā)現(xiàn)相關(guān)的數(shù)據(jù)異常值等。在這個階段刁俭,不喜編程的同學推薦用Excel來做數(shù)據(jù)預處理(通過數(shù)據(jù)透視圖橄仍、替換數(shù)據(jù)、排序牍戚、Countif等工具和Excel函數(shù)高效完成預處理)侮繁,更高級的一般可以考慮用R、Python等編程語言進行清洗預處理如孝,或者像在數(shù)據(jù)庫里用SQL語句也是可以的宪哩。
響應(yīng)一下本部分的標題,R語言實現(xiàn)第晰,交代幾個簡單的語句進行數(shù)據(jù)清洗锁孟。

#x為數(shù)據(jù)框、數(shù)組或矩陣茁瘦,通過summary可以獲取平均值罗岖、中位數(shù)、四分位數(shù)等腹躁,如果有缺失數(shù)據(jù)桑包,則會顯示NAN等。
summary(x)

#表示y是按照x的第一行先升序排列纺非,然后再按x的第二列降序排列得到的數(shù)據(jù)哑了,-表示降序赘方。
y<-x[order(x[1],-x[2)]

#去除NA所在行和列
y<-na.omit(x)

2.數(shù)據(jù)的整理與展示

這部分的數(shù)據(jù)整理是在預處理完畢后,根據(jù)我們需要對數(shù)據(jù)進行整理和簡單可視化(多畫圖弱左,多可視化窄陡,你能發(fā)現(xiàn)很多事情)。那么第一步就是先把我們的數(shù)據(jù)類型搞清楚拆火。因為不同類型數(shù)據(jù)跳夭,整理方式不同。
對于分類數(shù)據(jù)和順序數(shù)據(jù)主要是分類整理们镜。
對于數(shù)值數(shù)據(jù)主要是做分組整理币叹。

  • 分類數(shù)據(jù)的整理核心就是計算頻數(shù)、比例模狭、百分比颈抚、比率,一般可視化用條形圖(柱狀圖)嚼鹉。此外還可以考慮使用帕累托圖贩汉。帕累托圖(Pareto chart)是以意大利經(jīng)濟學家V.Pareto的名字而命名的。這是一個雙坐標軸圖锚赤,一側(cè)縱坐標是頻率匹舞,另一側(cè)縱坐標是累計頻率。是在條形圖基礎(chǔ)上加上一條折線圖(累計頻率曲線)线脚。通常用帕累托圖來表示赐稽,就是研究事物特征是否存在二八定律(20/80規(guī)律,典型案例:20%的人擁有80%的財富)酒贬。
    除此之外,分類型數(shù)據(jù)還可以用餅圖來進行可視化翠霍。
  • 順序數(shù)據(jù)則一般選用累計頻率曲線和環(huán)狀圖進行可視化锭吨。
  • 數(shù)值型數(shù)據(jù)的可視化方式是最多的。主要包括了直方圖寒匙、折線圖(頻數(shù)多邊形圖)零如、打點圖、莖葉圖锄弱、箱線圖考蕾、線圖(時間序列數(shù)據(jù))、雙變量問題(二維散點圖與散點圖矩陣)会宪、三變量問題(三維散點圖或氣泡圖)肖卧、多變量問題(雷達圖)。

其中這里面有一個直方圖分組使用的經(jīng)驗公式掸鹅。

K為組數(shù)塞帐,n為樣本數(shù)拦赠。確定組數(shù),通過極差和組數(shù)求組距即可分組葵姥。
這部分有很多可視化內(nèi)容荷鼠,暫時就不在這部分講述了(第14章會重點講解幾個典型的可視化方式的R語言繪制)。
最后小結(jié)下數(shù)據(jù)可視化的內(nèi)容榔幸。

  • 品質(zhì)數(shù)據(jù)——先制作匯總表允乐,然后可以采用條形圖、餅圖削咆、環(huán)狀圖可視化牍疏;
  • 數(shù)值數(shù)據(jù)中的原始數(shù)據(jù)——莖葉圖、箱線圖可視化态辛;
  • 數(shù)值數(shù)據(jù)中的分組數(shù)據(jù)——直方圖麸澜、折線圖;
  • 數(shù)值數(shù)據(jù)中的時間序列數(shù)據(jù)——線圖奏黑;
  • 數(shù)值數(shù)據(jù)中的多元數(shù)據(jù)——散點圖炊邦、氣泡圖、雷達圖熟史。

此外對于圖表可視化來說馁害,好的圖表可視化應(yīng)當具有如下特征:

  • 顯示數(shù)據(jù);
  • 讓讀者把注意力集中在圖表的內(nèi)容上蹂匹,而不是制作圖表的程序上碘菜;
  • 強調(diào)數(shù)據(jù)之間的比較;
  • 服務(wù)于一個明確的目的限寞;
  • 有對圖表的統(tǒng)計描述和文字說明忍啸。

鑒別圖表優(yōu)劣的準則:

  • 精心設(shè)計、 有助于洞察問題的實質(zhì)履植;
  • 使復雜的觀點得到簡明计雌、 確切、 高效的闡述玫霎;
  • 能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息凿滤;
  • 表述數(shù)據(jù)的真實情況, 避免歪曲庶近。

當然圖表可視化不僅僅只有R翁脆,Excel、SPSS鼻种、Tableau都可以使用反番。

3.數(shù)據(jù)的概括性度量

當你面對一堆數(shù)據(jù)時,你還是不知道從何下手,因為我們不可能強行記住每個數(shù)據(jù)恬口,然后在腦海里對各個數(shù)據(jù)的分布進行比較校读,所以科學家們在處理數(shù)據(jù)的時候,都希望用數(shù)據(jù)規(guī)模盡可能小的一個指標去描述數(shù)據(jù)盡可能多的信息祖能。那么從數(shù)據(jù)的角度出發(fā)歉秫,針對數(shù)據(jù)分布的不同方面,科學家們也都找出了不相同的指標來進行描述养铸。
簡單來說雁芙,數(shù)據(jù)分布包括了集中趨勢、離散程度钞螟、分布形狀三個方面的內(nèi)容兔甘。

  • 集中趨勢:眾數(shù)、中位數(shù)鳞滨、平均數(shù)洞焙;
  • 離散程度:異眾比率、四分位差拯啦、極差澡匪、方差或標準差、離散系數(shù)褒链;
  • 分布形狀:偏態(tài)系數(shù)唁情、峰態(tài)系數(shù)。

集中趨勢的幾個指標想必大家較為清楚甫匹,就不展開詳述了甸鸟。而離散程度中極差、方差和標準差也是如此兵迅,同上抢韭,不過單獨解釋下自由度的概念(一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù),與附加給獨立觀測值的約束或限制的個數(shù)
有關(guān)恍箭,比如三個數(shù)據(jù)的均值已經(jīng)知道刻恭,知道其中兩個數(shù)據(jù),第三個數(shù)據(jù)是固定的季惯,也就是說在添加了均值這個約束之后吠各,觀測數(shù)據(jù)自由取值的個數(shù)是n-1=2個)臀突。這里重點解釋異眾比率勉抓,四分位差、離散系數(shù)候学、偏態(tài)系數(shù)和峰態(tài)系數(shù)藕筋。
異眾比率——從字面理解即可,非眾數(shù)的比率梳码。也就是——不是眾數(shù)的組的頻數(shù)占總頻數(shù)的比率隐圾。
四分位差——上四分位數(shù)減去下四分位數(shù)伍掀。
離散系數(shù)——也就是標準差系數(shù),即用標準差除以平均值暇藏。
偏態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征(分布偏斜程度)的系數(shù)蜜笤,該系數(shù)>0為右偏分布,<0為左偏分布盐碱,=0為對稱分布把兔。
峰態(tài)系數(shù)——用來描述數(shù)據(jù)分布特征(分布扁平程度)的系數(shù),該系數(shù)>0為尖峰分布瓮顽,<0為扁平分布县好,=0為扁平峰度適中。
最后單列出以上部分指標的公式(有數(shù)學恐懼癥的同學請?zhí)^):

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末暖混,一起剝皮案震驚了整個濱河市缕贡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拣播,老刑警劉巖晾咪,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異诫尽,居然都是意外死亡禀酱,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進店門牧嫉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來剂跟,“玉大人,你說我怎么就攤上這事酣藻〔芮ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵辽剧,是天一觀的道長送淆。 經(jīng)常有香客問我,道長怕轿,這世上最難降的妖魔是什么偷崩? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮撞羽,結(jié)果婚禮上阐斜,老公的妹妹穿的比我還像新娘。我一直安慰自己诀紊,他們只是感情好谒出,可當我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般笤喳。 火紅的嫁衣襯著肌膚如雪为居。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天杀狡,我揣著相機與錄音蒙畴,去河邊找鬼。 笑死呜象,一個胖子當著我的面吹牛忍抽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播董朝,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鸠项,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了子姜?” 一聲冷哼從身側(cè)響起祟绊,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎哥捕,沒想到半個月后牧抽,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡遥赚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年扬舒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凫佛。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡讲坎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出愧薛,到底是詐尸還是另有隱情晨炕,我是刑警寧澤,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布毫炉,位于F島的核電站瓮栗,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏瞄勾。R本人自食惡果不足惜费奸,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望进陡。 院中可真熱鬧愿阐,春花似錦、人聲如沸四濒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盗蟆。三九已至戈二,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間喳资,已是汗流浹背觉吭。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仆邓,地道東北人鲜滩。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像节值,于是被迫代替她去往敵國和親徙硅。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容