在互聯(lián)網(wǎng)數(shù)據(jù)分析的過程中症脂,我們經(jīng)常需要分析一組數(shù)據(jù)的離散分布情況以及分析這組數(shù)據(jù)的最大值、最小值淫僻、平均數(shù)诱篷、四分位數(shù)。
有時我們會有如下應用場景:假設一款內容型產品雳灵,想要對比分析用戶一周內對不同類型內容的打開情況棕所。想要查看某個類型的內容一周內打開最多的用戶是打開了幾個,打開最少的用戶是打開了幾個悯辙,用戶平均打開了幾個琳省,大多數(shù)的用戶是看了幾個內容。
那么箱型圖是一個能夠很好反映這些數(shù)據(jù)離散的圖表笑撞,在學習繪制箱形圖前先介紹一下四分位數(shù)岛啸。
一、分位數(shù)
分位數(shù)茴肥,統(tǒng)計學的定義是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點坚踩,通俗點說就是將一組數(shù)據(jù)按數(shù)量均分的點。比如二分位數(shù)就是指將一組數(shù)據(jù)均分為兩等分的點瓤狐,也被稱作中位數(shù)瞬铸。
那么顧名思義四分位數(shù)就是將一組數(shù)據(jù)均分為四等分的點批幌,一組數(shù)據(jù)被分為四等分需要有三個點,分別被稱為:第一四分位數(shù)(下四分位數(shù))嗓节、第二四分位數(shù)(中位數(shù))荧缘、第三四分位數(shù)(上四分位數(shù))。
下四分位數(shù)等于這組數(shù)據(jù)中從小到大第25%的數(shù)字拦宣,上四分位數(shù)等于這組數(shù)據(jù)中從小到大第75%的數(shù)字截粗。下四分位數(shù)與上四分位數(shù)之間的差距被稱為四分位距,箱形圖中的異常值就需要通過四分位距計算出來鸵隧。
二绸罗、箱形圖
箱形圖因為形狀類似一個箱子所以被稱為箱形圖,通過箱形圖可以很直觀的讀出一組數(shù)據(jù)的最大值豆瘫、最小值珊蟀、中位數(shù)、上四分位數(shù)外驱、下四分位數(shù)育灸、異常值,甚至有的箱形圖還能讀出平均值昵宇。
繪制箱形圖:
1. 首先需要得到這組數(shù)據(jù)的:最大值磅崭、最小值、平均值趟薄、四分位數(shù)绽诚。
2. 其次分別在坐標軸上根據(jù)最大值、上四分位數(shù)杭煎、中位數(shù)、下四分位數(shù)卒落、最小值的數(shù)值畫出5條線段羡铲。連接上四分位數(shù)與下四分位數(shù)兩端形成一個矩形,而后分別由矩形的上下端作垂線連接到上邊緣(最大值)與下邊緣(最小值)儡毕。
3. 接下來通過上面提到的四分位距計算溫和異常值和極端異常值的范圍(將上四分位數(shù)用Q3表示也切、下四分位數(shù)用Q1表示、四分位距用IQR表示)腰湾。溫和異常值的范圍:上限為Q3+1.5*IQR雷恃,下限為Q1-1.5*IQR,處在這個范圍內的值為溫和異常值费坊,一般用圓圈表示倒槐;極端異常值的范圍:上限為Q3+3*IQR,下限為Q1-3*IQR附井,處在這個范圍內的值為極端異常值讨越,一般用星號表示两残。(之所以要畫出異常值的范圍是因為對于非正太分布的數(shù)據(jù)來說,方差把跨、標準差很容易被異常值所影響人弓,比如對于100個人的年收入這組數(shù)據(jù)來說,如果里面加入了馬云這個異常值着逐,這個數(shù)據(jù)就不具有代表性了崔赌。)
具體箱形圖如下圖:
三、用python繪制一幅簡單的箱形圖
python中可以使用matplotlib庫來繪制基礎的箱形圖耸别,繪制出來的箱形圖在異常值相關的表示上會有所簡化峰鄙。代碼和效果如下:
總而言之,箱形圖可以很直觀的分析數(shù)據(jù)的離散分布情況太雨,上四分位數(shù)與下四分位數(shù)的距離越小說明越集中吟榴,否則說明越分散,對于上下邊緣來說是一樣的囊扳。然后通過中位數(shù)偏向于上四分位數(shù)還是下四分位數(shù)可以來分析數(shù)據(jù)分布的偏向吩翻。箱形圖還有一個優(yōu)點是相對受異常值的影響比較小,能夠準確穩(wěn)定地描繪出數(shù)據(jù)的離散分布情況锥咸,會比較有利于數(shù)據(jù)的清洗狭瞎。