最近有很多用戶說(shuō)到了年終需要回顧這一年的工作,根據(jù)這一年的數(shù)據(jù)看看有沒有異常的情況补箍,那么哪種圖能夠清晰直觀地展現(xiàn)出這一信息呢改执?
答案只有一個(gè),那就是...
箱形圖
箱形圖(英文:Box plot)坑雅,又稱為盒須圖辈挂、盒式圖、盒狀圖或箱線圖裹粤,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖终蒂。因型狀如箱子而得名。在各種領(lǐng)域也經(jīng)常被使用,常見于品質(zhì)管理后豫,快速識(shí)別異常值悉尾。
箱形圖最大的優(yōu)點(diǎn)就是不受異常值的影響,能夠準(zhǔn)確穩(wěn)定地描繪出數(shù)據(jù)的離散分布情況挫酿,同時(shí)也利于數(shù)據(jù)的清洗构眯。
想要搞懂箱形圖,那么一定要了解...
五大因“數(shù)”
我們一組序列數(shù)為例:12早龟,15惫霸,17,19葱弟,20壹店,23,25芝加,28硅卢,30,33藏杖,34将塑,35,36蝌麸,37講解這五大因“數(shù)”
1点寥、下四分位數(shù)Q1
(1)確定四分位數(shù)的位置。Qi所在位置=i(n+1)/4来吩,其中i=1敢辩,2,3弟疆。n表示序列中包含的項(xiàng)數(shù)戚长。
(2)根據(jù)位置,計(jì)算相應(yīng)的四分位數(shù)怠苔。
例中:
Q1所在的位置=(14+1)/4=3.75同廉,
Q1=0.25×第三項(xiàng)+0.75×第四項(xiàng)=0.25×17+0.75×19=18.5;
2嘀略、中位數(shù)(第二個(gè)四分位數(shù))Q2
中位數(shù)恤溶,即一組數(shù)由小到大排列處于中間位置的數(shù)乓诽。若序列數(shù)為偶數(shù)個(gè)帜羊,該組的中位數(shù)為中間兩個(gè)數(shù)的平均數(shù)。
例中:
Q2所在的位置=2(14+1)/4=7.5鸠天,
Q2=0.5×第七項(xiàng)+0.5×第八項(xiàng)=0.5×25+0.5×28=26.5
3讼育、上四分位數(shù)Q3
計(jì)算方法同下四分位數(shù)。
例中:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一項(xiàng)+0.25×第十二項(xiàng)=0.75×34+0.25×35=34.25奶段。
4饥瓷、上限上限是非異常范圍內(nèi)的最大值。
首先要知道什么是四分位距如何計(jì)算的痹籍?
四分位距IQR=Q3-Q1呢铆,那么上限=Q3+1.5IQR
5、下限
下限是非異常范圍內(nèi)的最小值蹲缠。
下限=Q1-1.5IQR
講了這么多的“數(shù)學(xué)知識(shí)”棺克,那么箱形圖到底如何通過(guò)BDP應(yīng)用到實(shí)際的工作呢?我們還是用一個(gè)實(shí)例來(lái)幫助大家理解线定。
現(xiàn)在有“2017年各季度各地區(qū)分公司銷售業(yè)績(jī)”工作表娜谊,我們想要找出各季度哪些分公司業(yè)績(jī)屬于不正常范圍內(nèi)。
數(shù)據(jù)示例如下圖:
BDP箱形圖效果:
從上圖可以清晰的找出異常點(diǎn)斤讥,例如第二季度北京分公司的銷售額為22147元纱皆,該值比上限10759元還要大,所以定義為異常值芭商。
具體操作在這里就不講解了派草,可以參考“各位久等了,全新的炫酷圖表終于上線啦蓉坎!”
箱形圖的價(jià)值
1.直觀明了地識(shí)別數(shù)據(jù)批中的異常值
上文講了很久的識(shí)別異常值澳眷,其實(shí)箱線圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的耐抗性蛉艾,多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù)钳踊,所以異常值不會(huì)影響箱形圖的數(shù)據(jù)形狀,箱線圖識(shí)別異常值的結(jié)果比較客觀勿侯。由此可見拓瞪,箱線圖在識(shí)別異常值方面有一定的優(yōu)越性。
2.利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重
對(duì)于標(biāo)準(zhǔn)正態(tài)分布的樣本助琐,只有極少值為異常值祭埂。異常值越多說(shuō)明尾部越重,自由度越斜ァ(即自由變動(dòng)的量的個(gè)數(shù))蛆橡;
而偏態(tài)表示偏離程度,異常值集中在較小值一側(cè)掘譬,則分布呈左偏態(tài)泰演;異常值集中在較大值一側(cè),則分布呈右偏態(tài)葱轩。
3.利用箱線圖比較幾批數(shù)據(jù)的形狀
同一數(shù)軸上睦焕,幾批數(shù)據(jù)的箱線圖并行排列藐握,幾批數(shù)據(jù)的中位數(shù)、尾長(zhǎng)垃喊、異常值猾普、分布區(qū)間等形狀信息便昭然若揭。如上圖本谜,可直觀得看出第三季度各分公司的銷售額大體都在下降初家。
但箱形圖也有他的局限性,比如:不能精確地衡量數(shù)據(jù)分布的偏態(tài)和尾重程度乌助;對(duì)于批量比較大的數(shù)據(jù)笤成,反映的信息更加模糊以及用中位數(shù)代表總體評(píng)價(jià)水平有一定的局限性。
快速制作箱形圖入口:BDP個(gè)人版