當我們的爬蟲程序已經(jīng)完成使命,幫我們抓取大量的數(shù)據(jù)翎卓。你內(nèi)心也許會空落落的契邀。或許你會疑惑失暴,自己抓取這些數(shù)據(jù)有啥用坯门?如果要拿去分析微饥,那要怎么分析呢?
說到數(shù)據(jù)分析古戴,Python 完全能夠勝任這方面的工作欠橘。Python 究竟如何在數(shù)據(jù)分析領(lǐng)域做到游刃有余?因為它有“四板斧”允瞧,分別是Matplotlib、NumPy蛮拔、SciPy/Pandas述暂。Matplotlib 是畫圖工具,NumPy 是矩陣運算庫建炫,SciPy 是數(shù)學(xué)運算工具畦韭,Pandas 是數(shù)據(jù)處理的工具。
1 為什么選擇 Matplotlib肛跌?
Python 有很多強大的畫圖庫艺配,為什么我偏偏獨愛 Maplotlib?我先買個關(guān)子衍慎,先來看看還有哪些庫转唉。
Seaborn
Seaborn 是一個基于 Matplotlib 的高級可視化效果庫, 偏向于統(tǒng)計作圖稳捆。因此赠法,針對的點主要是數(shù)據(jù)挖掘和機器學(xué)習(xí)中的變量特征選取。相比 Matplotlib 乔夯,它語法相對簡化些砖织,繪制出來的圖不需要花很多功夫去修飾。但是它繪圖方式比較局限末荐,不過靈活侧纯。Bokeh
Bokeh 是基于 javascript 來實現(xiàn)交互可視化庫,它可以在WEB瀏覽器中實現(xiàn)美觀的視覺效果甲脏。但是它也有明顯的缺點眶熬。其一是版本時常更新,最重要的是有時語法還不向下兼容块请。這對于我們來說是噩夢聋涨。其二是語法晦澀,與 matplotlib做比較负乡,可以說是有過之而無不及牍白。ggplot
ggplot 是 yhat 大神基于 R 語言的 ggplot2 制作的 python 版本庫。 如果你使用 R 語言的話抖棘,ggplot2 可以算是必不可少的工具茂腥。所以狸涌,很多人都推薦使用該庫。不過可惜的是最岗,yhat 大神已經(jīng)停止維護該庫了帕胆。Plotly
Plotly 也是一個做可視化交互的庫。它不僅支持 Python 還支持 R 語言般渡。Plotly 的優(yōu)點是能提供 WEB 在線交互懒豹,配色也真心好看。如果你是一名數(shù)據(jù)分析師驯用,Plotly 強大的交互功能能助你一臂之力完成展示脸秽。Mapbox
Mapbox 使用處理地理數(shù)據(jù)引擎更強的可視化工具庫。如果你需要繪制地理圖蝴乔,那么它值得你信賴记餐。
總之, Python 繪圖庫眾多薇正,各有特點片酝。但是 Maplotlib 是最基礎(chǔ)的 Python 可視化庫。如果你將學(xué)習(xí) Python 數(shù)據(jù)可視化挖腰。那么 Maplotlib 是非學(xué)不可雕沿,然后再學(xué)習(xí)其他庫做縱橫向的拓展。
2 Matplotlib 能繪制什么圖猴仑?
Matiplotlib 非常強大晦炊,所以最基本的圖表自然不在話下。例如說:
直線圖
曲線圖
柱狀圖
直方圖
餅圖
散點圖
只能繪制這些最基礎(chǔ)的圖宁脊?顯示是不可能的断国,還能繪制些高級點的圖
例如:
高級點的柱狀圖
等高線圖
類表格圖形
不僅僅只有這些,還能繪制 3D 圖形榆苞。例如:
三維柱狀圖
3D 曲面圖
因此稳衬,Matplotlib 繪制的圖種類能夠滿足我們做數(shù)據(jù)分析了。
3 安裝 Matplotlib
看到這里坐漏,你是否驚嘆不已薄疚,很很迫不及待地想學(xué)習(xí) Matplotlib。而工欲善其事赊琳,必先利其器街夭。我們先來學(xué)習(xí)如何安裝 Matplotlib。其實也是很簡單躏筏,我們借助 pip 工具來安裝板丽。
在終端執(zhí)行以下命令來安裝 Matplotlib
pip install Matplotlib
# 如果出現(xiàn)因下載失敗導(dǎo)致安裝不上的情況,可以先啟動 ss 再執(zhí)行安裝命令
# 或者在終端中使用代理
pip --proxy http://代理ip:端口 install Matplotlib
上篇閱讀:爬蟲系列的總結(jié)
推薦閱讀:
爬蟲實戰(zhàn)二:爬取電影天堂的最新電影
深入理解HTTP