http://www.reibang.com/p/077f7801cfdd
通常我們在使用爬蟲的時候會爬取很多數(shù)據(jù),而這些數(shù)據(jù)里邊什么是有用的數(shù)據(jù),什么是沒用的數(shù)據(jù)這個是值得我們關(guān)注的,在這一篇文章里,我們將通過一個簡單的爬蟲,來去簡單介紹下如何使用python來去做數(shù)據(jù)分析.
1:爬蟲部分
在這一篇文章中我們會以淘寶為例,爬取淘寶的店鋪和商家信息,然后去進行分析,首先我們打開淘寶首頁,搜索你想要查詢的產(chǎn)品:
這里我們會發(fā)現(xiàn)在商品信息哪里會有商品的價格,商品的銷量,商家店鋪名稱以及商家的地址,這時候我們就需要去解析網(wǎng)頁,去從網(wǎng)頁中尋找這些信息,在處理在這些信息我們要用到的是正則匹配公式.(建議多嘗試幾次,因為有時候服務(wù)器不太好會匹配不到).
另外在實現(xiàn)翻頁的時候,淘寶的頁碼公式是44(k-1)
我們匹配的只需要是藍色地部分,其中需要匹配的是(.*?),不需要匹配的是.*?,detail_url"這個不需要匹配.
在匹配之后,我們需要將爬取的數(shù)據(jù)寫入文件中,這時候就需要引入pandas模塊來去進行處理,寫入文件保存在csv文件中.(csv文件無論是在我們機器學(xué)習(xí)或者是爬蟲里都是處理數(shù)據(jù)的關(guān)鍵文件),在保存完數(shù)據(jù)之后,我們要對數(shù)據(jù)進行處理,加上標題,方便之后處理
在這個例子,我們分析的是店家的銷售數(shù)據(jù): 這時候銷售總額=銷量*單價
2:數(shù)據(jù)分析處理部分
在這一個部分我們處理的是pandas處理數(shù)據(jù)和matplotlib來繪制圖形.
最后使用plot把圖顯示出來:
樣式1
樣式2
這時候銷量的好壞就可以一目了然,當然,我們還可以做的還可以更多,但是這一篇文章的作用是希望大家能夠去動手做更多有意思的事,這才是學(xué)習(xí)的意義.
最后代碼部分:
代碼1
代碼2
小禮物走一走洲鸠,來簡書關(guān)注我
作者:云時之間
鏈接:http://www.reibang.com/p/077f7801cfdd
來源:簡書
簡書著作權(quán)歸作者所有梅屉,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處久橙。