最近很多同學(xué)在學(xué)習(xí)爬蟲過程中遇到很多障礙,我總結(jié)了一些原因,大多有以下幾點(diǎn):
1近上、http請求協(xié)議不清楚。這里還是強(qiáng)推阮一峰大神的HTTP 協(xié)議入門
2拂铡、HTML不熟悉壹无,如果想學(xué)習(xí)爬蟲,基本的HTML知識是必不可少的感帅。這里推薦使用w3school的html教程斗锭,不要求學(xué)的特別深,但至少能夠看的懂標(biāo)簽語言失球,知道屬性岖是、定位等概念。
3、python基本語法不扎實(shí)豺撑。廖雪峰python3教程
現(xiàn)在結(jié)合另一位學(xué)長的總結(jié)烈疚,給出一份簡單且快速的入門指導(dǎo)。
簡單爬蟲的實(shí)現(xiàn)
首先我先來說一下使用python設(shè)計(jì)一個(gè)簡單爬蟲的流程:
1聪轿、請求函數(shù)(requests爷肝、urllib),分析網(wǎng)站的請求方式屹电,決定使用那種方法阶剑。
2、html解析函數(shù)(beautifulsoup危号、pyquery、json素邪、re)外莲,分析獲得的html,發(fā)現(xiàn)數(shù)據(jù)或者文本分布規(guī)律兔朦,選擇適合的解析方法進(jìn)行解析
3偷线、數(shù)據(jù)存儲函數(shù)(xlwt、peewee)
括號內(nèi)也寫入了一些爬蟲常用的沽甥、基本的包
1声邦、requests、urllib是兩種不同的請求包摆舟,個(gè)人認(rèn)為requests要比urllib好用亥曹。
2、beautifulsoup和pyquery是針對html的解析包恨诱,如果有jquery經(jīng)驗(yàn)的同學(xué)請考慮使用pyquery媳瞪。json主要針對返回json數(shù)據(jù)的網(wǎng)站解析、re則是正則表達(dá)式照宝,當(dāng)上面幾種包都無法解析一個(gè)html的時(shí)候蛇受,則會用到,當(dāng)然厕鹃,對于某些特定結(jié)構(gòu)的網(wǎng)站來說兢仰,使用re要比使用beautifulsoup或者pyquery要方便的多。
3剂碴、xlwt是microsoft excel的寫入包把将,可以將數(shù)據(jù)一邊抓取一邊寫入excel中。peewee則是一種orm框架汗茄,能夠非常方便的操作數(shù)據(jù)庫(sqlite秸弛、Mysql、PostgreSQL等),除了peewee外递览,還有sqlite3叼屠、pymysql等包能夠讓python直接對數(shù)據(jù)庫進(jìn)行操作。當(dāng)然绞铃,最簡單的保存數(shù)據(jù)的方法就是使用with open寫入txt镜雨,但是當(dāng)要求開發(fā)增量式爬蟲以及去重的話,數(shù)據(jù)存儲在txt則需要返工儿捧。
上面這些包用法以及爬蟲的入門都可以在崔慶才老師的個(gè)人博客內(nèi)找到荚坞,寫得非常細(xì)致,但是使用的是python2菲盾,和python3有區(qū)別颓影,所以不要盲目照搬代碼。
如果你掌握了requests懒鉴、beautifulsoup(或者pyquery)這兩種包诡挂,那么恭喜你,你已經(jīng)可以完成一個(gè)簡單的爬蟲了临谱,對于急于上手璃俗、證明自己的你,個(gè)人推薦去抓取國家社科基金項(xiàng)目數(shù)據(jù)庫(網(wǎng)址百度去吧悉默,我放到這里擔(dān)心被國家哲學(xué)辦公室的人打城豁,練手的話簡單爬個(gè)兩三頁數(shù)據(jù)就好),這是我個(gè)人第一個(gè)抓取的網(wǎng)站抄课。同樣后面對多進(jìn)程或者對多線程爬蟲網(wǎng)站感興趣的話唱星,可以使用這個(gè)網(wǎng)站來實(shí)驗(yàn)。
進(jìn)階
如果對http協(xié)議掌握比較的話剖膳,已經(jīng)可以進(jìn)階對比較復(fù)雜的網(wǎng)站進(jìn)行抓取了魏颓,這里試試民國時(shí)期文獻(xiàn)數(shù)據(jù)庫(怕你們百度不到),這里就需要你們學(xué)會構(gòu)造headers吱晒、values等再發(fā)送請求甸饱。
可以發(fā)現(xiàn)這個(gè)請求是不是非常復(fù)雜?別擔(dān)心仑濒,這些都是使用火狐瀏覽器插件httpfox抓包得到的叹话,你要做的就是分析每一次請求抓到的包,找到規(guī)律墩瞳,然后修改并構(gòu)造驼壶。httpfox可以自行百度然后在火狐瀏覽器上安裝。
完成了這個(gè)網(wǎng)站喉酌,基本可以上手新浪微博了热凹,瀏覽器輸入s.weibo.com泵喘。在檢索欄里輸入自己感興趣的內(nèi)容,進(jìn)行挖掘般妙。再難點(diǎn)纪铺,可以點(diǎn)擊高級檢索,輸入時(shí)間范圍等其他約束碟渺,再進(jìn)行挖掘鲜锚。
更高級的
1、微博爬蟲:新浪微博小爬蟲
2苫拍、加入JS實(shí)現(xiàn)動態(tài)加載:Python高級爬蟲之動態(tài)加載頁面的解決方案與爬蟲代理
3芜繁、ip代理:Python爬蟲技巧之設(shè)置代理IP
4、多進(jìn)程:Python多進(jìn)程multiprocessing使用示例
5绒极、 Selenium&WebDriver:和我一起學(xué) Selenium WebDriver(1)——入門篇
6骏令、PhantomJS:python爬蟲的最佳實(shí)踐(五)--selenium+PhantomJS的簡單使
此部分涉及另一位學(xué)長的編寫內(nèi)容,讓他寫個(gè)博客發(fā)表死活不愿意集峦,沒法轉(zhuǎn)載只能復(fù)制到這
后期
對爬蟲開發(fā)很熟悉的話伏社,建議可以加上Redis:python redis的安裝與使用