Python爬蟲入門指導(dǎo)

最近很多同學(xué)在學(xué)習(xí)爬蟲過程中遇到很多障礙，我總結(jié)了一些原因，大多有以下幾點(diǎn)：
1近上、http請求協(xié)議不清楚。這里還是強(qiáng)推阮一峰大神的HTTP 協(xié)議入門
2拂铡、HTML不熟悉壹无，如果想學(xué)習(xí)爬蟲，基本的HTML知識是必不可少的感帅。這里推薦使用w3school的html教程斗锭，不要求學(xué)的特別深，但至少能夠看的懂標(biāo)簽語言失球，知道屬性岖是、定位等概念。
3、python基本語法不扎實(shí)豺撑。廖雪峰python3教程

現(xiàn)在結(jié)合另一位學(xué)長的總結(jié)烈疚，給出一份簡單且快速的入門指導(dǎo)。

簡單爬蟲的實(shí)現(xiàn)

首先我先來說一下使用python設(shè)計(jì)一個(gè)簡單爬蟲的流程：
1聪轿、請求函數(shù)（requests爷肝、urllib），分析網(wǎng)站的請求方式屹电，決定使用那種方法阶剑。
2、html解析函數(shù)（beautifulsoup危号、pyquery、json素邪、re）外莲，分析獲得的html，發(fā)現(xiàn)數(shù)據(jù)或者文本分布規(guī)律兔朦，選擇適合的解析方法進(jìn)行解析
3偷线、數(shù)據(jù)存儲函數(shù)（xlwt、peewee）

括號內(nèi)也寫入了一些爬蟲常用的沽甥、基本的包
1声邦、requests、urllib是兩種不同的請求包摆舟，個(gè)人認(rèn)為requests要比urllib好用亥曹。
2、beautifulsoup和pyquery是針對html的解析包恨诱，如果有jquery經(jīng)驗(yàn)的同學(xué)請考慮使用pyquery媳瞪。json主要針對返回json數(shù)據(jù)的網(wǎng)站解析、re則是正則表達(dá)式照宝，當(dāng)上面幾種包都無法解析一個(gè)html的時(shí)候蛇受，則會用到，當(dāng)然厕鹃，對于某些特定結(jié)構(gòu)的網(wǎng)站來說兢仰，使用re要比使用beautifulsoup或者pyquery要方便的多。
3剂碴、xlwt是microsoft excel的寫入包把将，可以將數(shù)據(jù)一邊抓取一邊寫入excel中。peewee則是一種orm框架汗茄，能夠非常方便的操作數(shù)據(jù)庫（sqlite秸弛、Mysql、PostgreSQL等），除了peewee外递览，還有sqlite3叼屠、pymysql等包能夠讓python直接對數(shù)據(jù)庫進(jìn)行操作。當(dāng)然绞铃，最簡單的保存數(shù)據(jù)的方法就是使用with open寫入txt镜雨，但是當(dāng)要求開發(fā)增量式爬蟲以及去重的話，數(shù)據(jù)存儲在txt則需要返工儿捧。
上面這些包用法以及爬蟲的入門都可以在崔慶才老師的個(gè)人博客內(nèi)找到荚坞，寫得非常細(xì)致，但是使用的是python2菲盾，和python3有區(qū)別颓影，所以不要盲目照搬代碼。

如果你掌握了requests懒鉴、beautifulsoup（或者pyquery）這兩種包诡挂，那么恭喜你，你已經(jīng)可以完成一個(gè)簡單的爬蟲了临谱，對于急于上手璃俗、證明自己的你，個(gè)人推薦去抓取國家社科基金項(xiàng)目數(shù)據(jù)庫（網(wǎng)址百度去吧悉默，我放到這里擔(dān)心被國家哲學(xué)辦公室的人打城豁，練手的話簡單爬個(gè)兩三頁數(shù)據(jù)就好），這是我個(gè)人第一個(gè)抓取的網(wǎng)站抄课。同樣后面對多進(jìn)程或者對多線程爬蟲網(wǎng)站感興趣的話唱星，可以使用這個(gè)網(wǎng)站來實(shí)驗(yàn)。

進(jìn)階

如果對http協(xié)議掌握比較的話剖膳，已經(jīng)可以進(jìn)階對比較復(fù)雜的網(wǎng)站進(jìn)行抓取了魏颓，這里試試民國時(shí)期文獻(xiàn)數(shù)據(jù)庫（怕你們百度不到），這里就需要你們學(xué)會構(gòu)造headers吱晒、values等再發(fā)送請求甸饱。

這里寫圖片描述

可以發(fā)現(xiàn)這個(gè)請求是不是非常復(fù)雜？別擔(dān)心仑濒，這些都是使用火狐瀏覽器插件httpfox抓包得到的叹话，你要做的就是分析每一次請求抓到的包，找到規(guī)律墩瞳，然后修改并構(gòu)造驼壶。httpfox可以自行百度然后在火狐瀏覽器上安裝。

完成了這個(gè)網(wǎng)站喉酌，基本可以上手新浪微博了热凹，瀏覽器輸入s.weibo.com泵喘。在檢索欄里輸入自己感興趣的內(nèi)容，進(jìn)行挖掘般妙。再難點(diǎn)纪铺，可以點(diǎn)擊高級檢索，輸入時(shí)間范圍等其他約束碟渺，再進(jìn)行挖掘鲜锚。

更高級的

1、微博爬蟲：新浪微博小爬蟲
2苫拍、加入JS實(shí)現(xiàn)動態(tài)加載：Python高級爬蟲之動態(tài)加載頁面的解決方案與爬蟲代理
3芜繁、ip代理：Python爬蟲技巧之設(shè)置代理IP
4、多進(jìn)程：Python多進(jìn)程multiprocessing使用示例
5绒极、 Selenium&WebDriver：和我一起學(xué) Selenium WebDriver（1）——入門篇
6骏令、PhantomJS：python爬蟲的最佳實(shí)踐(五)--selenium+PhantomJS的簡單使
此部分涉及另一位學(xué)長的編寫內(nèi)容，讓他寫個(gè)博客發(fā)表死活不愿意集峦，沒法轉(zhuǎn)載只能復(fù)制到這

后期

對爬蟲開發(fā)很熟悉的話伏社，建議可以加上Redis:python redis的安裝與使用

最后編輯于：2017.12.07 06:47:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市塔淤，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌速妖，老刑警劉巖高蜂，帶你破解...
沈念sama閱讀 219,589評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異罕容，居然都是意外死亡备恤，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,615評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門锦秒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來露泊，“玉大人，你說我怎么就攤上這事旅择〔研Γ” “怎么了？”我有些...
開封第一講書人閱讀 165,933評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵生真，是天一觀的道長沉噩。經(jīng)常有香客問我，道長柱蟀，這世上最難降的妖魔是什么川蒙？我笑而不...
開封第一講書人閱讀 58,976評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮长已，結(jié)果婚禮上畜眨，老公的妹妹穿的比我還像新娘昼牛。我一直安慰自己，他們只是感情好康聂，可當(dāng)我...
茶點(diǎn)故事閱讀 67,999評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布贰健。她就那樣靜靜地躺著，像睡著了一般早抠。火紅的嫁衣襯著肌膚如雪霎烙。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,775評論 1贊 307
城市分裂傳說
那天，我揣著相機(jī)與錄音野揪，去河邊找鬼奕谭。笑死，一個(gè)胖子當(dāng)著我的面吹牛尝蠕，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播载庭，決...
沈念sama閱讀 40,474評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼看彼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了囚聚？” 一聲冷哼從身側(cè)響起靖榕，我...
開封第一講書人閱讀 39,359評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎顽铸，沒想到半個(gè)月后茁计，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,854評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡谓松，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,007評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年星压，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鬼譬。...
茶點(diǎn)故事閱讀 40,146評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡娜膘，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出优质，到底是詐尸還是另有隱情竣贪，我是刑警寧澤，帶...
沈念sama閱讀 35,826評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布盆赤，位于F島的核電站贾富，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏牺六。R本人自食惡果不足惜颤枪，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,484評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望淑际。院中可真熱鬧畏纲，春花似錦扇住、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,029評論 0贊 22
一樁弒父案艘蹋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至票灰，卻和暖如春女阀，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背屑迂。一陣腳步聲響...
開封第一講書人閱讀 33,153評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工浸策，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人惹盼。一個(gè)月前我還...
沈念sama閱讀 48,420評論 3贊 373
代替公主和親
正文我出身青樓庸汗，卻偏偏與公主長得像，于是被迫代替她去往敵國和親手报。傳聞我的和親對象是個(gè)殘疾皇子蚯舱，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,107評論 2贊 356

Python爬蟲入門指導(dǎo)

簡單爬蟲的實(shí)現(xiàn)

進(jìn)階

更高級的

后期

推薦閱讀更多精彩內(nèi)容