（一）爬蟲綜覽

一呐伞、網(wǎng)絡(luò)數(shù)據(jù)采集

涉及內(nèi)容：
數(shù)據(jù)庫敌卓、網(wǎng)絡(luò)服務(wù)器、HTTP協(xié)議伶氢、HTML語言趟径、網(wǎng)絡(luò)安全、圖像處理癣防、數(shù)據(jù)科學(xué)等內(nèi)容蜗巧。

二、開發(fā)環(huán)境

Python版本：Python3.5
操作系統(tǒng) ： Win10
IDE : 系統(tǒng)IDLE 蕾盯、Pycharm

三幕屹、相關(guān)庫

urllib
requests
selenium
re
BeautifulSoup
selenium
threading 、 muitiprocess
mysql.connector
xlsxwriter
scrapy

四级遭、步驟工具

（一）獲取網(wǎng)頁望拖，請求數(shù)據(jù)

urllib
requests
selenium

1、

from urllib.request import urlopen
html = urlopen(url)
# html.read()    為未處理的二進(jìn)制網(wǎng)頁源代碼
soup = BeautifulSoup(html.read(), 'lxml') #網(wǎng)頁源代碼
#加不加 .read 好像沒差

2挫鸽、

import requests
html = requests.get(url, headers=headers)
# html.text  為未處理的網(wǎng)頁源代碼
soup = BeautifulSoup(html.text, 'lxml')       
# 得加 .text

3说敏、

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
driver.page_source #為未處理的網(wǎng)頁源代碼

（二）提取內(nèi)容

re
BeautifulSoup
selenium

1、

re 匹配

2丢郊、

BeautifulSoup
find盔沫、 find_all医咨、 select
網(wǎng)頁標(biāo)簽，selector

3架诞、

find_elements...
網(wǎng)頁標(biāo)簽拟淮，selector，xpath

（三）下載內(nèi)容

open...write
urllretrieve
requests

下載圖片等文件

1侈贷、

from urllib.request import urlretrieve
urlretrieve(url, filename=None, reporthook=None, data=None)

2惩歉、

html = urlopen(imageUrl)
data = html.read()
f= open(fileName,'wb')
f.write(data)
f.close()

3、

import requests
picture = requests.get(url, headers=headers)
        if picture.status_code == 200: 
        open(path, 'wb').write(picture.content)

（四）儲存

csv
xlsxwriter
mysql.connector
pymongdb

（五）模擬瀏覽器

selenium
splinter

（六）中級爬蟲框架

scrapy

最后編輯于：2017.12.06 05:29:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末俏蛮，一起剝皮案震驚了整個濱河市撑蚌，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌搏屑，老刑警劉巖争涌，帶你破解...
沈念sama閱讀 222,627評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異辣恋，居然都是意外死亡亮垫，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門伟骨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來饮潦，“玉大人，你說我怎么就攤上這事携狭〖汤” “怎么了？”我有些...
開封第一講書人閱讀 169,346評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵逛腿，是天一觀的道長稀并。經(jīng)常有香客問我，道長单默，這世上最難降的妖魔是什么碘举？我笑而不...
開封第一講書人閱讀 60,097評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮搁廓，結(jié)果婚禮上引颈，老公的妹妹穿的比我還像新娘。我一直安慰自己枚抵，他們只是感情好线欲，可當(dāng)我...
茶點故事閱讀 69,100評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著汽摹，像睡著了一般李丰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上逼泣，一...
開封第一講書人閱讀 52,696評論 1贊 312
城市分裂傳說
那天趴泌，我揣著相機與錄音舟舒，去河邊找鬼。笑死嗜憔，一個胖子當(dāng)著我的面吹牛秃励，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播吉捶，決...
沈念sama閱讀 41,165評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼夺鲜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了呐舔？” 一聲冷哼從身側(cè)響起币励，我...
開封第一講書人閱讀 40,108評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎珊拼，沒想到半個月后食呻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,646評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡澎现，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,709評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年仅胞，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剑辫。...
茶點故事閱讀 40,861評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡干旧，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出妹蔽，到底是詐尸還是另有隱情莱革，我是刑警寧澤，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布讹开，位于F島的核電站，受9級特大地震影響捐名，放射性物質(zhì)發(fā)生泄漏旦万。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,196評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一镶蹋、第九天我趴在偏房一處隱蔽的房頂上張望成艘。院中可真熱鬧，春花似錦贺归、人聲如沸淆两。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評論 0贊 25
一樁弒父案拂酣，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽秋冰。三九已至，卻和暖如春婶熬，著一層夾襖步出監(jiān)牢的瞬間剑勾，已是汗流浹背埃撵。一陣腳步聲響...
開封第一講書人閱讀 33,804評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留虽另，地道東北人暂刘。一個月前我還...
沈念sama閱讀 49,287評論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長得像捂刺，于是被迫代替她去往敵國和親谣拣。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,860評論 2贊 361