(一)爬蟲綜覽

一呐伞、網(wǎng)絡(luò)數(shù)據(jù)采集

涉及內(nèi)容:
數(shù)據(jù)庫敌卓、網(wǎng)絡(luò)服務(wù)器、HTTP協(xié)議伶氢、HTML語言趟径、網(wǎng)絡(luò)安全、圖像處理癣防、數(shù)據(jù)科學(xué)等內(nèi)容蜗巧。

二、開發(fā)環(huán)境

  • Python版本:Python3.5
  • 操作系統(tǒng) : Win10
  • IDE : 系統(tǒng)IDLE 蕾盯、Pycharm

三幕屹、相關(guān)庫

  • urllib
  • requests
  • selenium
  • re
  • BeautifulSoup
  • selenium
  • threading 、 muitiprocess
  • mysql.connector
  • xlsxwriter
  • scrapy

四级遭、步驟工具

(一) 獲取網(wǎng)頁望拖,請求數(shù)據(jù)

  • urllib
  • requests
  • selenium
1、
from urllib.request import urlopen
html = urlopen(url)
# html.read()    為未處理的二進(jìn)制網(wǎng)頁源代碼
soup = BeautifulSoup(html.read(), 'lxml') #網(wǎng)頁源代碼
#加不加 .read 好像沒差
2挫鸽、
import requests
html = requests.get(url, headers=headers)
# html.text  為未處理的網(wǎng)頁源代碼
soup = BeautifulSoup(html.text, 'lxml')       
# 得加 .text
3说敏、
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
driver.page_source #為未處理的網(wǎng)頁源代碼

(二) 提取內(nèi)容

  • re
  • BeautifulSoup
  • selenium
1、

re 匹配

2丢郊、

BeautifulSoup
find盔沫、 find_all医咨、 select
網(wǎng)頁標(biāo)簽,selector

3架诞、

find_elements...
網(wǎng)頁標(biāo)簽拟淮,selector,xpath

(三) 下載內(nèi)容

  • open...write
  • urllretrieve
  • requests
下載圖片等文件
1侈贷、
from urllib.request import urlretrieve
urlretrieve(url, filename=None, reporthook=None, data=None)
2惩歉、
html = urlopen(imageUrl)
data = html.read()
f= open(fileName,'wb')
f.write(data)
f.close()
3、
import requests
picture = requests.get(url, headers=headers)
        if picture.status_code == 200: 
        open(path, 'wb').write(picture.content)

(四) 儲存

  • csv
  • xlsxwriter
  • mysql.connector
  • pymongdb

(五) 模擬瀏覽器

selenium
splinter

(六) 中級爬蟲框架

  • scrapy
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俏蛮,一起剝皮案震驚了整個濱河市撑蚌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌搏屑,老刑警劉巖争涌,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異辣恋,居然都是意外死亡亮垫,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門伟骨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來饮潦,“玉大人,你說我怎么就攤上這事携狭〖汤” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵逛腿,是天一觀的道長稀并。 經(jīng)常有香客問我,道長单默,這世上最難降的妖魔是什么碘举? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮搁廓,結(jié)果婚禮上引颈,老公的妹妹穿的比我還像新娘。我一直安慰自己枚抵,他們只是感情好线欲,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汽摹,像睡著了一般李丰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逼泣,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天趴泌,我揣著相機與錄音舟舒,去河邊找鬼。 笑死嗜憔,一個胖子當(dāng)著我的面吹牛秃励,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播吉捶,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼夺鲜,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了呐舔?” 一聲冷哼從身側(cè)響起币励,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎珊拼,沒想到半個月后食呻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡澎现,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年仅胞,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剑辫。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡干旧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出妹蔽,到底是詐尸還是另有隱情莱革,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布讹开,位于F島的核電站,受9級特大地震影響捐名,放射性物質(zhì)發(fā)生泄漏旦万。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一镶蹋、第九天 我趴在偏房一處隱蔽的房頂上張望成艘。 院中可真熱鬧,春花似錦贺归、人聲如沸淆两。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秋冰。三九已至,卻和暖如春婶熬,著一層夾襖步出監(jiān)牢的瞬間剑勾,已是汗流浹背埃撵。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留虽另,地道東北人暂刘。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像捂刺,于是被迫代替她去往敵國和親谣拣。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容