基于 Python2.7 的簡易爬蟲入門


0 - 環(huán)境配置

首先我們需要下載 Python2.7接箫, 直接在官網(wǎng)獲取就行了

image.png

然后為了后面省事你需要一個(gè) pip
打開 cmd 切換到 Python27/Scripts
輸入 esay_install pip 安裝 pip


image.png

輸入 pip 看到類似這樣的畫面就說明安裝成功了


image.png

我們需要一個(gè)第三方 requests 來使用 get 和 post 方法獲取和傳輸數(shù)據(jù)

pip install requests

1 - 簡單的獲取和發(fā)送數(shù)據(jù)

  • get 方法

在 cmd 中輸入Python 或者打開 Python IDLE 輸入

import requests
html = requests.get(“”https://www.python.org/“)
print html.content

然后你就能看到(看不到的話檢查一下你聯(lián)沒聯(lián)網(wǎng)

image.png

是不是看上去很熟悉楼吃, 這就是使用 get 方法獲取到的網(wǎng)頁的 html

使用 get 方法向服務(wù)器發(fā)送數(shù)據(jù)的話偶摔, 直接構(gòu)造 url 就行了
以 baidu 為例,要向服務(wù)器發(fā)送搜索的關(guān)鍵字 poi
那么構(gòu)造的 url 為

https://www.baidu.com/s?wd=poi

wd 即為 baidu 服務(wù)器獲取搜索關(guān)鍵字的字段

  • post 方法

使用 post 方法向服務(wù)器發(fā)送編碼為表單形式的數(shù)據(jù),使用requests也能很方便地實(shí)現(xiàn)
首先你需要構(gòu)造一個(gè)數(shù)據(jù)字典,比如:

data = {
           'USERNAME': username,
           'PASSWORD': password,
           'RANDOMCODE': verifycode
          }

然后使用 requests.post 向服務(wù)器發(fā)送數(shù)據(jù)

html = requests.post("http://", data=data)

相比 get 方法這里多了一個(gè)參數(shù) data究履,requests會(huì)自動(dòng)把你的數(shù)據(jù)字典構(gòu)造為表單形式,這樣就可以向網(wǎng)站發(fā)送表單了

2 - 分析網(wǎng)頁獲取數(shù)據(jù)

  • 簡單地查找字符串

Python 自帶了正則表達(dá)式引擎脸狸,在 Python 中引入模塊 re 即可

import re

還是以之前的 baidu 為例最仑,先使用 get 方法獲取網(wǎng)頁

html = requests.get("http://www.baidu.com/s?wd=poi")

接下來使用正則表達(dá)式匹配出獲取到的網(wǎng)頁中所有的鏈接

temp = re.findall(r"<a.*?href=\"http.*?<\/a>", html.content, re.I)

這樣就獲得了所有的含 url 的超鏈接標(biāo)簽
使用遍歷 temp 輸出每一條數(shù)據(jù)就能看到匹配到的字符串

for item in temp:
    print item
image.png

再把 url 從每一條中提取出來,就獲得了網(wǎng)頁中所有的鏈接炊甲,一個(gè)簡單的爬蟲差不多就是這個(gè)樣子了

  • 使用 BeautiSoup 和 lxml 解析引擎

這都是第三方庫泥彤,需要使使用 pip 獲取

3 - demo

通過以上方法,使用 get 和 post 方法獲取和向服務(wù)器發(fā)送數(shù)據(jù)卿啡,再從返回的數(shù)據(jù)中尋找自己所需要的信息吟吝,一個(gè)簡單的爬蟲就完成了,再配合使用 cookie 等就可以抓取到大部分靜態(tài)網(wǎng)頁
對于動(dòng)態(tài)網(wǎng)頁比如使用 Ajax 異步加載等技術(shù)的颈娜,可以使用 selenium 這樣的自動(dòng)化測試工具來完全模擬瀏覽器行為抓取數(shù)據(jù)

下面給出一個(gè)編寫簡單的抓取靜態(tài)網(wǎng)頁數(shù)據(jù)爬蟲的示例
Python 爬取 全民K歌 個(gè)人主頁全部歌曲和MV

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末剑逃,一起剝皮案震驚了整個(gè)濱河市浙宜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炕贵,老刑警劉巖梆奈,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異称开,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)乓梨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門鳖轰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扶镀,你說我怎么就攤上這事蕴侣。” “怎么了臭觉?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵昆雀,是天一觀的道長。 經(jīng)常有香客問我蝠筑,道長狞膘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任什乙,我火速辦了婚禮挽封,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘臣镣。我一直安慰自己辅愿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布忆某。 她就那樣靜靜地躺著点待,像睡著了一般。 火紅的嫁衣襯著肌膚如雪弃舒。 梳的紋絲不亂的頭發(fā)上癞埠,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機(jī)與錄音棒坏,去河邊找鬼燕差。 笑死,一個(gè)胖子當(dāng)著我的面吹牛坝冕,可吹牛的內(nèi)容都是我干的徒探。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼喂窟,長吁一口氣:“原來是場噩夢啊……” “哼测暗!你這毒婦竟也來了央串?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤碗啄,失蹤者是張志新(化名)和其女友劉穎质和,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稚字,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饲宿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胆描。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘫想。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖昌讲,靈堂內(nèi)的尸體忽然破棺而出国夜,到底是詐尸還是另有隱情,我是刑警寧澤短绸,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布车吹,位于F島的核電站,受9級特大地震影響醋闭,放射性物質(zhì)發(fā)生泄漏窄驹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一目尖、第九天 我趴在偏房一處隱蔽的房頂上張望馒吴。 院中可真熱鬧,春花似錦瑟曲、人聲如沸饮戳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扯罐。三九已至,卻和暖如春烦衣,著一層夾襖步出監(jiān)牢的瞬間歹河,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工花吟, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秸歧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓衅澈,卻偏偏與公主長得像键菱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子今布,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容经备,均僅用于學(xué)習(xí)交流拭抬,請勿用于任何商業(yè)用途! 一侵蒙、前言 強(qiáng)烈建議:請?jiān)陔娔X的陪同下造虎,閱讀本文...
    Bruce_Szh閱讀 12,679評論 6 28
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)纷闺,斷路器算凿,智...
    卡卡羅2017閱讀 134,601評論 18 139
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,444評論 6 428
  • 目錄: Python網(wǎng)絡(luò)爬蟲(一)- 入門基礎(chǔ)Python網(wǎng)絡(luò)爬蟲(二)- urllib爬蟲案例Python網(wǎng)絡(luò)爬...
    一只寫程序的猿閱讀 12,818評論 17 68
  • 一、 詞匯消極詞匯應(yīng)當(dāng)向積極詞匯轉(zhuǎn)化急但,這樣才不是背了一堆單詞結(jié)果沒一個(gè)會(huì)用的澎媒,詞匯量是X的話,也許能夠用出來的詞匯...
    八寶李小兔閱讀 903評論 0 0