利用python進行爬蟲

今天绪颖，我們來學(xué)習(xí)爬蟲抡笼。什么是爬蟲呢苏揣？

簡單來講，爬蟲是指使用一定的手段自動抓取網(wǎng)頁上的內(nèi)容蔫缸。它是搜索引擎的核心技術(shù)之一腿准。

爬蟲程序是我們用來自動抓取網(wǎng)頁內(nèi)容的手段。這里我們將講解如何利用python來編寫爬蟲程序拾碌。

要想抓取網(wǎng)頁上的內(nèi)容吐葱，首先我們要認(rèn)識網(wǎng)頁的構(gòu)成。

認(rèn)識網(wǎng)頁的構(gòu)成

網(wǎng)頁通常由三部分構(gòu)成校翔，一個網(wǎng)頁就等于一個HTML文檔：

1. HTML:結(jié)構(gòu)部分弟跑，區(qū)分每個部分具體是做什么用的，比如標(biāo)題防症、正文等孟辑，相當(dāng)于臥室、廚房等

2. CSS:<div class="">蔫敲，樣式部分饲嗽，每個部分長啥樣，地板什么顏色奈嘿，墻壁什么顏色

3. JavaScript:<script>：功能部分貌虾，房間里的電器。在爬蟲中利用較少

那么裙犹，爬取一個網(wǎng)頁尽狠，要做什么？

第一步：獲取網(wǎng)頁的內(nèi)容

為了獲取網(wǎng)頁的內(nèi)容叶圃，我們就需要知道服務(wù)器與本地的交換機制袄膏。

我們在瀏覽器輸入一個鏈接實際上是向網(wǎng)站所在的服務(wù)器發(fā)出一個請求（request），服務(wù)器在收到這個請求后就會把相應(yīng)的內(nèi)容返回（response）給我們掺冠。

請求的方法主要有兩種：get和post沉馆。我們在點擊一個按鈕或鏈接時使用的是get，發(fā)微博則是一個post行為德崭。我們使用一個爬蟲去抓取網(wǎng)頁內(nèi)容就是在模擬這些方法去獲取網(wǎng)頁內(nèi)容悍及。

我們在request時不僅僅是發(fā)送了url的信息，實際上包括你使用的設(shè)備等信息也發(fā)送過去了接癌。我們平時使用手機打開網(wǎng)頁時心赶，服務(wù)器因為知道我們使用的設(shè)備而以適合手機的方式呈現(xiàn)頁面就是這個原理。

服務(wù)器以response的形式返回給我們信息缺猛。爬蟲就是要解析網(wǎng)頁返回給我們的response信息（html文件）缨叫。

import requests

url="http://www.tripadvisor.cn/Attractions-g294217-Activities-Hong_Kong.html"

wb_data=requests.get(url)

第二步：使用BeautifulSoup解析網(wǎng)頁

from bs4 import BeautifulSoup

soup=BeautifulSoup(wb_data.text,'lxml')

beautifulsoup有兩個參數(shù)椭符，前面是待解析的文件，后面是解析文件的庫（按照什么規(guī)則解析）耻姥。

第三步：描述元素在網(wǎng)頁中所處位置

CSS Selector：描述元素在網(wǎng)頁中所處位置销钝，按照元素的位置和樣式去選取元素

titles=soup.select('div.property_title > a[target="_blank"]')

imgs=soup.select("img[width=160]")

cates=soup.select("div.p13n_reasoning_v2")

第四步：從標(biāo)簽中獲取想要的信息，并將信息裝進數(shù)據(jù)容器中琐簇，方便查詢

for title, img, cate in zip(titles,imgs,cates):

? ? data={

? ? ? ? ? ? "title":title.get_text(),

? ? ? ? ? ? "img":img.get('src'),

? ? ? ? ? ? "cate":list(cate.stripped_strings)

? ? ?}

運行結(jié)果：

深入學(xué)習(xí)：

1. 如何爬取多個網(wǎng)頁蒸健？

2.需要登錄怎么辦？

3. 如何爬取移動設(shè)備網(wǎng)頁內(nèi)容婉商？

參考資料：

零基礎(chǔ)python實戰(zhàn)：一周學(xué)會爬蟲

最后編輯于：2017.12.03 03:27:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末似忧，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子丈秩，更是在濱河造成了極大的恐慌盯捌，老刑警劉巖，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蘑秽，死亡現(xiàn)場離奇詭異饺著，居然都是意外死亡，警方通過查閱死者的電腦和手機肠牲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門幼衰，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人缀雳，你說我怎么就攤上這事渡嚣。” “怎么了俏险？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長扬绪。經(jīng)常有香客問我竖独，道長，這世上最難降的妖魔是什么挤牛？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任莹痢，我火速辦了婚禮，結(jié)果婚禮上墓赴，老公的妹妹穿的比我還像新娘竞膳。我一直安慰自己，他們只是感情好诫硕，可當(dāng)我...
茶點故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布坦辟。她就那樣靜靜地躺著，像睡著了一般章办。火紅的嫁衣襯著肌膚如雪锉走。梳的紋絲不亂的頭發(fā)上滨彻，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音挪蹭，去河邊找鬼亭饵。笑死，一個胖子當(dāng)著我的面吹牛梁厉，可吹牛的內(nèi)容都是我干的辜羊。我是一名探鬼主播，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼词顾，長吁一口氣：“原來是場噩夢啊……” “哼八秃！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起计技，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤喜德，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后垮媒，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舍悯，經(jīng)...
沈念sama閱讀 45,661評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年睡雇，在試婚紗的時候發(fā)現(xiàn)自己被綠了萌衬。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡它抱，死狀恐怖秕豫，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情观蓄，我是刑警寧澤混移，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站侮穿，受9級特大地震影響歌径，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜亲茅，卻給世界環(huán)境...
茶點故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一回铛、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧克锣，春花似錦茵肃、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案验残，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至巾乳，卻和暖如春胚膊，著一層夾襖步出監(jiān)牢的瞬間故俐，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工紊婉，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留药版，地道東北人。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓喻犁，卻偏偏與公主長得像槽片，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子肢础，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,927評論 2贊 355

利用python進行爬蟲

認(rèn)識網(wǎng)頁的構(gòu)成

那么裙犹，爬取一個網(wǎng)頁尽狠，要做什么？

推薦閱讀更多精彩內(nèi)容