利用python進行爬蟲

今天绪颖,我們來學(xué)習(xí)爬蟲抡笼。什么是爬蟲呢苏揣?

簡單來講,爬蟲是指使用一定的手段自動抓取網(wǎng)頁上的內(nèi)容蔫缸。它是搜索引擎的核心技術(shù)之一腿准。

爬蟲程序是我們用來自動抓取網(wǎng)頁內(nèi)容的手段。這里我們將講解如何利用python來編寫爬蟲程序拾碌。

要想抓取網(wǎng)頁上的內(nèi)容吐葱,首先我們要認(rèn)識網(wǎng)頁的構(gòu)成。


認(rèn)識網(wǎng)頁的構(gòu)成

網(wǎng)頁通常由三部分構(gòu)成校翔,一個網(wǎng)頁就等于一個HTML文檔:

1. HTML:結(jié)構(gòu)部分弟跑,區(qū)分每個部分具體是做什么用的,比如標(biāo)題防症、正文等孟辑,相當(dāng)于臥室、廚房等

2. CSS:<div class="">蔫敲,樣式部分饲嗽,每個部分長啥樣,地板什么顏色奈嘿,墻壁什么顏色

3. JavaScript:<script>:功能部分貌虾,房間里的電器。在爬蟲中利用較少


那么裙犹,爬取一個網(wǎng)頁尽狠,要做什么?

第一步:獲取網(wǎng)頁的內(nèi)容

為了獲取網(wǎng)頁的內(nèi)容叶圃,我們就需要知道服務(wù)器與本地的交換機制袄膏。

我們在瀏覽器輸入一個鏈接實際上是向網(wǎng)站所在的服務(wù)器發(fā)出一個請求(request),服務(wù)器在收到這個請求后就會把相應(yīng)的內(nèi)容返回(response)給我們掺冠。


請求的方法主要有兩種:get和post沉馆。我們在點擊一個按鈕或鏈接時使用的是get,發(fā)微博則是一個post行為德崭。我們使用一個爬蟲去抓取網(wǎng)頁內(nèi)容就是在模擬這些方法去獲取網(wǎng)頁內(nèi)容悍及。

我們在request時不僅僅是發(fā)送了url的信息,實際上包括你使用的設(shè)備等信息也發(fā)送過去了接癌。我們平時使用手機打開網(wǎng)頁時心赶,服務(wù)器因為知道我們使用的設(shè)備而以適合手機的方式呈現(xiàn)頁面就是這個原理。

服務(wù)器以response的形式返回給我們信息缺猛。爬蟲就是要解析網(wǎng)頁返回給我們的response信息(html文件)缨叫。


import requests

url="http://www.tripadvisor.cn/Attractions-g294217-Activities-Hong_Kong.html"

wb_data=requests.get(url)


第二步:使用BeautifulSoup解析網(wǎng)頁

from bs4 import BeautifulSoup

soup=BeautifulSoup(wb_data.text,'lxml')

beautifulsoup有兩個參數(shù)椭符,前面是待解析的文件,后面是解析文件的庫(按照什么規(guī)則解析)耻姥。


第三步:描述元素在網(wǎng)頁中所處位置

CSS Selector:描述元素在網(wǎng)頁中所處位置销钝,按照元素的位置和樣式去選取元素

titles=soup.select('div.property_title > a[target="_blank"]')

imgs=soup.select("img[width=160]")

cates=soup.select("div.p13n_reasoning_v2")


第四步:從標(biāo)簽中獲取想要的信息,并將信息裝進數(shù)據(jù)容器中琐簇,方便查詢

for title, img, cate in zip(titles,imgs,cates):

? ? data={

? ? ? ? ? ? "title":title.get_text(),

? ? ? ? ? ? "img":img.get('src'),

? ? ? ? ? ? "cate":list(cate.stripped_strings)

? ? ?}



運行結(jié)果:


深入學(xué)習(xí):

1. 如何爬取多個網(wǎng)頁蒸健?


2.需要登錄怎么辦?


3. 如何爬取移動設(shè)備網(wǎng)頁內(nèi)容婉商?


參考資料:

零基礎(chǔ)python實戰(zhàn):一周學(xué)會爬蟲

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末似忧,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丈秩,更是在濱河造成了極大的恐慌盯捌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蘑秽,死亡現(xiàn)場離奇詭異饺著,居然都是意外死亡,警方通過查閱死者的電腦和手機肠牲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門幼衰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人缀雳,你說我怎么就攤上這事渡嚣。” “怎么了俏险?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長扬绪。 經(jīng)常有香客問我竖独,道長,這世上最難降的妖魔是什么挤牛? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任莹痢,我火速辦了婚禮,結(jié)果婚禮上墓赴,老公的妹妹穿的比我還像新娘竞膳。我一直安慰自己,他們只是感情好诫硕,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布坦辟。 她就那樣靜靜地躺著,像睡著了一般章办。 火紅的嫁衣襯著肌膚如雪锉走。 梳的紋絲不亂的頭發(fā)上滨彻,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音挪蹭,去河邊找鬼亭饵。 笑死,一個胖子當(dāng)著我的面吹牛梁厉,可吹牛的內(nèi)容都是我干的辜羊。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼词顾,長吁一口氣:“原來是場噩夢啊……” “哼八秃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起计技,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤喜德,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后垮媒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舍悯,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年睡雇,在試婚紗的時候發(fā)現(xiàn)自己被綠了萌衬。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡它抱,死狀恐怖秕豫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情观蓄,我是刑警寧澤混移,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站侮穿,受9級特大地震影響歌径,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜亲茅,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一回铛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧克锣,春花似錦茵肃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至巾乳,卻和暖如春胚膊,著一層夾襖步出監(jiān)牢的瞬間故俐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工紊婉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留药版,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓喻犁,卻偏偏與公主長得像槽片,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肢础,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容