Python學(xué)習(xí)筆記3——第一次爬蟲

爬取一個(gè)網(wǎng)頁共分為兩步:

一是向服務(wù)器提出請求

當(dāng)我們在上網(wǎng)時(shí),每點(diǎn)擊一個(gè)新的網(wǎng)頁册舞,其實(shí)都是在向服務(wù)器發(fā)送一個(gè)請求(Request)匹表,服務(wù)器在接到我們的請求之后偶翅,會返回一個(gè)回信(Response)辜腺。在提出請求(Request)的方法中休建,一共有g(shù)et、post评疗、head测砂、put、options百匆、connect砌些、trace、delete等8種方法胧华,其中最常用的方法是get寄症,用get方法幾乎能爬取90%的網(wǎng)頁宙彪。

編寫代碼時(shí)矩动,需加載第三方庫requests,代碼寫為import requests释漆。

二是爬取網(wǎng)頁

通過爬蟲獲取數(shù)據(jù)一共分為3步:

①使用BeautifulSoup解析網(wǎng)頁

代碼寫為:soup = BeautifulSoup(html,'lxml')悲没,對這句代碼可以這樣理解:

Beautiful Soup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫,它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式男图。

lxml也是Python庫示姿,將它放入 Beautiful Soup中,作為一種轉(zhuǎn)化工具逊笆,去對輸入的網(wǎng)頁進(jìn)行解析栈戳。

課程中,侯爵老師的類比非常生動难裆,如果說soup是我們準(zhǔn)備做的一碗湯子檀,那html就是所需的食材镊掖,而lxml就是做這碗湯所需的食譜。

②描述要爬取的信息位置

定位要爬取的信息位置代碼為:XXX = soup.select('需爬取信息的位置')褂痰,XXX為爬取信息的名稱亩进,select顧名思義,就是去選擇并找到解析出的信息缩歪。

以即將爬取的網(wǎng)頁http://bj.xiaozhu.com為例归薛,打開網(wǎng)頁,右鍵點(diǎn)擊檢查匪蝙,在彈出的窗口中主籍,右鍵點(diǎn)擊需爬取的內(nèi)容代碼,在彈出的窗口內(nèi)注意copy中的兩個(gè)選項(xiàng)逛球,一個(gè)是Copy selector崇猫,另一個(gè)是Copy XPath。兩者都是選擇復(fù)制網(wǎng)頁的位置路徑需忿,但略有不同诅炉。將兩者復(fù)制進(jìn)行比較:

Copy selector:

body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em

Copy XPath:

/html/body/div[3]/div[1]/div[1]/h4/em

在目前的爬蟲中,主要是使用Copy selector屋厘,具體介紹一下Copy selector涕烧。在Copy selector的路徑結(jié)構(gòu)中,【>】表示了父子級的關(guān)系汗洒,【.】表示的是class屬性议纯。

例如我去定位“白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園(長租特惠)”這個(gè)標(biāo)題,他的第一父級路徑就寫為div.wrap clearfix con_bg溢谤,子級路徑寫為:div.con_1瞻凤,子孫級路徑寫為:div.pho_info,最后找到子孫節(jié)點(diǎn)下的h4標(biāo)簽下的em標(biāo)簽世杀,獲取標(biāo)簽中的信息阀参。最終用【>】將父級、子級瞻坝、子孫級等全部連接起來蛛壳,最終路徑寫為:div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em。(PS:注意在【>】前后都必須有一個(gè)空格所刀。)

將路徑寫下來是為了幫助準(zhǔn)確定位需要的信息衙荐,但路徑并不是越詳細(xì)越好,只要能確保所填寫的路徑為唯一對應(yīng)就行浮创。在這個(gè)例子中忧吟,只輸入“div.pho_info > h4 > em”,通過ctrl+F查找斩披,已經(jīng)能確定只有唯一的一個(gè)查找目標(biāo)溜族,那在填寫路徑時(shí)胸嘴,只填寫“div.pho_info > h4 > em”也同樣能爬取到我們需要的信息。(PS:在復(fù)制出來的路徑中斩祭,有時(shí)候會包含類似div:nth-child(2)劣像、li:nth-child(1)的信息,這時(shí)候需要將div摧玫、li等之后的:nth-child(x)刪除耳奕。)

③通過方法獲取數(shù)據(jù)

通過抓取以上信息所獲得的數(shù)據(jù)往往很多是多于的部分,因此還需進(jìn)一步獲取我們想要的信息诬像。例如剛才抓取的標(biāo)題信息屋群,輸出的內(nèi)容為:[<em>白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園(長租特惠)</em>],但我們其實(shí)只需要【白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園(長租特惠)】這個(gè)內(nèi)容坏挠,因此還需把不要的內(nèi)容去掉芍躏。

通過調(diào)用BeautifuSoup的方法去獲得信息,例如此例中降狠,用到的方法是get_text()对竣。

在爬蟲中,常用到的方法有:

get_text():返回選擇的標(biāo)簽文本

get(''):選擇標(biāo)簽中的屬性 (也就是標(biāo)簽屬性中=符號的左邊)榜配,常用于獲取鏈接和圖片

接下來是課程中的作業(yè)否纬,爬取http://bj.xiaozhu.com/中的相關(guān)信息。

代碼如下:

總結(jié):

1.爬取一個(gè)網(wǎng)頁共分為兩步蛋褥,一是向服務(wù)器提出請求临燃,二是對網(wǎng)頁進(jìn)行解析爬取烙心;

2.爬取一個(gè)網(wǎng)頁需要經(jīng)歷大致3步膜廊,一是使用BeautifulSoup解析網(wǎng)頁,二是描述要爬取的信息位置淫茵,三是獲取所需數(shù)據(jù)爪瓜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市痘昌,隨后出現(xiàn)的幾起案子钥勋,更是在濱河造成了極大的恐慌炬转,老刑警劉巖辆苔,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異扼劈,居然都是意外死亡驻啤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進(jìn)店門荐吵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骑冗,“玉大人赊瞬,你說我怎么就攤上這事≡羯” “怎么了巧涧?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長遥倦。 經(jīng)常有香客問我谤绳,道長,這世上最難降的妖魔是什么袒哥? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任缩筛,我火速辦了婚禮,結(jié)果婚禮上堡称,老公的妹妹穿的比我還像新娘瞎抛。我一直安慰自己,他們只是感情好却紧,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布桐臊。 她就那樣靜靜地躺著,像睡著了一般晓殊。 火紅的嫁衣襯著肌膚如雪豪硅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天挺物,我揣著相機(jī)與錄音懒浮,去河邊找鬼。 笑死识藤,一個(gè)胖子當(dāng)著我的面吹牛砚著,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痴昧,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼稽穆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赶撰?” 一聲冷哼從身側(cè)響起舌镶,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎豪娜,沒想到半個(gè)月后餐胀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瘤载,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年否灾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鸣奔。...
    茶點(diǎn)故事閱讀 40,505評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡墨技,死狀恐怖惩阶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扣汪,我是刑警寧澤断楷,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站崭别,受9級特大地震影響脐嫂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜紊遵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一账千、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧暗膜,春花似錦匀奏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瑞佩,卻和暖如春聚磺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背炬丸。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工瘫寝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人稠炬。 一個(gè)月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓焕阿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親首启。 傳聞我的和親對象是個(gè)殘疾皇子暮屡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內(nèi)容