Python學(xué)習(xí)筆記3——第一次爬蟲

爬取一個(gè)網(wǎng)頁共分為兩步：

一是向服務(wù)器提出請求

當(dāng)我們在上網(wǎng)時(shí)，每點(diǎn)擊一個(gè)新的網(wǎng)頁册舞，其實(shí)都是在向服務(wù)器發(fā)送一個(gè)請求（Request）匹表，服務(wù)器在接到我們的請求之后偶翅，會返回一個(gè)回信（Response）辜腺。在提出請求（Request）的方法中休建，一共有g(shù)et、post评疗、head测砂、put、options百匆、connect砌些、trace、delete等8種方法胧华，其中最常用的方法是get寄症，用get方法幾乎能爬取90%的網(wǎng)頁宙彪。

編寫代碼時(shí)矩动，需加載第三方庫requests，代碼寫為import requests释漆。

二是爬取網(wǎng)頁

通過爬蟲獲取數(shù)據(jù)一共分為3步：

①使用BeautifulSoup解析網(wǎng)頁

代碼寫為：soup = BeautifulSoup(html,'lxml')悲没，對這句代碼可以這樣理解：

Beautiful Soup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫，它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式男图。

lxml也是Python庫示姿，將它放入 Beautiful Soup中，作為一種轉(zhuǎn)化工具逊笆，去對輸入的網(wǎng)頁進(jìn)行解析栈戳。

課程中，侯爵老師的類比非常生動难裆，如果說soup是我們準(zhǔn)備做的一碗湯子檀，那html就是所需的食材镊掖，而lxml就是做這碗湯所需的食譜。

②描述要爬取的信息位置

定位要爬取的信息位置代碼為：XXX = soup.select('需爬取信息的位置')褂痰，XXX為爬取信息的名稱亩进，select顧名思義，就是去選擇并找到解析出的信息缩歪。

以即將爬取的網(wǎng)頁http://bj.xiaozhu.com為例归薛，打開網(wǎng)頁，右鍵點(diǎn)擊檢查匪蝙，在彈出的窗口中主籍，右鍵點(diǎn)擊需爬取的內(nèi)容代碼，在彈出的窗口內(nèi)注意copy中的兩個(gè)選項(xiàng)逛球，一個(gè)是Copy selector崇猫，另一個(gè)是Copy XPath。兩者都是選擇復(fù)制網(wǎng)頁的位置路徑需忿，但略有不同诅炉。將兩者復(fù)制進(jìn)行比較：

Copy selector：

body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em

Copy XPath：

/html/body/div[3]/div[1]/div[1]/h4/em

在目前的爬蟲中，主要是使用Copy selector屋厘，具體介紹一下Copy selector涕烧。在Copy selector的路徑結(jié)構(gòu)中，【>】表示了父子級的關(guān)系汗洒，【.】表示的是class屬性议纯。

例如我去定位“白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園（長租特惠）”這個(gè)標(biāo)題，他的第一父級路徑就寫為div.wrap clearfix con_bg溢谤，子級路徑寫為：div.con_1瞻凤，子孫級路徑寫為：div.pho_info，最后找到子孫節(jié)點(diǎn)下的h4標(biāo)簽下的em標(biāo)簽世杀，獲取標(biāo)簽中的信息阀参。最終用【>】將父級、子級瞻坝、子孫級等全部連接起來蛛壳，最終路徑寫為：div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em。（PS：注意在【>】前后都必須有一個(gè)空格所刀。）

將路徑寫下來是為了幫助準(zhǔn)確定位需要的信息衙荐，但路徑并不是越詳細(xì)越好，只要能確保所填寫的路徑為唯一對應(yīng)就行浮创。在這個(gè)例子中忧吟，只輸入“div.pho_info > h4 > em”，通過ctrl+F查找斩披，已經(jīng)能確定只有唯一的一個(gè)查找目標(biāo)溜族，那在填寫路徑時(shí)胸嘴，只填寫“div.pho_info > h4 > em”也同樣能爬取到我們需要的信息。（PS：在復(fù)制出來的路徑中斩祭，有時(shí)候會包含類似div:nth-child(2)劣像、li:nth-child(1)的信息，這時(shí)候需要將div摧玫、li等之后的:nth-child(x)刪除耳奕。）

③通過方法獲取數(shù)據(jù)

通過抓取以上信息所獲得的數(shù)據(jù)往往很多是多于的部分，因此還需進(jìn)一步獲取我們想要的信息诬像。例如剛才抓取的標(biāo)題信息屋群，輸出的內(nèi)容為：[<em>白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園（長租特惠）</em>]，但我們其實(shí)只需要【白格美居?xùn)|三環(huán)地鐵國貿(mào)潘家園（長租特惠）】這個(gè)內(nèi)容坏挠，因此還需把不要的內(nèi)容去掉芍躏。

通過調(diào)用BeautifuSoup的方法去獲得信息，例如此例中降狠，用到的方法是get_text()对竣。

在爬蟲中，常用到的方法有：

get_text()：返回選擇的標(biāo)簽文本

get('')：選擇標(biāo)簽中的屬性 (也就是標(biāo)簽屬性中=符號的左邊)榜配，常用于獲取鏈接和圖片

接下來是課程中的作業(yè)否纬，爬取http://bj.xiaozhu.com/中的相關(guān)信息。

代碼如下：

總結(jié)：

1.爬取一個(gè)網(wǎng)頁共分為兩步蛋褥，一是向服務(wù)器提出請求临燃，二是對網(wǎng)頁進(jìn)行解析爬取烙心；

2.爬取一個(gè)網(wǎng)頁需要經(jīng)歷大致3步膜廊，一是使用BeautifulSoup解析網(wǎng)頁，二是描述要爬取的信息位置淫茵，三是獲取所需數(shù)據(jù)爪瓜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市痘昌，隨后出現(xiàn)的幾起案子钥勋，更是在濱河造成了極大的恐慌炬转，老刑警劉巖辆苔，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異扼劈，居然都是意外死亡驻啤，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門荐吵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來骑冗，“玉大人赊瞬，你說我怎么就攤上這事≡羯” “怎么了巧涧？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長遥倦。經(jīng)常有香客問我谤绳，道長，這世上最難降的妖魔是什么袒哥？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任缩筛，我火速辦了婚禮，結(jié)果婚禮上堡称，老公的妹妹穿的比我還像新娘瞎抛。我一直安慰自己，他們只是感情好却紧，可當(dāng)我...
茶點(diǎn)故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布桐臊。她就那樣靜靜地躺著，像睡著了一般晓殊。火紅的嫁衣襯著肌膚如雪豪硅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天挺物，我揣著相機(jī)與錄音懒浮，去河邊找鬼。笑死识藤，一個(gè)胖子當(dāng)著我的面吹牛砚著，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播痴昧，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼稽穆，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了赶撰？” 一聲冷哼從身側(cè)響起舌镶，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎豪娜，沒想到半個(gè)月后餐胀，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡瘤载，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年否灾，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鸣奔。...
茶點(diǎn)故事閱讀 40,505評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡墨技，死狀恐怖惩阶，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情扣汪，我是刑警寧澤断楷，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站崭别，受9級特大地震影響脐嫂，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜紊遵，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一账千、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧暗膜，春花似錦匀奏、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案娃善，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至瑞佩，卻和暖如春聚磺，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背炬丸。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工瘫寝，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人稠炬。一個(gè)月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓焕阿，卻偏偏與公主長得像，于是被迫代替她去往敵國和親首启。傳聞我的和親對象是個(gè)殘疾皇子暮屡，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,515評論 2贊 359

Python學(xué)習(xí)筆記3——第一次爬蟲

一是向服務(wù)器提出請求

二是爬取網(wǎng)頁

總結(jié)：

推薦閱讀更多精彩內(nèi)容