Py | 詳細(xì)解讀房價(jià)爬蟲程序(上篇)

對于爬取數(shù)據(jù)功咒,網(wǎng)上有很多零散的教程愉阎,正羊羊借最近自己的一個(gè)項(xiàng)目绞蹦,針對廣州房價(jià)來進(jìn)行一次爬蟲與數(shù)據(jù)分析。從最開始的數(shù)據(jù)爬取到之后的數(shù)據(jù)清洗與分析榜旦,正羊羊盡量將各個(gè)流程給大家講清楚幽七。本篇講的是如何爬取數(shù)據(jù)并把數(shù)據(jù)保存到csv文件中。

溫馨提示

建議在公眾號(hào)“正羊羊部落”后臺(tái)回復(fù)“房價(jià)”獲取代碼溅呢,在電腦上打開來對著看澡屡。另外,本程序尚未做效率優(yōu)化處理藕届,不要直接運(yùn)行挪蹭,建議在第79行代碼的列表中只留下天河區(qū),或者是在第86行代碼中縮小爬取的頁數(shù)范圍再進(jìn)行爬取休偶。對本代碼的進(jìn)一步優(yōu)化請看后續(xù)文章梁厉。

本篇文章的架構(gòu)如下:

這個(gè)項(xiàng)目的目的是爬取某(lianjia)網(wǎng)中關(guān)于廣州二手房的信息,包括房子的名稱踏兜、特點(diǎn)词顾、售價(jià)、位置等等碱妆。房子的位置范圍是按照網(wǎng)站上區(qū)域的分類肉盹,包括天河、越秀疹尾、荔灣上忍、海珠、番禺纳本、白云窍蓝、黃埔、從化繁成、增城吓笙、花都、南沙這11個(gè)區(qū)巾腕,相應(yīng)地面睛,程序會(huì)生成11個(gè)csv文件,分別是各個(gè)地區(qū)的房價(jià)信息尊搬。

這個(gè)爬取數(shù)據(jù)的模塊只需要幾個(gè)常見的第三方庫:

requests:訪問網(wǎng)站叁鉴,獲取含所需數(shù)據(jù)的html文件

bs4(BeautifulSoup): 解析html文件,獲取所需數(shù)據(jù)的文本

csv:將數(shù)據(jù)導(dǎo)入到csv文件中

time:控制網(wǎng)站的訪問頻率

random:配合time庫設(shè)定頻率

re:用正則表達(dá)式定位文本信息

獲取html

網(wǎng)站(url)格式:https://gz.lianjia.com/ershoufang/{}/pg{}/佛寿,兩個(gè)花括號(hào)分別為地區(qū)和頁數(shù)幌墓,在程序中要設(shè)定候選的參量,比如,對于天河區(qū)網(wǎng)頁的第一頁克锣,兩個(gè)花括號(hào)分別替換成tianhe和1,即https://gz.lianjia.com/ershoufang/tianhe/pg1/腔长。

整個(gè)爬取流程中袭祟,頁數(shù)為100頁,用列表來裝著那11個(gè)地區(qū)的簡拼:

將html.text用print函數(shù)打印結(jié)果如下:(只展示部分)

解析html

得到html.text后捞附,就可以用BeautifulSoup來對其解析了巾乳。解析的意思就是從這些文本里提取出我們需要的信息。讀者可以去看看文本中間部分的中文鸟召,那些就是我們要的信息:

為了方便胆绊,我們將BeautifulSoup簡寫成BS。BS給我們提供了CSS選擇器欧募,這個(gè)選擇器的作用就是選取信息压状。我們在網(wǎng)頁上把鼠標(biāo)放在隨便一個(gè)房子的名稱上,右鍵點(diǎn)擊“檢查”或“審查元素”:

這樣就可以打開監(jiān)控臺(tái)了跟继,而且它還會(huì)將鼠標(biāo)位置對應(yīng)的信息定位到相應(yīng)的代碼上:

然后我們將鼠標(biāo)放在上圖的藍(lán)色代碼上种冬,右鍵選擇Copy目錄下的“Copy selector”:

這樣我們就把定位這個(gè)房名的css選擇器的指引代碼給復(fù)制了下來,在文本框中粘貼一下就可以看到了:

這個(gè)和代碼第25行的字符串內(nèi)容是不是很像舔糖,唯一不一樣的就是li節(jié)點(diǎn)娱两,我們copy下來的多了“:nth-child(1)”部分,這是因?yàn)榻鹇穑覀僣opy下來的十兢,對應(yīng)的是第一個(gè)房子的房名,而在程序里確實(shí)要這一整頁的房名摇庙,所以旱物,把這部分刪掉就可以了。

通過.select語法跟匆,我們就可以利用經(jīng)處理后copy下來的代碼來選取信息了:

這幾行依先后分別對應(yīng)下圖的這幾處位置的信息:

另外异袄,在這一部分還外加了簡單的異常處理,try和except玛臂。如果其中某一個(gè)解析出現(xiàn)問題烤蜕,程序會(huì)直接輸出“failed!”的語句。

這部分程序最終會(huì)輸出該網(wǎng)頁各房在上圖6個(gè)相應(yīng)位置的節(jié)點(diǎn)信息。按照上圖烁挟,程序里Titles掏击、TotalPrice、UnitPrice齐疙、HouseInfo障陶、buildings届榄、attention分別得到如下文本:(這6個(gè)變量均為列表莉兰,包含該頁每個(gè)房子相應(yīng)位置的信息)

提取信息點(diǎn)

為了后續(xù)數(shù)據(jù)處理的方便以及信息本身的實(shí)用性挑围,我們還需要對這些文本進(jìn)行拆解,提取出最精煉的信息糖荒,而這也就是代碼第37行到第71行的任務(wù)杉辙。雖然內(nèi)容有點(diǎn)多,但是每一條信息的解析原理是相似甚至是一樣的捶朵。

以房子的總價(jià)為例:

Tp是TotalPrice這個(gè)列表的某一個(gè)元素蜘矢,代表著該網(wǎng)頁中某一個(gè)房子的總價(jià)信息,用.get_text()方法來獲取該信息的字符串格式综看,選擇數(shù)字品腹,去掉“萬”字,這便于數(shù)據(jù)分析红碑。去掉“萬”字的方法是字符串特定序列的截取舞吭,字符串由前到后標(biāo)號(hào)是0,1,2,...,而由后往前則是-1,-2,-3,...句喷,代碼中用[:-1]索引表示從字符串的倒數(shù)第2個(gè)字符一直往前镣典,直到最前端。Strip()函數(shù)的作用很簡單唾琼,只是為了去除字符串首尾的空格而已兄春。

在解析HouseInfo這部分的文本時(shí),我們可以看到網(wǎng)頁上是用“|”符號(hào)將各個(gè)信息點(diǎn)劃分開的锡溯,所以我們就用split()函數(shù)赶舆,按照“|”符號(hào),將這條信息切割祭饭。

最終形成由各信息點(diǎn)組成的列表芜茵,每個(gè)位置的信息列表最終都會(huì)組合到results變量中,供下一步的數(shù)據(jù)存儲(chǔ)倡蝙。

數(shù)據(jù)存儲(chǔ)

程序的第80行到第90行的任務(wù)就是數(shù)據(jù)存儲(chǔ)九串,針對每一個(gè)地區(qū)(for p in place),都會(huì)打開一個(gè)相應(yīng)的csv文件:

天河區(qū)的csv文件的內(nèi)容示例如下:

我們可以看到寺鸥,每一列的第一個(gè)元素是這一列的列名(看上圖紅框)猪钮,而程序的第82行至84行就是設(shè)定這個(gè)列名,其中的函數(shù)均來自csv這個(gè)第三方庫胆建。

紅色框中的兩個(gè)循環(huán)頭烤低,就是依次表示了遍歷每一個(gè)地區(qū)、每一頁笆载;而黃色框中的循環(huán)頭扑馁,就是表示遍歷爬取當(dāng)前頁的每一個(gè)房子的信息涯呻。因?yàn)閞esults是包含該頁的所有房子的信息,而我們可以看到腻要。在上上圖的csv文件截圖中复罐,每一行表示一個(gè)房子的信息,也就是說雄家,程序每次會(huì)從results中取出一個(gè)房子的信息市栗,再通過writerow(item)函數(shù),把每個(gè)房子的信息寫入csv文件中咳短。

設(shè)置訪問頻率

最后,用time庫和random庫來設(shè)置爬取頻率蛛淋。

Time.sleep()表示程序到這里會(huì)停止一段時(shí)間咙好,時(shí)間的長短由括號(hào)內(nèi)的數(shù)值決定,這個(gè)數(shù)值由random庫從0到3中隨機(jī)生成一個(gè)值褐荷,也就是說勾效,程序到這里可能會(huì)停頓0、1叛甫、2层宫、3秒中的某一種可能。

在爬取數(shù)據(jù)的過程中其监,我們可以看到如下的進(jìn)度示例:

最終的數(shù)據(jù)文件:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末萌腿,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子抖苦,更是在濱河造成了極大的恐慌毁菱,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锌历,死亡現(xiàn)場離奇詭異贮庞,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)究西,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門窗慎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人卤材,你說我怎么就攤上這事遮斥。” “怎么了商膊?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵伏伐,是天一觀的道長。 經(jīng)常有香客問我晕拆,道長藐翎,這世上最難降的妖魔是什么材蹬? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮吝镣,結(jié)果婚禮上堤器,老公的妹妹穿的比我還像新娘。我一直安慰自己末贾,他們只是感情好闸溃,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拱撵,像睡著了一般辉川。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拴测,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天乓旗,我揣著相機(jī)與錄音,去河邊找鬼集索。 笑死屿愚,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的务荆。 我是一名探鬼主播妆距,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼函匕!你這毒婦竟也來了娱据?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤盅惜,失蹤者是張志新(化名)和其女友劉穎吸耿,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體酷窥,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咽安,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓬推。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妆棒。...
    茶點(diǎn)故事閱讀 38,100評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖沸伏,靈堂內(nèi)的尸體忽然破棺而出糕珊,到底是詐尸還是另有隱情,我是刑警寧澤毅糟,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布红选,位于F島的核電站,受9級特大地震影響姆另,放射性物質(zhì)發(fā)生泄漏喇肋。R本人自食惡果不足惜坟乾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蝶防。 院中可真熱鬧甚侣,春花似錦、人聲如沸间学。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽低葫。三九已至详羡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嘿悬,已是汗流浹背殷绍。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鹊漠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓茶行,卻偏偏與公主長得像躯概,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子畔师,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容