對于爬取數(shù)據(jù)功咒,網(wǎng)上有很多零散的教程愉阎,正羊羊借最近自己的一個(gè)項(xiàng)目绞蹦,針對廣州房價(jià)來進(jìn)行一次爬蟲與數(shù)據(jù)分析。從最開始的數(shù)據(jù)爬取到之后的數(shù)據(jù)清洗與分析榜旦,正羊羊盡量將各個(gè)流程給大家講清楚幽七。本篇講的是如何爬取數(shù)據(jù)并把數(shù)據(jù)保存到csv文件中。
溫馨提示
建議在公眾號(hào)“正羊羊部落”后臺(tái)回復(fù)“房價(jià)”獲取代碼溅呢,在電腦上打開來對著看澡屡。另外,本程序尚未做效率優(yōu)化處理藕届,不要直接運(yùn)行挪蹭,建議在第79行代碼的列表中只留下天河區(qū),或者是在第86行代碼中縮小爬取的頁數(shù)范圍再進(jìn)行爬取休偶。對本代碼的進(jìn)一步優(yōu)化請看后續(xù)文章梁厉。
本篇文章的架構(gòu)如下:
這個(gè)項(xiàng)目的目的是爬取某(lianjia)網(wǎng)中關(guān)于廣州二手房的信息,包括房子的名稱踏兜、特點(diǎn)词顾、售價(jià)、位置等等碱妆。房子的位置范圍是按照網(wǎng)站上區(qū)域的分類肉盹,包括天河、越秀疹尾、荔灣上忍、海珠、番禺纳本、白云窍蓝、黃埔、從化繁成、增城吓笙、花都、南沙這11個(gè)區(qū)巾腕,相應(yīng)地面睛,程序會(huì)生成11個(gè)csv文件,分別是各個(gè)地區(qū)的房價(jià)信息尊搬。
這個(gè)爬取數(shù)據(jù)的模塊只需要幾個(gè)常見的第三方庫:
requests:訪問網(wǎng)站叁鉴,獲取含所需數(shù)據(jù)的html文件
bs4(BeautifulSoup): 解析html文件,獲取所需數(shù)據(jù)的文本
csv:將數(shù)據(jù)導(dǎo)入到csv文件中
time:控制網(wǎng)站的訪問頻率
random:配合time庫設(shè)定頻率
re:用正則表達(dá)式定位文本信息
獲取html
網(wǎng)站(url)格式:https://gz.lianjia.com/ershoufang/{}/pg{}/佛寿,兩個(gè)花括號(hào)分別為地區(qū)和頁數(shù)幌墓,在程序中要設(shè)定候選的參量,比如,對于天河區(qū)網(wǎng)頁的第一頁克锣,兩個(gè)花括號(hào)分別替換成tianhe和1,即https://gz.lianjia.com/ershoufang/tianhe/pg1/腔长。
整個(gè)爬取流程中袭祟,頁數(shù)為100頁,用列表來裝著那11個(gè)地區(qū)的簡拼:
將html.text用print函數(shù)打印結(jié)果如下:(只展示部分)
解析html
得到html.text后捞附,就可以用BeautifulSoup來對其解析了巾乳。解析的意思就是從這些文本里提取出我們需要的信息。讀者可以去看看文本中間部分的中文鸟召,那些就是我們要的信息:
為了方便胆绊,我們將BeautifulSoup簡寫成BS。BS給我們提供了CSS選擇器欧募,這個(gè)選擇器的作用就是選取信息压状。我們在網(wǎng)頁上把鼠標(biāo)放在隨便一個(gè)房子的名稱上,右鍵點(diǎn)擊“檢查”或“審查元素”:
這樣就可以打開監(jiān)控臺(tái)了跟继,而且它還會(huì)將鼠標(biāo)位置對應(yīng)的信息定位到相應(yīng)的代碼上:
然后我們將鼠標(biāo)放在上圖的藍(lán)色代碼上种冬,右鍵選擇Copy目錄下的“Copy selector”:
這樣我們就把定位這個(gè)房名的css選擇器的指引代碼給復(fù)制了下來,在文本框中粘貼一下就可以看到了:
這個(gè)和代碼第25行的字符串內(nèi)容是不是很像舔糖,唯一不一樣的就是li節(jié)點(diǎn)娱两,我們copy下來的多了“:nth-child(1)”部分,這是因?yàn)榻鹇穑覀僣opy下來的十兢,對應(yīng)的是第一個(gè)房子的房名,而在程序里確實(shí)要這一整頁的房名摇庙,所以旱物,把這部分刪掉就可以了。
通過.select語法跟匆,我們就可以利用經(jīng)處理后copy下來的代碼來選取信息了:
這幾行依先后分別對應(yīng)下圖的這幾處位置的信息:
另外异袄,在這一部分還外加了簡單的異常處理,try和except玛臂。如果其中某一個(gè)解析出現(xiàn)問題烤蜕,程序會(huì)直接輸出“failed!”的語句。
這部分程序最終會(huì)輸出該網(wǎng)頁各房在上圖6個(gè)相應(yīng)位置的節(jié)點(diǎn)信息。按照上圖烁挟,程序里Titles掏击、TotalPrice、UnitPrice齐疙、HouseInfo障陶、buildings届榄、attention分別得到如下文本:(這6個(gè)變量均為列表莉兰,包含該頁每個(gè)房子相應(yīng)位置的信息)
提取信息點(diǎn)
為了后續(xù)數(shù)據(jù)處理的方便以及信息本身的實(shí)用性挑围,我們還需要對這些文本進(jìn)行拆解,提取出最精煉的信息糖荒,而這也就是代碼第37行到第71行的任務(wù)杉辙。雖然內(nèi)容有點(diǎn)多,但是每一條信息的解析原理是相似甚至是一樣的捶朵。
以房子的總價(jià)為例:
Tp是TotalPrice這個(gè)列表的某一個(gè)元素蜘矢,代表著該網(wǎng)頁中某一個(gè)房子的總價(jià)信息,用.get_text()方法來獲取該信息的字符串格式综看,選擇數(shù)字品腹,去掉“萬”字,這便于數(shù)據(jù)分析红碑。去掉“萬”字的方法是字符串特定序列的截取舞吭,字符串由前到后標(biāo)號(hào)是0,1,2,...,而由后往前則是-1,-2,-3,...句喷,代碼中用[:-1]索引表示從字符串的倒數(shù)第2個(gè)字符一直往前镣典,直到最前端。Strip()函數(shù)的作用很簡單唾琼,只是為了去除字符串首尾的空格而已兄春。
在解析HouseInfo這部分的文本時(shí),我們可以看到網(wǎng)頁上是用“|”符號(hào)將各個(gè)信息點(diǎn)劃分開的锡溯,所以我們就用split()函數(shù)赶舆,按照“|”符號(hào),將這條信息切割祭饭。
最終形成由各信息點(diǎn)組成的列表芜茵,每個(gè)位置的信息列表最終都會(huì)組合到results變量中,供下一步的數(shù)據(jù)存儲(chǔ)倡蝙。
數(shù)據(jù)存儲(chǔ)
程序的第80行到第90行的任務(wù)就是數(shù)據(jù)存儲(chǔ)九串,針對每一個(gè)地區(qū)(for p in place),都會(huì)打開一個(gè)相應(yīng)的csv文件:
天河區(qū)的csv文件的內(nèi)容示例如下:
我們可以看到寺鸥,每一列的第一個(gè)元素是這一列的列名(看上圖紅框)猪钮,而程序的第82行至84行就是設(shè)定這個(gè)列名,其中的函數(shù)均來自csv這個(gè)第三方庫胆建。
紅色框中的兩個(gè)循環(huán)頭烤低,就是依次表示了遍歷每一個(gè)地區(qū)、每一頁笆载;而黃色框中的循環(huán)頭扑馁,就是表示遍歷爬取當(dāng)前頁的每一個(gè)房子的信息涯呻。因?yàn)閞esults是包含該頁的所有房子的信息,而我們可以看到腻要。在上上圖的csv文件截圖中复罐,每一行表示一個(gè)房子的信息,也就是說雄家,程序每次會(huì)從results中取出一個(gè)房子的信息市栗,再通過writerow(item)函數(shù),把每個(gè)房子的信息寫入csv文件中咳短。
設(shè)置訪問頻率
最后,用time庫和random庫來設(shè)置爬取頻率蛛淋。
Time.sleep()表示程序到這里會(huì)停止一段時(shí)間咙好,時(shí)間的長短由括號(hào)內(nèi)的數(shù)值決定,這個(gè)數(shù)值由random庫從0到3中隨機(jī)生成一個(gè)值褐荷,也就是說勾效,程序到這里可能會(huì)停頓0、1叛甫、2层宫、3秒中的某一種可能。
在爬取數(shù)據(jù)的過程中其监,我們可以看到如下的進(jìn)度示例:
最終的數(shù)據(jù)文件: