應(yīng)該有3個月沒有碰爬蟲了篡九,原因:該死的工作!?乛?乛?
閑話墨礁,最近狀態(tài)
昨天又加班啦幢竹,晚上很開心地去大哥大嫂那蹭飯,提及為什么周六都要加班恩静,對這個問題焕毫,我后來在回來的路上還是認真地思考了一下,具體過程本想用一個思維導(dǎo)圖來說明驶乾,畢竟在下的原則是能用畫的說明白的就不用寫的邑飒,能用寫的描述清楚的就不用說的。大概過程是這樣的级乐,我是誰疙咸?我在哪?……最后結(jié)論就是风科,這塊寶地與在下八字不合撒轮,嗯!
此處是一張非常驚奇的思維導(dǎo)圖贼穆。题山。。囧rz(??;)(??;)(??;)(??;)
加班?的問題想明白了之后頓時就覺得神清氣爽故痊,正是突破魂師進階魂斗羅顶瞳,啊不,好好學(xué)習(xí)知識的大好時候啊慨菱!
趁著興致焰络,把更新的幾部國漫刷完,已是凌晨兩點抡柿,time to sleep舔琅。醒來已是中午10點,幾縷陽光在窗前跳躍洲劣,嗯备蚓,好天氣!吃飽喝足回來囱稽,擦了擦電腦上厚厚的灰塵郊尝,嗯,正常開機战惊。
正題了
前幾天馬爺給我發(fā)了個樓盤流昏,想網(wǎng)上看看吧,這房產(chǎn)網(wǎng)吞获,看起來有點費勁啊况凉,嗯,爬了吧各拷!
寫著寫著刁绒,忽然想起來,這機子剛裝的Py3.6啊烤黍,其他啥都沒有呢知市,嗯,有點裸速蕊。于是重新裝各種庫嫂丙,其中pandas花費的時間有點出乎意料,不過還是成功了规哲,貼個圖
由于主要想看下各地區(qū)的樓盤分布跟啤,所以定下主要抓取數(shù)據(jù):樓盤名稱,地址唉锌,開發(fā)商腥光,價格
網(wǎng)頁結(jié)構(gòu)很好爬,但是還是走了點彎路糊秆,因為剛開始沒有很好的觀察網(wǎng)頁結(jié)構(gòu),以至于用BeautifuSoup來解析议双,總是抓不到想要的數(shù)據(jù)痘番。后來,仔細向度娘了解了各種標(biāo)簽,把整個網(wǎng)頁爬下來貼到notepad++里汞舱,XML格式下伍纫,仔細分析了下,終于拿到了想要的數(shù)據(jù)昂芜。
最后用DataFrame格式化一下數(shù)據(jù)莹规,pandas寫入到excel(因為本機無任何數(shù)據(jù)庫(╥╯^╰╥),真不像話泌神!還搞啥數(shù)據(jù))良漱,最后數(shù)據(jù)如下:
嗯,數(shù)據(jù)拿到了欢际,但是格式還是不是很標(biāo)準母市,價格那塊比較明顯,還是不利于分析损趋,有待處理患久,后續(xù)分析部分待續(xù)。浑槽。蒋失。今天就到這吧,time?for?dinner
哦桐玻,粗糙的代碼貼一下吧
待續(xù)。畸冲。嫉髓。