Python爬蟲(chóng)-Xpath-魔方公寓數(shù)據(jù)

這周的練習(xí)之一是爬取魔方公寓的出租房髓废,它的網(wǎng)頁(yè)結(jié)構(gòu)還比較清楚巷懈,沒(méi)什么隱藏。
目的也很單純慌洪,就是取名稱顶燕、地址、月租均價(jià)冈爹。

1.png

我的基礎(chǔ)還是太太太薄弱涌攻,爬第一個(gè)項(xiàng)目:地址的時(shí)候就被卡住了,嘗試n次排列組合無(wú)果频伤,還被大神批評(píng)思路不對(duì):只爬一個(gè)地址就要寫(xiě)一段恳谎,那爬其他的再寫(xiě)n段?——其實(shí)我也不是邏輯那么不清楚憋肖,只不過(guò)我連一個(gè)地址都搞不定因痛,遑論其他啊...
經(jīng)過(guò)大神解說(shuō),我覺(jué)得我還是對(duì)html編碼不熟悉岸更,所以該摘取的沒(méi)有摘取鸵膏,該繞過(guò)的沒(méi)有繞過(guò)。我也不貼自己的坑了怎炊,反正每個(gè)小白都有這么一段黑歷史...直接解說(shuō)正確答案吧谭企。

#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
from lxml import etree
#以上都是前面作業(yè)的模板

#第一步:網(wǎng)頁(yè)主頁(yè)(南京分舵) http://www.52mf.com.cn/Search/Orgs?city=%E5%8D%97%E4%BA%AC'
html = requests.get('http://www.52mf.com.cn/Search/Orgs?city=%E5%8D%97%E4%BA%AC').content
selector=etree.HTML(html)
#第二步:每個(gè)店的編碼段
infos=selector.xpath('//div[@class="orgs-room clearfix"]/div[2]')
未標(biāo)題-1.jpg

這里我學(xué)到一個(gè)小技巧廓译,還是要通過(guò)點(diǎn)選,這里點(diǎn)了"orgs-room clearfix"這行债查,相應(yīng)區(qū)域就自動(dòng)暗下來(lái)非区,反過(guò)來(lái)也是這樣。所以第二級(jí)的編碼應(yīng)該選這個(gè)盹廷。
此外征绸,class前面要加@,后面因?yàn)槭堑诙?jí)分區(qū)俄占,所以是div[2](這個(gè)是我的弱點(diǎn)歹垫,還是對(duì)html編碼太陌生了)

第三步是取出名稱,地址和均價(jià)颠放,圖片略過(guò)。

QQ圖片20170509154805.png

這里店名編碼"room-hd"后面有個(gè)"/a"吭敢,所以不要略過(guò)碰凶。對(duì)于小白來(lái)說(shuō),什么時(shí)候取div鹿驼,什么時(shí)候取p欲低,什么時(shí)候加a,可以從下面的標(biāo)簽得到提示畜晰。
地址和價(jià)格也照樣進(jìn)行砾莱,價(jià)格那里有個(gè)粗體的stong,也加上凄鼻。

for info in infos:
    shop_name=info.xpath('p[@class="room-hd"]/a/text()')[0]
    address=info.xpath('p[@class="address"]/text()')[0]
    room_money=info.xpath('p[@class="room-money"]/strong/text()')[0].lstrip('均價(jià):¥').rstrip('/月')
    print shop_name,address,room_money

最后還有一個(gè)坑:打印出來(lái)的店名腊瑟,地址和月租都是列表,所以加入[0]要選取第一個(gè)!
lstrip和rstrip都是把均價(jià)的左右字符刪掉块蚌,這樣爬出來(lái)就只有數(shù)字了闰非。


如果不想只打南京的,那么就加一個(gè)城市列表好了峭范。這段是程工示例财松,我還在理論研究階段,不賣(mài)弄了纱控。

if __name__ == '__main__':
    base_url='http://www.52mf.com.cn/Search/Orgs?city=%s'
    city_list=['北京','上海','南京','蘇州']
    for city in city_list:
        url=base_url % city.encode('utf-8')
        get_shop_data(url)

然后就得到一個(gè)好整齊的信息列表辆毡,我直接貼到excel用空格分列就好了。當(dāng)然日后還是要學(xué)習(xí)怎么寫(xiě)入文件的甜害。
我覺(jué)得我的思路還是正確的舶掖,就是幾乎,完全唾那,沒(méi)有技術(shù)能力访锻。首先要好好學(xué)習(xí)最基本的html褪尝,更別說(shuō)前面還有各種花式等著呢∑谌總是想象自己好像冰川時(shí)代那只松鼠河哑,用自己的大門(mén)牙啃冰山ing...
希望對(duì)其他小白有幫助。Done.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末龟虎,一起剝皮案震驚了整個(gè)濱河市璃谨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鲤妥,老刑警劉巖佳吞,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異棉安,居然都是意外死亡底扳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)贡耽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)衷模,“玉大人,你說(shuō)我怎么就攤上這事蒲赂≮逡保” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵滥嘴,是天一觀的道長(zhǎng)木蹬。 經(jīng)常有香客問(wèn)我,道長(zhǎng)若皱,這世上最難降的妖魔是什么镊叁? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮走触,結(jié)果婚禮上意系,老公的妹妹穿的比我還像新娘。我一直安慰自己饺汹,他們只是感情好蛔添,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著兜辞,像睡著了一般迎瞧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逸吵,一...
    開(kāi)封第一講書(shū)人閱讀 51,604評(píng)論 1 305
  • 那天凶硅,我揣著相機(jī)與錄音,去河邊找鬼扫皱。 笑死足绅,一個(gè)胖子當(dāng)著我的面吹牛捷绑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播氢妈,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼粹污,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了首量?” 一聲冷哼從身側(cè)響起壮吩,我...
    開(kāi)封第一講書(shū)人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎加缘,沒(méi)想到半個(gè)月后鸭叙,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡拣宏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年沈贝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片勋乾。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缀程,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出市俊,到底是詐尸還是另有隱情,我是刑警寧澤滤奈,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布摆昧,位于F島的核電站,受9級(jí)特大地震影響蜒程,放射性物質(zhì)發(fā)生泄漏绅你。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一昭躺、第九天 我趴在偏房一處隱蔽的房頂上張望忌锯。 院中可真熱鬧,春花似錦领炫、人聲如沸偶垮。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)似舵。三九已至,卻和暖如春葱峡,著一層夾襖步出監(jiān)牢的瞬間砚哗,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工砰奕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蛛芥,地道東北人提鸟。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像仅淑,于是被迫代替她去往敵國(guó)和親称勋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容