第一個(gè)爬蟲(chóng)

#第一個(gè)爬蟲(chóng)

---

今天寫(xiě)了第一個(gè)爬蟲(chóng)源哩,幾點(diǎn)困難:

1. 開(kāi)發(fā)環(huán)境設(shè)置: py3.5 vs py2.7,anaconda好像默認(rèn)安裝在2.7下面励烦,導(dǎo)致最新版lxml庫(kù)無(wú)法在py3.5里導(dǎo)入。**解決方案**使用anaconda單獨(dú)建立py3.5環(huán)境坛掠,使用 $source activate py3.5 來(lái)激活。

2. html構(gòu)成的理解: 今天爬了小豬屉栓,無(wú)需cookie信息即可瀏覽,所以header里無(wú)需加入cookie信息友多。但是對(duì)于html selector / xpath的應(yīng)用還需挺多練習(xí)。目前仍然不太懂得如何抓取圖片域滥。

3. python本身的熟悉度纵柿,逐頁(yè)抓取后如何保存在同一個(gè)列表里/如何存儲(chǔ)圖片到本地启绰,這個(gè)都需對(duì)py本身有更多練習(xí)。

4. 寫(xiě)了第一個(gè)爬蟲(chóng)還是很開(kāi)心的委可,希望繼續(xù)努力。

---

**代碼**:

~~~Python

#_*_ encoding: utf-8 _*_

from bs4 import BeautifulSoup

import requests

first_url = 'http://bj.xiaozhu.com/xicheng-305-9999yuan-duanzufang-9/?startDate=2016-07-01&endDate=2016-07-04'

urls = ['http://bj.xiaozhu.com/xicheng-duanzufang-p{}-8/?startDate=2016-07-01&endDate=2016-07-04'.format(str(i)) for i in range(1,9)]

headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

}

data = []

def get_housing(url):

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text, 'lxml')

info = []

descs = soup.select('div.result_btm_con.lodgeunitname > div > a > span')

prices = soup.select('div.result_btm_con.lodgeunitname > span.result_price > i')

addresses = soup.select('div.result_btm_con.lodgeunitname > div > em')

for desc, price, address in zip(descs, prices, addresses):

data = {

'desc': desc.get_text(),

'price': price.get_text(),

'address': list(address.stripped_strings)

}

info.append(data)

for item in info:

item['address'][0] = item['address'][0][:2]

if len(item['address']) < 3: continue

item['address'][2] = item['address'][2].strip('-').strip()

return info

for url in urls:

data += get_housing(url)

total = 0

for item in data:

print(item)

total+=int(item['price'])

average = total / len(data)

print ('總房數(shù):', len(data))

print ('平均房?jī)r(jià):', average)

~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末拾酝,一起剝皮案震驚了整個(gè)濱河市屈呕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌虎眨,老刑警劉巖蟋软,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異岳守,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)湿痢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)譬重,“玉大人,你說(shuō)我怎么就攤上這事臀规。” “怎么了塔嬉?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)谨究。 經(jīng)常有香客問(wèn)我恩袱,道長(zhǎng)胶哲,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任俩檬,我火速辦了婚禮,結(jié)果婚禮上碾盟,老公的妹妹穿的比我還像新娘技竟。我一直安慰自己,他們只是感情好榔组,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著搓扯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪锨推。 梳的紋絲不亂的頭發(fā)上铅歼,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音椎椰,去河邊找鬼。 笑死慨飘,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的瓤的。 我是一名探鬼主播休弃,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼玫芦,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了本辐?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤慎皱,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后茫多,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡天揖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了今膊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斑唬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出恕刘,到底是詐尸還是另有隱情缤谎,我是刑警寧澤褐着,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站含蓉,受9級(jí)特大地震影響项郊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜姻政,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望汁展。 院中可真熱鬧,春花似錦食绿、人聲如沸侈咕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)铲汪。三九已至,卻和暖如春掌腰,著一層夾襖步出監(jiān)牢的瞬間狰住,已是汗流浹背齿梁。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留勺择,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓省核,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親芳撒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子邓深,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 在慕課網(wǎng)上學(xué)習(xí)了簡(jiǎn)單的爬蟲(chóng)該怎么寫(xiě),看了一遍冬耿,敲了一遍舌菜,還是有些迷糊亦镶,于是袱瓮,又把每一步的要點(diǎn)總結(jié)了一下。 ...
    羋子契閱讀 312評(píng)論 0 0
  • [TOC] 目標(biāo) 用scrapy寫(xiě)一個(gè)可以下載頁(yè)面爱咬,解析靜態(tài)頁(yè)面的爬蟲(chóng),加head精拟,加鏈接生成器解析燎斩,可能用xpa...
    russelllei閱讀 512評(píng)論 0 1
  • 文集名字已經(jīng)改成《蜘蛛結(jié)網(wǎng)》了栅表,那么這個(gè)專題下不限于課程學(xué)習(xí)的練習(xí)題,也有自己的練手和札記师枣。最近去爬了一個(gè)留學(xué)服務(wù)...
    mugichya閱讀 336評(píng)論 0 1
  • 蓄(tuo)謀(yan)已久的我終于開(kāi)始正式學(xué)習(xí)python啦,學(xué)習(xí)了三個(gè)教程: 1.python基礎(chǔ):《父與...
    Yanzhao_Chen閱讀 387評(píng)論 0 0
  • 1.定義Item Item 是保存爬取到的數(shù)據(jù)的容器践美;其使用方法和 python 字典類(lèi)似。 您可以通過(guò)創(chuàng)建一個(gè) ...
    SingleDiego閱讀 992評(píng)論 0 1