Python 學(xué)習(xí)——每天寫點(diǎn)小東西-4

今天的爬蟲比較簡(jiǎn)單懂诗,就不做詳細(xì)介紹。爬取的是某網(wǎng)站的租房信息抛虏。

from bs4 import BeautifulSoup
import requests
import time


base_urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(14)]
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}


def get_urls(url):
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    urls = soup.select('a[class="resule_img_a"]')
    for url in urls:
        href = url.get('href')
        get_details(href)
        time.sleep(1)


def get_details(url):
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')

    title = soup.select('div.pho_info > h4 > em')
    addr = soup.select('p > span.pr5')
    price = soup.select('div.day_l > span')
    image = soup.select('div.pho_show_l > div > div > img')
    owner_img = soup.select('div.member_pic > a > img')
    sex = soup.select('div.member_pic > div.member_ico1')
    name = soup.select('div.w_240 > h6 > a')

    for t, a, p, i, o, n in zip(title, addr, price, image, owner_img, name):
        data = {
            'title': t.get_text(),
            'address': ''.join(a.get_text().split()),
            'price': p.get_text(),
            'img': i.get('src'),
            'owner_img': o.get('src'),
            'name': n.get_text()
        }

    if len(sex):
        data['sex'] = 'female'
    else:
        data['sex'] = 'male'

    # return data
    print(data)

for base_url in base_urls:
    get_urls(base_url)
    time.sleep(2)

自己電腦網(wǎng)速太慢一直爬不完博其,最后使用AWS主機(jī)才爬完300多條記錄。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末迂猴,一起剝皮案震驚了整個(gè)濱河市慕淡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沸毁,老刑警劉巖峰髓,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異息尺,居然都是意外死亡携兵,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門搂誉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徐紧,“玉大人,你說我怎么就攤上這事炭懊±送簦” “怎么了?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵凛虽,是天一觀的道長(zhǎng)死遭。 經(jīng)常有香客問我,道長(zhǎng)凯旋,這世上最難降的妖魔是什么呀潭? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任钉迷,我火速辦了婚禮,結(jié)果婚禮上钠署,老公的妹妹穿的比我還像新娘糠聪。我一直安慰自己,他們只是感情好谐鼎,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布舰蟆。 她就那樣靜靜地躺著,像睡著了一般狸棍。 火紅的嫁衣襯著肌膚如雪身害。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天草戈,我揣著相機(jī)與錄音塌鸯,去河邊找鬼。 笑死唐片,一個(gè)胖子當(dāng)著我的面吹牛丙猬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播费韭,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼茧球,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了星持?” 一聲冷哼從身側(cè)響起抢埋,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎钉汗,沒想到半個(gè)月后羹令,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鲤屡,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡损痰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酒来。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卢未。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖堰汉,靈堂內(nèi)的尸體忽然破棺而出辽社,到底是詐尸還是另有隱情,我是刑警寧澤翘鸭,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布滴铅,位于F島的核電站,受9級(jí)特大地震影響就乓,放射性物質(zhì)發(fā)生泄漏汉匙。R本人自食惡果不足惜拱烁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望噩翠。 院中可真熱鬧戏自,春花似錦、人聲如沸伤锚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)屯援。三九已至猛们,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間玄呛,已是汗流浹背阅懦。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留徘铝,地道東北人耳胎。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像惕它,于是被迫代替她去往敵國(guó)和親怕午。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容