Python爬蟲實(shí)戰(zhàn)筆記_1 實(shí)戰(zhàn)作業(yè)

爬取商品信息

由于58的二手商品平臺轉(zhuǎn)轉(zhuǎn)上線,爬取的方法與老師的講解有一些不一樣:

  • 58的二手商品新平臺轉(zhuǎn)轉(zhuǎn)璧帝,全是轉(zhuǎn)轉(zhuǎn)商品
  • 不區(qū)分個(gè)人商品與企業(yè)商品
  • 瀏覽量與網(wǎng)頁一起加載,不再單獨(dú)請求
  • 新的詳情頁無發(fā)貼時(shí)間信息,故不爬取
#!usr/bin/env python
#_*_ coding: utf-8 _*_

#  python3.5 vs python2.7
#  58zhuanzhuan

from bs4 import BeautifulSoup
import requests
import time


def geturls(urls):
    for url in urls:
        webdata = requests.get(url)
        soup = BeautifulSoup(webdata.text, 'lxml')
        itemlist = soup.select('tr.zzinfo > td.t > a.t')
        nav = getemtext(soup.select('div.nav a')[-1])
        for item in itemlist:
            itemurl = item.get('href')
            title = getemtext(item)
            get_target_info(itemurl, title, nav)
        time.sleep(1)

def getemtext(element):
    return element.get_text().strip()

def get_target_info(url, title='', nav=''):
    wbdata = requests.get(url)
    soup = BeautifulSoup(wbdata.text, 'lxml')
    #title = soup.select('div.box_left > div > div > h1')
    looktime = soup.select('span.look_time')[0]
    price = soup.select('span.price_now i')[0]
    place = soup.select('div.palce_li i')[0]
    data = {
        'title': title,
        'nav': nav,
        'looktime': getemtext(looktime).strip(u'次瀏覽'),
        'price': getemtext(price),
        'place': getemtext(place)
    }
    #print(data)
    print(data['title'])
    print('price: '+ data['price'] + ', view: '+ data['looktime']+ ' times' + ', area: ' + data['place'])

if __name__ == "__main__":
    urls = ["http://bj.58.com/pbdn/0/pn{}/".format(pageid) for pageid in range(1, 14)]
    geturls(urls)
    #http://bj.58.com/tushu/pn2
部分運(yùn)行結(jié)果
微軟平板SURFACE RT
price: 1500, view: 2560 times, area: 北京-豐臺
三星超薄平板咖气,
price: 1200, view: 801 times, area: 北京-通州
iPad1代
price: 680, view: 1333 times, area: 北京-朝陽
轉(zhuǎn)讓iPadmini2帶發(fā)票和包裝盒子16G配件齊全體大
price: 1512, view: 355 times, area: 北京-海淀
95成新16G IPAD4(the new ipad) 第一代高清屏的ipad,現(xiàn)使用無卡頓...
price: 1299, view: 1998 times, area: 北京-通州
全新ipad 沒有注冊的 零磨損 看圖吧
price: 1599, view: 1400 times, area: 北京-大興
蘋果iPad4代賤賣
price: 1200, view: 114 times, area: 北京-順義
總結(jié)
  • 類目與標(biāo)題信息從列表頁獲取挖滤,作為參數(shù)傳給get_target_info()崩溪,節(jié)省信息提取時(shí)間
  • 打印爬取的結(jié)果時(shí),直接print(data)斩松,中文以unicode編碼輸出伶唯。print(data['title'])可以正常顯示中文字符
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市惧盹,隨后出現(xiàn)的幾起案子乳幸,更是在濱河造成了極大的恐慌,老刑警劉巖钧椰,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件粹断,死亡現(xiàn)場離奇詭異,居然都是意外死亡嫡霞,警方通過查閱死者的電腦和手機(jī)瓶埋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來秒际,“玉大人悬赏,你說我怎么就攤上這事÷玻” “怎么了闽颇?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長寄锐。 經(jīng)常有香客問我兵多,道長尖啡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任剩膘,我火速辦了婚禮衅斩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘怠褐。我一直安慰自己畏梆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布奈懒。 她就那樣靜靜地躺著奠涌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪磷杏。 梳的紋絲不亂的頭發(fā)上溜畅,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天,我揣著相機(jī)與錄音极祸,去河邊找鬼慈格。 笑死,一個(gè)胖子當(dāng)著我的面吹牛遥金,可吹牛的內(nèi)容都是我干的浴捆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼稿械,長吁一口氣:“原來是場噩夢啊……” “哼汤功!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起溜哮,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤滔金,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后茂嗓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體餐茵,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年述吸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了忿族。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,739評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蝌矛,死狀恐怖道批,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情入撒,我是刑警寧澤隆豹,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站茅逮,受9級特大地震影響璃赡,放射性物質(zhì)發(fā)生泄漏判哥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一碉考、第九天 我趴在偏房一處隱蔽的房頂上張望塌计。 院中可真熱鬧,春花似錦侯谁、人聲如沸锌仅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽技扼。三九已至,卻和暖如春嫩痰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窍箍。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工串纺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人椰棘。 一個(gè)月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓纺棺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親邪狞。 傳聞我的和親對象是個(gè)殘疾皇子祷蝌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 把以前寫的爬蟲代碼整理成教程,方便以后查閱帆卓,可以爬點(diǎn)感興趣的東西玩一玩巨朦。 1.運(yùn)行環(huán)境及安裝: 1.運(yùn)行環(huán)境 默認(rèn)...
    阿健在長安閱讀 710評論 0 3
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取剑令、數(shù)據(jù)存儲糊啡、數(shù)據(jù)提取、數(shù)據(jù)分析吁津、數(shù)據(jù)挖掘棚蓄、...
    whenif閱讀 18,071評論 45 523
  • 編譯環(huán)境:python v3.5.0, mac osx 10.11.4 python爬蟲基礎(chǔ)知識: Python...
    擲骰子的求閱讀 16,588評論 11 101
  • 讀書是感悟. 讀莊子,讀到的是空靈的澄凈,心如澄澈的秋水,行若不系之舟,他甘愿做一棵守護(hù)月亮的樹,他甘愿"曳尾于途...
    Fwx煙雨傾城閱讀 308評論 2 4
  • 讀《基因革命》 作者沙倫?莫勒姆,博士碍脏、科學(xué)家梭依、醫(yī)生,《紐約時(shí)報(bào)》暢銷書作者典尾,曾榮獲19項(xiàng)與生物技術(shù)和人類健康有關(guān)...
    陽明心閱讀 461評論 0 0