python實戰(zhàn)第一周作業(yè):爬取一頁商品數(shù)據(jù)

剛剛完成了本周的作業(yè)团驱,開始很奇怪除了推廣和轉轉沒有正常的商品了...詢問之后就開始抓轉轉吧摸吠,整體感覺難度不大,較好的實踐了本周的知識嚎花。

我的成果

Paste_Image.png

我的代碼

from bs4 import BeautifulSoup
import requests
import time
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

def get_info(url):
    time.sleep(2)
    wb_data=requests.get(url,headers=headers)
    soup=BeautifulSoup(wb_data.text,'lxml')
    titles=soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1')
    cates=soup.select('#nav > div > span > a')
    prices=soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span.price_now > i')
    areas=soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
    pageviews=soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time')
    for title,cate,price,area,pageview in zip(titles,cates,prices,areas,pageviews):
        data={
            'title':title.get_text(),
            'cate':cate.get_text(),
            'price':price.get_text(),
            'area':area.get_text(),
            'pageview':pageview.get_text()
        }
        print(data)

def get_links():
    url='http://bj.58.com/pbdn/'
    page_data=requests.get(url)
    soup=BeautifulSoup(page_data.text,'lxml')
    links=soup.select('#infolist > div.infocon > table > tbody > tr > td.t > a')
    urls=[]
    for link in links:
        if link.get('onclick')=="clickLog('from=zzpc_infoclick');":
            info_link=link.get('href').split('?')[0]
            urls.append(info_link)
    return urls

urls=get_links()
for url in urls:
    get_info(url)

總結

  • 發(fā)現(xiàn)網(wǎng)頁上已經(jīng)沒有發(fā)帖時間和成色了
  • 排除推廣頁面的時候寸痢,用if語句判斷了一個字段篩選
  • 兩個函數(shù),一個抓鏈接紊选,一個抓詳情
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末啼止,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子兵罢,更是在濱河造成了極大的恐慌献烦,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卖词,死亡現(xiàn)場離奇詭異巩那,居然都是意外死亡,警方通過查閱死者的電腦和手機此蜈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門即横,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人裆赵,你說我怎么就攤上這事东囚。” “怎么了战授?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵页藻,是天一觀的道長抛蚁。 經(jīng)常有香客問我,道長惕橙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任钉跷,我火速辦了婚禮弥鹦,結果婚禮上,老公的妹妹穿的比我還像新娘爷辙。我一直安慰自己彬坏,他們只是感情好,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布膝晾。 她就那樣靜靜地躺著栓始,像睡著了一般。 火紅的嫁衣襯著肌膚如雪血当。 梳的紋絲不亂的頭發(fā)上幻赚,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機與錄音臊旭,去河邊找鬼落恼。 笑死,一個胖子當著我的面吹牛离熏,可吹牛的內(nèi)容都是我干的佳谦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼滋戳,長吁一口氣:“原來是場噩夢啊……” “哼钻蔑!你這毒婦竟也來了?” 一聲冷哼從身側響起奸鸯,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤咪笑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后娄涩,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蒲肋,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年钝满,在試婚紗的時候發(fā)現(xiàn)自己被綠了兜粘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡弯蚜,死狀恐怖孔轴,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情碎捺,我是刑警寧澤路鹰,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布贷洲,位于F島的核電站,受9級特大地震影響晋柱,放射性物質(zhì)發(fā)生泄漏优构。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一雁竞、第九天 我趴在偏房一處隱蔽的房頂上張望钦椭。 院中可真熱鬧,春花似錦碑诉、人聲如沸彪腔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽德挣。三九已至,卻和暖如春快毛,著一層夾襖步出監(jiān)牢的瞬間格嗅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工唠帝, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吗浩,地道東北人。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓没隘,卻偏偏與公主長得像懂扼,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子右蒲,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容