Python 學(xué)習(xí)——每天寫(xiě)點(diǎn)小東西-5

今天的爬蟲(chóng)是爬取某網(wǎng)站的商品信息恐锦,難點(diǎn)在于網(wǎng)頁(yè)瀏覽量的爬取融击,不僅需要偽造Referer,而且瀏覽量的獲取不能直接抓取吓歇,否則會(huì)為0孽水。此項(xiàng)是由js控制的,如果使用chrome瀏覽器城看,可以在network里找到有一頁(yè)控制瀏覽量的文件女气。

http://jst1.58.com/counter?infoid={}

通過(guò)infoid來(lái)獲取瀏覽量,而此參數(shù)是商品網(wǎng)址的一部分测柠,所以需要從網(wǎng)址中提取出來(lái)炼鞠。
代碼入下:

from bs4 import BeautifulSoup
import requests
import time

headers = {
    'User-Agent': 'xxxxx',
    'Referer': 'xxxxx',
    'Cookie': 'xxxxx'
}

# 獲取爬取頁(yè)面?zhèn)€數(shù)以及其鏈接
def get_pages_num(who_sells, page_num):
    base_urls = ['http://cd.58.com/taishiji/{}/pn{}'.format(who_sells, page_num) for page_num in range(1, page_num+1)]
    return base_urls

# 獲取所有鏈接
def get_links_from(who_sells, page_num):
    base_urls = get_pages_num(who_sells, page_num)
    links = []

    for url in base_urls:
        time.sleep(1)
        r = requests.get(url, headers=headers).text
        soup = BeautifulSoup(r, 'lxml')
        for link in soup.select('td.t > a'):
            if len(link.get('href').split('?')[0]) == 46:
                links.append(link.get('href').split('?')[0])
    return links

# 獲取瀏覽量
def get_views(url):
    id_num = url.split('/')[-1].strip('x.shtml')
    api = 'http://jst1.58.com/counter?infoid={}'.format(id_num)
    js = requests.get(api, headers=headers)
    views = js.text.split('=')[-1]
    return views

# 獲取詳細(xì)信息
def get_item_info(who_sells=0, page_num=1):
    urls = get_links_from(who_sells, page_num)

    for url in urls:

        time.sleep(2)
        r = requests.get(url, headers=headers)
        soup = BeautifulSoup(r.text, 'lxml')

        title = soup.title.text
        price = soup.findAll('span', 'price c_f50')[0].text
        area = list(soup.select('.c_25d')[-1].stripped_strings)
        data = soup.select('li.time')[0].text

        data = {
            'title': title,
            'price': price,
            'data': data,
            'area': ''.join(area) if len(list(soup.select('.c_25d'))) == 2 else None,
            'cate': '個(gè)人' if who_sells == 0 else '商家',   #通過(guò)參數(shù)來(lái)判斷賣家
            'views': get_views(url)
        }

        print(data)


get_item_info(page_num=3)

此代碼的2個(gè)參數(shù)一個(gè)是對(duì)應(yīng)賣家的,0代表個(gè)人轰胁,1代表商家谒主,另一個(gè)是對(duì)應(yīng)爬取多少頁(yè)的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赃阀,一起剝皮案震驚了整個(gè)濱河市霎肯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌榛斯,老刑警劉巖观游,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異驮俗,居然都是意外死亡懂缕,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)意述,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)提佣,“玉大人,你說(shuō)我怎么就攤上這事荤崇“杵粒” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵术荤,是天一觀的道長(zhǎng)倚喂。 經(jīng)常有香客問(wèn)我,道長(zhǎng)瓣戚,這世上最難降的妖魔是什么端圈? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮子库,結(jié)果婚禮上舱权,老公的妹妹穿的比我還像新娘。我一直安慰自己仑嗅,他們只是感情好宴倍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布张症。 她就那樣靜靜地躺著,像睡著了一般鸵贬。 火紅的嫁衣襯著肌膚如雪俗他。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1 302
  • 那天阔逼,我揣著相機(jī)與錄音兆衅,去河邊找鬼。 笑死嗜浮,一個(gè)胖子當(dāng)著我的面吹牛羡亩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播周伦,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼夕春,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼未荒!你這毒婦竟也來(lái)了专挪?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤片排,失蹤者是張志新(化名)和其女友劉穎寨腔,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體率寡,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迫卢,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了冶共。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾蛤。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖捅僵,靈堂內(nèi)的尸體忽然破棺而出家卖,到底是詐尸還是另有隱情,我是刑警寧澤庙楚,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布上荡,位于F島的核電站,受9級(jí)特大地震影響馒闷,放射性物質(zhì)發(fā)生泄漏酪捡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一纳账、第九天 我趴在偏房一處隱蔽的房頂上張望逛薇。 院中可真熱鬧,春花似錦疏虫、人聲如沸永罚。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)尤蛮。三九已至媳友,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間产捞,已是汗流浹背醇锚。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坯临,地道東北人焊唬。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像看靠,于是被迫代替她去往敵國(guó)和親赶促。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容