Python 學(xué)習(xí)——每天寫(xiě)點(diǎn)小東西-5

今天的爬蟲(chóng)是爬取某網(wǎng)站的商品信息恐锦，難點(diǎn)在于網(wǎng)頁(yè)瀏覽量的爬取融击，不僅需要偽造Referer，而且瀏覽量的獲取不能直接抓取吓歇，否則會(huì)為0孽水。此項(xiàng)是由js控制的，如果使用chrome瀏覽器城看，可以在network里找到有一頁(yè)控制瀏覽量的文件女气。

http://jst1.58.com/counter?infoid={}

通過(guò)infoid來(lái)獲取瀏覽量，而此參數(shù)是商品網(wǎng)址的一部分测柠，所以需要從網(wǎng)址中提取出來(lái)炼鞠。
代碼入下：

from bs4 import BeautifulSoup
import requests
import time

headers = {
    'User-Agent': 'xxxxx',
    'Referer': 'xxxxx',
    'Cookie': 'xxxxx'
}

# 獲取爬取頁(yè)面?zhèn)€數(shù)以及其鏈接
def get_pages_num(who_sells, page_num):
    base_urls = ['http://cd.58.com/taishiji/{}/pn{}'.format(who_sells, page_num) for page_num in range(1, page_num+1)]
    return base_urls

# 獲取所有鏈接
def get_links_from(who_sells, page_num):
    base_urls = get_pages_num(who_sells, page_num)
    links = []

    for url in base_urls:
        time.sleep(1)
        r = requests.get(url, headers=headers).text
        soup = BeautifulSoup(r, 'lxml')
        for link in soup.select('td.t > a'):
            if len(link.get('href').split('?')[0]) == 46:
                links.append(link.get('href').split('?')[0])
    return links

# 獲取瀏覽量
def get_views(url):
    id_num = url.split('/')[-1].strip('x.shtml')
    api = 'http://jst1.58.com/counter?infoid={}'.format(id_num)
    js = requests.get(api, headers=headers)
    views = js.text.split('=')[-1]
    return views

# 獲取詳細(xì)信息
def get_item_info(who_sells=0, page_num=1):
    urls = get_links_from(who_sells, page_num)

    for url in urls:

        time.sleep(2)
        r = requests.get(url, headers=headers)
        soup = BeautifulSoup(r.text, 'lxml')

        title = soup.title.text
        price = soup.findAll('span', 'price c_f50')[0].text
        area = list(soup.select('.c_25d')[-1].stripped_strings)
        data = soup.select('li.time')[0].text

        data = {
            'title': title,
            'price': price,
            'data': data,
            'area': ''.join(area) if len(list(soup.select('.c_25d'))) == 2 else None,
            'cate': '個(gè)人' if who_sells == 0 else '商家',   #通過(guò)參數(shù)來(lái)判斷賣家
            'views': get_views(url)
        }

        print(data)


get_item_info(page_num=3)

此代碼的2個(gè)參數(shù)一個(gè)是對(duì)應(yīng)賣家的，0代表個(gè)人轰胁，1代表商家谒主，另一個(gè)是對(duì)應(yīng)爬取多少頁(yè)的。

最后編輯于：2017.12.03 06:53:35

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末赃阀，一起剝皮案震驚了整個(gè)濱河市霎肯，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌榛斯，老刑警劉巖观游，帶你破解...
沈念sama閱讀 217,734評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異驮俗，居然都是意外死亡懂缕，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)意述，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)提佣，“玉大人，你說(shuō)我怎么就攤上這事荤崇“杵粒” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵术荤，是天一觀的道長(zhǎng)倚喂。經(jīng)常有香客問(wèn)我，道長(zhǎng)瓣戚，這世上最難降的妖魔是什么端圈？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮子库，結(jié)果婚禮上舱权，老公的妹妹穿的比我還像新娘。我一直安慰自己仑嗅，他們只是感情好宴倍，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布张症。她就那樣靜靜地躺著，像睡著了一般鸵贬。火紅的嫁衣襯著肌膚如雪俗他。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1贊 302
城市分裂傳說(shuō)
那天阔逼，我揣著相機(jī)與錄音兆衅，去河邊找鬼。笑死嗜浮，一個(gè)胖子當(dāng)著我的面吹牛羡亩，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播周伦，決...
沈念sama閱讀 40,262評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼夕春，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼未荒！你這毒婦竟也來(lái)了专挪？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤片排，失蹤者是張志新（化名）和其女友劉穎寨腔，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體率寡，經(jīng)...
沈念sama閱讀 45,587評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡迫卢，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了冶共。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾蛤。...
茶點(diǎn)故事閱讀 39,919評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖捅僵，靈堂內(nèi)的尸體忽然破棺而出家卖，到底是詐尸還是另有隱情，我是刑警寧澤庙楚，帶...
沈念sama閱讀 35,635評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布上荡，位于F島的核電站，受9級(jí)特大地震影響馒闷，放射性物質(zhì)發(fā)生泄漏酪捡。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一纳账、第九天我趴在偏房一處隱蔽的房頂上張望逛薇。院中可真熱鬧，春花似錦疏虫、人聲如沸永罚。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)尤蛮。三九已至媳友，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間产捞，已是汗流浹背醇锚。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坯临，地道東北人焊唬。一個(gè)月前我還...
沈念sama閱讀 48,048評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像看靠，于是被迫代替她去往敵國(guó)和親赶促。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評(píng)論 2贊 354

Python 學(xué)習(xí)——每天寫(xiě)點(diǎn)小東西-5

推薦閱讀更多精彩內(nèi)容