python爬蟲08-selenium爬取淘寶網(wǎng)商品(源碼)

昨天之所以水了诊霹,是因為日更30天了羞延,歇一歇,同時也是為了完成今天的這個爬蟲脾还,畢竟第一次使用selenium+chrome爬取網(wǎng)站伴箩。

前兩天寫分析ajax爬蟲,是分析了網(wǎng)站請求的參數(shù)鄙漏、請求地址嗤谚、上傳的表單,模擬瀏覽器訪問頁面來的到源碼泥张,但是有時候ajax的參數(shù)非常多呵恢,而且經(jīng)過加密,很難找到規(guī)律媚创。這時候我們就需要使用selenium這個強大的庫了渗钉,它可以控制瀏覽器,模擬人的操作,直接獲取瀏覽器渲染完成后的頁面源碼鳄橘,真正做到可見即可爬声离。

不多說,讓我們開始吧瘫怜!
selenium需要我們配合瀏覽器使用术徊,它支持很多款瀏覽器,但是我更喜歡chrome鲸湃,因為它調(diào)試起來更方便赠涮,就像很多前段程序猿也喜歡chrome一樣,反正我不喜歡IE暗挑,讓它當(dāng)場去世吧笋除!

chromeDriver 也是必需品。下載下來后放在環(huán)境的script文件下炸裆。

這次也是垃它,還是剩下一小部分沒完成,現(xiàn)在還沒學(xué)習(xí)到烹看。之后會完善国拇。

  • 搜索商品后會直接跳到登錄界面,所以我直接打開的登錄界面惯殊,現(xiàn)在我只能掃碼登陸酱吝,賬號密碼登陸會出滑動驗證碼,這在ChromeDriver里無法完成靠胜,我就直接等10s讓我掃碼登陸了掉瞳。

其實吧我感覺爬蟲沒什么好講的,主要是對抗反爬機制能夠給我?guī)砜鞓防四_@次淘寶的反爬很厲害陕习。換頁的速度不能太快,太快的話址愿,到18頁就會被要求進行滑動驗證该镣,但是由于瀏覽器問題,總是失敗响谓。所以我在換頁之前用了10s的延時才能全部爬下來损合。

一共爬了100頁,我輸入的‘ipad’娘纷,一共4404條數(shù)據(jù)嫁审,全部存在數(shù)據(jù)庫中,方便以后使用:

image.png
結(jié)果

[圖片上傳失敗...(image-e5e97b-1553952994597)]

這次的程序中設(shè)計等待時間的概念赖晶,一個是隱式等待律适,一個是顯示等待辐烂。
隱式等待就是等待給定的時間,在尋找頁面中的元素捂贿,如果時間到了還沒加載出來纠修,就報錯,這一般用的少厂僧,但這次我也用了扣草,在掃碼登錄的時候。
顯示等待是指如果再規(guī)定的時間內(nèi)加載出來了颜屠,就獲取節(jié)點辰妙,如果沒有加載出來報錯。

代碼不長汽纤,具體內(nèi)容就不講了上岗,沒意思。你爬蟲遇到問題了蕴坪,來對比下,找找不同敬锐,這樣才能得到最大的進步背传,什么都直接說出來,就沒有找答案的這個過程台夺,也就沒有任何的成就感径玖,而且我寫這個,只是我為了記錄自己的學(xué)習(xí)過程颤介。最終雖然得到了我想要的梳星,但反爬機制沒解決,感覺得到之后一切都變得索然無味滚朵。

還有就是瀏覽器滑動驗證這一點冤灾,這將是我接下來的學(xué)習(xí)方向,之后就可以為所欲為了辕近。

import re
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
from config import *
import pymongo

# chrome_options = webdriver.ChromeOptions()
# chrome_options.add_argument()
browser = webdriver.Chrome()

wait = WebDriverWait(browser, 10)
client = pymongo.MongoClient(MONGODB_HOST, MONGODB_POST)
db = client[MONGODB_DB]
collection = db[MONGODB_COLLECTION]

def login():
    print("正在登錄")
    # 需要用手機淘寶掃二維碼登錄才能搜索
    browser.get(url='https://login.taobao.com')
    # 10s用來掃碼登錄
    browser.implicitly_wait(10)

def search():
    print("正在查找",KEYWORD)
    try:
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#q"))
        )
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button"))
        )
        input.send_keys(KEYWORD)
        submit.click()
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,
                                                    "#mainsrp-pager > div > div > div > div.total")))
        get_goods()
        return total.text
    except TimeoutError:
        return search()

def next_page(page_number):
    print("正在換頁", page_number)
    try:
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))
        )
        submit = wait.until(
            EC.element_to_be_clickable(
                (By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))
        )
        input.clear()
        input.send_keys(page_number)
        submit.click()
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,
                                                     '#mainsrp-pager > div > '\
                                                     'div > div > ul > '\
                                                     'li.item.active > '\
                                                     'span'), str(page_number)))
        get_goods()
    except Exception:
        next_page(page_number)


def get_goods():
    try:

        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,
                                                   '#mainsrp-itemlist .items '
                                                   '.item')))
        html = browser.page_source
        doc = pq(html)
        items = doc('#mainsrp-itemlist .items .item').items()
        for item in items:
            goods = {
                'img': item.find('.pic .img').attr('data-src'),
                'price': item.find('.price').text(),
                'deal': item.find('.deal-cnt').text(),
                'title': item.find('.title').text(),
                'shop': item.find('.shop').text(),
                'location': item.find('.location').text()
            }
            save_to_mongodb(goods)
    except Exception:
        print("獲取商品失敗")

def save_to_mongodb(result):
    try:
        if db[MONGODB_COLLECTION].insert_one(result):
            print("存儲到數(shù)據(jù)成功", result)
    except Exception:
        print("存儲到數(shù)據(jù)庫失敗", result)

def main():
    login()
    total = search()
    total = int(re.compile('(\d+)').search(total).group(0))
    for i in range(2, total + 1):
        if i % 15 == 0:
            time.sleep(20)
        next_page(i)

if __name__ == '__main__':
    main()

在使用前一定要記得把該裝的庫都裝了韵吨,數(shù)據(jù)庫打開,網(wǎng)絡(luò)通暢移宅。

得抓緊學(xué)習(xí)了归粉,要趕在工大春招之前學(xué)完。

之前在百度貼吧幫別人解決問題漏峰,這讓我很開心糠悼,忘記了時間。所以今天晚了點浅乔。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末倔喂,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌滴劲,老刑警劉巖攻晒,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異班挖,居然都是意外死亡鲁捏,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門萧芙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來给梅,“玉大人,你說我怎么就攤上這事双揪《穑” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵渔期,是天一觀的道長运吓。 經(jīng)常有香客問我,道長疯趟,這世上最難降的妖魔是什么拘哨? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮信峻,結(jié)果婚禮上倦青,老公的妹妹穿的比我還像新娘。我一直安慰自己盹舞,他們只是感情好产镐,可當(dāng)我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著踢步,像睡著了一般癣亚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贾虽,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天逃糟,我揣著相機與錄音,去河邊找鬼蓬豁。 笑死绰咽,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的地粪。 我是一名探鬼主播取募,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蟆技!你這毒婦竟也來了玩敏?” 一聲冷哼從身側(cè)響起斗忌,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎旺聚,沒想到半個月后织阳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡砰粹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年唧躲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碱璃。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡弄痹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嵌器,到底是詐尸還是另有隱情肛真,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布爽航,位于F島的核電站蚓让,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏岳掐。R本人自食惡果不足惜凭疮,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望串述。 院中可真熱鬧,春花似錦寞肖、人聲如沸纲酗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽觅赊。三九已至,卻和暖如春琼稻,著一層夾襖步出監(jiān)牢的瞬間吮螺,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工帕翻, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鸠补,地道東北人。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓嘀掸,卻偏偏與公主長得像紫岩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子睬塌,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容