Selenium 實(shí)戰(zhàn) 之淘寶商品信息的爬取

雖然淘寶的頁面數(shù)據(jù)是通過 Ajax 獲取的晤碘，也就是可以通過開發(fā)者模式直接找到它請求數(shù)據(jù)的接口吞杭，并且發(fā)現(xiàn)返回的數(shù)據(jù)是 json 的格式笛辟；但是這里需要注意的是這些 Ajax 接口的參數(shù)比較復(fù)雜已艰，包含了加密密鑰逞盆，因此如果想自己構(gòu)造 Ajax 參數(shù)是比較困難的券勺。

既然那么困難搞到數(shù)據(jù)绪钥，那么有沒有辦法使抓取的成本第一點(diǎn)呢？當(dāng)然有关炼，一種是使用特定的數(shù)據(jù)接口程腹；另一種就是使用 selenium了，selenium 有個(gè)特點(diǎn)就是可見即所得儒拂。

那么接下來我們開始觀察頁面效果圖：

image.png

經(jīng)過效果圖的觀察跪楞，我們不難發(fā)現(xiàn)規(guī)律：我們要加載商品列表的節(jié)點(diǎn)缀去；頁面跳轉(zhuǎn)時(shí)通過頁面輸入框再點(diǎn)擊“確定”按鈕進(jìn)行跳轉(zhuǎn)，并且只需判斷當(dāng)前高亮的頁碼數(shù)是當(dāng)前的頁碼數(shù)即可甸祭。

一缕碎、首先導(dǎo)入相應(yīng)的模塊：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from urllib.parse import quote
from pyquery import PyQuery as pq

二、加載及跳轉(zhuǎn)邏輯的代碼函數(shù)如下：

browser = webdriver.Chrome()  # 瀏覽器對象
wait = WebDriverWait(browser, 10)  # 加載等待最大時(shí)間
KEYWORD = "華為榮耀10"

def index_page(page):
    print("正在抓取第 ", page, "頁...")
    try:
        url = r'https://s.taobao.com/search?q='+ quote(KEYWORD)
        browser.get(url)
        if page > 1:  # 當(dāng)頁碼大于 1 的時(shí)候則進(jìn)行跳轉(zhuǎn)
            # 節(jié)點(diǎn)加載出來池户，傳入定位元組咏雌，如（By.ID, 'p'）
            input_word = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))  # 輸入頁碼框
            # 節(jié)點(diǎn)可點(diǎn)擊
            submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))  # 頁碼跳轉(zhuǎn)"確定"按鈕
            input_word.clear()  # 清空編輯框
            input_word.send_keys(page)  # 將頁碼填充到輸入框
            submit.click()  # 點(diǎn)擊"確定"按鈕

        # 某個(gè)節(jié)點(diǎn)文本包含某文字
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))  # 翻頁按鈕列表選項(xiàng)數(shù)字
        # 節(jié)點(diǎn)加載出來，傳入定位元組校焦，如（By.ID, 'p'）
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))  # 渲染商品所在列表選項(xiàng)
        # 解析數(shù)據(jù)
        get_products()

    except TimeoutException as e:
        index_page(page)

到這里赊抖，你可以直接運(yùn)行該函數(shù)看是否能成功加載源碼，這里我不做演示寨典；那么接下來在觀察我們所要加載信息（商品圖片氛雪、名稱、價(jià)格耸成、購買人數(shù)报亩、店鋪名稱、店鋪地址）的頁面節(jié)點(diǎn):

image.png

三井氢、觀察商品節(jié)點(diǎn)之后解析代碼如下(由于截圖大小有限弦追，其它標(biāo)簽自行觀察)：

# 解析函數(shù)-提取商品信息
def get_products():
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image':item.find('.pic .img').attr('data-src'),
            'price':item.find('.price').text(),
            'deal':item.find('.deal-cnt').text(),
            'title':item.find('.title').text(),
            'shop':item.find('.shop').text(),
            'location':item.find('.location').text()
        }
        print(product)

四、編寫主函數(shù)并調(diào)用：

def main():
    #page = 1  # 據(jù)觀察總共有 100 頁
    for page in range(1, 11):
        index_page(page)


if __name__ == '__main__':
    main()

運(yùn)行部分效果圖如下：

image.png

如果我們不想爬取的時(shí)候有瀏覽器彈出花竞，那么有兩種方式可以做到：1- 使用 Chrome Headless 模式（這個(gè)模式前面一章有介紹并使用過）劲件；2- 對接 PhantomJS

五、首先看第一種 -> 直接將 webdriver 的聲明修改為：

#browser = webdriver.Chrome()  # 瀏覽器對象
chrome_options = webdriver.ChromeOptions()  # 獲取 ChromeOptions 對象
chrome_options.add_argument('--headless')  # 添加 headless 參數(shù)
browser = webdriver.Chrome(chrome_options=chrome_options)  # 初始化 Chrome 對象

六约急、第二種 -> 同理零远，直接將 webdriver 的聲明修改為：

path = r"E:\\KaiFaSoftware\\MyPython\\MyPhantomjs\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe"
# browser = webdriver.PhantomJS(executable_path=path)

# 我們還可以通過命令行配置，設(shè)置緩存和禁用圖片加載功能厌蔽，進(jìn)一步提高爬取效率
SERVICE_ARGS = ['--load-images=false','--disk-cache=true']
browser = webdriver.PhantomJS(executable_path=path,service_args=SERVICE_ARGS)

這里值得注意的是：如果配置了環(huán)境變量則不需要 path 指定路徑了牵辣，還有提供一個(gè) PhantomJS 的下載地址 -> http://phantomjs.org/download.html

最后的話非常感謝崔老師的思路，嘿嘿躺枕，相信通過本次實(shí)戰(zhàn)同學(xué)們應(yīng)該學(xué)到了不少了服猪；本次實(shí)戰(zhàn)到此為止供填，感恩一切拐云。。近她。 *^_^*

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末叉瘩，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子粘捎，更是在濱河造成了極大的恐慌薇缅，老刑警劉巖危彩，帶你破解...
沈念sama閱讀 218,386評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異泳桦，居然都是意外死亡汤徽，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,142評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門灸撰，熙熙樓的掌柜王于貴愁眉苦臉地迎上來谒府，“玉大人，你說我怎么就攤上這事浮毯⊥暌撸” “怎么了？”我有些...
開封第一講書人閱讀 164,704評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵债蓝，是天一觀的道長壳鹤。經(jīng)常有香客問我，道長饰迹，這世上最難降的妖魔是什么芳誓？我笑而不...
開封第一講書人閱讀 58,702評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮蹦锋，結(jié)果婚禮上兆沙，老公的妹妹穿的比我還像新娘。我一直安慰自己莉掂，他們只是感情好葛圃，可當(dāng)我...
茶點(diǎn)故事閱讀 67,716評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著憎妙，像睡著了一般库正。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上厘唾，一...
開封第一講書人閱讀 51,573評論 1贊 305
城市分裂傳說
那天褥符，我揣著相機(jī)與錄音，去河邊找鬼抚垃。笑死喷楣，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的鹤树。我是一名探鬼主播铣焊，決...
沈念sama閱讀 40,314評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼罕伯！你這毒婦竟也來了曲伊？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,230評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤追他，失蹤者是張志新（化名）和其女友劉穎坟募，沒想到半個(gè)月后岛蚤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,680評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡懈糯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,873評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年涤妒，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赚哗。...
茶點(diǎn)故事閱讀 39,991評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡届腐，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蜂奸，到底是詐尸還是另有隱情犁苏，我是刑警寧澤，帶...
沈念sama閱讀 35,706評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布扩所，位于F島的核電站围详，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏祖屏。R本人自食惡果不足惜助赞，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,329評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望袁勺。院中可真熱鬧雹食，春花似錦、人聲如沸期丰。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,910評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽钝荡。三九已至街立，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間埠通，已是汗流浹背赎离。一陣腳步聲響...
開封第一講書人閱讀 33,038評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留端辱，地道東北人梁剔。一個(gè)月前我還...
沈念sama閱讀 48,158評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像舞蔽，于是被迫代替她去往敵國和親荣病。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,941評論 2贊 355

Selenium 實(shí)戰(zhàn) 之 淘寶商品信息的爬取

既然那么困難搞到數(shù)據(jù)绪钥，那么有沒有辦法使抓取的成本第一點(diǎn)呢？當(dāng)然有关炼，一種是使用 特定的數(shù)據(jù)接口 程腹；另一種就是使用 selenium了，selenium 有個(gè)特點(diǎn)就是 可見即所得儒拂。

那么接下來我們開始觀察頁面效果圖：

如果我們不想爬取的時(shí)候有瀏覽器彈出花竞，那么有兩種方式可以做到：1- 使用 Chrome Headless 模式 （這個(gè)模式前面一章有介紹并使用過）劲件；2- 對接 PhantomJS

推薦閱讀更多精彩內(nèi)容

Selenium 實(shí)戰(zhàn) 之淘寶商品信息的爬取

既然那么困難搞到數(shù)據(jù)绪钥，那么有沒有辦法使抓取的成本第一點(diǎn)呢？當(dāng)然有关炼，一種是使用特定的數(shù)據(jù)接口程腹；另一種就是使用 selenium了，selenium 有個(gè)特點(diǎn)就是可見即所得儒拂。

如果我們不想爬取的時(shí)候有瀏覽器彈出花竞，那么有兩種方式可以做到：1- 使用 Chrome Headless 模式（這個(gè)模式前面一章有介紹并使用過）劲件；2- 對接 PhantomJS