2023京東商品列表爬取

不嘮閑嗑嗡贺，直接來(lái)干的讶隐，需要從京東搜索關(guān)鍵詞然后將商品列表導(dǎo)出赎懦，看了一下市面上的解決方案一個(gè)解析接口返回的內(nèi)容雀鹃，一個(gè)是通過(guò)selenium抓取頁(yè)面，兩套方案試了一下都不能滿足需求励两，前者頻繁請(qǐng)求會(huì)觸發(fā)風(fēng)控黎茎，后者解析頁(yè)面需要人工干預(yù)，想了一下決定嘗試一下chrome插件的方式來(lái)獲取想要的內(nèi)容当悔。
先大概整理一下思路：
設(shè)置關(guān)鍵詞--->觸發(fā)搜索--->滾動(dòng)頁(yè)面--->解析內(nèi)容--->數(shù)據(jù)過(guò)濾--->處理分頁(yè)
根據(jù)頁(yè)面元素確定輸入框和點(diǎn)擊按鈕的標(biāo)識(shí)將搜索功能搞定

//搜索
let search = (keyword) =>{
    $("#search-2014").find("#key").focus()
    $("#search-2014").find("#key").val(keyword)
    $("#search-2014").find(".form").find("button").click()
}

拿到結(jié)果后將頁(yè)面內(nèi)容進(jìn)行解析傅瞻，頁(yè)面內(nèi)容解析有兩段，一個(gè)是列表內(nèi)容提取盲憎，一個(gè)是每條商品信息提取嗅骄，由于京東的商品列表不會(huì)一次全部展示需要不斷的滾動(dòng)頁(yè)面才會(huì)進(jìn)行加載，所以需要做一下處理,

let scrollToBottom = async () =>{
    let page_height = document.body.scrollHeight

    let scroll_count = 15;
    let offset = 400; //page_height / scroll_count
    for(let i=0; i< scroll_count; i++){
        let timeOut = 2
        await sleep(timeOut)

        window.scrollBy(0, offset)
        console.log(`第${i}次滾動(dòng)`)
    }
    console.log("滾動(dòng)完成")
    parse_content()
}

//解析頁(yè)面內(nèi)容
let parse_content = async () =>{
    let keyword = $("#search-2014").find("#key").val()
    let items = $("#J_goodsList ul").children()
    await sleep(10)
    let list = []
    $.each(items, function(inx, it){
        let data = parse_item(it)
        if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }
    })
    if(list.length > 0){
        post_data(list)
    }
}

//提取內(nèi)容
let parse_item = (it) =>{
    let is_ad = false

    let goods_id = $(it).data("sku")
    
    let pic_dom = $(it).find(".p-img").find("img")

    let pic_url = $(pic_dom).attr("src") || $(pic_dom).attr("data-lazy-img")

    let price = $(it).find(".p-price").text().trim().replace("￥","")

    let deal_num = 0 

    let goods_name = $(it).find(".p-name").text().trim()

    goods_name = goods_name.replace("拍拍", "")
    goods_name = goods_name.replace("廣告詞", "")
    goods_name = goods_name.trim()

    let goods_detail_url = "https:"+ $(it).find(".p-name a").attr("href")

    let shop_name = $(it).find(".p-shopnum").text().trim()

    let shop_link = "https:"+ $(it).find(".p-shopnum a").attr("href")

    let location = ""
    let keyword = $("#search-2014").find("#key").val()
    let data = {
        is_ad,
        pic_url,
        price,
        deal_num,
        goods_name,
        goods_detail_url,
        goods_id,
        shop_name,
        shop_link,
        location,
        keyword
    }
    return data
}

由于返回的商品信息中不一定會(huì)存在我們想要的關(guān)鍵字饼疙，所以還需要對(duì)數(shù)據(jù)進(jìn)行一次處理溺森，例如判斷一下標(biāo)題中是否存在關(guān)鍵字等，這里我只是簡(jiǎn)單處理一下

if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }

最后就是處理分頁(yè)問(wèn)題了窑眯，由于京東的分頁(yè)參數(shù)加密比較簡(jiǎn)單就是采用的2*n-1這種模式屏积，n為下一頁(yè)的頁(yè)數(shù)

//解析分頁(yè)
let parse_page = async () =>{
    await sleep(10)
    let page = parseInt(localStorage.getItem("page") || "0");
    if(page){
        page = page + 1
    }else{
        page = 1
    }
    console.log(`第${page}次執(zhí)行`)
    localStorage.setItem("page",page)
    //TODO 判斷爬前幾頁(yè)
    if(limit && page >limit){
        localStorage.removeItem("page")
        return
    }

    let current_page = parseInt($("#J_bottomPage").find(".curr").text().trim())
    let total_page = $("#J_bottomPage").find(".p-skip").text().trim()
    let regx = /(\d+)/
    let result = total_page.match(regx)
    total_page = parseInt(result[1])
    if (current_page < total_page) {
        let nextId = parseInt($("#J_bottomPage").find(".curr").next().text().trim())
        let url = location.href
        console.log("獲取下一頁(yè)", url)
        let page_regx = /\&s=(\d+)/
        let page_num = url.match(page_regx)
        if(page_num){
            page_num = page_num[1]
            url = url.replace(page_num, (nextId - 1) * 60 + 1)
            let _page_regx = /\&page=(\d+)/
            let _page_num = url.match(_page_regx)
            if(_page_num){
                _page_num = _page_num[1]
                url = url.replace(`&page=${_page_num}`, `&page=${(2 * nextId - 1)}`)
            }
            await sleep(30)
            console.log("下一頁(yè)地址",url)
            location.href = url
        }else{
           url = url + `&page=${(2*nextId - 1)}&s=${(nextId - 1) * 60 + 1}&click=0`
           await sleep(30)
           location.href = url
        }
    }else{
        //爬完了
        localStorage.removeItem("page")
    }
}

由于只是分析測(cè)試，所以代碼寫的比較粗糙磅甩，大家將就著看吧炊林，后續(xù)有時(shí)間整理成完整的工程代碼

最后編輯于：2023.08.14 11:11:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市卷要，隨后出現(xiàn)的幾起案子渣聚，更是在濱河造成了極大的恐慌独榴，老刑警劉巖，帶你破解...
沈念sama閱讀 206,378評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件饵逐，死亡現(xiàn)場(chǎng)離奇詭異括眠，居然都是意外死亡彪标，警方通過(guò)查閱死者的電腦和手機(jī)倍权，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,356評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捞烟，“玉大人薄声，你說(shuō)我怎么就攤上這事√饣” “怎么了默辨？”我有些...
開封第一講書人閱讀 152,702評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)苍息。經(jīng)常有香客問(wèn)我缩幸，道長(zhǎng)，這世上最難降的妖魔是什么竞思？我笑而不...
開封第一講書人閱讀 55,259評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任表谊，我火速辦了婚禮，結(jié)果婚禮上盖喷，老公的妹妹穿的比我還像新娘爆办。我一直安慰自己，他們只是感情好课梳，可當(dāng)我...
茶點(diǎn)故事閱讀 64,263評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布距辆。她就那樣靜靜地躺著，像睡著了一般暮刃。火紅的嫁衣襯著肌膚如雪跨算。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,036評(píng)論 1贊 285
城市分裂傳說(shuō)
那天椭懊，我揣著相機(jī)與錄音诸蚕，去河邊找鬼。笑死灾搏，一個(gè)胖子當(dāng)著我的面吹牛挫望，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播狂窑，決...
沈念sama閱讀 38,349評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼媳板，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了泉哈？” 一聲冷哼從身側(cè)響起蛉幸，我...
開封第一講書人閱讀 36,979評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤破讨，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后奕纫，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體提陶，經(jīng)...
沈念sama閱讀 43,469評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,938評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年匹层，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了隙笆。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,059評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡升筏，死狀恐怖撑柔，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情您访，我是刑警寧澤铅忿，帶...
沈念sama閱讀 33,703評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站灵汪，受9級(jí)特大地震影響檀训，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜享言，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,257評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一峻凫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧担锤，春花似錦蔚晨、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,262評(píng)論 0贊 19
一樁弒父案铭腕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至多糠，卻和暖如春累舷，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背夹孔。一陣腳步聲響...
開封第一講書人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工被盈，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人搭伤。一個(gè)月前我還...
沈念sama閱讀 45,501評(píng)論 2贊 354
代替公主和親
正文我出身青樓只怎，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親怜俐。傳聞我的和親對(duì)象是個(gè)殘疾皇子身堡，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,792評(píng)論 2贊 345

2023京東商品列表爬取

推薦閱讀更多精彩內(nèi)容