2023京東商品列表爬取

不嘮閑嗑嗡贺,直接來(lái)干的讶隐,需要從京東搜索關(guān)鍵詞然后將商品列表導(dǎo)出赎懦,看了一下市面上的解決方案一個(gè)解析接口返回的內(nèi)容雀鹃,一個(gè)是通過(guò)selenium抓取頁(yè)面,兩套方案試了一下都不能滿足需求励两,前者頻繁請(qǐng)求會(huì)觸發(fā)風(fēng)控黎茎,后者解析頁(yè)面需要人工干預(yù),想了一下決定嘗試一下chrome插件的方式來(lái)獲取想要的內(nèi)容当悔。
先大概整理一下思路:
設(shè)置關(guān)鍵詞--->觸發(fā)搜索--->滾動(dòng)頁(yè)面--->解析內(nèi)容--->數(shù)據(jù)過(guò)濾--->處理分頁(yè)
根據(jù)頁(yè)面元素確定輸入框和點(diǎn)擊按鈕的標(biāo)識(shí)將搜索功能搞定

//搜索
let search = (keyword) =>{
    $("#search-2014").find("#key").focus()
    $("#search-2014").find("#key").val(keyword)
    $("#search-2014").find(".form").find("button").click()
}

拿到結(jié)果后將頁(yè)面內(nèi)容進(jìn)行解析傅瞻,頁(yè)面內(nèi)容解析有兩段,一個(gè)是列表內(nèi)容提取盲憎,一個(gè)是每條商品信息提取嗅骄,由于京東的商品列表不會(huì)一次全部展示需要不斷的滾動(dòng)頁(yè)面才會(huì)進(jìn)行加載,所以需要做一下處理,

let scrollToBottom = async () =>{
    let page_height = document.body.scrollHeight

    let scroll_count = 15;
    let offset = 400; //page_height / scroll_count
    for(let i=0; i< scroll_count; i++){
        let timeOut = 2
        await sleep(timeOut)

        window.scrollBy(0, offset)
        console.log(`第${i}次滾動(dòng)`)
    }
    console.log("滾動(dòng)完成")
    parse_content()
}
//解析頁(yè)面內(nèi)容
let parse_content = async () =>{
    let keyword = $("#search-2014").find("#key").val()
    let items = $("#J_goodsList ul").children()
    await sleep(10)
    let list = []
    $.each(items, function(inx, it){
        let data = parse_item(it)
        if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }
    })
    if(list.length > 0){
        post_data(list)
    }
}
//提取內(nèi)容
let parse_item = (it) =>{
    let is_ad = false

    let goods_id = $(it).data("sku")
    
    let pic_dom = $(it).find(".p-img").find("img")

    let pic_url = $(pic_dom).attr("src") || $(pic_dom).attr("data-lazy-img")

    let price = $(it).find(".p-price").text().trim().replace("¥","")

    let deal_num = 0 

    let goods_name = $(it).find(".p-name").text().trim()

    goods_name = goods_name.replace("拍拍", "")
    goods_name = goods_name.replace("廣告詞", "")
    goods_name = goods_name.trim()

    let goods_detail_url = "https:"+ $(it).find(".p-name a").attr("href")

    let shop_name = $(it).find(".p-shopnum").text().trim()

    let shop_link = "https:"+ $(it).find(".p-shopnum a").attr("href")

    let location = ""
    let keyword = $("#search-2014").find("#key").val()
    let data = {
        is_ad,
        pic_url,
        price,
        deal_num,
        goods_name,
        goods_detail_url,
        goods_id,
        shop_name,
        shop_link,
        location,
        keyword
    }
    return data
} 

由于返回的商品信息中不一定會(huì)存在我們想要的關(guān)鍵字饼疙,所以還需要對(duì)數(shù)據(jù)進(jìn)行一次處理溺森,例如判斷一下標(biāo)題中是否存在關(guān)鍵字等,這里我只是簡(jiǎn)單處理一下

if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }

最后就是處理分頁(yè)問(wèn)題了窑眯,由于京東的分頁(yè)參數(shù)加密比較簡(jiǎn)單就是采用的2*n-1這種模式屏积,n為下一頁(yè)的頁(yè)數(shù)

//解析分頁(yè)
let parse_page = async () =>{
    await sleep(10)
    let page = parseInt(localStorage.getItem("page") || "0");
    if(page){
        page = page + 1
    }else{
        page = 1
    }
    console.log(`第${page}次執(zhí)行`)
    localStorage.setItem("page",page)
    //TODO 判斷爬前幾頁(yè)
    if(limit && page >limit){
        localStorage.removeItem("page")
        return
    }

    let current_page = parseInt($("#J_bottomPage").find(".curr").text().trim())
    let total_page = $("#J_bottomPage").find(".p-skip").text().trim()
    let regx = /(\d+)/
    let result = total_page.match(regx)
    total_page = parseInt(result[1])
    if (current_page < total_page) {
        let nextId = parseInt($("#J_bottomPage").find(".curr").next().text().trim())
        let url = location.href
        console.log("獲取下一頁(yè)", url)
        let page_regx = /\&s=(\d+)/
        let page_num = url.match(page_regx)
        if(page_num){
            page_num = page_num[1]
            url = url.replace(page_num, (nextId - 1) * 60 + 1)
            let _page_regx = /\&page=(\d+)/
            let _page_num = url.match(_page_regx)
            if(_page_num){
                _page_num = _page_num[1]
                url = url.replace(`&page=${_page_num}`, `&page=${(2 * nextId - 1)}`)
            }
            await sleep(30)
            console.log("下一頁(yè)地址",url)
            location.href = url
        }else{
           url = url + `&page=${(2*nextId - 1)}&s=${(nextId - 1) * 60 + 1}&click=0`
           await sleep(30)
           location.href = url
        }
    }else{
        //爬完了
        localStorage.removeItem("page")
    }
}

由于只是分析測(cè)試,所以代碼寫的比較粗糙磅甩,大家將就著看吧炊林,后續(xù)有時(shí)間整理成完整的工程代碼

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市卷要,隨后出現(xiàn)的幾起案子渣聚,更是在濱河造成了極大的恐慌独榴,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饵逐,死亡現(xiàn)場(chǎng)離奇詭異括眠,居然都是意外死亡彪标,警方通過(guò)查閱死者的電腦和手機(jī)倍权,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捞烟,“玉大人薄声,你說(shuō)我怎么就攤上這事√饣” “怎么了默辨?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)苍息。 經(jīng)常有香客問(wèn)我缩幸,道長(zhǎng),這世上最難降的妖魔是什么竞思? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任表谊,我火速辦了婚禮,結(jié)果婚禮上盖喷,老公的妹妹穿的比我還像新娘爆办。我一直安慰自己,他們只是感情好课梳,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布距辆。 她就那樣靜靜地躺著,像睡著了一般暮刃。 火紅的嫁衣襯著肌膚如雪跨算。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天椭懊,我揣著相機(jī)與錄音诸蚕,去河邊找鬼。 笑死灾搏,一個(gè)胖子當(dāng)著我的面吹牛挫望,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播狂窑,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼媳板,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了泉哈?” 一聲冷哼從身側(cè)響起蛉幸,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤破讨,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后奕纫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體提陶,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年匹层,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了隙笆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡升筏,死狀恐怖撑柔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情您访,我是刑警寧澤铅忿,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站灵汪,受9級(jí)特大地震影響檀训,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜享言,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一峻凫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧担锤,春花似錦蔚晨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至多糠,卻和暖如春累舷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背夹孔。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工被盈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搭伤。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓只怎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親怜俐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子身堡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容