Golang 爬蟲快速入門 | 獲取B站全站的視頻數(shù)據(jù)

提到爬蟲,總會聯(lián)想到Python咐熙。似乎Python是爬蟲的唯一選擇捐名。爬蟲只是完成一個訪問頁面然后收集數(shù)據(jù)的任務(wù),用任何語言來寫都能實現(xiàn)谜嫉。相比較Python快速實現(xiàn)但是龐大的體型萎坷,Golang來寫爬蟲似乎是更好的又一選擇。

HTTP請求

Golang語言的HTTP請求庫不需要使用第三方的庫沐兰,標(biāo)準(zhǔn)庫就內(nèi)置了足夠好的支持:

package main

import (
    "fmt"
    "net/http"
    "io/ioutil"
)

func fetch (url string) string {
    fmt.Println("Fetch Url", url)
    
    // 創(chuàng)建請求
    req, _ := http.NewRequest("GET", url, nil)
    // 創(chuàng)建HTTP客戶端
    client := &http.Client{}
    // 發(fā)出請求
    resp, err := client.Do(req)
    if err != nil {
        fmt.Println("Http get err:", err)
        return ""
    }
    if resp.StatusCode != 200 {
        fmt.Println("Http status code:", resp.StatusCode)
        return ""
    }
    // 讀取HTTP響應(yīng)正文
    defer resp.Body.Close()
    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        fmt.Println("Read error", err)
        return ""
    }
    return string(body)
}

func main(){
    fmt.Println(fetch("https://github.com"))
}

使用官方的HTTP包可以快速的請求頁面并得到返回數(shù)據(jù)哆档。

就像Python有Scrapy庫,爬蟲框架可以很大程度上簡化HTTP請求住闯、數(shù)據(jù)抽取瓜浸、收集的流程,同時還能提供更多的工具來幫助我們實現(xiàn)更復(fù)雜的功能寞秃。

Golang爬蟲框架——Goribot

github.com/zhshch2002/gospider是一個用Golang寫成的爬蟲輕量框架斟叼,有不錯的擴展性和分布式支持能力,文檔在https://wiki.xzhsh.ch/gospider/春寿。

獲取Goribot:

go get -u github.com/zhshch2002/gospider

使用Goribot實現(xiàn)上文的代碼的功能要看起來簡潔不少朗涩。

package main

import (
    "fmt"
    "github.com/zhshch2002/goribot"
)

func main() {
    s := goribot.NewSpider()
    s.AddTask(
        goribot.GetReq("https://github.com"),
        func(ctx *goribot.Context) {
            fmt.Println(ctx.Resp.Text)
        },
    )
    s.Run()
}

如此之實現(xiàn)了一個單一的功能,即訪問“https://github.com”并打印出結(jié)果绑改。如此的應(yīng)用還不足以使用框架谢床。那我們來入手一個更復(fù)雜點的爬蟲應(yīng)用。

用Goribot爬取B站信息

我們來建立一個復(fù)雜點的爬蟲應(yīng)用厘线,預(yù)期實現(xiàn)兩個功能:

  1. 沿著鏈接自動發(fā)現(xiàn)新的視頻鏈接
  2. 提取標(biāo)題识腿、封面圖、作者和視頻數(shù)據(jù)(播放量造壮、投幣渡讼、收藏等)

研究B站頁面

首先我們來研究一下B站的視頻頁面骂束,以https://www.bilibili.com/video/BV1JE411P7hK?spm_id_from=333.851.b_62696c695f7265706f72745f6469676974616c.21為例,按F12打開調(diào)試界面成箫,切換到Network(網(wǎng)絡(luò))選項卡展箱。

image

我們能看到這一頁面所涉及的所有請求、資源蹬昌。在調(diào)試界面里選在XHR選項混驰,來查看Ajax請求。

你可以通過點選不同的請求皂贩,在右側(cè)彈出的面板里查看具體內(nèi)容栖榨。在新面板里點擊Preview(預(yù)覽)可以查看服務(wù)器響應(yīng)的內(nèi)容。

那么明刷,交給你一個任務(wù)婴栽,依次查看XHR下的所有請求,找到最像是服務(wù)器返回的點贊遮精、收藏居夹、播放量數(shù)據(jù)的哪一個败潦。


很好本冲,那來看看你找到是這個嗎?

image

你已經(jīng)成功達(dá)成了一個爬蟲工程師的成就——從Ajax請求里尋找目標(biāo)數(shù)據(jù)劫扒。

那我們切換到Header(標(biāo)頭)選項檬洞,來看看這個請求對應(yīng)的參數(shù),最好能找到這個響應(yīng)和視頻Id的關(guān)系沟饥。

image

發(fā)現(xiàn)了視頻Id——BV號添怔。

我們以及解決了核心問題,獲取B站的視頻數(shù)據(jù)贤旷,對于自動搜尋視頻广料,我們可以設(shè)定一個起始鏈接,然后搜尋<a>標(biāo)簽來延伸爬取幼驶。

搭建爬蟲

完整代碼在后文艾杏。

創(chuàng)建爬蟲

s := goribot.NewSpider( // 創(chuàng)建一個爬蟲并注冊擴展
    goribot.Limiter(true, &goribot.LimitRule{ // 添加一個限制器,限制白名單域名和請求速錄限制
        Glob: "*.bilibili.com",               // 以防對服務(wù)器造成過大壓力以及被B站服務(wù)器封禁
        Rate: 2,
    }),
    goribot.RefererFiller(), // 自動填寫Referer盅藻,參見Goribot(https://imagician.net/goribot/)關(guān)于擴展的部分
    goribot.RandomUserAgent(), // 隨機UA
    goribot.SetDepthFirst(true), // 使用深度優(yōu)先策略购桑,就是沿著一個頁面,然后去子頁面而非同級頁面
)

獲取視頻數(shù)據(jù)

var getVideoInfo = func(ctx *goribot.Context) {
    res := map[string]interface{}{
        "bvid":  ctx.Resp.Json("data.bvid").String(),
        "title": ctx.Resp.Json("data.title").String(),
        "des":   ctx.Resp.Json("data.des").String(),
        "pic":   ctx.Resp.Json("data.pic").String(),   // 封面圖
        "tname": ctx.Resp.Json("data.tname").String(), // 分類名
        "owner": map[string]interface{}{ //視頻作者
            "name": ctx.Resp.Json("data.owner.name").String(),
            "mid":  ctx.Resp.Json("data.owner.mid").String(),
            "face": ctx.Resp.Json("data.owner.face").String(), // 頭像
        },
        "ctime":   ctx.Resp.Json("data.ctime").String(), // 創(chuàng)建時間
        "pubdate": ctx.Resp.Json("data.pubdate").String(), // 發(fā)布時間
        "stat": map[string]interface{}{ // 視頻數(shù)據(jù)
            "view":     ctx.Resp.Json("data.stat.view").Int(),
            "danmaku":  ctx.Resp.Json("data.stat.danmaku").Int(),
            "reply":    ctx.Resp.Json("data.stat.reply").Int(),
            "favorite": ctx.Resp.Json("data.stat.favorite").Int(),
            "coin":     ctx.Resp.Json("data.stat.coin").Int(),
            "share":    ctx.Resp.Json("data.stat.share").Int(),
            "like":     ctx.Resp.Json("data.stat.like").Int(),
            "dislike":  ctx.Resp.Json("data.stat.dislike").Int(),
        },
    }
    ctx.AddItem(res) // 保存到蜘蛛的Item處理隊列
}

這是一個函數(shù)氏淑,自動解析響應(yīng)里的Json數(shù)據(jù)勃蜘,也就是剛才看的Ajax結(jié)果。解析完數(shù)據(jù)后保存到蜘蛛的Item處理隊列假残。

發(fā)現(xiàn)新視頻

var findVideo goribot.CtxHandlerFun
findVideo = func(ctx *goribot.Context) {
    u := ctx.Req.URL.String()
    fmt.Println(u)
    if strings.HasPrefix(u, "https://www.bilibili.com/video/") { // 判斷是否為視頻頁面
        if strings.Contains(u, "?") {
            u = u[:strings.Index(u, "?")]
        }
        u = u[31:] // 截取視頻中的BV號
        fmt.Println(u)
        
        // 創(chuàng)建一個從BV號獲取具體數(shù)據(jù)的任務(wù)缭贡,使用上一個策略
        ctx.AddTask(goribot.GetReq("https://api.bilibili.com/x/web-interface/view?bvid="+u), getVideoInfo)
    }
    ctx.Resp.Dom.Find("a[href]").Each(func(i int, sel *goquery.Selection) {
        if h, ok := sel.Attr("href"); ok {
            ctx.AddTask(goribot.GetReq(h), findVideo) // 用同樣的策略處理子頁面
        }
    })
}

收集Item

我們在獲取視頻數(shù)據(jù)里獲取了Ajax數(shù)據(jù),并保存到Item隊列。我們在這里處理這些Item以避免讀寫文件和數(shù)據(jù)庫對爬取主線程的阻塞阳惹。

s.OnItem(func(i interface{}) interface{} {
    fmt.Println(i) // 我們暫時不做處理坑资,就先打印出來
    return i
})

OnItem的具體使用要參考Goribot文檔的相關(guān)內(nèi)容。

最后 Run 吧

// 種子任務(wù)
s.AddTask(goribot.GetReq("https://www.bilibili.com/video/BV1at411a7RS"), findVideo)
s.Run()

完整代碼如下

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "github.com/zhshch2002/gospider"
    "strings"
)

func main() {
    s := goribot.NewSpider(
        goribot.Limiter(true, &goribot.LimitRule{
            Glob: "*.bilibili.com",
            Rate: 2,
        }),
        goribot.RefererFiller(),
        goribot.RandomUserAgent(),
        goribot.SetDepthFirst(true),
    )
    var getVideoInfo = func(ctx *goribot.Context) {
        res := map[string]interface{}{
            "bvid":  ctx.Resp.Json("data.bvid").String(),
            "title": ctx.Resp.Json("data.title").String(),
            "des":   ctx.Resp.Json("data.des").String(),
            "pic":   ctx.Resp.Json("data.pic").String(),   // 封面圖
            "tname": ctx.Resp.Json("data.tname").String(), // 分類名
            "owner": map[string]interface{}{ //視頻作者
                "name": ctx.Resp.Json("data.owner.name").String(),
                "mid":  ctx.Resp.Json("data.owner.mid").String(),
                "face": ctx.Resp.Json("data.owner.face").String(), // 頭像
            },
            "ctime":   ctx.Resp.Json("data.ctime").String(), // 創(chuàng)建時間
            "pubdate": ctx.Resp.Json("data.pubdate").String(), // 發(fā)布時間
            "stat": map[string]interface{}{ // 視頻數(shù)據(jù)
                "view":     ctx.Resp.Json("data.stat.view").Int(),
                "danmaku":  ctx.Resp.Json("data.stat.danmaku").Int(),
                "reply":    ctx.Resp.Json("data.stat.reply").Int(),
                "favorite": ctx.Resp.Json("data.stat.favorite").Int(),
                "coin":     ctx.Resp.Json("data.stat.coin").Int(),
                "share":    ctx.Resp.Json("data.stat.share").Int(),
                "like":     ctx.Resp.Json("data.stat.like").Int(),
                "dislike":  ctx.Resp.Json("data.stat.dislike").Int(),
            },
        }
        ctx.AddItem(res)
    }
    var findVideo goribot.CtxHandlerFun
    findVideo = func(ctx *goribot.Context) {
        u := ctx.Req.URL.String()
        fmt.Println(u)
        if strings.HasPrefix(u, "https://www.bilibili.com/video/") {
            if strings.Contains(u, "?") {
                u = u[:strings.Index(u, "?")]
            }
            u = u[31:]
            fmt.Println(u)
            ctx.AddTask(goribot.GetReq("https://api.bilibili.com/x/web-interface/view?bvid="+u), getVideoInfo)
        }
        ctx.Resp.Dom.Find("a[href]").Each(func(i int, sel *goquery.Selection) {
            if h, ok := sel.Attr("href"); ok {
                ctx.AddTask(goribot.GetReq(h), findVideo)
            }
        })
    }
    s.OnItem(func(i interface{}) interface{} {
        fmt.Println(i)
        return i
    })
    s.AddTask(goribot.GetReq("https://www.bilibili.com/video/BV1at411a7RS").SetHeader("cookie", "_uuid=1B9F036F-8652-DCDD-D67E-54603D58A9B904750infoc; buvid3=5D62519D-8AB5-449B-A4CF-72D17C3DFB87155806infoc; sid=9h5nzg2a; LIVE_BUVID=AUTO7815811574205505; CURRENT_FNVAL=16; im_notify_type_403928979=0; rpdid=|(k|~uu|lu||0J'ul)ukk)~kY; _ga=GA1.2.533428114.1584175871; PVID=1; DedeUserID=403928979; DedeUserID__ckMd5=08363945687b3545; SESSDATA=b4f022fe%2C1601298276%2C1cf0c*41; bili_jct=2f00b7d205a97aa2ec1475f93bfcb1a3; bp_t_offset_403928979=375484225910036050"), findVideo)
    s.Run()
}

最后

爬蟲框架只是工具穆端,重要的是人怎么使用它袱贮。了解工具可以看項目_examples文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末体啰,一起剝皮案震驚了整個濱河市攒巍,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌荒勇,老刑警劉巖柒莉,帶你破解...
    沈念sama閱讀 222,865評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沽翔,居然都是意外死亡兢孝,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評論 3 399
  • 文/潘曉璐 我一進店門仅偎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來跨蟹,“玉大人,你說我怎么就攤上這事橘沥〈靶” “怎么了?”我有些...
    開封第一講書人閱讀 169,631評論 0 364
  • 文/不壞的土叔 我叫張陵座咆,是天一觀的道長痢艺。 經(jīng)常有香客問我,道長介陶,這世上最難降的妖魔是什么堤舒? 我笑而不...
    開封第一講書人閱讀 60,199評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮哺呜,結(jié)果婚禮上舌缤,老公的妹妹穿的比我還像新娘。我一直安慰自己弦牡,他們只是感情好友驮,可當(dāng)我...
    茶點故事閱讀 69,196評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著驾锰,像睡著了一般卸留。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上椭豫,一...
    開封第一講書人閱讀 52,793評論 1 314
  • 那天耻瑟,我揣著相機與錄音旨指,去河邊找鬼。 笑死喳整,一個胖子當(dāng)著我的面吹牛谆构,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播框都,決...
    沈念sama閱讀 41,221評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼搬素,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了魏保?” 一聲冷哼從身側(cè)響起熬尺,我...
    開封第一講書人閱讀 40,174評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎谓罗,沒想到半個月后粱哼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,699評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡檩咱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,770評論 3 343
  • 正文 我和宋清朗相戀三年揭措,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片刻蚯。...
    茶點故事閱讀 40,918評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡绊含,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出芦倒,到底是詐尸還是另有隱情艺挪,我是刑警寧澤不翩,帶...
    沈念sama閱讀 36,573評論 5 351
  • 正文 年R本政府宣布兵扬,位于F島的核電站,受9級特大地震影響口蝠,放射性物質(zhì)發(fā)生泄漏器钟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,255評論 3 336
  • 文/蒙蒙 一妙蔗、第九天 我趴在偏房一處隱蔽的房頂上張望傲霸。 院中可真熱鬧,春花似錦眉反、人聲如沸昙啄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽梳凛。三九已至,卻和暖如春梳杏,著一層夾襖步出監(jiān)牢的瞬間韧拒,已是汗流浹背淹接。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留叛溢,地道東北人塑悼。 一個月前我還...
    沈念sama閱讀 49,364評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像楷掉,于是被迫代替她去往敵國和親厢蒜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,926評論 2 361

推薦閱讀更多精彩內(nèi)容