Python 爬蟲爬坑路（二）——B站圖片，咸魚的正確 GET 姿勢

前言

昨天在寫完入門級爬蟲之后莱革，馬上就迫不及待的著手開始寫 B站的圖片爬蟲了峻堰，真的很喜歡這個破站呢 (?￣△￣)?

這里不涉及到 Python 爬蟲的高級技巧，沒有使用框架盅视，沒有考慮反爬機(jī)制捐名，沒有使用異步IO技術(shù)，因?yàn)檫@些闹击，我都不會镶蹋！

分析目標(biāo)

我們選定 B站的動畫區(qū) 進(jìn)行測試，打開后我們發(fā)現(xiàn)有好多好多圖....

BiliBiliSpider1.png

但當(dāng)我們使用 F12 查看這些圖片的時(shí)候赏半，發(fā)現(xiàn)并沒有圖片的地址...

這就是目前大多網(wǎng)站使用的 Ajax 技術(shù)動態(tài)加載數(shù)據(jù)的鍋贺归，可遇到這種情況這么辦呢？別急別急断箫，我們知道這些圖片的地址一定是需要加載的牧氮，而目前常見WEB傳輸數(shù)據(jù)的基本就是方式 XML 和 Json (其實(shí)是我就知道這兩種...)，那好我們?nèi)タ纯凑埱蟮?XML 和 Json 文件瑰枫。

BiliBiliSpider3.png

以下省略查找過程....

我們發(fā)現(xiàn) B站的圖片地址是保存在 Json 里面的，ok丹莲，我們保存好這個 json 地址:
https://api.bilibili.com/x/web-interface/dynamic/region?callback=jQuery172071087417824369_1505783866149&jsonp=jsonp&ps=15&rid=24&_=1505783866453

這個是 MAD·AMV 最新動態(tài)的 Json 文件光坝，利用上面相同的方法，我們找到 3D區(qū)甥材、短片·配音區(qū)盯另、綜合區(qū) 以及右邊排行部分的相應(yīng) json 地址。

找到 Json 數(shù)據(jù)后洲赵，我們需要開始分析如何才能從中拿到圖片地址了

好在 Chrome 瀏覽器提供了一個 Preview 功能鸳惯，自動幫我們整理好數(shù)據(jù)，如下

BiliBiliSpider4.png

這樣就很清晰啦叠萍，我們只需要一層層解析拿到 pic 即可芝发。于是我們這樣寫：

    json_url = 'https://api.bilibili.com/x/web-interface/dynamic/region?callback=jQuery172071087417824369_1505783866149&jsonp=jsonp&ps=15&rid=24&_=1505783866453'
    json = requests.get(json_url).json()
    print (json)

我們利用 requests 內(nèi)置的 json 解碼器，很不幸苛谷，報(bào)錯：

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

它提示說：解碼 Json 數(shù)據(jù)的時(shí)候出了問題辅鲸，可能是在第一行第一列，咦腹殿？好奇怪独悴，剛才不是用瀏覽器看過結(jié)構(gòu)了嗎例书，沒毛病啊，怎么還在報(bào)錯：Σ( ￣□￣||)

別急別急刻炒，我們先看看原始的 Json 數(shù)據(jù)長啥樣决采？用瀏覽器打開上面的 json 鏈接就可以了。

BiliBiliSpider5.png

（/TДT)/ 前面的那些字母是干嘛的呀坟奥，為什么還有括號笆鞑t。?/p>

所以我們知道了 Json 解析錯誤的原因啦：后面在處理的時(shí)候把前面的這部分刪掉就好啦筏勒，另外我們也發(fā)現(xiàn)了 archives 這個關(guān)鍵字移迫，我們在上一張圖看見過的哦，有印象嗎管行？啊厨埋，你說沒有呀，沒關(guān)系捐顷，這里你只需要記著它是一個 List 的數(shù)據(jù)類型就好了呀荡陷！

開碼開碼

先看看解析部分怎么寫：

獲取 Json 數(shù)據(jù)
解析 Json 數(shù)據(jù)，并保存其中的所有的圖片鏈接
注意去重

        #coding:utf-8

        __author__ = 'Lanc4r'

        import json
        import requests
        import re

        class BiliBiliSpider(object):

            def __init__(self):
                self._images = []
                self._oldImages = []            # 保存已經(jīng)獲取過的 圖片地址

            def _getImages(self, url):

                content = requests.get(url).text
                dic = json.loads(re.match(r'^([a-zA-Z0-9_(]+)(.*)(\))$', content).group(2))
                data = dic['data']

                # 判斷是 動態(tài)區(qū) 和 還是 評論區(qū)的數(shù)據(jù)
                if 'archives' in data:
                    final = data['archives']
                else:
                    final = data

                for i in range(len(final)):
                    image = final[i]['pic']
                    if image not in self._oldImages:        # 去重
                        self._images.append(image)
                        self._oldImages.append(image)

            def getResult(self, url):

                self._getImages(url)
                temp = self._images
                self._images = []
                return temp

OK迅涮，接下來寫下載器：

獲取需要下載的圖片地址
進(jìn)行下載
我這里是用數(shù)字作為圖片的名字保存起來的废赞，數(shù)字用一個 count.txt 文件保存，為了好看一點(diǎn)吧...

        #coding:utf-8

        __author__ = 'Lanc4r'

        import requests

        class BiliBiliDownloader(object):

            def __init__(self):
                self._images = []

            def addNewImages(self, images):
                for image in images:
                    self._images.append(image)

            # 獲取后綴名
            def getFinName(self, url):
                if url[-4:].find('.') > -1:
                    fin = url[-4:]
                else:
                    fin = url[-5:]
                return fin

            def imageDownload(self):

                with open('count.txt', 'rb') as f:
                    temp = int(f.read().decode('utf-8'))
                for url in self._images:
                    name = 'images/' + str(temp) + self.getFinName(url) 
                    print ('Downloading {}...'.format(name))
                    r = requests.get(url)
                    with open(name, 'wb') as f:
                        f.write(r.content)
                    temp += 1
                self._images = []
                with open('count.txt', 'wb') as f:
                    f.write(str(temp).encode('utf-8'))

最后是調(diào)度器：

為了防止被當(dāng)作是惡意訪問從而被封 IP叮姑，這里我們選擇犧牲時(shí)間唉地，取巧使用 sleep(x) ，讓其等待一段時(shí)間之后再發(fā)出請求传透。

    #coding:utf-8

    __author__ 'Lanc4r'

    from BiliBiliSpider import BiliBiliSpider
    from BiliBiliDownloader import BiliBiliDownloader
    import time

    class BiliBiliMain(object):

        def __init__(self):
            self._spider = BiliBiliSpider()
            self.downloader = BiliBiliDownloader()

        def Crawl(self, url):
            images = self._spider.getResult(url)
            self.downloader.addNewImages(images)
            self.downloader.imageDownload()

    if __name__ == '__main__':

        # 添加相應(yīng)位置的 json 文件
        json_url_MAD = 'https://xxx...'
        json_url_MAD_rank = 'https://xxx...'
        ...

        json_url_list = []
        json_url_list.append(json_url_MAD)
        json_url_list.append(...)
        ...

        bilibili = BiliBiliMain()

        # 設(shè)置一個標(biāo)志位耘沼，循環(huán)爬取多少次之后自動退出。
        flag = 1
        while True:
            for url in json_url_list:
                bilibili.Crawl(url)
                time.sleep(30)              # 防止被當(dāng)作是惡意請求朱盐。群嗤。。
            time.sleep(100)                 # 防止被當(dāng)作是惡意請求兵琳。狂秘。。
            flag += 1
            if flag > 15:
                break

運(yùn)行效果：

BiliBiliSpider6.png

BiliBiliSpider7.png

總結(jié)：

你可能會問我躯肌，呀者春，你這個，根本沒有代理清女、沒有混淆IP防止反爬碧查、也沒有模擬 Ajax 請求動態(tài)抓取云云~

那我可以很負(fù)責(zé)的告訴你，你！走錯地方了忠售！你要找的技術(shù)貼出門右拐４荨（￣へ￣）

關(guān)于取巧

我們恰巧使用的是 B站的 Ajax 技術(shù)，只要哪個視頻有了最新評論(或者是一下其它的條件)稻扬，就會使用 Ajax 將最新的數(shù)據(jù)取出來卦方。就像下面這樣：

BiliBiliSpider8.png

所以可能在訪問人數(shù)多的時(shí)候，更新越快泰佳，越有可能獲得更多不同的圖片啦盼砍！

之后你就可以在吃飯的時(shí)候，把它掛起逝她，然后吃飯回來就會發(fā)現(xiàn)有好多好多的圖片浇坐！(=?ω?=)

關(guān)于以后

之后會陸續(xù)的更新自己爬蟲的爬坑過程，希望能夠找到小伙伴一起學(xué)習(xí)呀黔宛！

最后編輯于：2017.12.10 13:39:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末近刘，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子臀晃，更是在濱河造成了極大的恐慌觉渴，老刑警劉巖，帶你破解...
沈念sama閱讀 216,997評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件徽惋，死亡現(xiàn)場離奇詭異案淋，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)险绘，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門踢京，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人宦棺，你說我怎么就攤上這事漱挚。” “怎么了渺氧？”我有些...
開封第一講書人閱讀 163,359評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長蹬屹。經(jīng)常有香客問我侣背，道長，這世上最難降的妖魔是什么慨默？我笑而不...
開封第一講書人閱讀 58,309評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任贩耐，我火速辦了婚禮，結(jié)果婚禮上厦取，老公的妹妹穿的比我還像新娘潮太。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,346評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布铡买。她就那樣靜靜地躺著更鲁，像睡著了一般。火紅的嫁衣襯著肌膚如雪奇钞。梳的紋絲不亂的頭發(fā)上澡为，一...
開封第一講書人閱讀 51,258評論 1贊 300
城市分裂傳說
那天，我揣著相機(jī)與錄音景埃，去河邊找鬼媒至。笑死，一個胖子當(dāng)著我的面吹牛谷徙，可吹牛的內(nèi)容都是我干的拒啰。我是一名探鬼主播，決...
沈念sama閱讀 40,122評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼完慧，長吁一口氣：“原來是場噩夢啊……” “哼谋旦！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起骗随，我...
開封第一講書人閱讀 38,970評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤蛤织，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后鸿染，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體指蚜，經(jīng)...
沈念sama閱讀 45,403評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,596評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年涨椒，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了摊鸡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,769評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蚕冬，死狀恐怖免猾，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情囤热，我是刑警寧澤猎提，帶...
沈念sama閱讀 35,464評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站旁蔼，受9級特大地震影響锨苏，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜棺聊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,075評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一伞租、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧限佩，春花似錦葵诈、人聲如沸裸弦。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,705評論 0贊 22
一樁弒父案作喘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽理疙。三九已至，卻和暖如春徊都，著一層夾襖步出監(jiān)牢的瞬間沪斟，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,848評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工暇矫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留主之，地道東北人。一個月前我還...
沈念sama閱讀 47,831評論 2贊 370
代替公主和親
正文我出身青樓李根，卻偏偏與公主長得像槽奕，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子房轿，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,678評論 2贊 354

Python 爬蟲爬坑路（二）——B站圖片影兽，咸魚的正確 GET 姿勢

Python 爬蟲爬坑路（二）——B站圖片，咸魚的正確 GET 姿勢

前言

分析目標(biāo)

找到 Json 數(shù)據(jù)后洲赵，我們需要開始分析如何才能從中拿到圖片地址了

開碼開碼

先看看解析部分怎么寫：

OK迅涮，接下來寫下載器：

最后是調(diào)度器：

運(yùn)行效果：

總結(jié)：

關(guān)于取巧

關(guān)于以后

推薦閱讀更多精彩內(nèi)容

Python 爬蟲爬坑路（二）——B站圖片，咸魚的正確 GET 姿勢

前言

分析目標(biāo)

找到 Json 數(shù)據(jù)后洲赵，我們需要開始分析如何才能從中拿到 圖片地址了

開碼開碼

先看看 解析部分怎么寫：

OK迅涮，接下來寫下載器：

最后是調(diào)度器：

運(yùn)行效果：

總結(jié)：

關(guān)于取巧

關(guān)于以后

推薦閱讀更多精彩內(nèi)容

找到 Json 數(shù)據(jù)后洲赵，我們需要開始分析如何才能從中拿到圖片地址了

先看看解析部分怎么寫：