求人不如求己床佳,自己動手寫一個CSDN博客備份小工具?

求人不如求己榄审,自己動手寫一個CSDN博客備份小工具砌们?


  • 前提概要
    • 背景
    • cabtool
    • 實踐基礎
  • 爬蟲實踐
    • (一)分析如何爬取博客的markdown內(nèi)容
    • (二)分析如何批量爬取博客的markdown
    • (三)如何模擬登錄,獲得cookies
  • 使用說明
    • 方式一
    • 方式二


前提概要


背景

  • 因為筆者在上個月的時候搁进,突然想擴展一下技術(shù)棧浪感,不能僅僅局限于Java,還是得掌握一門工具語言饼问,不然顯得太low影兽。所以也就對Python和Golang類的語言有了一些興趣。也就在上個月簡單的學習了Python3莱革。但是呢赢笨,苦于沒有時間也沒有項目可以實踐,所以爬蟲就成為了避免忘記python的最佳實踐

  • 同時筆者發(fā)現(xiàn)在CSDN寫的筆記好像也堆積了八九十篇啦驮吱。但是CSDN好像卻沒有類似簡書一鍵導出的備份功能茧妒。于是之前沒有數(shù)據(jù)備份意識的我本來想著從GayHub找找現(xiàn)成的Tool, 也不知道為什么GayHub上Tool不是過時了,就是效果不太符合我的意愿左冬。個人琢磨著應該是大牛們嫌太簡單桐筏,懶得放出來。于是拇砰,求人不如求己梅忌,雖然之前沒有實踐過爬蟲,但還是花了半天的時間除破,把這個cab-tool小工具是寫出來啦

  • 本著記錄筆記的牧氮,分享大眾的原則,于是本博就出來了


cabtool

什么是CAB-Tool瑰枫?這是什么玩意踱葛。其實就是csdn-article-backup-tool的縮寫丹莲。為什么要縮寫,本質(zhì)就是裝的一手好逼(狗頭)

在這里插入圖片描述

所以有需要的童鞋尸诽,可以去GayHub上順手牽羊甥材,支持小白式exe文件啟動哈


實踐基礎

  • 基本的python語法基礎,懂一丟丟requests,beautifulsoup4庫(簡單的即可)
  • 會使用fiddle4對網(wǎng)絡請求抓包
  • 需要知道基礎的web知識

因為博客備份工具還挺簡單的性含,所以涉及內(nèi)容并不復雜洲赵,主要是CSDN本身也沒有防爬機制,所以只要了解簡單爬蟲知識的同學商蕴,都可以自己動手做一份叠萍,實踐一下。


爬蟲實踐


(一)分析如何爬取博客的markdown內(nèi)容

  • 首先我們并不是根據(jù)爬取html绪商,然后根據(jù)博文的html解析成markdown文本苛谷,因為每個編輯器都有自己的一些特俗規(guī)則。使用第三方庫解析html部宿,很可能得不到我自己想要的效果。所以我的直接策略就是瓢湃,看能否直接從平時我們寫markdown文字的編輯器中獲取理张。

  • 我們可以隨便選擇自己寫過的一篇文章,點擊編輯(必須是markdown文章绵患,非富文本寫的)雾叭,同時打開瀏覽器的開發(fā)者工具(我是Chrome)

    在這里插入圖片描述

  • 因為點擊編輯,就會觸發(fā)https://mp.csdn.net/mdeditor/95618910#請求落蝙,我們就會進入markdown編輯器织狐,編輯器會請求獲取文章的markdown內(nèi)容。所以我們就點開瀏覽器的開發(fā)者工具的Network選項筏勒,勾選XHR移迫。于是我們就可以看到只剩兩條請求。逐行分析那個URL才是獲得markdown文本內(nèi)容的請求管行。經(jīng)過在response,preview簡單的查看厨埋,很容易就能夠知道第一個并沒有什么卵用。只有第二個https://mp.csdn.net/mdeditor/getArticle?id=95618910才是我們需要的捐顷。而95618910就是這篇文章在csdn中的唯一文章id

    在這里插入圖片描述

  • 從上面的開發(fā)者工具中荡陷,我們就可以知道編輯器請求markdown內(nèi)容的url是什么了,這就是成功的第一步迅涮,所以這個要記追显蕖!既https://mp.csdn.net/mdeditor/getArticle?id= 叮姑。因為已經(jīng)得到請求數(shù)據(jù)的url唉地,所以我們就要開始模擬請求,讓程序可以請求該url, 并獲得數(shù)據(jù)。也因為要模擬請求渣蜗,那我肯定得知道url是什么類型的請求屠尊,請求頭帶有什么數(shù)據(jù),是否有body對吧耕拷。所以我們繼續(xù)從瀏覽器的開發(fā)者工具對該請求進行分析

    在這里插入圖片描述

  • 從上讼昆,我們就可以知道請求是get請求,走的https協(xié)議骚烧,請求頭數(shù)據(jù)也都有了浸赫。包括cookies! (額,我之前應該是無法通過瀏覽器直接看到https請求的header的赃绊,也就是說這個url的headers是對我隱藏的既峡。可能是在用fiddler4分析時碧查,安裝了證書吧运敢,畢竟這方面的知識有些十分薄弱≈沂郏總之传惠,如果你在瀏覽器的開發(fā)者工具中無法分析出url的請求頭,可以使用fiddler4對其分析稻扬,fiddler4默認是不監(jiān)聽https請求卦方,但可以開啟,這個方法百度即可)

    在這里插入圖片描述

  • 請求的所有參數(shù)泰佳,我們都知道了盼砍。我們就可以在程序中模擬請求,讓其自動化啦J潘(之前浇坐,可以用postman模擬)


    在這里插入圖片描述

以上,我們就可以得到單篇的文章的markdown內(nèi)容啦G稹吗跋!Wow ! 剩下的就要做如何把所有文章的markdown內(nèi)容都獲取到 宁昭。同時這里提醒一下跌宛。因為markdown編輯器是需要用戶登錄才能訪問的,所以必須要帶有正確的cookies积仗,否則是會提醒你權(quán)限不足疆拘,要求登錄的奧,既Cookies的獲取也是十分重要的一步


(二)分析如何批量爬取博客的markdown

從上面寂曹,我們知道了如何爬取單篇文章的markdown 哎迄,很簡單回右,只要通過url + 文章id就可以了。那我們?nèi)绾闻颗廊∧厥浚恳埠芎唵巍?如果我們一開始就知道自己所有文章的id集合, 然后遍歷請求不就可以了嘛翔烁。

沒錯,但是我們怎么拿到所有文章的ID集合呢旨涝?這就是我們要解決的問題

  • 如何爬取所有文章的ID集合蹬屹,思路也很簡單,我們知道自己的主頁白华,會顯示一列列的博客慨默,點擊博客就能跳轉(zhuǎn)到對應的博文,所以簡單的分析一下弧腥,我們就可以知道厦取,自己主頁一頁會列出大概20篇文章的URL, 而這些URL的后綴就是文章ID。我們要做的就是得到請求主頁的URL, 獲得返回的HTML ,從HTML中找到一頁的所有文章的URL, 并用正則表達式管搪,從URL中截取出文章ID

    在這里插入圖片描述

    在這里插入圖片描述

  • 從上虾攻,我們就可以知道主頁是https://blog.csdn.net/SnailMann, 主頁中文章列表會存在文章ID,可以爬取獲取更鲁。所以我們在通過requests獲取主頁的html之后霎箍,通過bs4先找到文章列的對應的article-list的div內(nèi)容,再遞歸找到article-item-box csdn-tracking-statistics的div內(nèi)容岁经。然后的通過正則表達式獲得每一行data-articleid=后面的ID

    在這里插入圖片描述

    在這里插入圖片描述

    在這里插入圖片描述

  • 以上朋沮,我們就得到主頁中 一頁 所有文章的ID蛇券,例如我目前就有5頁缀壤,所以就需要爬取5頁,然后匯總纠亚。怎么爬所有頁呢塘慕?首先要知道跳頁的URLhttps://blog.csdn.net/SnailMann/article/list/2? , 然后要知道自己總共有多少頁

    在這里插入圖片描述

  • 跳頁URL很容易就知道了,總共多少頁要怎么知道呢蒂胞?這個我也不知道為什么呀图呢,python爬取的html中并沒有<div class = pagination-box>內(nèi)部的內(nèi)容。所以最后只能曲線救國骗随,在一個js腳本找到蛤织,文章總數(shù)和每頁大小,通過ceil(文章總數(shù) / 每頁大小)就是用戶的總頁數(shù)鸿染,比如我的ceil(89 / 20) = 5 , ceil就是向上取整的意思

    在這里插入圖片描述

    在這里插入圖片描述

總之通過以上的一頓操作指蚜,我們就可以通過py爬蟲,抓取到所有頁的文章ID涨椒,匯總成一個集合摊鸡。然后遍歷該集合绽媒,我們就可以獲得所有文章的markdown內(nèi)容啦!C饣是辕!


(三)如何模擬登錄,獲得cookies

為什么要模擬登錄猎提,拿到cookies呢获三? 因為從markdown編輯器中獲取markdown文本內(nèi)容,需要用戶登錄忧侧,所以我們請求markdown內(nèi)容的請求必須帶上cookies石窑,否者是會被提示無權(quán)限訪問,需要用戶登錄的蚓炬。

  • 當然最簡單的做法就是從瀏覽器上把cookies復制下來松逊,放到代碼中,寫死肯夏。但是這樣不靈活经宏,每次都需要瀏覽器登錄,復制cookies驯击,寫死代碼烁兰。
  • 所以我們就直接在程序上模擬登錄,直接獲得cookies就好啦;捕肌;φ濉!
在這里插入圖片描述
  • 這里瀏覽器就抓不到登錄的鏈接了暇矫,所以我們還得切換成更牛逼的fiddler4, 從中主之,我們可以知道URL是https://passport.csdn.net/v1/register/pc/login/doLogin , 請求類型是Post , Headers圖中都有。

    在這里插入圖片描述

  • 既然是Post請求李根,那肯定有Body呀槽奕,賬號密碼也就是在body中傳遞的,點擊TextView就可以看到Body房轿,然后我們就可以看到登錄請求傳遞了5個屬性粤攒。pwdOrVerifyCode是你的密碼,userIdentification是你的賬號 (為了防止泄露囱持,我這里對內(nèi)容做了修改)

    在這里插入圖片描述

    在這里插入圖片描述

  • 現(xiàn)在要知道的東西都知道了夯接,我們就可以在程序模擬登錄了。url和headers從fiddler4拷貝就行了纷妆。主要是body的數(shù)據(jù)盔几,在代碼中就是data字典。我們默認loginType就是1凭需,不變问欠。賬號密碼修改成自己的肝匆,uaToken,webUmidToken經(jīng)過測試,不用管顺献,為空即可
def dologin(self, username='', password=''):
        """
        Simulated login CSDN account
        :param username:
        :param password:
        :return:
        """
        url = 'https://passport.csdn.net/v1/register/pc/login/doLogin'
        urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
        header = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
            'referer': 'https://passport.csdn.net/login',
            'origin': 'https://passport.csdn.net',
            'content-Type': 'application/json;charset=UTF-8',
            'x-requested-with': 'XMLHttpRequest',
            'accept': 'application/json, text/plain, */*',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9',
            'connection': 'keep-alive',
            'Host': 'passport.csdn.net'
        }

        data = {
            'loginType': '1',
            'pwdOrVerifyCode': str(password),
            'userIdentification': str(username),
            'uaToken': '',
            'webUmidToken': ''
        }

        # login in csdn and get response
        res = requests.post(url, data=json.dumps(data), headers=header, verify=False)

        # login error
        if not res.status_code == 200:
            raise Exception(res.text)

        # assemble user data (username and cookies)
        body = res.json()
        cookies = requests.utils.dict_from_cookiejar(res.cookies)

以上就完成了模擬登錄旗国,獲取cookies的過程


(四)總結(jié)

大體思路分為三個部分:

  • 先做到獲取一個文章的markdown內(nèi)容
  • 再做到批量獲取所有文章的markdown內(nèi)容
  • 再通過模擬登錄獲取cookies做到自動化

總之,求人不如求己注整,簡單的小例子能曾,自己動手,豐富實踐喔

  • 本節(jié)重點講解的是思路肿轨,因為小細節(jié)太繁瑣寿冕,時間也有限呢,代碼可以直接去我的GayHub
  • 如果瀏覽器無法看到https請求的headers,可以使用fiddler4查看椒袍,前提是fiddler4開啟了https請求監(jiān)控喔


cabtool使用說明


方式一

如果你是沒有任何python基礎的同學驼唱,或是懶得安裝py環(huán)境。沒有關系驹暑,這里也是支持小白式運行的

  • 點擊cab-tool releases玫恳,下載cabtool.exe的最新版本
  • 雙擊運行cabtool.exe就好啦

方式二

在這里插入圖片描述

第一步

  • 把項目克隆本地git clone git@github.com:SnailMann/CAB-Tool.git
  • 確保本地有python3的環(huán)境, 并且可以使用pip安裝依賴
  • 進入項目目錄,命令行輸入pip install -r requirements.txt,使用pip安裝py項目的必要依賴

第二步

  • 打開setting.yaml配置文件
  • 按照yaml規(guī)范填寫CSDN的賬號密碼
  • 按照yaml規(guī)范在download-path填寫本地導出地址,不填默認為D:\csdn-blog-backup
  • 填寫是否開啟圖片備份(True , False

第三步

  • 確認配置無誤后
  • 項目路徑打開命令行优俘,輸入py main.py
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末京办,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子帆焕,更是在濱河造成了極大的恐慌惭婿,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件叶雹,死亡現(xiàn)場離奇詭異财饥,居然都是意外死亡,警方通過查閱死者的電腦和手機浑娜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門佑力,熙熙樓的掌柜王于貴愁眉苦臉地迎上來式散,“玉大人筋遭,你說我怎么就攤上這事”┲簦” “怎么了漓滔?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長乖篷。 經(jīng)常有香客問我响驴,道長,這世上最難降的妖魔是什么撕蔼? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任豁鲤,我火速辦了婚禮秽誊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘琳骡。我一直安慰自己锅论,他們只是感情好,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布楣号。 她就那樣靜靜地躺著最易,像睡著了一般。 火紅的嫁衣襯著肌膚如雪炫狱。 梳的紋絲不亂的頭發(fā)上藻懒,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機與錄音视译,去河邊找鬼嬉荆。 笑死,一個胖子當著我的面吹牛酷含,可吹牛的內(nèi)容都是我干的员寇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼第美,長吁一口氣:“原來是場噩夢啊……” “哼蝶锋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起什往,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤扳缕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后别威,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體躯舔,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年省古,在試婚紗的時候發(fā)現(xiàn)自己被綠了粥庄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡豺妓,死狀恐怖惜互,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情琳拭,我是刑警寧澤训堆,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站白嘁,受9級特大地震影響坑鱼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜絮缅,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一鲁沥、第九天 我趴在偏房一處隱蔽的房頂上張望呼股。 院中可真熱鬧,春花似錦画恰、人聲如沸卖怜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽马靠。三九已至,卻和暖如春蔼两,著一層夾襖步出監(jiān)牢的瞬間甩鳄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工额划, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妙啃,地道東北人。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓俊戳,卻偏偏與公主長得像揖赴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子抑胎,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • width: 65%;border: 1px solid #ddd;outline: 1300px solid #...
    邵勝奧閱讀 4,833評論 0 1
  • http協(xié)議有http0.9燥滑,http1.0,http1.1和http2三個版本阿逃,但是現(xiàn)在瀏覽器使用的是htt...
    一現(xiàn)_閱讀 1,866評論 0 3
  • 簡悅直播教練恬源閱讀 126評論 0 1
  • 和朋友已經(jīng)有一段時間沒有見面了铭拧。這次主要見面是想開導開導她,能夠腳踏實地的生活恃锉,不抱怨搀菩、不委屈、不氣壘的面對現(xiàn)...
    感妙閱讀 108評論 0 1
  • 四川師范大學頓士學位論文 種環(huán)境中最大限度地發(fā)揮主觀能動性,最終引發(fā)課堂教學結(jié)構(gòu)的變革破托。"Ia 123深度融合 “...
    花園未來電腦閱讀 153評論 0 0