求人不如求己床佳，自己動手寫一個CSDN博客備份小工具？

求人不如求己榄审，自己動手寫一個CSDN博客備份小工具砌们？

前提概要
- 背景
- cabtool
- 實踐基礎
爬蟲實踐
- （一）分析如何爬取博客的markdown內(nèi)容
- （二）分析如何批量爬取博客的markdown
- （三）如何模擬登錄，獲得cookies
使用說明
- 方式一
- 方式二

前提概要

背景

因為筆者在上個月的時候搁进，突然想擴展一下技術(shù)棧浪感，不能僅僅局限于Java，還是得掌握一門工具語言饼问，不然顯得太low影兽。所以也就對Python和Golang類的語言有了一些興趣。也就在上個月簡單的學習了Python3莱革。但是呢赢笨，苦于沒有時間也沒有項目可以實踐，所以爬蟲就成為了避免忘記python的最佳實踐
同時筆者發(fā)現(xiàn)在CSDN寫的筆記好像也堆積了八九十篇啦驮吱。但是CSDN好像卻沒有類似簡書一鍵導出的備份功能茧妒。于是之前沒有數(shù)據(jù)備份意識的我本來想著從GayHub找找現(xiàn)成的Tool, 也不知道為什么GayHub上Tool不是過時了，就是效果不太符合我的意愿左冬。個人琢磨著應該是大牛們嫌太簡單桐筏，懶得放出來。于是拇砰，求人不如求己梅忌，雖然之前沒有實踐過爬蟲，但還是花了半天的時間除破，把這個cab-tool小工具是寫出來啦
本著記錄筆記的牧氮，分享大眾的原則，于是本博就出來了

cabtool

什么是CAB-Tool瑰枫？這是什么玩意踱葛。其實就是csdn-article-backup-tool的縮寫丹莲。為什么要縮寫，本質(zhì)就是裝的一手好逼（狗頭）

在這里插入圖片描述

所以有需要的童鞋尸诽，可以去GayHub上順手牽羊甥材，支持小白式exe文件啟動哈

實踐基礎

基本的python語法基礎，懂一丟丟requests,beautifulsoup4庫（簡單的即可）
會使用fiddle4對網(wǎng)絡請求抓包
需要知道基礎的web知識

因為博客備份工具還挺簡單的性含，所以涉及內(nèi)容并不復雜洲赵，主要是CSDN本身也沒有防爬機制，所以只要了解簡單爬蟲知識的同學商蕴，都可以自己動手做一份叠萍，實踐一下。

爬蟲實踐

（一）分析如何爬取博客的markdown內(nèi)容

首先我們并不是根據(jù)爬取html绪商，然后根據(jù)博文的html解析成markdown文本苛谷，因為每個編輯器都有自己的一些特俗規(guī)則。使用第三方庫解析html部宿，很可能得不到我自己想要的效果。所以我的直接策略就是瓢湃，看能否直接從平時我們寫markdown文字的編輯器中獲取理张。
我們可以隨便選擇自己寫過的一篇文章，點擊編輯（必須是markdown文章绵患，非富文本寫的）雾叭，同時打開瀏覽器的開發(fā)者工具（我是Chrome）

在這里插入圖片描述
因為點擊編輯，就會觸發(fā)https://mp.csdn.net/mdeditor/95618910#請求落蝙，我們就會進入markdown編輯器织狐，編輯器會請求獲取文章的markdown內(nèi)容。所以我們就點開瀏覽器的開發(fā)者工具的Network選項筏勒，勾選XHR移迫。于是我們就可以看到只剩兩條請求。逐行分析那個URL才是獲得markdown文本內(nèi)容的請求管行。經(jīng)過在response,preview簡單的查看厨埋，很容易就能夠知道第一個并沒有什么卵用。只有第二個https://mp.csdn.net/mdeditor/getArticle?id=95618910才是我們需要的捐顷。而95618910就是這篇文章在csdn中的唯一文章id

在這里插入圖片描述
從上面的開發(fā)者工具中荡陷，我們就可以知道編輯器請求markdown內(nèi)容的url是什么了，這就是成功的第一步迅涮，所以這個要記追显蕖！既https://mp.csdn.net/mdeditor/getArticle?id= 叮姑。因為已經(jīng)得到請求數(shù)據(jù)的url唉地，所以我們就要開始模擬請求，讓程序可以請求該url, 并獲得數(shù)據(jù)。也因為要模擬請求渣蜗，那我肯定得知道url是什么類型的請求屠尊，請求頭帶有什么數(shù)據(jù)，是否有body對吧耕拷。所以我們繼續(xù)從瀏覽器的開發(fā)者工具對該請求進行分析

在這里插入圖片描述
從上讼昆，我們就可以知道請求是get請求，走的https協(xié)議骚烧，請求頭數(shù)據(jù)也都有了浸赫。包括cookies! （額，我之前應該是無法通過瀏覽器直接看到https請求的header的赃绊，也就是說這個url的headers是對我隱藏的既峡。可能是在用fiddler4分析時碧查，安裝了證書吧运敢，畢竟這方面的知識有些十分薄弱≈沂郏總之传惠，如果你在瀏覽器的開發(fā)者工具中無法分析出url的請求頭，可以使用fiddler4對其分析稻扬，fiddler4默認是不監(jiān)聽https請求卦方，但可以開啟，這個方法百度即可）

在這里插入圖片描述
請求的所有參數(shù)泰佳，我們都知道了盼砍。我們就可以在程序中模擬請求，讓其自動化啦Ｊ潘（之前浇坐，可以用postman模擬）

在這里插入圖片描述

以上，我們就可以得到單篇的文章的markdown內(nèi)容啦Ｇ稹吗跋！Wow ！ 剩下的就要做如何把所有文章的markdown內(nèi)容都獲取到宁昭。同時這里提醒一下跌宛。因為markdown編輯器是需要用戶登錄才能訪問的，所以必須要帶有正確的cookies积仗，否則是會提醒你權(quán)限不足疆拘，要求登錄的奧，既Cookies的獲取也是十分重要的一步

（二）分析如何批量爬取博客的markdown

從上面寂曹，我們知道了如何爬取單篇文章的markdown 哎迄，很簡單回右，只要通過url + 文章id就可以了。那我們?nèi)绾闻颗廊∧厥浚恳埠芎唵巍?如果我們一開始就知道自己所有文章的id集合, 然后遍歷請求不就可以了嘛翔烁。

沒錯，但是我們怎么拿到所有文章的ID集合呢旨涝？這就是我們要解決的問題

如何爬取所有文章的ID集合蹬屹，思路也很簡單，我們知道自己的主頁白华，會顯示一列列的博客慨默，點擊博客就能跳轉(zhuǎn)到對應的博文，所以簡單的分析一下弧腥，我們就可以知道厦取，自己主頁一頁會列出大概20篇文章的URL, 而這些URL的后綴就是文章ID。我們要做的就是得到請求主頁的URL, 獲得返回的HTML ,從HTML中找到一頁的所有文章的URL, 并用正則表達式管搪，從URL中截取出文章ID

在這里插入圖片描述

在這里插入圖片描述
從上虾攻，我們就可以知道主頁是https://blog.csdn.net/SnailMann, 主頁中文章列表會存在文章ID，可以爬取獲取更鲁。所以我們在通過requests獲取主頁的html之后霎箍，通過bs4先找到文章列的對應的article-list的div內(nèi)容，再遞歸找到article-item-box csdn-tracking-statistics的div內(nèi)容岁经。然后的通過正則表達式獲得每一行data-articleid=后面的ID

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述
以上朋沮，我們就得到主頁中 一頁 所有文章的ID蛇券，例如我目前就有5頁缀壤，所以就需要爬取5頁，然后匯總纠亚。怎么爬所有頁呢塘慕？首先要知道跳頁的URLhttps://blog.csdn.net/SnailMann/article/list/2? , 然后要知道自己總共有多少頁

在這里插入圖片描述
跳頁URL很容易就知道了，總共多少頁要怎么知道呢蒂胞？這個我也不知道為什么呀图呢，python爬取的html中并沒有<div class = pagination-box>內(nèi)部的內(nèi)容。所以最后只能曲線救國骗随，在一個js腳本找到蛤织，文章總數(shù)和每頁大小，通過ceil(文章總數(shù) / 每頁大小)就是用戶的總頁數(shù)鸿染，比如我的ceil(89 / 20) = 5 , ceil就是向上取整的意思

在這里插入圖片描述

在這里插入圖片描述

總之通過以上的一頓操作指蚜，我們就可以通過py爬蟲，抓取到所有頁的文章ID涨椒，匯總成一個集合摊鸡。然后遍歷該集合绽媒，我們就可以獲得所有文章的markdown內(nèi)容啦！Ｃ饣是辕！

（三）如何模擬登錄，獲得cookies

為什么要模擬登錄猎提，拿到cookies呢获三？ 因為從markdown編輯器中獲取markdown文本內(nèi)容，需要用戶登錄忧侧，所以我們請求markdown內(nèi)容的請求必須帶上cookies石窑，否者是會被提示無權(quán)限訪問，需要用戶登錄的蚓炬。

當然最簡單的做法就是從瀏覽器上把cookies復制下來松逊，放到代碼中，寫死肯夏。但是這樣不靈活经宏，每次都需要瀏覽器登錄，復制cookies驯击，寫死代碼烁兰。
所以我們就直接在程序上模擬登錄，直接獲得cookies就好啦；捕肌；φ濉！

在這里插入圖片描述

這里瀏覽器就抓不到登錄的鏈接了暇矫，所以我們還得切換成更牛逼的fiddler4, 從中主之，我們可以知道URL是https://passport.csdn.net/v1/register/pc/login/doLogin , 請求類型是Post , Headers圖中都有。

在這里插入圖片描述
既然是Post請求李根，那肯定有Body呀槽奕，賬號密碼也就是在body中傳遞的，點擊TextView就可以看到Body房轿，然后我們就可以看到登錄請求傳遞了5個屬性粤攒。pwdOrVerifyCode是你的密碼，userIdentification是你的賬號 （為了防止泄露囱持，我這里對內(nèi)容做了修改）

在這里插入圖片描述

在這里插入圖片描述

現(xiàn)在要知道的東西都知道了夯接，我們就可以在程序模擬登錄了。url和headers從fiddler4拷貝就行了纷妆。主要是body的數(shù)據(jù)盔几，在代碼中就是data字典。我們默認loginType就是1凭需，不變问欠。賬號密碼修改成自己的肝匆，uaToken,webUmidToken經(jīng)過測試，不用管顺献，為空即可

def dologin(self, username='', password=''):
        """
        Simulated login CSDN account
        :param username:
        :param password:
        :return:
        """
        url = 'https://passport.csdn.net/v1/register/pc/login/doLogin'
        urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
        header = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
            'referer': 'https://passport.csdn.net/login',
            'origin': 'https://passport.csdn.net',
            'content-Type': 'application/json;charset=UTF-8',
            'x-requested-with': 'XMLHttpRequest',
            'accept': 'application/json, text/plain, */*',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9',
            'connection': 'keep-alive',
            'Host': 'passport.csdn.net'
        }

        data = {
            'loginType': '1',
            'pwdOrVerifyCode': str(password),
            'userIdentification': str(username),
            'uaToken': '',
            'webUmidToken': ''
        }

        # login in csdn and get response
        res = requests.post(url, data=json.dumps(data), headers=header, verify=False)

        # login error
        if not res.status_code == 200:
            raise Exception(res.text)

        # assemble user data (username and cookies)
        body = res.json()
        cookies = requests.utils.dict_from_cookiejar(res.cookies)

以上就完成了模擬登錄旗国，獲取cookies的過程

（四）總結(jié)

大體思路分為三個部分：

先做到獲取一個文章的markdown內(nèi)容
再做到批量獲取所有文章的markdown內(nèi)容
再通過模擬登錄獲取cookies做到自動化

總之，求人不如求己注整，簡單的小例子能曾，自己動手，豐富實踐喔

本節(jié)重點講解的是思路肿轨，因為小細節(jié)太繁瑣寿冕，時間也有限呢，代碼可以直接去我的GayHub看
如果瀏覽器無法看到https請求的headers,可以使用fiddler4查看椒袍，前提是fiddler4開啟了https請求監(jiān)控喔

cabtool使用說明

方式一

如果你是沒有任何python基礎的同學驼唱，或是懶得安裝py環(huán)境。沒有關系驹暑，這里也是支持小白式運行的

點擊cab-tool releases玫恳，下載cabtool.exe的最新版本
雙擊運行cabtool.exe就好啦

方式二

在這里插入圖片描述

第一步

把項目克隆本地git clone git@github.com:SnailMann/CAB-Tool.git
確保本地有python3的環(huán)境, 并且可以使用pip安裝依賴
進入項目目錄,命令行輸入pip install -r requirements.txt，使用pip安裝py項目的必要依賴

第二步

打開setting.yaml配置文件
按照yaml規(guī)范填寫CSDN的賬號密碼
按照yaml規(guī)范在download-path填寫本地導出地址,不填默認為D:\csdn-blog-backup
填寫是否開啟圖片備份（True , False）

第三步

確認配置無誤后
項目路徑打開命令行优俘，輸入py main.py

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末京办，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子帆焕，更是在濱河造成了極大的恐慌惭婿，老刑警劉巖，帶你破解...
沈念sama閱讀 222,183評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件叶雹，死亡現(xiàn)場離奇詭異财饥，居然都是意外死亡，警方通過查閱死者的電腦和手機浑娜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門佑力，熙熙樓的掌柜王于貴愁眉苦臉地迎上來式散，“玉大人筋遭，你說我怎么就攤上這事”┲簦” “怎么了漓滔？”我有些...
開封第一講書人閱讀 168,766評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長乖篷。經(jīng)常有香客問我响驴，道長，這世上最難降的妖魔是什么撕蔼？我笑而不...
開封第一講書人閱讀 59,854評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任豁鲤，我火速辦了婚禮秽誊，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘琳骡。我一直安慰自己锅论，他們只是感情好，可當我...
茶點故事閱讀 68,871評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布楣号。她就那樣靜靜地躺著最易，像睡著了一般。火紅的嫁衣襯著肌膚如雪炫狱。梳的紋絲不亂的頭發(fā)上藻懒，一...
開封第一講書人閱讀 52,457評論 1贊 311
城市分裂傳說
那天，我揣著相機與錄音视译，去河邊找鬼嬉荆。笑死，一個胖子當著我的面吹牛酷含，可吹牛的內(nèi)容都是我干的员寇。我是一名探鬼主播，決...
沈念sama閱讀 40,999評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼第美，長吁一口氣：“原來是場噩夢啊……” “哼蝶锋！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起什往，我...
開封第一講書人閱讀 39,914評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤扳缕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后别威，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體躯舔，經(jīng)...
沈念sama閱讀 46,465評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,543評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年省古，在試婚紗的時候發(fā)現(xiàn)自己被綠了粥庄。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,675評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡豺妓，死狀恐怖惜互，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情琳拭，我是刑警寧澤训堆，帶...
沈念sama閱讀 36,354評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站白嘁，受9級特大地震影響坑鱼，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜絮缅，卻給世界環(huán)境...
茶點故事閱讀 42,029評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一鲁沥、第九天我趴在偏房一處隱蔽的房頂上張望呼股。院中可真熱鬧，春花似錦画恰、人聲如沸卖怜。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,514評論 0贊 25
一樁弒父案阐枣，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽马靠。三九已至，卻和暖如春蔼两，著一層夾襖步出監(jiān)牢的瞬間甩鳄，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,616評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工额划，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妙啃，地道東北人。一個月前我還...
沈念sama閱讀 49,091評論 3贊 378
代替公主和親
正文我出身青樓俊戳，卻偏偏與公主長得像揖赴，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子抑胎，可洞房花燭夜當晚...
茶點故事閱讀 45,685評論 2贊 360

求人不如求己怎囚，自己動手寫一個CSDN博客備份小工具谣旁？

求人不如求己床佳，自己動手寫一個CSDN博客備份小工具？

求人不如求己榄审，自己動手寫一個CSDN博客備份小工具砌们？

前提概要

背景

cabtool

實踐基礎

爬蟲實踐

（一）分析如何爬取博客的markdown內(nèi)容

（二）分析如何批量爬取博客的markdown

（三）如何模擬登錄，獲得cookies

（四）總結(jié)

cabtool使用說明

方式一

方式二

推薦閱讀更多精彩內(nèi)容