求人不如求己榄审,自己動手寫一個CSDN博客備份小工具砌们?
-
前提概要
- 背景
- cabtool
- 實踐基礎
-
爬蟲實踐
- (一)分析如何爬取博客的markdown內(nèi)容
- (二)分析如何批量爬取博客的markdown
- (三)如何模擬登錄,獲得cookies
-
使用說明
- 方式一
- 方式二
前提概要
背景
因為筆者在上個月的時候搁进,突然想擴展一下技術(shù)棧浪感,不能僅僅局限于Java,還是得掌握一門工具語言饼问,不然顯得太low影兽。所以也就對Python和Golang類的語言有了一些興趣。也就在上個月簡單的學習了Python3莱革。但是呢赢笨,苦于沒有時間也沒有項目可以實踐,所以爬蟲就成為了避免忘記python的最佳實踐
同時筆者發(fā)現(xiàn)在CSDN寫的筆記好像也堆積了八九十篇啦驮吱。但是CSDN好像卻沒有類似簡書一鍵導出的備份功能茧妒。于是之前沒有數(shù)據(jù)備份意識的我本來想著從GayHub找找現(xiàn)成的Tool, 也不知道為什么GayHub上Tool不是過時了,就是效果不太符合我的意愿左冬。個人琢磨著應該是大牛們嫌太簡單桐筏,懶得放出來。于是拇砰,求人不如求己梅忌,雖然之前沒有實踐過爬蟲,但還是花了半天的時間除破,把這個
cab-tool
小工具是寫出來啦本著記錄筆記的牧氮,分享大眾的原則,于是本博就出來了
cabtool
什么是CAB-Tool
瑰枫?這是什么玩意踱葛。其實就是csdn-article-backup-tool的縮寫丹莲。為什么要縮寫,本質(zhì)就是裝的一手好逼(狗頭)
所以有需要的童鞋尸诽,可以去GayHub上順手牽羊甥材,支持小白式exe文件啟動哈
實踐基礎
- 基本的python語法基礎,懂一丟丟requests,beautifulsoup4庫(簡單的即可)
- 會使用fiddle4對網(wǎng)絡請求抓包
- 需要知道基礎的web知識
因為博客備份工具還挺簡單的性含,所以涉及內(nèi)容并不復雜洲赵,主要是CSDN本身也沒有防爬機制,所以只要了解簡單爬蟲知識的同學商蕴,都可以自己動手做一份叠萍,實踐一下。
爬蟲實踐
(一)分析如何爬取博客的markdown內(nèi)容
首先我們并不是根據(jù)爬取html绪商,然后根據(jù)博文的html解析成markdown文本苛谷,因為每個編輯器都有自己的一些特俗規(guī)則。使用第三方庫解析html部宿,很可能得不到我自己想要的效果。所以我的直接策略就是瓢湃,看能否直接從平時我們寫markdown文字的編輯器中獲取理张。
-
我們可以隨便選擇自己寫過的一篇文章,點擊編輯(必須是markdown文章绵患,非富文本寫的)雾叭,同時打開瀏覽器的開發(fā)者工具(我是Chrome)
在這里插入圖片描述 -
因為點擊編輯,就會觸發(fā)
https://mp.csdn.net/mdeditor/95618910#
請求落蝙,我們就會進入markdown編輯器织狐,編輯器會請求獲取文章的markdown內(nèi)容。所以我們就點開瀏覽器的開發(fā)者工具的Network
選項筏勒,勾選XHR
移迫。于是我們就可以看到只剩兩條請求。逐行分析那個URL才是獲得markdown文本內(nèi)容的請求管行。經(jīng)過在response,preview簡單的查看厨埋,很容易就能夠知道第一個并沒有什么卵用。只有第二個https://mp.csdn.net/mdeditor/getArticle?id=95618910
才是我們需要的捐顷。而95618910
就是這篇文章在csdn中的唯一文章id
在這里插入圖片描述 -
從上面的開發(fā)者工具中荡陷,我們就可以知道編輯器請求markdown內(nèi)容的url是什么了,這就是成功的第一步迅涮,所以這個要記追显蕖!既
https://mp.csdn.net/mdeditor/getArticle?id=
叮姑。因為已經(jīng)得到請求數(shù)據(jù)的url唉地,所以我們就要開始模擬請求,讓程序可以請求該url, 并獲得數(shù)據(jù)。也因為要模擬請求渣蜗,那我肯定得知道url是什么類型的請求屠尊,請求頭帶有什么數(shù)據(jù),是否有body對吧耕拷。所以我們繼續(xù)從瀏覽器的開發(fā)者工具對該請求進行分析
在這里插入圖片描述 -
從上讼昆,我們就可以知道請求是get請求,走的https協(xié)議骚烧,請求頭數(shù)據(jù)也都有了浸赫。包括cookies! (額,我之前應該是無法通過瀏覽器直接看到https請求的header的赃绊,也就是說這個url的headers是對我隱藏的既峡。可能是在用fiddler4分析時碧查,安裝了證書吧运敢,畢竟這方面的知識有些十分薄弱≈沂郏總之传惠,如果你在瀏覽器的開發(fā)者工具中無法分析出url的請求頭,可以使用fiddler4對其分析稻扬,fiddler4默認是不監(jiān)聽https請求卦方,但可以開啟,這個方法百度即可)
在這里插入圖片描述 -
請求的所有參數(shù)泰佳,我們都知道了盼砍。我們就可以在程序中模擬請求,讓其自動化啦J潘(之前浇坐,可以用postman模擬)
在這里插入圖片描述
以上,我們就可以得到單篇的文章的markdown內(nèi)容啦G稹吗跋!Wow ! 剩下的就要做如何把所有文章的markdown內(nèi)容都獲取到 宁昭。同時這里提醒一下跌宛。因為markdown編輯器是需要用戶登錄才能訪問的,所以必須要帶有正確的cookies积仗,否則是會提醒你權(quán)限不足疆拘,要求登錄的奧,既Cookies的獲取也是十分重要的一步
(二)分析如何批量爬取博客的markdown
從上面寂曹,我們知道了如何爬取單篇文章的markdown 哎迄,很簡單回右,只要通過url + 文章id就可以了。那我們?nèi)绾闻颗廊∧厥浚恳埠芎唵巍?如果我們一開始就知道自己所有文章的id集合, 然后遍歷請求不就可以了嘛翔烁。
沒錯,但是我們怎么拿到所有文章的ID集合呢旨涝?這就是我們要解決的問題
-
如何爬取所有文章的ID集合蹬屹,思路也很簡單,我們知道自己的主頁白华,會顯示一列列的博客慨默,點擊博客就能跳轉(zhuǎn)到對應的博文,所以簡單的分析一下弧腥,我們就可以知道厦取,自己主頁一頁會列出大概20篇文章的URL, 而這些URL的后綴就是文章ID。我們要做的就是得到請求主頁的URL, 獲得返回的HTML ,從HTML中找到一頁的所有文章的URL, 并用正則表達式管搪,從URL中截取出文章ID
在這里插入圖片描述
在這里插入圖片描述 -
從上虾攻,我們就可以知道主頁是
https://blog.csdn.net/SnailMann
, 主頁中文章列表會存在文章ID,可以爬取獲取更鲁。所以我們在通過requests獲取主頁的html之后霎箍,通過bs4先找到文章列的對應的article-list
的div內(nèi)容,再遞歸找到article-item-box csdn-tracking-statistics
的div內(nèi)容岁经。然后的通過正則表達式獲得每一行data-articleid=
后面的ID
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述 -
以上朋沮,我們就得到主頁中
一頁
所有文章的ID蛇券,例如我目前就有5頁缀壤,所以就需要爬取5頁,然后匯總纠亚。怎么爬所有頁呢塘慕?首先要知道跳頁的URLhttps://blog.csdn.net/SnailMann/article/list/2?
, 然后要知道自己總共有多少頁
在這里插入圖片描述 -
跳頁URL很容易就知道了,總共多少頁要怎么知道呢蒂胞?這個我也不知道為什么呀图呢,python爬取的html中并沒有
<div class = pagination-box>
內(nèi)部的內(nèi)容。所以最后只能曲線救國骗随,在一個js腳本找到蛤织,文章總數(shù)和每頁大小,通過ceil(文章總數(shù) / 每頁大小)
就是用戶的總頁數(shù)鸿染,比如我的ceil(89 / 20) = 5
, ceil就是向上取整的意思
在這里插入圖片描述
在這里插入圖片描述
總之通過以上的一頓操作指蚜,我們就可以通過py爬蟲,抓取到所有頁的文章ID涨椒,匯總成一個集合摊鸡。然后遍歷該集合绽媒,我們就可以獲得所有文章的markdown內(nèi)容啦!C饣是辕!
(三)如何模擬登錄,獲得cookies
為什么要模擬登錄猎提,拿到cookies呢获三? 因為從markdown編輯器中獲取markdown文本內(nèi)容,需要用戶登錄忧侧,所以我們請求markdown內(nèi)容的請求必須帶上cookies石窑,否者是會被提示無權(quán)限訪問,需要用戶登錄的蚓炬。
- 當然最簡單的做法就是從瀏覽器上把cookies復制下來松逊,放到代碼中,寫死肯夏。但是這樣不靈活经宏,每次都需要瀏覽器登錄,復制cookies驯击,寫死代碼烁兰。
- 所以我們就直接在程序上模擬登錄,直接獲得cookies就好啦;捕肌;φ濉!
-
這里瀏覽器就抓不到登錄的鏈接了暇矫,所以我們還得切換成更牛逼的fiddler4, 從中主之,我們可以知道URL是
https://passport.csdn.net/v1/register/pc/login/doLogin
, 請求類型是Post
, Headers圖中都有。
在這里插入圖片描述 -
既然是Post請求李根,那肯定有Body呀槽奕,賬號密碼也就是在body中傳遞的,點擊
TextView
就可以看到Body房轿,然后我們就可以看到登錄請求傳遞了5個屬性粤攒。pwdOrVerifyCode
是你的密碼,userIdentification
是你的賬號 (為了防止泄露囱持,我這里對內(nèi)容做了修改)
在這里插入圖片描述
在這里插入圖片描述
- 現(xiàn)在要知道的東西都知道了夯接,我們就可以在程序模擬登錄了。url和headers從fiddler4拷貝就行了纷妆。主要是body的數(shù)據(jù)盔几,在代碼中就是data字典。我們默認loginType就是1凭需,不變问欠。賬號密碼修改成自己的肝匆,uaToken,webUmidToken經(jīng)過測試,不用管顺献,為空即可
def dologin(self, username='', password=''):
"""
Simulated login CSDN account
:param username:
:param password:
:return:
"""
url = 'https://passport.csdn.net/v1/register/pc/login/doLogin'
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'referer': 'https://passport.csdn.net/login',
'origin': 'https://passport.csdn.net',
'content-Type': 'application/json;charset=UTF-8',
'x-requested-with': 'XMLHttpRequest',
'accept': 'application/json, text/plain, */*',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9',
'connection': 'keep-alive',
'Host': 'passport.csdn.net'
}
data = {
'loginType': '1',
'pwdOrVerifyCode': str(password),
'userIdentification': str(username),
'uaToken': '',
'webUmidToken': ''
}
# login in csdn and get response
res = requests.post(url, data=json.dumps(data), headers=header, verify=False)
# login error
if not res.status_code == 200:
raise Exception(res.text)
# assemble user data (username and cookies)
body = res.json()
cookies = requests.utils.dict_from_cookiejar(res.cookies)
以上就完成了模擬登錄旗国,獲取cookies的過程
(四)總結(jié)
大體思路分為三個部分:
- 先做到獲取一個文章的markdown內(nèi)容
- 再做到批量獲取所有文章的markdown內(nèi)容
- 再通過模擬登錄獲取cookies做到自動化
總之,求人不如求己注整,簡單的小例子能曾,自己動手,豐富實踐喔
- 本節(jié)重點講解的是思路肿轨,因為小細節(jié)太繁瑣寿冕,時間也有限呢,代碼可以直接去我的GayHub看
- 如果瀏覽器無法看到https請求的headers,可以使用fiddler4查看椒袍,前提是fiddler4開啟了https請求監(jiān)控喔
cabtool使用說明
方式一
如果你是沒有任何python基礎的同學驼唱,或是懶得安裝py環(huán)境。沒有關系驹暑,這里也是支持小白式運行的
- 點擊cab-tool releases玫恳,下載
cabtool.exe
的最新版本 - 雙擊運行
cabtool.exe
就好啦
方式二
第一步
- 把項目克隆本地
git clone git@github.com:SnailMann/CAB-Tool.git
- 確保本地有python3的環(huán)境, 并且可以使用pip安裝依賴
- 進入項目目錄,命令行輸入
pip install -r requirements.txt
,使用pip安裝py項目的必要依賴
第二步
- 打開
setting.yaml
配置文件 - 按照yaml規(guī)范填寫CSDN的賬號密碼
- 按照yaml規(guī)范在download-path填寫本地導出地址,不填默認為
D:\csdn-blog-backup
- 填寫是否開啟圖片備份(
True
,False
)
第三步
- 確認配置無誤后
- 項目路徑打開命令行优俘,輸入
py main.py