源代碼發(fā)布在github : get_tumblr_likes
一铆遭、介紹
本項目使用 python 編寫凑懂,分析 tumblr 賬戶中喜歡的內(nèi)容,給出資源鏈接城舞,并下載。
其中 test.json
是一份 tumblr 返回的喜歡數(shù)據(jù)的 json 示例寞酿,提取里面圖片和視頻的資源地址后下載家夺,下載的內(nèi)容如下圖。
二伐弹、使用方法
首先拉馋,你需要通過 tumblr API 來獲取賬戶喜歡內(nèi)容。這個過程是需要通過 OAuth 認(rèn)證的惨好,具體可參看這個網(wǎng)頁
得到認(rèn)證后可以通過腳本來獲取資源內(nèi)容煌茴,也可以通過這個網(wǎng)頁來查詢,結(jié)果會通過 json 的形式返回
-
保存你得到的 json 數(shù)據(jù)日川,命名為
test.json
蔓腐,執(zhí)行命令python json_parse.py
,這可以從 json 文件中提取出資源的真正鏈接龄句,并存為url_list.txt
文件
- 執(zhí)行
python download.py
回论,之后資源文件就會挨個下載到 download 文件夾下
三、其他
-
由于眾所周知的原因分歇,tumblr 的資源地址是不能直接下載的傀蓉,因此需要設(shè)置代理。測試時使用 ssr 代理本地連接职抡,因此
download.py
中有PROXIES = { "http": "http://127.0.0.1:1080", "https": "https://127.0.0.1:1080" }
葬燎,如果是在可直接訪問 tumblr 的 VPS 上運(yùn)行,可對代碼做如下修改。# r = requests.get(url,proxies=PROXIES) # use proxy r = requests.get(url) # directly access
這個項目下載的是賬戶中的喜歡內(nèi)容谱净,因此需要進(jìn)行認(rèn)證窑邦。如果是下載某個賬戶發(fā)布的內(nèi)容,可使用tumblr-crawler壕探,再次感謝 tumblr-crawler 項目