【Py大法系列--03】Python如何自動下載文件

問題描述

Python自動下載文件,通用文件砸抛,包括但不限于壓縮文件评雌、圖片等。

解決方法

一般情況下直焙,Python下載文件的方式有以下幾種:

  1. 利用urllib景东、urllib2,即Python爬蟲用的最多的庫箕般;
import urllib
import urllib2
import requests

url = "你的下載鏈接"
urllib.urlretrieve(url, demo.zip)

urllib.urlretrieve(url, demo.zip)這個函數(shù)還可以接受另外一個參數(shù)耐薯,比如這樣用:
urllib.urlretrieve(url,local,Schedule),其中Schedule為:

def Schedule(a,b,c):
    '''''
    a:已經(jīng)下載的數(shù)據(jù)塊
    b:數(shù)據(jù)塊的大小
    c:遠程文件的大小
   '''
    per = 100.0 * a * b / c
    if per > 100 :
        per = 100
    print '%.2f%%' % per

這樣程序可以即時打印出下載的進度丝里。

  1. 利用urllib2.urlopen(url);
import urllib2
print downloading with urllib2
url = "您的鏈接"
f = urllib2.urlopen(url)
data = f.read()
with open ("demo2.zip", "wb" ) as code:  
    code.write(data)
  1. 利用requests曲初,劃重點,我女神推薦的杯聚!
import requests
url = "您的鏈接"
r = requests.get(url)
with open ("demo3.zip", "wb") as code:
    code.write(r.content)

這三種下載方式一般都可以臼婆,根據(jù)自己的喜好選擇。

問題升級

我推薦了第一種方法給女神幌绍,然后用她給我的鏈接試了下颁褂,鏈接為:https://n5eil01u.ecs.nsidc.org/DP5/MOST/MOD29P1D.006/2017.02.28/MOD29P1D.A2017059.h12v28.006.2017060080442.hdf,最后下載下來的文件發(fā)現(xiàn)為一個html文件:

第一次下載下來的文件
仔細看發(fā)現(xiàn)傀广,這是一個請求登錄的表單:

  <div id="masthead-logo">
    <h1><a class="ir" href="/">Earthdata Login</a></h1>
    <span class="eui-badge badge daac">Earthdata Login</span>
  </div>

于是手動復(fù)制地址到瀏覽器颁独,跳轉(zhuǎn)到EARTHDATA的登錄頁

跳轉(zhuǎn)到的登錄頁.png
果斷申請賬號登錄。

問題解決伪冰,Python攜帶cookie下載文件

登錄之后誓酒,跳轉(zhuǎn)至下載鏈接,發(fā)現(xiàn)文件可以正常下載。
打開https://n5eil01u.ecs.nsidc.org靠柑,在頁面打開調(diào)試模式(F12)寨辩,選擇Console,輸入document.cookie歼冰,可以看到自己登錄之后的Cookie:

如何獲取網(wǎng)站的cookie.png
那么剩下的就是下載了靡狞,用了女神推薦的函數(shù):

  • 第一種
# --------------------第一種:使用headers攜帶cookie-----------------------------
# coding = utf-8
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64),  
    'Cookie':'_ga=GA1.2.1096053304.1523154394; googtrans=/en/zh-CN; _ceg.s=p6uhnx; _ceg.u=p6uhnx',
}
# 發(fā)起請求,獲取二進制數(shù)據(jù)
html_str = requests.get(url,headers=headers).content
# 寫入文件,采用二進制寫入文件
with open('路徑/文件名.后綴'隔嫡,'wb') as f:
    f.write(html_str)
  • 第二種
# --------------------第二種:在requests直接攜帶--------------------------------
# coding = utf-8
import requests
 
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'  
}
# cookies = {你的cookies甸怕,這里必須是以鍵值對,也就是字典的形式}
cookies = {"_ga": "GA1.2.1096053304.1523154394", "googtrans": "/en/zh-CN", "_ceg.s": "p6uhnx", "_ceg.u": "p6uhnx", " CIsForCookie_OPS": "Wss4tcCozd0AANFW49YAAABM"}
# 發(fā)起請求畔勤,獲取二進制數(shù)據(jù)
html_str = requests.get(url,headers=headers,cookies = cookies).content
# 寫入文件,采用二進制寫入文件
with open('路徑/文件名.后綴'蕾各,'wb') as f:
    f.write(html_str)

最后成功的下載了文件。

Python大法系列文章

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末庆揪,一起剝皮案震驚了整個濱河市式曲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缸榛,老刑警劉巖吝羞,帶你破解...
    沈念sama閱讀 217,084評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異内颗,居然都是意外死亡钧排,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評論 3 392
  • 文/潘曉璐 我一進店門均澳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來恨溜,“玉大人,你說我怎么就攤上這事找前≡阍” “怎么了?”我有些...
    開封第一講書人閱讀 163,450評論 0 353
  • 文/不壞的土叔 我叫張陵躺盛,是天一觀的道長项戴。 經(jīng)常有香客問我,道長槽惫,這世上最難降的妖魔是什么周叮? 我笑而不...
    開封第一講書人閱讀 58,322評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮界斜,結(jié)果婚禮上仿耽,老公的妹妹穿的比我還像新娘。我一直安慰自己各薇,他們只是感情好项贺,可當(dāng)我...
    茶點故事閱讀 67,370評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般敬扛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上朝抖,一...
    開封第一講書人閱讀 51,274評論 1 300
  • 那天啥箭,我揣著相機與錄音,去河邊找鬼治宣。 笑死急侥,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的侮邀。 我是一名探鬼主播坏怪,決...
    沈念sama閱讀 40,126評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼绊茧!你這毒婦竟也來了铝宵?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評論 0 275
  • 序言:老撾萬榮一對情侶失蹤华畏,失蹤者是張志新(化名)和其女友劉穎鹏秋,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體亡笑,經(jīng)...
    沈念sama閱讀 45,414評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡侣夷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,599評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了仑乌。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片百拓。...
    茶點故事閱讀 39,773評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖晰甚,靈堂內(nèi)的尸體忽然破棺而出衙传,到底是詐尸還是另有隱情,我是刑警寧澤压汪,帶...
    沈念sama閱讀 35,470評論 5 344
  • 正文 年R本政府宣布粪牲,位于F島的核電站,受9級特大地震影響止剖,放射性物質(zhì)發(fā)生泄漏腺阳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,080評論 3 327
  • 文/蒙蒙 一穿香、第九天 我趴在偏房一處隱蔽的房頂上張望亭引。 院中可真熱鬧,春花似錦皮获、人聲如沸焙蚓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽购公。三九已至萌京,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宏浩,已是汗流浹背知残。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留比庄,地道東北人求妹。 一個月前我還...
    沈念sama閱讀 47,865評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像佳窑,于是被迫代替她去往敵國和親制恍。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,689評論 2 354

推薦閱讀更多精彩內(nèi)容

  • urllib and urllib2 區(qū)別 –博主提示:下面的是python2中的用法神凑,python3需要做出相應(yīng)...
    sunnyRube閱讀 1,403評論 0 1
  • Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個大的版塊:抓取净神,分析,存儲 另外溉委,比較常用的爬蟲框架Scrapy强挫,這里最后也詳細...
    楚江數(shù)據(jù)閱讀 1,469評論 0 6
  • Python爬蟲入門(urllib+Beautifulsoup) 本文包括:1、爬蟲簡單介紹2薛躬、爬蟲架構(gòu)三大模塊3...
    廖少少閱讀 9,833評論 0 6
  • 夏天到了 拉開窗簾 把陽光放進來屋子 聆聽幾聲鳥鳴 觀賞窗外美麗的風(fēng)景 云朵在和云朵說話 樹葉在與樹葉親吻 陽光在...
    卓君務(wù)閱讀 262評論 0 3
  • 愛情是一個人對另一個人習(xí)慣的認同俯渤,愛到最高境界就是認同了他的習(xí)慣,一個女人習(xí)慣了一個男人的鼾聲型宝,從不適應(yīng)到習(xí)慣再到...
    羅掌柜real閱讀 128評論 0 0