【屠龍技】整站抓取的好工具:wget

姓朱者學(xué)屠龍于支離益徘六,單千金之家外遇,三年技成,而無所用其巧女阀。
戰(zhàn)國·鄭·列御寇《莊子·列御寇》

wget是一個從網(wǎng)絡(luò)上自動下載文件的自由工具宅荤。它支持HTTP屑迂,HTTPS和FTP協(xié)議。

獲取wget工具

 yum install wget -y

食用方法

 wget -r -p -np -k http://www.xxx.com

食材配料

  • -b 后臺運行
  • -r 遞歸抓取
  • -p 下載顯示HTML文件的所有圖片
  • -k 轉(zhuǎn)換非相對鏈接為相對鏈接
  • -np:不要追溯到父目錄

wget各種選項分類列表

啟動
 -V,  –version           顯示wget的版本后退出
 -h,  –help              打印語法幫助
 -b,  –background        啟動后轉(zhuǎn)入后臺執(zhí)行
 -e,  –execute=COMMAND   執(zhí)行`.wgetrc'格式的命令

記錄和輸入文件
 -o,  –output-file=FILE     把記錄寫到FILE文件中
 -a,  –append-output=FILE   把記錄追加到FILE文件中
 -d,  –debug                打印調(diào)試輸出
 -q,  –quiet                安靜模式(沒有輸出)
 -v,  –verbose              冗長模式(這是缺省設(shè)置)
 -nv, –non-verbose          關(guān)掉冗長模式冯键,但不是安靜模式
 -i,  –input-file=FILE      下載在FILE文件中出現(xiàn)的URLs
 -F,  –force-html           把輸入文件當(dāng)作HTML格式文件對待
 -B,  –base=URL             將URL作為在-F -i參數(shù)指定的文件中出現(xiàn)的相對鏈接的前綴
      –sslcertfile=FILE     可選客戶端證書
      –sslcertkey=KEYFILE   可選客戶端證書的KEYFILE
      –egd-file=FILE        指定EGD socket的文件名

下載
      –bind-address=ADDRESS   指定本地使用地址(主機名或IP惹盼,當(dāng)本地有多個IP或名字時使用)
 -t,  –tries=NUMBER           設(shè)定最大嘗試鏈接次數(shù)(0 表示無限制).
 -O   –output-document=FILE   把文檔寫到FILE文件中
 -nc, –no-clobber             不要覆蓋存在的文件或使用.#前綴
 -c,  –continue               接著下載沒下載完的文件
      –progress=TYPE          設(shè)定進程條標記
 -N,  –timestamping           不要重新下載文件除非比本地文件新
 -S,  –server-response        打印服務(wù)器的回應(yīng)
      –spider                 不下載任何東西
 -T,  –timeout=SECONDS        設(shè)定響應(yīng)超時的秒數(shù)
 -w,  –wait=SECONDS           兩次嘗試之間間隔SECONDS秒
      –waitretry=SECONDS      在重新鏈接之間等待1…SECONDS秒
      –random-wait            在下載之間等待0…2*WAIT秒
 -Y,  –proxy=on/off           打開或關(guān)閉代理
 -Q,  –quota=NUMBER           設(shè)置下載的容量限制
      –limit-rate=RATE        限定下載輸率

目錄
 -nd  –no-directories            不創(chuàng)建目錄
 -x,  –force-directories         強制創(chuàng)建目錄
 -nH, –no-host-directories       不創(chuàng)建主機目錄
 -P,  –directory-prefix=PREFIX   將文件保存到目錄 PREFIX/…
      –cut-dirs=NUMBER           忽略 NUMBER層遠程目錄

HTTP 選項
      –http-user=USER      設(shè)定HTTP用戶名為 USER.
      –http-passwd=PASS    設(shè)定http密碼為 PASS.
 -C,  –cache=on/off        允許/不允許服務(wù)器端的數(shù)據(jù)緩存 (一般情況下允許).
 -E,  –html-extension      將所有text/html文檔以.html擴展名保存
      –ignore-length       忽略 `Content-Length'頭域
      –header=STRING       在headers中插入字符串 STRING
      –proxy-user=USER     設(shè)定代理的用戶名為 USER
      –proxy-passwd=PASS   設(shè)定代理的密碼為 PASS
      –referer=URL         在HTTP請求中包含 `Referer: URL'頭
 -s,  –save-headers        保存HTTP頭到文件
 -U,  –user-agent=AGENT    設(shè)定代理的名稱為 AGENT而不是 Wget/VERSION.
      –no-http-keep-alive  關(guān)閉 HTTP活動鏈接 (永遠鏈接).
      –cookies=off         不使用 cookies.
      –load-cookies=FILE   在開始會話前從文件 FILE中加載cookie
      –save-cookies=FILE   在會話結(jié)束后將 cookies保存到 FILE文件中

FTP 選項
 -nr, –dont-remove-listing   不移走 `.listing'文件
 -g,  –glob=on/off           打開或關(guān)閉文件名的 globbing機制
      –passive-ftp           使用被動傳輸模式 (缺省值).
      –active-ftp            使用主動傳輸模式
      –retr-symlinks         在遞歸的時候,將鏈接指向文件(而不是目錄)

遞歸下載
 -r,  –recursive          遞歸下載--慎用!
 -l,  –level=NUMBER       最大遞歸深度 (inf 或 0 代表無窮).
      –delete-after       在現(xiàn)在完畢后局部刪除文件
 -k,  –convert-links      轉(zhuǎn)換非相對鏈接為相對鏈接
 -K,  –backup-converted   在轉(zhuǎn)換文件X之前惫确,將之備份為 X.orig
 -m,  –mirror             等價于 -r -N -l inf -nr.
 -p,  –page-requisites    下載顯示HTML文件的所有圖片

遞歸下載中的包含和不包含(accept/reject)
 -A,  –accept=LIST                分號分隔的被接受擴展名的列表
 -R,  –reject=LIST                分號分隔的不被接受的擴展名的列表
 -D,  –domains=LIST               分號分隔的被接受域的列表
      –exclude-domains=LIST       分號分隔的不被接受的域的列表
      –follow-ftp                 跟蹤HTML文檔中的FTP鏈接
      –follow-tags=LIST           分號分隔的被跟蹤的HTML標簽的列表
 -G,  –ignore-tags=LIST           分號分隔的被忽略的HTML標簽的列表
 -H,  –span-hosts                 當(dāng)遞歸時轉(zhuǎn)到外部主機
 -L,  –relative                   僅僅跟蹤相對鏈接
 -I,  –include-directories=LIST   允許目錄的列表
 -X,  –exclude-directories=LIST   不被包含目錄的列表
 -np, –no-parent                  不要追溯到父目錄

在遞歸下載的時候手报,遇到目錄中有中文的時候,wget創(chuàng)建的本地目錄名會用URL編碼規(guī)則處理改化。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掩蛤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子陈肛,更是在濱河造成了極大的恐慌揍鸟,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件句旱,死亡現(xiàn)場離奇詭異阳藻,居然都是意外死亡,警方通過查閱死者的電腦和手機谈撒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門腥泥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人港华,你說我怎么就攤上這事道川∥缢ィ” “怎么了立宜?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長臊岸。 經(jīng)常有香客問我橙数,道長,這世上最難降的妖魔是什么帅戒? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任灯帮,我火速辦了婚禮,結(jié)果婚禮上逻住,老公的妹妹穿的比我還像新娘钟哥。我一直安慰自己,他們只是感情好瞎访,可當(dāng)我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布腻贰。 她就那樣靜靜地躺著,像睡著了一般扒秸。 火紅的嫁衣襯著肌膚如雪播演。 梳的紋絲不亂的頭發(fā)上冀瓦,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天,我揣著相機與錄音写烤,去河邊找鬼翼闽。 笑死,一個胖子當(dāng)著我的面吹牛洲炊,可吹牛的內(nèi)容都是我干的感局。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼暂衡,長吁一口氣:“原來是場噩夢啊……” “哼蓝厌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起古徒,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤拓提,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后隧膘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體代态,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年疹吃,在試婚紗的時候發(fā)現(xiàn)自己被綠了蹦疑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡萨驶,死狀恐怖歉摧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情腔呜,我是刑警寧澤叁温,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站核畴,受9級特大地震影響膝但,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谤草,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一跟束、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧丑孩,春花似錦冀宴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春刨肃,著一層夾襖步出監(jiān)牢的瞬間古拴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工真友, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留黄痪,地道東北人。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓盔然,卻偏偏與公主長得像桅打,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子愈案,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,629評論 2 354