Python爬蟲基礎(chǔ)1--urllib

學習python完基礎(chǔ),有些迷茫.眼睛一閉,一種空白的窒息源源不斷而來.還是缺少練習,遂拿爬蟲來練練手.學習完斯巴達python爬蟲課程后,將心得整理如下,供后續(xù)翻看.整篇筆記主要分以下幾個部分:

1.做一個簡單的爬蟲程序
2.小試牛刀--抓取百度貼吧圖片
3.總結(jié)

1.做一個簡單的爬蟲程序

首先環(huán)境描述

Device: Mba 2012 Yosemite 10.10.1
Python: python 2.7.9
編輯器: Sublime Text 3

這個沒有什么好說的,直接上代碼吧!

'''
@ urllib為python自帶的一個網(wǎng)絡(luò)庫
@ urlopen為urllib的一個方法,用于打開一個連接并抓取網(wǎng)頁,
  然后通過read()方法把值賦給read()
'''
import urllib

url = "http://www.lifevc.com"#多嘴兩句,為什么要選lifevc呢,主要是最近它很惹我.
html = urllib.urlopen(url)
content = html.read()
html.close()
#可以通過print打印出網(wǎng)頁內(nèi)容
print content

很簡單,基本上沒有可說的,這個也就是python的魅力,幾行代碼就完成.
當然我們僅僅抓取網(wǎng)頁,沒有實在的價值.接下來我們就開始做一點有意義的事情.

2.小試牛刀

抓取百度貼吧圖片

其實也很簡單,因為要抓取圖片,還需要先分析一下網(wǎng)頁源代碼
(這里以知道基本html知識,瀏覽器以chrome為例)
如圖,這里簡要說下步驟,請參考.

打開網(wǎng)頁,右鍵點擊,選擇"inspect Element"(最下面這一項)
點擊下面彈起來的框框最左邊那個問號,問號會變成藍色
移動鼠標去點擊我們想要抓取的圖片(一個萌妹子)
如圖,我們就可以圖片在源碼中的位置了

圖片源碼分析
圖片源碼分析

下面將源碼相關(guān)拷貝出來

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8.
jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/
static-pb/img/cur_zin.cur), pointer;">

經(jīng)分析和對比(這里略掉),基本上可以看到要抓取的圖片幾個特征:

1.在img標簽下
2.在名為BDE_Image的類下面
3.圖片格式為jpg
正則表達式后續(xù)我會更新,請關(guān)注

依照上述判斷,直接上代碼

'''
@本程序用來下載百度貼吧圖片
@re 為正則說明庫
'''
import urllib
import re

# 獲取網(wǎng)頁html信息
url = "http://tieba.baidu.com/p/2336739808"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通過正則匹配圖片特征,并獲取圖片鏈接
img_tag = re.compile(r'class="BDE_Image" src="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)

# 下載圖片 img_counter為圖片計數(shù)器(文件名)
img_counter = 0
for img_link in img_links:
    img_name = '%s.jpg' % img_counter
    urllib.urlretrieve(img_link, "http://Users//Sean//Downloads//tieba//%s" %img_name)
    img_counter += 1

如圖,我們就抓取你懂的圖片

百度貼吧抓取圖片
百度貼吧抓取圖片

3.總結(jié)

如上兩節(jié),我們就很輕松的就可以網(wǎng)頁或者圖片.
補充一點小技巧,如果遇到不是很明白的庫或者方法,可以通過以下方法進行初步了解.

dir(urllib)                     #查看當前庫有哪些方法
help(urllib.urlretrieve)        #查看跟當前方法相關(guān)的作用或者參數(shù),官方比較權(quán)威

或者https://docs.python.org/2/library/index.html進項相關(guān)搜索.
當然百度也可以,但是效率太低.建議使用 http://xie.lu 進行相關(guān)搜索(你懂了,絕對滿意).
這一節(jié)我們講解如何抓取網(wǎng)頁和下載圖片,在下一節(jié)里面我們會講解如何抓取有限制抓取的網(wǎng)站.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子求厕,更是在濱河造成了極大的恐慌盆耽,老刑警劉巖惠奸,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機搞坝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來魁袜,“玉大人桩撮,你說我怎么就攤上這事》宓” “怎么了店量?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長垮卓。 經(jīng)常有香客問我垫桂,道長,這世上最難降的妖魔是什么粟按? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮霹粥,結(jié)果婚禮上灭将,老公的妹妹穿的比我還像新娘。我一直安慰自己后控,他們只是感情好庙曙,可當我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著浩淘,像睡著了一般捌朴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上张抄,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天砂蔽,我揣著相機與錄音,去河邊找鬼署惯。 笑死左驾,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诡右,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼安岂,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了帆吻?” 一聲冷哼從身側(cè)響起域那,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎猜煮,沒想到半個月后次员,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡友瘤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年翠肘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辫秧。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡束倍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出盟戏,到底是詐尸還是另有隱情绪妹,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布柿究,位于F島的核電站邮旷,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蝇摸。R本人自食惡果不足惜婶肩,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望貌夕。 院中可真熱鬧律歼,春花似錦、人聲如沸啡专。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽们童。三九已至畔况,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間慧库,已是汗流浹背跷跪。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留完沪,地道東北人域庇。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓嵌戈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親听皿。 傳聞我的和親對象是個殘疾皇子熟呛,可洞房花燭夜當晚...
    茶點故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,077評論 25 707
  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,752評論 4 412
  • 能夠生長在這個時代,真的是很幸運尉姨! 足不出戶庵朝,便可知天下! 2000多年前的圣人——老子又厉,做到了九府! 做為他的子孫—...
    夢醒時分喜悅富足閱讀 344評論 0 0
  • 當我們有了太多追求,我們的心就會亂作一團覆致。我們不妨試試追求一種值得讓自己喜歡而為之信仰的侄旬。你總會發(fā)現(xiàn)你所追求的正是...
    本乘閱讀 71評論 0 0
  • 被春風吹過的大地 煥發(fā)出應有的生機 厚重而遼闊的沃野 本不該在寂寥中沉寂 在曠野中深深的呼吸 在風中展開雙臂 去嗅...
    遙遠的星光閱讀 888評論 0 5