加入爬蟲(chóng)群已經(jīng)第二周了岳颇,這周的作業(yè)是:
- 學(xué)習(xí)HTML
http://www.w3school.com.cn/html/ - 學(xué)習(xí)正則表達(dá)式
http://www.imooc.com/learn/550 - 試著爬一個(gè)網(wǎng)頁(yè)
http://www.reibang.com/p/1c25e7f8cd74
這周的作業(yè)雖然沒(méi)有做的連滾帶爬,但是也不輕松。因?yàn)閷W(xué)習(xí)內(nèi)容有一個(gè)躍升型宝。事實(shí)上到現(xiàn)在所以還不是很熟練。特別是正則表達(dá)式部分,絕對(duì)是一眼暈。
后來(lái)還是看了《python核心編程》适袜。這本書(shū)的第一章就是正則(!)舷夺,內(nèi)容有40頁(yè)苦酱,所以講的滿透徹的(我能不能理解又是another story)。
這周可能有點(diǎn)混给猾,隨便看看正則馬上就到周四了疫萤,老師公布了爬蟲(chóng)作業(yè)。第一步是按照向右老師的代碼敲敢伸。這步還算挺順利的扯饶,主要遇到的坑是自己寫路徑,然后格式寫錯(cuò),寫正確路徑之后又遇到保護(hù)尾序,換了個(gè)盤就好了钓丰。
<u>urllib.urlretrieve(imgurl, ' G: /%s.jpg' % x)</u>
第二步是試著自己爬花瓣網(wǎng)(因?yàn)閳D片比較美貌)。這個(gè)網(wǎng)址不是以jpg gif結(jié)尾每币。我又很直接的用了右鍵 查看源代碼網(wǎng)頁(yè)斑粱,所以。后來(lái)向右老師提醒我脯爪,才記得要用檢查,才能看到正確的代碼:
如果用Chrome瀏覽器的右鍵-查看源代碼功能矿微,搜索 “<img ” 就只有一條結(jié)果痕慢,看代碼好像是 gif 文件
但是把鼠標(biāo)移到圖片上,右鍵選擇檢查涌矢,圖片的鏈接就是介個(gè)了:
所以掖举,<img src="([.*\S ] *)"
#coding = utf-8
import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html= page.read()
return html
html = getHtml('http://huaban.com/pins/1034928829/')
reg= r'<img src="([.*\S]*)"'
imgurls = re.findall(reg, html)
x=1
for imgurl in imgurls:
print 'http:'+imgurl
urllib.urlretrieve('http:'+imgurl, 'G://%s.jpg' % x)
print "downloading %d"%x
x +=1
先運(yùn)行的時(shí)候是報(bào)錯(cuò)的,還傻傻的不知道怎么回事娜庇,又跑去找大神看代碼塔次。向右老師加了個(gè) 'http:'+ 就行了,這就是內(nèi)行外行的區(qū)別啊...
老師語(yǔ)錄:要注意檢查url路徑
雖然作業(yè)都是抄的名秀,但爬出來(lái)的感覺(jué)還是很酸爽的...
這個(gè)代碼同時(shí)也爬了頭像励负,我后來(lái)手動(dòng)刪了。
好吧匕得,接下來(lái)是爬站酷網(wǎng)继榆。重復(fù)的代碼不寫了,其實(shí)就是改了兩條
......
html = getHtml('http://www.zcool.com.cn/work/ZMjE1NjY2MzY=.html')
reg = r'src="([.*\S]*.jpg)"'
......
只爬下自己看中的一張圖汁掠,算是小ok吧略吨。作者其余帖子的沒(méi)爬下來(lái)】稼澹總是疑神疑鬼的覺(jué)得對(duì)方寫了保護(hù)翠忠。
總之不算很成功,初步了解而已乞榨,不過(guò)總是爬下來(lái)一個(gè)半網(wǎng)站秽之,給自己六十分吧
不關(guān)程序但小困擾的小白問(wèn)題:
運(yùn)行框中中文顯示不出來(lái)
無(wú)法運(yùn)行選中的一段程序
哪天緩過(guò)氣來(lái),解決一下姜凄!