為了對爬蟲有更深的理解,我決定在網(wǎng)上隨意找個小網(wǎng)站進(jìn)行抓取果善,實踐出真知诊笤。也是像豆瓣爬蟲學(xué)習(xí)一樣,分階段進(jìn)行巾陕,分階段更新讨跟。也算是備份,方便日后查看惜论。第一階段成功如下:
# -*- coding: cp936 -*-
import urllib2
import re
f=urllib2.urlopen(‘http://www.360kad.com/dymhh/allclass.shtml’).read()
n1=f.find(‘http://www.360kad.com/Category_45/Index.aspx’)
n2=f.find(‘Category_4057/Index.aspx” target=”_blank”>’)
f1=f[n1:(n2)+54]#在豆瓣爬蟲學(xué)習(xí)筆記(五)提到學(xué)到的技巧许赃,總看別人寫的優(yōu)秀源代碼確實很有幫助。
f2=re.findall(‘http://www.360kad.com/Category_\d{1,}/Index.aspx’,f1)
r=0
for n in f2:
tagpag=urllib2.urlopen(n).read()
r=r+1
e=file(‘tagpag_%d.txt’%r,’w')#批量新建文件馆类,抓到的原始tag代碼批量保存到文件中混聊,方便日后編輯
e.write(tagpag)
e.close()
學(xué)習(xí)過程中碰到的問題:我本想講tag的url和name以dic形式保存,結(jié)果沒有弄明白乾巧,對dic還不熟句喜,就先簡單的只保存url吧