學(xué)習(xí)階段二(update:2014-3-25):實現(xiàn)功能:代碼中加入for循環(huán),批量抓取全部tag平绩,存放到本地txt代碼如下:
# -*- coding: cp936 -*-
import urllib2
import re
raw_text=urllib2.urlopen('http://movie.douban.com/tag/?view=type').read()
text0=re.findall('"./.*?"',raw_text)#初步抓取tag务嫡,findall輸出為list
text1=''.join(text0)#list轉(zhuǎn)str闸迷,方便replace
text2=text1.replace('"./','').replace('"','\n')#tag提取完成
text3=[]#新建空list冒签,方便后面append
for text4 in text2.split('\n'):#for in對象需為list,用split將str轉(zhuǎn)為list
tagurl='http://movie.douban.com/tag/%s'%text4#講URL前綴同tag拼接笔诵,方便后期多tag抓取
text3.append(tagurl)#循環(huán)賦值到空列表
text5='\n'.join(text3)#排版格式返吻,\n換行符
e=file('douban_movie6.txt','w')
e.write(text5)
e.close()
學(xué)習(xí)總結(jié):1、多用print乎婿,不僅可以幫助自己更好的排查錯誤测僵,也可以更好的理解程序的運行邏輯。2谢翎、多用print type()『纯浚現(xiàn)階段對每種函數(shù)生成結(jié)果的存儲類型還不熟悉,根據(jù)想當然的思路寫通常會報錯岳服,都是數(shù)據(jù)類型不支持。3希俩、初步明白for in的用法吊宋,對% 用法進一步了解4、list.append() 進一步了解颜武。接觸一種函數(shù)不僅要明白怎么用璃搜,還得留意函數(shù)輸出后的數(shù)據(jù)類型