python2的好處:1,穩(wěn)定矫夯;2鸽疾,成熟的模塊和庫(kù);3训貌,實(shí)際生產(chǎn)中多制肮;4,掌握python2后過(guò)渡python3容易
獲取數(shù)據(jù)的方式:1递沪,企業(yè)產(chǎn)生的數(shù)據(jù)豺鼻;2,數(shù)據(jù)平臺(tái)購(gòu)買区拳;3拘领,政府機(jī)構(gòu)公開的數(shù)據(jù);4樱调,數(shù)據(jù)管理咨詢公司约素;5,爬取網(wǎng)絡(luò)數(shù)據(jù)
html抓劝柿琛(crawl)圣猎,html解析(parse),scrapy框架乞而,scrapy-redis框架送悔,爬蟲(spider)、反爬蟲(anti-apider)爪模、反反爬蟲(anti-anti-spider)
網(wǎng)絡(luò)爬蟲:通用爬蟲欠啤、聚焦爬蟲
NDS是由解析器和域名服務(wù)器組成
https在http下加入加入ssl層
ssl在傳輸層對(duì)網(wǎng)絡(luò)連接進(jìn)行加密
http端口:80
https端口:443
協(xié)議://ip或域名:端口/路徑/?參數(shù)#錨點(diǎn)
報(bào)文的一般格式:(請(qǐng)求行,請(qǐng)求頭部屋灌,空行洁段,請(qǐng)求數(shù)據(jù))
請(qǐng)求行:請(qǐng)求方式|空格|url|空格|協(xié)議版本|回車|換行符
請(qǐng)求頭:頭部字段名...值|回車符|換行符
...
請(qǐng)求頭:頭部字段名...值|回車符|換行符
回車符|換行符
請(qǐng)求數(shù)據(jù):
http響應(yīng):(狀態(tài)欄、消息報(bào)文共郭、空行祠丝、響應(yīng)正文)
cache-control:no-cache,'那就不緩存唄'
request參數(shù):url,data(默認(rèn)空|默認(rèn)是get,有數(shù)據(jù)的是否自動(dòng)改為post),headers(默認(rèn)空|參數(shù)為字典報(bào)文頭的鍵值對(duì))
urllib2默認(rèn)只支持get和post請(qǐng)求
urllib提供了urlencode方法產(chǎn)生get查詢字符串
編碼工作使用urllib的urlencode()函數(shù)