采集數(shù)據(jù)案例網(wǎng):
卷皮網(wǎng) :http://www.juanpi.com/
file_get_content() 不能傳參數(shù)
python作數(shù)據(jù)采集
curl 請(qǐng)求 ajax js返回字符串不解析
商品列表,正則匹配出來
抓取明刷,就可以防盜鏈
有些頁面不登錄不能抓取囚巴。返回html代碼
沒有cookie不能抓取官帘,本地 cookie沒有存在sessionid
表單和 URL 可以帶令牌。
防抓頁面
設(shè)置coookie
URL字段
get請(qǐng)求字段
curl模仿瀏覽器一樣把cookie也存下來 模擬登錄sessionID帶上去
高級(jí)的cookie不在請(qǐng)求響應(yīng)頭里設(shè)置甘桑,在后臺(tái)設(shè)置
前端是用js代碼生成,字符串不能被解析,手動(dòng)計(jì)算代碼贺喝。
curl文件里,防盜鏈?zhǔn)窍鄬?duì)的宗兼。拿到令牌躏鱼,下次傳過去
前臺(tái),計(jì)算值. 可以防掉一大部份的人
設(shè)置cookie幾種形式 js php html標(biāo)簽殷绍,post字段染苛,get超鏈接也可以做令牌。
自定義頭主到,value
爬蟲 所有連接茶行,外連,和網(wǎng)站相關(guān)的全部訪問镰烧。
network response下面 解析json
sass平臺(tái)類似QQ企業(yè)郵箱
www.qqe2.com json數(shù)據(jù)轉(zhuǎn)換
taobao權(quán)限判斷
作業(yè)
1拢军、源代碼模擬登錄
2、扒淘寶的一個(gè)子頁面怔鳖,存到數(shù)據(jù)庫茉唉,找一個(gè)時(shí)間點(diǎn),存到數(shù)據(jù)庫
- 頁面,完整,美觀,無缺陷结执,列表頁度陆,分詳,詳情献幔,列表頁扒到1000條懂傀,10頁
數(shù)據(jù)
3、12306火車票模擬登錄蜡感,找驗(yàn)證碼蹬蚁,識(shí)別模擬登錄進(jìn)去。圖片請(qǐng)示回來郑兴,,點(diǎn)擊圖片4個(gè)坐標(biāo)當(dāng),參數(shù)傳回去模擬登錄