續(xù)前節(jié)
其實(shí)前面應(yīng)該是對爬蟲一些基礎(chǔ)的解釋和定義,相當(dāng)于導(dǎo)論部分吧葵腹,下面應(yīng)該會講一些詳細(xì)的Python相關(guān)的東西咯~
關(guān)于Python爬蟲--—技能儲備
1.Python基本語法
嗯高每,之前學(xué)過,要有一定的基礎(chǔ)践宴,暫時不表鲸匿。
2.如何抓取頁面
很復(fù)雜的理論吧,其實(shí)很簡單阻肩,一條命令带欢,然后執(zhí)行就可以抓取到了运授。然后就是數(shù)據(jù)處理咯。
3.解析服務(wù)器響應(yīng)的內(nèi)容
嗯乔煞,其實(shí)這一塊就是數(shù)據(jù)的處理咯吁朦,比較復(fù)雜,一步步慢慢來唄渡贾。
其實(shí)上面也就說的是通過不同的工具分析和處理數(shù)據(jù)逗宜,僅此而已~
4.怎么樣能爬取到數(shù)據(jù)—動態(tài)網(wǎng)頁 驗(yàn)證碼的處理
4.1 動態(tài)網(wǎng)頁的采集
嗯,乍一看很復(fù)雜空骚,簡單地說就是調(diào)用個庫使用個新的函數(shù)就行纺讲,先不用想那么多
關(guān)鍵詞 ajax相關(guān)動態(tài)網(wǎng)頁? ?
4.2 驗(yàn)證碼
嗯,一個新的方法囤屹,關(guān)于機(jī)器學(xué)習(xí)刻诊,方法就是調(diào)用機(jī)器學(xué)習(xí)的庫,執(zhí)行對應(yīng)的方法識別驗(yàn)證碼牺丙。
5.Scrapy框架及特點(diǎn)
6.分布式策略
關(guān)于怎么提升爬取數(shù)據(jù)的效率则涯,異步分布式,提高效率
7.關(guān)于爬蟲攻防
未完待續(xù)? 2019年10月16日22:36:03
剩余的在開一文吧? 慢慢來唄~~