本專題以項目為驅(qū)動你画,從基本的網(wǎng)絡(luò)請求和頁面解析開始,逐步深入到 scrapy爬蟲框架桃漾,在講解完庫之后坏匪,會跟上對應(yīng)的實踐項目,有興趣朋友的可以跟著實踐自己敲代碼或者完成我留下的 bug撬统,把代碼發(fā)到評論區(qū)适滓,我會不定時查看。
本專題假設(shè)讀者有一定的python基礎(chǔ)恋追,所以并不會講python的基本語法凭迹,遇到語法問題可以評論求助。
因為本專題涉及的庫比較多苦囱,而且作者不能把時間全部用在更新上嗅绸,所以本專題完成的時間可能較長,在本專題中會涉及到以下主題:
1撕彤、requests 庫
(網(wǎng)絡(luò)請求)
2鱼鸠、lxml 庫 和 xpath 用法
(htnl頁面解析)
4、html 網(wǎng)頁的解析
5羹铅、數(shù)據(jù)的處理和存儲(json蚀狰,csv)
6、threading 庫 (多線程)
7职员、asyncio 庫 (異步)
8麻蹋、數(shù)據(jù)庫 以及 orm
9、scrapy 爬蟲框架
在寫這些的時候廉邑,我也在不斷地學(xué)習(xí)哥蔚,如果我在學(xué)習(xí)的過程中發(fā)現(xiàn)了更好的庫,就會換一個庫講蛛蒙,但是上面所列的點是不會變的糙箍。
最后,如果在文章中出現(xiàn)了錯誤牵祟,歡迎在評論中指出深夯,我會在后續(xù)的更新中修改。
謝謝