本專題以項(xiàng)目為驅(qū)動溺欧,從基本的網(wǎng)絡(luò)請求和頁面解析開始喊熟,逐步深入到 scrapy爬蟲框架,在講解完庫之后姐刁,會跟上對應(yīng)的實(shí)踐項(xiàng)目芥牌,有興趣朋友的可以跟著實(shí)踐自己敲代碼或者完成我留下的 bug,把代碼發(fā)到評論區(qū)聂使,我會不定時(shí)查看壁拉。
本專題假設(shè)讀者有一定的python基礎(chǔ),所以并不會講python的基本語法岩遗,遇到語法問題可以評論求助扇商。
因?yàn)楸緦n}涉及的庫比較多,而且作者不能把時(shí)間全部用在更新上宿礁,所以本專題完成的時(shí)間可能較長案铺,在本專題中會涉及到以下主題:
1、requests 庫
(網(wǎng)絡(luò)請求)
2梆靖、lxml 庫 和 xpath 用法
(htnl頁面解析)
4控汉、html 網(wǎng)頁的解析
5、數(shù)據(jù)的處理和存儲(json返吻,csv)
6姑子、threading 庫 (多線程)
7、asyncio 庫 (異步)
8测僵、數(shù)據(jù)庫 以及 orm
9街佑、scrapy 爬蟲框架
在寫這些的時(shí)候,我也在不斷地學(xué)習(xí)捍靠,如果我在學(xué)習(xí)的過程中發(fā)現(xiàn)了更好的庫沐旨,就會換一個(gè)庫講,但是上面所列的點(diǎn)是不會變的榨婆。
最后磁携,如果在文章中出現(xiàn)了錯誤,歡迎在評論中指出良风,我會在后續(xù)的更新中修改谊迄。
謝謝