這是我Python爬蟲學(xué)習(xí)第31天筆記
從4月30號(hào)開始变勇,我每天學(xué)習(xí)Python迁央、寫代碼淑趾、爬取數(shù)據(jù)慷蠕。先看一下學(xué)習(xí)成果。
一厘托、一個(gè)月寫了18篇文章:
**一個(gè)月共寫了18篇文章考婴,16998字。閱讀量 7295, 評論 90, 喜歡 378, 打賞 0 **(其中8篇文章上了簡書首頁)催烘。
目錄如下沥阱,
隨便說一下,這些數(shù)據(jù)的統(tǒng)計(jì)和目錄列表的生成都是Python爬蟲實(shí)現(xiàn)的伊群,方法見這篇文章:《簡書連載作者福音: 一鍵生成連載目錄和連載作品排行統(tǒng)計(jì)(Python爬蟲應(yīng)用》考杉。
Scrapy用Cookie實(shí)現(xiàn)模擬登錄
Srcapy+Redis+mongodb實(shí)現(xiàn)一個(gè)爬蟲中遇到的問題
Scrapy+Mongodb爬取數(shù)據(jù)
BeautifulSoup提取內(nèi)容的小技巧
Mongodb基本命令
簡書連載作者福音: 一鍵生成連載目錄和連載作品排行統(tǒng)計(jì)(Python爬蟲應(yīng)用)
簡書連載作品龍虎榜: 一個(gè)爬蟲的應(yīng)用
Python中小知識(shí)點(diǎn)匯總
Scrapy爬取簡書用戶url分析
使用Scrapy爬取大規(guī)模數(shù)據(jù)
Python爬蟲框架Scrapy快速入門
XPath提取多個(gè)標(biāo)簽下的text
Python爬蟲學(xué)習(xí):簡書簽約作者知多少?
用Python玩轉(zhuǎn)QQ群論壇
爬蟲搜索神器BeautifulSoup和XPath 的使用
成長會(huì)不完全大數(shù)據(jù)-Python爬蟲案例
當(dāng)我們學(xué)Python時(shí)舰始,我們學(xué)什么崇棠?
10行代碼完成一個(gè)爬蟲,就這么簡單
二丸卷、一次爬取數(shù)據(jù)達(dá)到10W+
一個(gè)月的時(shí)間枕稀,爬取過的站點(diǎn)有:知筆墨、QQ群論壇谜嫉、58趕集萎坷、前程無憂、簡書沐兰。爬取的數(shù)據(jù)有:簡書首書熱門(七日熱門哆档、三十日熱門),爬取找出簡書簽約作者住闯,趕集瓜浸、58簡歷庫簡歷篩選,簡書作者信息(文章數(shù)比原、字?jǐn)?shù)插佛、關(guān)注數(shù)、粉絲數(shù)量窘、閱讀數(shù)雇寇、喜歡數(shù)、打賞數(shù)、評論數(shù))谢床。
從一開始的爬取簡書首頁熱門數(shù)據(jù)99條兄一,到昨天爬取簡書用戶信息超過11W。從一開始用Excel, csv保存下載數(shù)據(jù)识腿,到現(xiàn)在用mongdb存儲(chǔ)出革。
三渡讼、學(xué)習(xí)掌握了這些內(nèi)容
到現(xiàn)在為止涉及和掌握的內(nèi)容: urllib, urlib2, requests, xlrd, xlwt, re, BeautifulSoup, XPath, Scrapy, mongodb, Redis
這些都是從一個(gè)Dome的10多行代碼開始拆解骂束、分析、模仿開始成箫,就這樣一步步迭代的方式來學(xué)習(xí)展箱。
四、總結(jié)一下學(xué)習(xí)方法
-
項(xiàng)目和問題驅(qū)動(dòng)
Python爬蟲的學(xué)習(xí)蹬昌,我沒有按部就班地拿一本Python入門的書開始系統(tǒng)地學(xué)習(xí)混驰,一個(gè)個(gè)知識(shí)點(diǎn)的來過,而是圍繞想解決的問題皂贩,想實(shí)現(xiàn)的功能栖榨,一步步解決問題的方式推進(jìn)。你可以看到明刷,好幾篇文章中我是先實(shí)現(xiàn)了一個(gè)功能婴栽,再總結(jié)過程中遇到了哪些問題,是怎么解決的辈末,又遇到了什么問題愚争,就記下來,先存疑挤聘。《簡書連載作者福音: 一鍵生成連載目錄和連載作品排行統(tǒng)計(jì)(Python爬蟲應(yīng)用)》這篇文章轰枝,就是看到簡書上的統(tǒng)計(jì)連載作品排行時(shí),手工統(tǒng)計(jì)太麻煩檬洞,就用Python爬蟲來解決狸膏。還有工作中一些簡歷篩選沟饥,我也用爬蟲處理了添怔。
高頻度集中學(xué)習(xí)
每天2小時(shí),首先找一個(gè)安靜的學(xué)習(xí)環(huán)境贤旷,遠(yuǎn)離舒適區(qū)广料,一般選擇下班后的辦公室或圖書館。學(xué)習(xí)中間沒有任何打擾幼驶,不瀏覽網(wǎng)頁艾杏、不看IM信息。
當(dāng)我學(xué)到30天時(shí)盅藻,有一些簡友加我购桑,問我Python學(xué)習(xí)中的問題畅铭,居然還有Python程序員,一方面不禁感嘆Python內(nèi)容真廣勃蜘,另一方面我Python學(xué)習(xí)效果非常明顯硕噩。我也在簡書上遇到從事數(shù)據(jù)分析的簡友,所以我又開了一個(gè)專題《Python數(shù)據(jù)分據(jù)》缭贡。