爬蟲也學了一個多月了焊虏,趁著周末把學習的內(nèi)容整理一下,特別是知識點秕磷。我每爬一個诵闭,都寫了一篇文,所以整理起來也不很困難澎嚣。
因為文章也就是幾十篇疏尿,本來想直接copy+paste題目的,可是一想易桃,都學了爬蟲了褥琐,怎么還做原始人的事情。于是老老實實爬蟲晤郑。
這次和上次爬首頁有點不同敌呈,是指定作者id的打開方式贸宏。如果只是用最初的url,就只有幾篇文章磕洪。仔細看一下吭练,在下拉的時候,Network的XHR會陸續(xù)顯示實際的加載頁面析显,所以簡書網(wǎng)其實還是分類的鲫咽,只是頁數(shù)不直接顯示而已。
url = 'http://www.reibang.com/u/b062b6eb573b?order_by=shared_at&page='+i
標題很快爬出來了谷异。時間那里浑侥,人品很不好,直接copy同學的代碼都爬不出來晰绎,反正也不是寫這篇文的目的,干脆放棄括丁。
從開始學習爬蟲以來荞下,一共寫了19篇文,其中無關(guān)爬蟲的3篇史飞。一期的12篇尖昏,二期的4篇。加上這篇构资,大概這期完成10篇作業(yè)也還是有戲的抽诉。咔咔~
可以看出,其實一開始起步也是挺慢的吐绵,爬蟲一期4月中開始迹淌,過了差不多10多天才開始慢慢寫程序。不過后來就越來越快己单,掌握的技術(shù)要點也越來越多唉窃。這么回看一下,還是小有成就感的纹笼。
學到的技術(shù)大概有:
- xpath和bs
- 通過network找json包(js/xhr)
- 用json.loads語句摘取json里的內(nèi)容
- def函數(shù)封裝(主要是請求頭函數(shù)和爬蟲函數(shù))
- for頁數(shù)循環(huán)
- 寫入csv文件
- 請求頭(掌握50%吧)纹份,包括random選取瀏覽器,在里面加referer廷痘,data注明頁數(shù)等蔓涧。
不算向右老師的示范,自己一共爬了大約12個網(wǎng)站笋额,差不多每一個都有向老師和大神求援的歷史元暴。特別是程工和yaung,這是多頻繁的麻煩別人的經(jīng)歷啊兄猩。畢竟成年以后不像在學校昨寞,沒有人有義務要教你什么東西瞻惋,就算你有學習的欲望,也不一定有學習的機會援岩,遇到溫暖的組織(好俗)歼狼,可以說真的挺幸運的。
接下來的計劃:
還是享怀,還是要學會scrapy
要學會用抓包軟件
學習mysql羽峰,在sqlzoo做題的正確率達到80%以上
因為自己原來沒有用開github,所以寫新程序的很多時候會把簡書的文章打開添瓷,直接copy里面的代碼梅屉。本來是很方便的,但是文章越來越多鳞贷,程序越來越長以后坯汤,打開好幾篇文章就看的很辛苦。所以上周還是開始上傳程序到github搀愧,以后養(yǎng)成更好的存檔習慣惰聂。這篇就用來當檢索吧!