簡書爬蟲的功課一小覽

爬蟲也學了一個多月了焊虏,趁著周末把學習的內(nèi)容整理一下,特別是知識點秕磷。我每爬一個诵闭,都寫了一篇文,所以整理起來也不很困難澎嚣。
因為文章也就是幾十篇疏尿,本來想直接copy+paste題目的,可是一想易桃,都學了爬蟲了褥琐,怎么還做原始人的事情。于是老老實實爬蟲晤郑。
這次和上次爬首頁有點不同敌呈,是指定作者id的打開方式贸宏。如果只是用最初的url,就只有幾篇文章磕洪。仔細看一下吭练,在下拉的時候,Network的XHR會陸續(xù)顯示實際的加載頁面析显,所以簡書網(wǎng)其實還是分類的鲫咽,只是頁數(shù)不直接顯示而已。

url = 'http://www.reibang.com/u/b062b6eb573b?order_by=shared_at&page='+i 
123.png

標題很快爬出來了谷异。時間那里浑侥,人品很不好,直接copy同學的代碼都爬不出來晰绎,反正也不是寫這篇文的目的,干脆放棄括丁。


從開始學習爬蟲以來荞下,一共寫了19篇文,其中無關(guān)爬蟲的3篇史飞。一期的12篇尖昏,二期的4篇。加上這篇构资,大概這期完成10篇作業(yè)也還是有戲的抽诉。咔咔~

111.png
112.png

可以看出,其實一開始起步也是挺慢的吐绵,爬蟲一期4月中開始迹淌,過了差不多10多天才開始慢慢寫程序。不過后來就越來越快己单,掌握的技術(shù)要點也越來越多唉窃。這么回看一下,還是小有成就感的纹笼。
學到的技術(shù)大概有:

  1. xpath和bs
  1. 通過network找json包(js/xhr)
  2. 用json.loads語句摘取json里的內(nèi)容
  3. def函數(shù)封裝(主要是請求頭函數(shù)和爬蟲函數(shù))
  4. for頁數(shù)循環(huán)
  5. 寫入csv文件
  6. 請求頭(掌握50%吧)纹份,包括random選取瀏覽器,在里面加referer廷痘,data注明頁數(shù)等蔓涧。

不算向右老師的示范,自己一共爬了大約12個網(wǎng)站笋额,差不多每一個都有向老師和大神求援的歷史元暴。特別是程工和yaung,這是多頻繁的麻煩別人的經(jīng)歷啊兄猩。畢竟成年以后不像在學校昨寞,沒有人有義務要教你什么東西瞻惋,就算你有學習的欲望,也不一定有學習的機會援岩,遇到溫暖的組織(好俗)歼狼,可以說真的挺幸運的。

接下來的計劃:

還是享怀,還是要學會scrapy
要學會用抓包軟件
學習mysql羽峰,在sqlzoo做題的正確率達到80%以上

因為自己原來沒有用開github,所以寫新程序的很多時候會把簡書的文章打開添瓷,直接copy里面的代碼梅屉。本來是很方便的,但是文章越來越多鳞贷,程序越來越長以后坯汤,打開好幾篇文章就看的很辛苦。所以上周還是開始上傳程序到github搀愧,以后養(yǎng)成更好的存檔習慣惰聂。這篇就用來當檢索吧!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咱筛,一起剝皮案震驚了整個濱河市搓幌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌迅箩,老刑警劉巖溉愁,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異饲趋,居然都是意外死亡拐揭,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門奕塑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來投队,“玉大人,你說我怎么就攤上這事爵川》笱唬” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵寝贡,是天一觀的道長扒披。 經(jīng)常有香客問我,道長圃泡,這世上最難降的妖魔是什么碟案? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮颇蜡,結(jié)果婚禮上价说,老公的妹妹穿的比我還像新娘辆亏。我一直安慰自己,他們只是感情好鳖目,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布扮叨。 她就那樣靜靜地躺著,像睡著了一般领迈。 火紅的嫁衣襯著肌膚如雪彻磁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天狸捅,我揣著相機與錄音衷蜓,去河邊找鬼。 笑死尘喝,一個胖子當著我的面吹牛磁浇,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播朽褪,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼置吓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鞍匾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤骑科,失蹤者是張志新(化名)和其女友劉穎橡淑,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咆爽,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡梁棠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了斗埂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片符糊。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖呛凶,靈堂內(nèi)的尸體忽然破棺而出男娄,到底是詐尸還是另有隱情,我是刑警寧澤漾稀,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布模闲,位于F島的核電站,受9級特大地震影響崭捍,放射性物質(zhì)發(fā)生泄漏尸折。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一殷蛇、第九天 我趴在偏房一處隱蔽的房頂上張望实夹。 院中可真熱鬧橄浓,春花似錦、人聲如沸亮航。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽塞赂。三九已至泪勒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宴猾,已是汗流浹背圆存。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仇哆,地道東北人沦辙。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像讹剔,于是被迫代替她去往敵國和親油讯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容