糗事百科段子爬取

項目示例:糗事百科段子爬取并基于終端進行持久化存儲

1)創(chuàng)建項目

2)編寫爬蟲

3)修改配置

4)執(zhí)行程序

基于終端指令的持久化存儲
要求:只可以將 parse 方法的返回值存儲到本地的文本文件中
注意:持久化存儲對應(yīng)的文本文件的類型只可以為:'json', 'csv' 等指定類型
指令:scrapy crawl spidername -o filepath
好處:簡介高效便捷
缺點:局限性比較強(數(shù)據(jù)只可以存儲到指定后綴的文本文件中)

基于管道的持久化存儲
1)數(shù)據(jù)解析(參照上文)

2)在 item 類中定義相關(guān)的屬性(items.py:數(shù)據(jù)結(jié)構(gòu)模板文件琐鲁,定義數(shù)據(jù)屬性)

3)將解析的數(shù)據(jù)封裝存儲到 item 類型的對象

4)將 item 類型的對象提交給管道進行持久化存儲的操作

5)在管道類的 process_item 中要將其接受到的 item 對象中存儲的數(shù)據(jù)進行持久化存儲操作

6)在配置文件中開啟管道

  • 程序執(zhí)行
  • 好處:通用性更強

補充
如果最終需要將爬取到的數(shù)據(jù)值一份存儲到磁盤文件凰棉,一份存儲到數(shù)據(jù)庫中忍弛,則應(yīng)該如何操作 scrapy澎粟?

上述代碼中,字典中的兩組鍵值分別表示會執(zhí)行管道文件中對應(yīng)的兩個管道類中的 process_item 方法钓葫,實現(xiàn)兩種不同形式的持久化操作廷支。

知識小結(jié)
1)管道文件中一個管道類對應(yīng)的是將數(shù)據(jù)存儲到一種平臺
2)爬蟲文件提交的item只會給管道文件中第一個被執(zhí)行的管道類接受
3)process_item 中的 return item 表示將 item 傳遞給下一個即將被執(zhí)行的管道類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市榄檬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌衔统,老刑警劉巖鹿榜,帶你破解...
    沈念sama閱讀 212,185評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件先朦,死亡現(xiàn)場離奇詭異,居然都是意外死亡犬缨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,445評論 3 385
  • 文/潘曉璐 我一進店門棉浸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怀薛,“玉大人,你說我怎么就攤上這事迷郑≈α担” “怎么了?”我有些...
    開封第一講書人閱讀 157,684評論 0 348
  • 文/不壞的土叔 我叫張陵嗡害,是天一觀的道長焚碌。 經(jīng)常有香客問我,道長霸妹,這世上最難降的妖魔是什么十电? 我笑而不...
    開封第一講書人閱讀 56,564評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮叹螟,結(jié)果婚禮上鹃骂,老公的妹妹穿的比我還像新娘。我一直安慰自己罢绽,他們只是感情好畏线,可當(dāng)我...
    茶點故事閱讀 65,681評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著良价,像睡著了一般寝殴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上明垢,一...
    開封第一講書人閱讀 49,874評論 1 290
  • 那天蚣常,我揣著相機與錄音,去河邊找鬼袖外。 笑死史隆,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的曼验。 我是一名探鬼主播泌射,決...
    沈念sama閱讀 39,025評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鬓照!你這毒婦竟也來了熔酷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,761評論 0 268
  • 序言:老撾萬榮一對情侶失蹤豺裆,失蹤者是張志新(化名)和其女友劉穎拒秘,沒想到半個月后号显,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,217評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡躺酒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,545評論 2 327
  • 正文 我和宋清朗相戀三年押蚤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羹应。...
    茶點故事閱讀 38,694評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡揽碘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出园匹,到底是詐尸還是另有隱情雳刺,我是刑警寧澤,帶...
    沈念sama閱讀 34,351評論 4 332
  • 正文 年R本政府宣布裸违,位于F島的核電站掖桦,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏供汛。R本人自食惡果不足惜枪汪,卻給世界環(huán)境...
    茶點故事閱讀 39,988評論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望怔昨。 院中可真熱鬧料饥,春花似錦、人聲如沸朱监。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,778評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赫编。三九已至巡蘸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間擂送,已是汗流浹背悦荒。 一陣腳步聲響...
    開封第一講書人閱讀 32,007評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留嘹吨,地道東北人搬味。 一個月前我還...
    沈念sama閱讀 46,427評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像蟀拷,于是被迫代替她去往敵國和親碰纬。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,580評論 2 349

推薦閱讀更多精彩內(nèi)容