爬蟲框架scrapy和數(shù)據(jù)庫MongoDB的結(jié)合使用(一)

? ? ? 在對大數(shù)據(jù)抓取時快骗,使用scrapy來對數(shù)據(jù)進(jìn)行抓取無疑是十分方便的,而scrapy抓取的數(shù)據(jù)一般比較大跪解,結(jié)合MongoDB數(shù)據(jù)庫的高并發(fā)和高響應(yīng)掉丽,把數(shù)據(jù)存儲到MongoDB中。本次講詳細(xì)介紹scrapy的安裝凳怨、運(yùn)行及工程文件的講解瑰艘,還有MongoDB的安裝和在python下的操作。

一.Scrapy


1.Scrapy安裝

? ?window下直接在cmd終端pip install scrapy肤舞,這樣在卸載時就可以直接pip uninstall scrapy紫新。

2.建立Scrapy工程

? ? 打開自己的文件夾按下shift+鼠標(biāo)右鍵---在此處打開命令窗口,打開cmd李剖∶⒙剩或者直接win+R鍵運(yùn)行cmd,然后在cd到文件夾目錄下篙顺。

? ? 在cmd中輸入scrapy startproject my_test ? ? ?這樣就建立了scrapy工程偶芍,里面包含item.py 、pipelines.py德玫、settings.py匪蟀、init.py 和spider文件夾,spider.py需要自己建立宰僧。

3.運(yùn)行Scrapy工程

一般是在cmd下輸入命令:scrapy crawl my_test ? ? ? ? 在執(zhí)行該命令前先cd到my_test這個文件夾下材彪。


二、MongoDB


1.下載MongoDB

? ??官網(wǎng)MongoDB各個版本(這個是外國網(wǎng)站琴儿,下載比較慢段化,但它設(shè)置了防盜鏈,所以不要用迅雷下載)里面有很多版本凤类,推薦下載3.0.0版本64bit msi的穗泵,因?yàn)樵诮Y(jié)合mongoVUE使用是兼容較好,而3.2版本有些值無法顯示谜疤。

2.安裝MongoDB

? ?按照提示安裝佃延,建議自定義安裝到自己設(shè)定的目錄文件夾下现诀,方便使用。

安裝完成后在bin文件下新建data文件夾履肃,并新建一個名為start.txt的文本文檔仔沿,里面內(nèi)容為:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? mongod --dbpath ./data

注意空格,--和./之前都有空格3咂濉7怙薄!膘螟。寫完后重命名為start.bat文件成福,這樣每次就不用再cmd中鍵入命令了。

3.安裝MongoDB可視化工具M(jìn)ongoVUE 1.69

? ? 官網(wǎng)的鏈接比較慢荆残,這里給一個csdn上的破解版奴艾,其實(shí)破不破解都差不多,只是每次打開都有一個彈窗mongoVue 破解内斯。 下載后建議安裝在monggodb同一個目錄文件夾下蕴潦。

4.打開mongoDB

首先先打開bin文件夾下之前建立的start.bat文件(打開cmd后不要關(guān)閉,放著就好了)俘闯,然后在mongoVue安裝目錄下找到MongoVUE.exe并打開潭苞,

? ? ?如圖,建立自己的一個數(shù)據(jù)庫名真朗,Server填寫localhost或者127.0.0.1(本機(jī)的意思)此疹,其他的可以不填,然后選擇connect蜜猾,雙擊秀菱,如果沒有報(bào)錯提示就是正常打開,報(bào)錯則是start.bat文件沒有打開蹭睡,沒有連接到本機(jī)衍菱。

5.python連接MongoDB

首先先安裝第三方庫pymongo(cmd 下pip install ?pymongo)。

?其次肩豁,運(yùn)行如圖的代碼脊串,把jul和haha存放到MongoDB中

這里,通過pymongo.MongoClient實(shí)現(xiàn)連接清钥,其括號后的值可以不寫琼锋。connection['Sbya2']表示建立一個數(shù)據(jù)庫名為Sbya2,tdb[‘Test’]表示在Sbya2下建立一個名為Test的變量祟昭,其類型為字典缕坎。運(yùn)行后在mongoVue中顯示:先選擇sirius,點(diǎn)擊refresh篡悟,這時在其目錄下就出現(xiàn)Sbya2文件谜叹,點(diǎn)擊其connections下匾寝,可以看到hahf這個值

如圖,這里我多運(yùn)行了幾次荷腊,所以保存了幾次艳悔。在MongoDB中,字典是隨機(jī)排列的女仰,因?yàn)閜ython中字典也沒對序號有要求猜年。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市疾忍,隨后出現(xiàn)的幾起案子乔外,更是在濱河造成了極大的恐慌,老刑警劉巖一罩,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件袁稽,死亡現(xiàn)場離奇詭異,居然都是意外死亡擒抛,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進(jìn)店門补疑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來歧沪,“玉大人,你說我怎么就攤上這事莲组≌锇” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵锹杈,是天一觀的道長撵孤。 經(jīng)常有香客問我,道長竭望,這世上最難降的妖魔是什么邪码? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮咬清,結(jié)果婚禮上闭专,老公的妹妹穿的比我還像新娘。我一直安慰自己旧烧,他們只是感情好影钉,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著掘剪,像睡著了一般平委。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上夺谁,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天廉赔,我揣著相機(jī)與錄音肉微,去河邊找鬼。 笑死昂勉,一個胖子當(dāng)著我的面吹牛浪册,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播岗照,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼村象,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了攒至?” 一聲冷哼從身側(cè)響起厚者,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎迫吐,沒想到半個月后库菲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡志膀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年熙宇,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溉浙。...
    茶點(diǎn)故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡烫止,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出戳稽,到底是詐尸還是另有隱情馆蠕,我是刑警寧澤,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布惊奇,位于F島的核電站互躬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏颂郎。R本人自食惡果不足惜吼渡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望祖秒。 院中可真熱鬧诞吱,春花似錦、人聲如沸竭缝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抬纸。三九已至咙俩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背阿趁。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工膜蛔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人脖阵。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓皂股,卻偏偏與公主長得像,于是被迫代替她去往敵國和親命黔。 傳聞我的和親對象是個殘疾皇子呜呐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容