? ? ? 在對大數(shù)據(jù)抓取時快骗,使用scrapy來對數(shù)據(jù)進(jìn)行抓取無疑是十分方便的,而scrapy抓取的數(shù)據(jù)一般比較大跪解,結(jié)合MongoDB數(shù)據(jù)庫的高并發(fā)和高響應(yīng)掉丽,把數(shù)據(jù)存儲到MongoDB中。本次講詳細(xì)介紹scrapy的安裝凳怨、運(yùn)行及工程文件的講解瑰艘,還有MongoDB的安裝和在python下的操作。
一.Scrapy
1.Scrapy安裝
? ?window下直接在cmd終端pip install scrapy肤舞,這樣在卸載時就可以直接pip uninstall scrapy紫新。
2.建立Scrapy工程
? ? 打開自己的文件夾按下shift+鼠標(biāo)右鍵---在此處打開命令窗口,打開cmd李剖∶⒙剩或者直接win+R鍵運(yùn)行cmd,然后在cd到文件夾目錄下篙顺。
? ? 在cmd中輸入scrapy startproject my_test ? ? ?這樣就建立了scrapy工程偶芍,里面包含item.py 、pipelines.py德玫、settings.py匪蟀、init.py 和spider文件夾,spider.py需要自己建立宰僧。
3.運(yùn)行Scrapy工程
一般是在cmd下輸入命令:scrapy crawl my_test ? ? ? ? 在執(zhí)行該命令前先cd到my_test這個文件夾下材彪。
二、MongoDB
1.下載MongoDB
? ??官網(wǎng)MongoDB各個版本(這個是外國網(wǎng)站琴儿,下載比較慢段化,但它設(shè)置了防盜鏈,所以不要用迅雷下載)里面有很多版本凤类,推薦下載3.0.0版本64bit msi的穗泵,因?yàn)樵诮Y(jié)合mongoVUE使用是兼容較好,而3.2版本有些值無法顯示谜疤。
2.安裝MongoDB
? ?按照提示安裝佃延,建議自定義安裝到自己設(shè)定的目錄文件夾下现诀,方便使用。
安裝完成后在bin文件下新建data文件夾履肃,并新建一個名為start.txt的文本文檔仔沿,里面內(nèi)容為:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? mongod --dbpath ./data
注意空格,--和./之前都有空格3咂濉7怙薄!膘螟。寫完后重命名為start.bat文件成福,這樣每次就不用再cmd中鍵入命令了。
3.安裝MongoDB可視化工具M(jìn)ongoVUE 1.69
? ? 官網(wǎng)的鏈接比較慢荆残,這里給一個csdn上的破解版奴艾,其實(shí)破不破解都差不多,只是每次打開都有一個彈窗mongoVue 破解内斯。 下載后建議安裝在monggodb同一個目錄文件夾下蕴潦。
4.打開mongoDB
首先先打開bin文件夾下之前建立的start.bat文件(打開cmd后不要關(guān)閉,放著就好了)俘闯,然后在mongoVue安裝目錄下找到MongoVUE.exe并打開潭苞,
? ? ?如圖,建立自己的一個數(shù)據(jù)庫名真朗,Server填寫localhost或者127.0.0.1(本機(jī)的意思)此疹,其他的可以不填,然后選擇connect蜜猾,雙擊秀菱,如果沒有報(bào)錯提示就是正常打開,報(bào)錯則是start.bat文件沒有打開蹭睡,沒有連接到本機(jī)衍菱。
5.python連接MongoDB
首先先安裝第三方庫pymongo(cmd 下pip install ?pymongo)。
?其次肩豁,運(yùn)行如圖的代碼脊串,把jul和haha存放到MongoDB中
這里,通過pymongo.MongoClient實(shí)現(xiàn)連接清钥,其括號后的值可以不寫琼锋。connection['Sbya2']表示建立一個數(shù)據(jù)庫名為Sbya2,tdb[‘Test’]表示在Sbya2下建立一個名為Test的變量祟昭,其類型為字典缕坎。運(yùn)行后在mongoVue中顯示:先選擇sirius,點(diǎn)擊refresh篡悟,這時在其目錄下就出現(xiàn)Sbya2文件谜叹,點(diǎn)擊其connections下匾寝,可以看到hahf這個值
如圖,這里我多運(yùn)行了幾次荷腊,所以保存了幾次艳悔。在MongoDB中,字典是隨機(jī)排列的女仰,因?yàn)閜ython中字典也沒對序號有要求猜年。