第二周

Mongodb的安裝配置

Mongodb的安裝包(32位和64位)在群里面禁舷,找到適合自己電腦的安裝包,雙擊執(zhí)行....
另外創(chuàng)建一個文件夾毅往,建議就在C:\Program Files\MongoDB的文件夾下創(chuàng)建db文件夾
啟動命令:mongod --dbpath C:\MongoDB\data
32位系統(tǒng)因為引擎的因素需要更改默認引擎:
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1


代碼的點評:

  • pymongo的介紹和使用
#連接數據庫
conn = pymongo.MongoClient("localhost", 27017)
#獲取名字為name的數據庫
name = conn.name
name = conn['name']
#獲取name數據庫的表格
coll = name.coll
coll = name['coll']
  • 多線程問題牵咙,Pool類的使用

利用Pool類可以提高程序的運行速度,把函數比作流水線攀唯,那Pool的功能就會復制流水線洁桌,提高工作效率

#聲明一個Pool類
pool = Pool()
#使用map函數,將channel_list信息分割侯嘀,然后逐個放入get_all_links_from函數中去執(zhí)行
pool.map(get_all_links_from,channel_list.split())
  • 斷點續(xù)傳問題
  1. 在程序運行過程做標記
  2. 程序啟動后主動識別標記另凌,加載爬取進度

爬蟲的知識點總結

  1. 請求鏈接
  2. 分析html拿到需要的數據
    2.1 數據匹配和提取
  3. 插入數據
    3.1 數據的整理--去重
  4. 處理網絡Bug
  5. 提高爬蟲效率--多線程問題

爬蟲框架推薦:Scrapy

Python開源的爬蟲框架Scrapy是一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據戒幔。Scrapy用途廣泛吠谢,可以用于數據挖掘、監(jiān)測和自動化測試诗茎。


Scrapy框架

Scrapy吸引人的地方在于它是一個框架工坊,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類敢订,如 BaseSpider栅组、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持枢析。

Python教程玉掸、教程--傳送門

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市醒叁,隨后出現的幾起案子司浪,更是在濱河造成了極大的恐慌,老刑警劉巖把沼,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件啊易,死亡現場離奇詭異,居然都是意外死亡饮睬,警方通過查閱死者的電腦和手機租谈,發(fā)現死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人割去,你說我怎么就攤上這事窟却。” “怎么了呻逆?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵夸赫,是天一觀的道長。 經常有香客問我咖城,道長茬腿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任宜雀,我火速辦了婚禮切平,結果婚禮上,老公的妹妹穿的比我還像新娘辐董。我一直安慰自己揭绑,他們只是感情好,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布郎哭。 她就那樣靜靜地躺著他匪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪夸研。 梳的紋絲不亂的頭發(fā)上邦蜜,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天,我揣著相機與錄音亥至,去河邊找鬼悼沈。 笑死,一個胖子當著我的面吹牛姐扮,可吹牛的內容都是我干的絮供。 我是一名探鬼主播,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼茶敏,長吁一口氣:“原來是場噩夢啊……” “哼壤靶!你這毒婦竟也來了?” 一聲冷哼從身側響起惊搏,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤贮乳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后恬惯,有當地人在樹林里發(fā)現了一具尸體向拆,經...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年酪耳,在試婚紗的時候發(fā)現自己被綠了浓恳。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖颈将,靈堂內的尸體忽然破棺而出梢夯,到底是詐尸還是另有隱情,我是刑警寧澤吆鹤,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布厨疙,位于F島的核電站洲守,受9級特大地震影響疑务,放射性物質發(fā)生泄漏。R本人自食惡果不足惜梗醇,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一知允、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叙谨,春花似錦温鸽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽竟终。三九已至,卻和暖如春榆芦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背喘鸟。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留崎淳,地道東北人愕把。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓礼华,卻偏偏與公主長得像咐鹤,于是被迫代替她去往敵國和親祈惶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內容