Mongodb的安裝配置
Mongodb的安裝包(32位和64位)在群里面禁舷,找到適合自己電腦的安裝包,雙擊執(zhí)行....
另外創(chuàng)建一個文件夾毅往,建議就在C:\Program Files\MongoDB的文件夾下創(chuàng)建db文件夾
啟動命令:mongod --dbpath C:\MongoDB\data
32位系統(tǒng)因為引擎的因素需要更改默認引擎:
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1
代碼的點評:
-
pymongo的介紹和使用
#連接數據庫
conn = pymongo.MongoClient("localhost", 27017)
#獲取名字為name的數據庫
name = conn.name
name = conn['name']
#獲取name數據庫的表格
coll = name.coll
coll = name['coll']
-
多線程問題牵咙,Pool類的使用
利用Pool類可以提高程序的運行速度,把函數比作流水線攀唯,那Pool的功能就會復制流水線洁桌,提高工作效率
#聲明一個Pool類
pool = Pool()
#使用map函數,將channel_list信息分割侯嘀,然后逐個放入get_all_links_from函數中去執(zhí)行
pool.map(get_all_links_from,channel_list.split())
-
斷點續(xù)傳問題
- 在程序運行過程做標記
- 程序啟動后主動識別標記另凌,加載爬取進度
爬蟲的知識點總結
- 請求鏈接
- 分析html拿到需要的數據
2.1 數據匹配和提取 - 插入數據
3.1 數據的整理--去重 - 處理網絡Bug
- 提高爬蟲效率--多線程問題
爬蟲框架推薦:Scrapy
Python開源的爬蟲框架Scrapy是一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據戒幔。Scrapy用途廣泛吠谢,可以用于數據挖掘、監(jiān)測和自動化測試诗茎。
Scrapy框架
Scrapy吸引人的地方在于它是一個框架工坊,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類敢订,如 BaseSpider栅组、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持枢析。
Python教程玉掸、教程--傳送門