builtwith:識別網站所用技術
python-whois:尋找網站所有者
urllib2:下載網頁赛糟,并返回其HTML
re:正則表達式
beautifulsoup4:解析網頁驮瞧,并提供定位內容的便捷接口
Lxml:XML解析庫(非pip install
pymongo:MongoDB的Python封裝庫
zlib:壓縮
threading:線程
json:將字符串解析成一個字典
PyQt占贫,PySide:WebKit渲染引擎的Python接口(非pip install
selenium:是瀏覽器自動化的API接口(注:需要brew install chromedriver)
cookielib:cookie模塊
browsercookie:得到瀏覽器的cookie
mechanize:不再需要管理cookie的表單交互接口
Pillow:提供了便捷的Image類蓖宦,包含了很多處理驗證碼圖像的方法
pytesseract:Tesseract OCR引擎的Python封裝庫
Scrapy:爬蟲框架
virtualenv:虛擬Python環(huán)境
Portia:點擊要抓取的網頁來創(chuàng)建爬蟲(非pip install
Scrapely:使用訓練數(shù)據(jù)建立從網頁中抓取哪些內容的模型扣唱,并在以后抓取相同結構的其他網頁時應用該模型(非pip install
參考:
用Python寫網絡爬蟲