1.3 解析庫的安裝
解析庫:lxml滨砍, Beautiful Soup, pyquery
解析方法:Xpath解析和CSS選擇器解析
1.3.1 lxml的安裝
lxml是Python的一個解析庫,支持HTML和XML解析研侣,支持Xpath解析方式,而且解析效率非常高
1.3.3 pyquery的安裝
pyquery同樣是一個強大的網(wǎng)頁解析工具炮捧,它提供了和jQuery類似的語法來解析HTML文檔庶诡,支持CSS選擇器。
1.3.4 tesserocr的安裝
OCR Optical Character Recongition, 光學(xué)字符識別咆课。
tesserocr是Python的一個OCR識別庫末誓,但其實是對tesseract做的一層Python API封裝,核心還是tesseract书蚪。
1.4 數(shù)據(jù)庫的安裝
關(guān)系型數(shù)據(jù)庫 SQLite, MySQL, Oracle, SQL Server, DB2? 以表的形式儲存
非關(guān)系型數(shù)據(jù)庫 MongoDB, Redis 以鍵值對的形式儲存
主要用到了MySQL 還有MongoDB, Redis.
1.42 MongoDB的安裝
MongoDB是C++編寫的非關(guān)系數(shù)據(jù)庫喇澡,是一個基于分布式文件存儲的開源數(shù)據(jù)庫系統(tǒng),其內(nèi)容存儲形式類似JSON對象殊校,它的字段值可以包含其他文檔晴玖,數(shù)組及文檔數(shù)組,非常靈活。
1.4.3 Redis的安裝
Redis是一個基于內(nèi)存的高效的非關(guān)系型數(shù)據(jù)庫
1.5 存儲庫的安裝
安裝了數(shù)據(jù)庫呕屎,還得安裝存儲庫宪萄,跟python交互
MySQL需要PyMySQL? ? ?MongoDB需要PyMongo
1.5.1 PyMySQL的安裝
pip install pymysql
1.5.2 PyMongo的安裝
pip install pymongo
1.5.3 redis-py的安裝
pip install redis
1.5.4 RedisDump的安裝
RedisDump是一個用于Redis數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具,基于Ruby實現(xiàn)的榨惰,所以要安裝RedisDump拜英,需要先安裝Ruby。