Mapreduice:
理解:
大數(shù)據(jù)并行處理的計算模型。
用途:
為保證數(shù)據(jù)處理速度败徊,大數(shù)據(jù)處理部分用這個模型去做。
Elasticsearch:
理解:
Elasticsearch是提供持久存儲掏缎、統(tǒng)計等多項功能的現(xiàn)代搜索引擎皱蹦。
用途:
可以用它來存儲已經(jīng)算好,或者不需要去更新的數(shù)據(jù)眷蜈,主要用它做數(shù)據(jù)查詢沪哺。
Hive:
理解:
構建在基于靜態(tài)批處理的Hadoop之上,基于MapReduce任務實現(xiàn)大數(shù)據(jù)集的批處理作業(yè)酌儒。
用途:
大數(shù)據(jù)處理基于這個數(shù)據(jù)庫去做大量結(jié)構化數(shù)據(jù)的離線分析辜妓、多維度離線數(shù)據(jù)分析,存儲離線的日志信息供后續(xù)定位忌怎、分析使用籍滴。
MongoDB:
理解:
基于分布式文件存儲的非關系數(shù)據(jù)庫。
用途:
可以用它來做web網(wǎng)站實時結(jié)構化數(shù)據(jù)緩存榴啸。
Redis:
理解:
高性能的key-value數(shù)據(jù)庫孽惰。
用途:
可以用它來做web網(wǎng)站非結(jié)構化數(shù)據(jù)的緩存。也可以用于高性能的任務隊列鸥印。
Mysql:
理解:
web服務最好用的RDBMS
用途:
用它來存儲量級不是很大的網(wǎng)站數(shù)據(jù)勋功,例如用戶數(shù)據(jù),會員等級數(shù)據(jù)库说,用戶的登錄酝润、操作日志數(shù)據(jù)。
Kafka:
理解:
一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)璃弄,每秒可以處理幾十萬條消息,延遲低构回,支持數(shù)千個客戶端同時讀寫夏块,支持熱擴展
用途:
1. 服務日志收集
2. 用作消息隊列,例如爬蟲抓取完的數(shù)據(jù)存到kafka纤掸,數(shù)據(jù)處理從kafka獲取數(shù)據(jù)進行后續(xù)處理脐供。
3. 榜單數(shù)據(jù)收集,每次打開榜單頁借跪,可直接從kafka從頭到尾按順序讀出榜單數(shù)據(jù)
4. 用戶活動跟蹤政己,記錄用戶活動行為
5. 運營監(jiān)控數(shù)據(jù)的存儲
6. 流式處理的數(shù)據(jù)存儲
memcache:
理解:
基于多線程的key-value數(shù)據(jù)庫。
用途:
暫時用不到掏愁,redis就夠了歇由。
Hbase:
理解:
可以理解為能存更多數(shù)據(jù)卵牍,擴展更容易,大數(shù)據(jù)量頻繁操作成本更低的redis
用途:
暫時用不到沦泌,數(shù)據(jù)量級沒那么大糊昙。
Spark:
理解:
Spark是大規(guī)模數(shù)據(jù)處理的通用框架
用途:
可以和kafka配合使用,做流式處理和機器學習谢谦。