1數(shù)據(jù)獲取方式
爬蟲:分布式爬蟲java的jsoup(操作方式基于選擇器),pythoon,八爪魚
日志收集:log4j(可以控制級別和放置的位置)(可以輸出數(shù)據(jù)到flume)(可以輸出到mq),flume(分布式日志收集系統(tǒng))
(收集用戶ip缺厉,訪問了哪個方法)(例如三大運營商的日志分析能根據(jù)用戶71個字段,拿到誰在什么時間什么地點用什么手機什么瀏覽器哪個版本訪問了什么網(wǎng)站訪問了多長時間網(wǎng)站內(nèi)容是什么)
數(shù)據(jù)庫:ETL(用戶數(shù)據(jù)提取轉(zhuǎn)換放到大數(shù)據(jù)環(huán)境中),mysql遣鼓,oracle
2數(shù)據(jù)存儲
Hadoop的HDFS hadoop分布式文件系統(tǒng)
Hive酸役、HBase栗竖、Pig、Spark(scala語言開發(fā)维咸,它是函數(shù)式編程語言-方法即運算符剂买,運算符即方法)底層都是基于hdfs來實現(xiàn)的
java scala
"aaaddd".split("ad") - "aaaddd" split "ad"
相當(dāng)于1+2 1.+(2)
scala有類型自動推算
3數(shù)據(jù)清洗
邏輯代碼和sql
(select * from xxx where xxx)
Hive海量數(shù)據(jù)離線分析(毫秒查詢)
Storm海量數(shù)據(jù)實時分析
4數(shù)據(jù)處理
離線:Hadoop.MapReduce-Hive(完全基于MapReduce公司用得最多),Hbase,pig,sparksql(底層基于hadoop.MapReduce映射規(guī)約)
實時:storm(業(yè)界速度第一腰湾,亞秒級200-500ms)以單條形式處理雷恃,SparkStreaming(批量處理,速度不如storm,但是它不容易阻塞)
生態(tài)圈:
hadoop(Hive,Hbase,pig) Spark(core,SQL费坊、Stream倒槐、mlib、機器學(xué)習(xí)附井、人臉識別讨越、圖像識別)