大數(shù)據(jù)的核心在于新的大數(shù)據(jù)平臺(tái)证九。
大數(shù)據(jù)平臺(tái)hadoop 使得原來需要超級(jí)計(jì)算中心才能做的事情车柠,現(xiàn)在在企業(yè)霸饲,通過普通的集群也可以處理了它改。
大數(shù)據(jù)的核心理論-谷歌的三大論文
Google File System :分布式文件系統(tǒng)
原來的數(shù)據(jù)存儲(chǔ)有兩大問題:
1. 單個(gè)磁盤不夠大------->? 解決方法是:GFS 的解決是多個(gè)磁盤(DataNode)來存儲(chǔ) -------> 新的問題:效率地下 -------> 新問題的解決辦法水平復(fù)制+按照塊存儲(chǔ)(hadoop1.x 一個(gè)塊 64M,hadoop2.x 一個(gè)塊是128M) -------> 新的問題:磁盤太慢 ------->新的解決方案:SPARK解決磁盤和內(nèi)存映射問題
2.數(shù)據(jù)不安全慌核。磁盤損壞距境,壞道等。-------> 解決多級(jí)冗余備份垮卓,對(duì)于hadoop默認(rèn)是三級(jí)備份垫桂,也就是一份數(shù)據(jù)默認(rèn)在三個(gè)位置上存儲(chǔ)-------> 多個(gè)磁盤如何管理(NameNode)監(jiān)控和處理磁盤故障
BigTable 所有的數(shù)據(jù)存入一張表中間。
好處效率更高扒接,壞處需要的存儲(chǔ)空間更大 -------> HDFS 存儲(chǔ)
MapReduce
解決大數(shù)據(jù)運(yùn)算問題伪货,Map 拆分計(jì)算,映射運(yùn)算钾怔,reduce 規(guī)約匯總碱呼。
深度學(xué)習(xí)算法也就是改進(jìn)了的神經(jīng)網(wǎng)絡(luò)。
以前的機(jī)器學(xué)習(xí)算法偏向與SVM等宗侦,不需要集群也能做出一點(diǎn)效果的愚臀,神經(jīng)網(wǎng)絡(luò)的算法很多時(shí)候不能做出好的效果,原因有二:其一是算法需要的計(jì)算即資源太多矾利。其二數(shù)據(jù)一旦上規(guī)模之后姑裂,運(yùn)算不出來。算法得到了改進(jìn)男旗,第二大數(shù)據(jù)的進(jìn)步讓規(guī)模以上數(shù)據(jù)的計(jì)算成為可能舶斧。
未來的發(fā)展方向:
推理:類腦計(jì)算。
創(chuàng)造:方向尚不明了察皇。