可以認為大數(shù)據(jù)谎柄、數(shù)據(jù)挖掘和機器學習是三個平行的概念丁侄。大數(shù)據(jù)側(cè)重描述數(shù)據(jù),數(shù)據(jù)挖掘側(cè)重描述應用朝巫,機器學習側(cè)重描述方法鸿摇。當然唤锉,數(shù)據(jù)是基礎遂跟,是挖掘和學習的“燃料”(Ng說深度學習像火箭,計算是引擎,數(shù)據(jù)是燃料)糙臼。
大數(shù)據(jù)的內(nèi)涵,是從數(shù)據(jù)量恩商、數(shù)據(jù)類型和數(shù)據(jù)增長速度的角度描述數(shù)據(jù)变逃。由于這些特點,數(shù)據(jù)的存儲怠堪、傳輸揽乱、計算、處理粟矿、分析等凰棉,都是傳統(tǒng)方式難以應對的,相關(guān)的技術(shù)就要升級陌粹,新的技術(shù)棧通橙鱿基于分布式架構(gòu)解決,而分布式架構(gòu)又帶來一致性掏秩、資源調(diào)度或舞、性能優(yōu)化等多種問題,由此批處理蒙幻、流計算映凳、圖計算、即席查詢等方向都有發(fā)展邮破。
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘出有價值的潛藏規(guī)律和知識诈豌。數(shù)據(jù)挖掘渴望完整而真實的原始數(shù)據(jù)仆救,去噪和樣本平衡很重要。實施過程涉及機器學習矫渔、模式識別派桩、統(tǒng)計學、分布式存儲蚌斩、分布式計算铆惑、可視化等,還需要掌握領(lǐng)域?qū)I(yè)知識送膳。
機器學習是從數(shù)據(jù)中獲取經(jīng)驗進而改善系統(tǒng)性能的一類重要方法员魏,“學習”的意義就是求解最逼近真相的經(jīng)驗,理論基礎主要是統(tǒng)計學叠聋。數(shù)據(jù)挖掘經(jīng)常需要采用機器學習方法撕阎,但目前機器學習主要是想實現(xiàn)某種程度的人工智能。
編輯于 2017-09-08
轉(zhuǎn)自知乎
數(shù)據(jù)挖掘碌补、機器學習虏束、深度學習這些概念有區(qū)別嗎?
添加一個了解的角度:數(shù)據(jù)挖掘概念火爆的時候厦章,數(shù)據(jù)倉庫正當家镇匀。機器學習是隨著大數(shù)據(jù)概念為人熟知的。深度學習是神經(jīng)網(wǎng)絡算法的新近發(fā)展袜啃,是隨著機器學習概念被廣知的汗侵。 數(shù)據(jù)挖掘作為一眾數(shù)據(jù)分析技術(shù)的統(tǒng)稱,出現(xiàn)較早群发。彼時有余數(shù)據(jù)庫處理能力局限等原因晰韵,強調(diào)從抽樣數(shù)據(jù)出發(fā)分析數(shù)據(jù)全集。 機器學習嚴格來說與數(shù)據(jù)挖掘不是對等概念熟妓,仍屬于數(shù)據(jù)挖掘范疇雪猪。只不過更多地基于大數(shù)據(jù)理念出發(fā),直接在數(shù)據(jù)全集中進行分析起愈,故而有“…