什么是大數(shù)據(jù)?什么是機(jī)器學(xué)習(xí)丧靡?兩者區(qū)別蟆沫?

1、大數(shù)據(jù)定義

大數(shù)據(jù)(big data)温治,指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉饭庞、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力罐盔、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量但绕、高增長率和多樣化的信息資產(chǎn)救崔。 大數(shù)據(jù)是一個籠統(tǒng)的概念暫未發(fā)現(xiàn)和準(zhǔn)確的定義惶看。

2捏顺、機(jī)器學(xué)習(xí)定義

從廣義上來說,機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法狠半。但從實(shí)踐的意義上來說闹啦,機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù)匪蟀,訓(xùn)練出模型,然后使用模型預(yù)測的一種方法拆座。

首先,我們需要在計(jì)算機(jī)中存儲歷史的數(shù)據(jù)冠息。接著挪凑,我們將這些 數(shù)據(jù)通過機(jī)器學(xué)習(xí)算法進(jìn)行處理,這個過程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”逛艰,處理的結(jié)果可以被我們用來對新的數(shù)據(jù)進(jìn)行預(yù)測躏碳,這個結(jié)果一般稱之為“模型”。對新數(shù)據(jù) 的預(yù)測過程在機(jī)器學(xué)習(xí)中叫做“預(yù)測”散怖。“訓(xùn)練”與“預(yù)測”是機(jī)器學(xué)習(xí)的兩個過程菇绵,“模型”則是過程的中間輸出結(jié)果,“訓(xùn)練”產(chǎn)生“模型”镇眷,“模型”指導(dǎo) “預(yù)測”咬最。

人類在成長、生活過程中積累了很多的歷史與經(jīng)驗(yàn)欠动。人類定期地對這些經(jīng)驗(yàn)進(jìn)行“歸納”永乌,獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問題或者需要對未來進(jìn)行“推測”的時候具伍,人類使用這些“規(guī)律”铆遭,對未知問題與未來進(jìn)行“推測”,從而指導(dǎo)自己的生活和工作沿猜。

機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測”過程可以對應(yīng)到人類的“歸納”和“推測”過程枚荣。通過這樣的對應(yīng),我們可以發(fā)現(xiàn)啼肩,機(jī)器學(xué)習(xí)的思想并不復(fù)雜橄妆,僅僅是對人類在生活中學(xué)習(xí)成長的一個模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果祈坠,因此它的處理過程不是因果的邏輯害碾,而是通過歸納思想得出的相關(guān)性結(jié)論

這也可以聯(lián)想到人類為什么要學(xué)習(xí)歷史赦拘,歷史實(shí)際上是人類過往經(jīng)驗(yàn)的總結(jié)慌随。有句話說得很好,“歷史往往不一樣,但歷史總是驚人的相似”阁猜。通過學(xué)習(xí)歷史丸逸,我們從歷史中歸納出人生與國家的規(guī)律,從而指導(dǎo)我們的下一步工作剃袍,這是具有莫大價(jià)值的黄刚。當(dāng)代一些人忽視了歷史的本來價(jià)值,而是把其作為一種宣揚(yáng)功績的手段民效,這其實(shí)是對歷史真實(shí)價(jià)值的一種誤用憔维。

3、機(jī)器學(xué)習(xí)范圍

機(jī)器學(xué)習(xí)跟模式識別畏邢,統(tǒng)計(jì)學(xué)習(xí)业扒,數(shù)據(jù)挖掘,計(jì)算機(jī)視覺舒萎,語音識別凶赁,自然語言處理等領(lǐng)域有著很深的聯(lián)系。

從范圍上來說逆甜,機(jī)器學(xué)習(xí)跟模式識別虱肄,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘是類似的交煞,同時咏窿,機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺素征、語音識別集嵌、自然語言處理等交叉學(xué)科。因此御毅,一般說數(shù)據(jù)挖掘時根欧,可以等同于說機(jī)器學(xué)習(xí)。同時端蛆,我們平常所說的機(jī)器學(xué)習(xí)應(yīng)用凤粗,應(yīng)該是通用的,不僅僅局限在結(jié)構(gòu)化數(shù)據(jù)今豆,還有圖像嫌拣,音頻等應(yīng)用。

(1)模式識別

模式識別=機(jī)器學(xué)習(xí)呆躲。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念异逐,后者則主要源自計(jì)算機(jī)學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書中插掂,Christopher M. Bishop在開頭是這樣說的“模式識別源自工業(yè)界灰瞻,而機(jī)器學(xué)習(xí)來自于計(jì)算機(jī)學(xué)科腥例。不過,它們中的活動可以被視為同一個領(lǐng)域的兩個方面酝润,同時在過去的10年間燎竖,它們都有了長足的發(fā)展”。

(2)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫袍祖。這幾年數(shù)據(jù)挖掘的概念實(shí)在是太耳熟能詳。幾乎等同于炒作谢揪。但凡說數(shù)據(jù)挖掘都會吹噓數(shù)據(jù)挖掘如何如何蕉陋,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價(jià)值等等拨扶。但是凳鬓,我盡管可能會挖出金子,但我也可能挖的是“石頭”啊患民。這個說法的意思是缩举,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識匹颤,但不是每個數(shù)據(jù)都能挖掘出金子的仅孩,所以不要神話它。一個系統(tǒng)絕對不會因?yàn)樯狭艘粋€數(shù)據(jù)挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的)印蓖,恰恰相反辽慕,一個擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵,而且他還必須對數(shù)據(jù)有深刻的認(rèn)識赦肃,這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善溅蛉。大部分?jǐn)?shù)據(jù)挖掘中的算法是機(jī)器學(xué)習(xí)的算法在數(shù)據(jù)庫中的優(yōu)化。

(3)統(tǒng)計(jì)學(xué)習(xí)

統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)他宛。統(tǒng)計(jì)學(xué)習(xí)是個與機(jī)器學(xué)習(xí)高度重疊的學(xué)科船侧。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來自統(tǒng)計(jì)學(xué),甚至可以認(rèn)為厅各,統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛镜撩。例如著名的支持向量機(jī)算法,就是源自統(tǒng)計(jì)學(xué)科队塘。但是在某種程度上兩者是有分別的琐鲁,這個分別在于:統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注的是統(tǒng)計(jì)模型的發(fā)展與優(yōu)化,偏數(shù)學(xué)人灼,而機(jī)器學(xué)習(xí)者更關(guān)注的是能夠解決問題围段,偏實(shí)踐,因此機(jī)器學(xué)習(xí)研究者會重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行的效率與準(zhǔn)確性的提升投放。

(4)計(jì)算機(jī)視覺

計(jì)算機(jī)視覺=圖像處理+機(jī)器學(xué)習(xí)奈泪。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入,機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識別出相關(guān)的模式。計(jì)算機(jī)視覺相關(guān)的應(yīng)用非常的多涝桅,例如百度識圖拜姿、手寫字符識別、車牌識別等等應(yīng)用冯遂。這個領(lǐng)域是應(yīng)用前景非橙锓剩火熱的,同時也是研究的熱門方向蛤肌。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展壁却,大大促進(jìn)了計(jì)算機(jī)圖像識別的效果,因此未來計(jì)算機(jī)視覺界的發(fā)展前景不可估量裸准。

(5)語音識別

語音識別=語音處理+機(jī)器學(xué)習(xí)展东。語音識別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語音識別技術(shù)一般不會單獨(dú)使用炒俱,一般會結(jié)合自然語言處理的相關(guān)技術(shù)盐肃。目前的相關(guān)應(yīng)用有蘋果的語音助手siri等。

(6)自然語言處理

自然語言處理=文本處理+機(jī)器學(xué)習(xí)权悟。自然語言處理技術(shù)主要是讓機(jī)器理解人類的語言的一門領(lǐng)域砸王。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù)峦阁,例如詞法分析处硬,語法分析等等,除此之外拇派,在理解這個層面荷辕,則使用了語義理解,機(jī)器學(xué)習(xí)等技術(shù)件豌。作為唯一由人類自身創(chuàng)造的符號疮方,自然語言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專家余凱的說法“聽與看茧彤,說白了就是阿貓和阿狗都會的骡显,而只有語言才是人類獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語言的的深度理解曾掂,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)惫谤。

4、兩者關(guān)系

(1)互相促進(jìn)珠洗,相依相存

大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值溜歪,機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù),對于大數(shù)據(jù)而言许蓖,機(jī)器學(xué)習(xí)是不可或缺的蝴猪。相反调衰,對于機(jī)器學(xué)習(xí)而言,越多的數(shù)據(jù)會越 可能提升模型的精確性自阱,同時嚎莉,復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時間也迫切需要分布式計(jì)算與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)。因此沛豌,機(jī)器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助趋箩。 大數(shù)據(jù)與機(jī)器學(xué)習(xí)兩者是互相促進(jìn),相依相存的關(guān)系加派。

(2)機(jī)器學(xué)習(xí)≠大數(shù)據(jù)

必須清醒的認(rèn)識到叫确,大數(shù)據(jù)并不等同于機(jī)器學(xué)習(xí),同理哼丈,機(jī)器學(xué)習(xí)也不等同于大數(shù)據(jù)启妹。大數(shù)據(jù)中包含有分布式計(jì)算筛严,內(nèi)存數(shù)據(jù)庫醉旦,多維分析等等多種技術(shù)。單從分析方法來看桨啃,大數(shù)據(jù)也包含以下四種分析方法:

1.大數(shù)據(jù)车胡,小分析:即數(shù)據(jù)倉庫領(lǐng)域的OLAP分析思路,也就是多維分析思想照瘾。

2.大數(shù)據(jù)匈棘,大分析:這個代表的就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)分析法。

3.流式分析:這個主要指的是事件驅(qū)動架構(gòu)析命。

4.查詢分析:經(jīng)典代表是NoSQL數(shù)據(jù)庫主卫。

也就是說,機(jī)器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已鹃愤。盡管機(jī)器學(xué)習(xí)的一些結(jié)果具有很大的魔力簇搅,在某種場合下是大數(shù)據(jù)價(jià)值最好的說明。但這并不代表機(jī)器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法软吐。

引用:https://www.cnblogs.com/feiyudemeng/p/8795852.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瘩将,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子凹耙,更是在濱河造成了極大的恐慌姿现,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肖抱,死亡現(xiàn)場離奇詭異备典,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)意述,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門熊经,熙熙樓的掌柜王于貴愁眉苦臉地迎上來泽艘,“玉大人,你說我怎么就攤上這事镐依∑ヤ蹋” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵槐壳,是天一觀的道長然低。 經(jīng)常有香客問我,道長务唐,這世上最難降的妖魔是什么雳攘? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮枫笛,結(jié)果婚禮上吨灭,老公的妹妹穿的比我還像新娘。我一直安慰自己刑巧,他們只是感情好喧兄,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著啊楚,像睡著了一般吠冤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上恭理,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天拯辙,我揣著相機(jī)與錄音,去河邊找鬼颜价。 笑死涯保,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的周伦。 我是一名探鬼主播夕春,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼横辆!你這毒婦竟也來了撇他?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤狈蚤,失蹤者是張志新(化名)和其女友劉穎困肩,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脆侮,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锌畸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了靖避。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潭枣。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡比默,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出盆犁,到底是詐尸還是另有隱情命咐,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布谐岁,位于F島的核電站醋奠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏伊佃。R本人自食惡果不足惜窜司,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望航揉。 院中可真熱鬧塞祈,春花似錦、人聲如沸帅涂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽漠秋。三九已至笙蒙,卻和暖如春抵屿,著一層夾襖步出監(jiān)牢的瞬間庆锦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工轧葛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搂抒,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓尿扯,卻偏偏與公主長得像求晶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子衷笋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容