大數(shù)據(jù)環(huán)境下减途,常聽到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)曹洽、數(shù)據(jù)挖掘等這些名詞鳍置,但對(duì)于小白來說,并不是很清楚這些概念的區(qū)別送淆,今天我們大圣眾包(www.dashengzb.cn)小編就通過一段對(duì)話為大家打開機(jī)器學(xué)習(xí)的奧秘:機(jī)器學(xué)習(xí)到底是什么税产?
小白問:機(jī)器學(xué)習(xí)是尖端科技嗎?
答:不是,但是它會(huì)用在尖端科技中偷崩。
小白問:那為什么很多人辟拷,比如我,都大不敢去嘗試進(jìn)入這個(gè)領(lǐng)域呢?
答:可能這個(gè)事兒聽起來有點(diǎn)不可思議吧阐斜。所以好多人誤以為這超出了自己理解和學(xué)習(xí)能力范圍衫冻。
小白問:那到底它有多復(fù)雜?
答:干過這個(gè)事兒的人就知道,它就是個(gè)孩子們的游戲谒出。(這個(gè)說法有點(diǎn)夸張隅俘,但基本就是這個(gè)意思)。
小白問:那機(jī)器學(xué)習(xí)到底是個(gè)啥?
答:它是個(gè)試圖讓事情更智能的過程到推。我們大多數(shù)人都聽說類似“人工神經(jīng)網(wǎng)絡(luò)”這類的詞考赛,就是試圖復(fù)制人類大腦工作過程的一種嘗試惕澎。即使是這樣的事情都不一定總是復(fù)雜的莉测。說白了,它就是乘法和微分唧喉。就是你在學(xué)校里學(xué)的數(shù)學(xué)捣卤,沒什么不同的
小白問:你說機(jī)器學(xué)習(xí)讓事情更智能,什么是智能?
答:智能就是理解事物背后的概念和模式八孝《可以是理解人的情緒,弄清楚人類的語(yǔ)言在講什么(例如:漢語(yǔ)干跛,英文子姜,印度語(yǔ)),或者很酷地做些預(yù)測(cè)楼入。
小白問:這可能是個(gè)傻問題哥捕,為什么叫機(jī)器學(xué)習(xí)?這名字對(duì)小白來說有些拗口啊。
答:沒有問題是傻問題!機(jī)器學(xué)習(xí)是由英文Machine Learning直接翻譯而來嘉熊,這里的機(jī)器就是指的計(jì)算機(jī)遥赚。人腦之所以可以工作,是因?yàn)樗诓粩辔招畔⒉W(xué)習(xí)阐肤。機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)像人腦一樣凫佛,也學(xué)習(xí)它接收到的數(shù)據(jù)和信息讲坎。拿圖片分類這件事兒來說吧,我們?nèi)四X之所以知道這個(gè)圖片是蘋果愧薛,那個(gè)圖片是鴨梨晨炕,是通過看了足夠多的蘋果和鴨梨終于學(xué)會(huì)了正確分類。機(jī)器學(xué)習(xí)就是指我們寫一些電腦程序使得計(jì)算機(jī)可以自動(dòng)學(xué)習(xí)厚满,最終正確分類府瞄。
小白問:機(jī)器學(xué)習(xí)最主要的好處是什么?它為什么這么重要?
答:機(jī)器學(xué)習(xí)可以模擬人腦學(xué)習(xí)。對(duì)于學(xué)習(xí)的過程顯然人腦學(xué)習(xí)容易得多碘箍,一個(gè)小孩都可以分清蘋果和鴨梨遵馆。機(jī)器學(xué)習(xí)則需要花時(shí)間寫代碼,而且需要提前學(xué)習(xí)大量已知數(shù)據(jù)(比如丰榴,要給你的計(jì)算機(jī)看很多很多的蘋果和鴨梨)才能正確作出分類判斷货邓。但是,一旦機(jī)器學(xué)習(xí)的過程完成四濒,自動(dòng)化和大量應(yīng)用就很容易–一臺(tái)機(jī)器可以輕而易舉的對(duì)百萬張圖片進(jìn)行很快分類且不會(huì)勞累换况,人腦可是做不到。所以說盗蟆,機(jī)器學(xué)習(xí)和大數(shù)據(jù)是完美搭檔!
小白問:那機(jī)器學(xué)習(xí)可以用來做什么?
答:基本上人類可以做什么戈二,機(jī)器學(xué)習(xí)就可以做什么,甚至更多!比如:
1)你在某個(gè)電商網(wǎng)站上買東西喳资,機(jī)器學(xué)習(xí)可以從千萬商品中找出你最想要觉吭,最相關(guān)的選項(xiàng)
2)視頻網(wǎng)站用機(jī)器學(xué)習(xí)來猜你今天的心情,然后給你推薦你現(xiàn)在最感興趣的電影仆邓。
3)谷歌可以從億萬搜索結(jié)果中找出最相關(guān)的網(wǎng)頁(yè)鲜滩。
4)醫(yī)學(xué)領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí),在一個(gè)人健康的時(shí)候就預(yù)測(cè)出他是否會(huì)得某種病(比如癌癥)节值。是不是有點(diǎn)起雞皮疙瘩了?
5)我最喜歡的應(yīng)用是微軟的小娜(Cortana)和蘋果公司的Siri這樣可以理解語(yǔ)言的機(jī)器人徙硅。
6)所有的事情幾乎都可以用到機(jī)器學(xué)習(xí)!
深入聊聊
機(jī)器學(xué)習(xí)在netflix中的應(yīng)用(netflix是美國(guó)著名電影電視劇點(diǎn)播網(wǎng)站)
Netflix中的每一部電影都有一個(gè)標(biāo)簽,注明了這部電影的類型搞疗。比如著名的星球大戰(zhàn)系列電影的類型標(biāo)簽就是冒險(xiǎn)型嗓蘑。除了類型標(biāo)簽以外,這些電影還有一些別的標(biāo)簽匿乃,比如演員桩皿,導(dǎo)演,出產(chǎn)年份等等扳埂。
當(dāng)你在netflix上看電影的時(shí)候业簿,系統(tǒng)會(huì)根據(jù)你的行為自動(dòng)地記錄一些其他信息。比如你有沒有看完這部電影阳懂,沒有的話看了多少分鐘或者你中間暫停了多少次等等梅尤。有了這些信息以后柜思,系統(tǒng)就可以開始找出你行為中的一些規(guī)律,然后就可以給你推薦下一部你可能想看的電影巷燥。
比如下面是個(gè)篩選電影的流程:
你喜歡動(dòng)作片->在所有電影里面赡盘,有100部電影可以選擇
你喜歡周潤(rùn)發(fā)–>還剩50部電影
你不喜歡時(shí)間長(zhǎng)的電影–>只剩10個(gè)選擇了
現(xiàn)在我們就可以把這10部電影推薦給你,但是系統(tǒng)可以做的遠(yuǎn)遠(yuǎn)不止這些缰揪。
你通常在晚上6-10點(diǎn)之間看電影->選擇這個(gè)時(shí)間為你推送影片信息
你通常在睡前看恐怖電影->在晚上10點(diǎn)左右優(yōu)先推薦恐怖片
機(jī)器學(xué)習(xí)在谷歌語(yǔ)言分析中的應(yīng)用
機(jī)器學(xué)習(xí)在谷歌應(yīng)該說無處不在:包括在輸入搜索問題的時(shí)候得到的自動(dòng)提示陨享,還有最后得到的搜索結(jié)果通通用的是機(jī)器學(xué)習(xí)。更確切的說钝腺,用的是自然語(yǔ)言處理也叫NLP抛姑。所謂的自然語(yǔ)言就是人類互相交流實(shí)用的語(yǔ)言,比如中文和英語(yǔ)艳狐。機(jī)器通過自然語(yǔ)言處理可以把這些自然語(yǔ)言中的每一個(gè)詞都轉(zhuǎn)化成向量定硝。你可以把這些向量想成一個(gè)長(zhǎng)度為N,高度為1的矩陣(排成長(zhǎng)方形的一堆數(shù))毫目,通常N的大小取決于所分析語(yǔ)言的復(fù)雜程度蔬啡,也就是說這個(gè)語(yǔ)言中設(shè)定的規(guī)則的數(shù)目。比如說我們可以推斷英語(yǔ)中大概有300-400個(gè)這些規(guī)則镀虐。那么箱蟆,這個(gè)向量長(zhǎng)度就為300-400。在這矩陣中刮便,每一個(gè)規(guī)則都有一個(gè)矩陣中對(duì)應(yīng)的數(shù)值空猜。
小白問:那有這么多個(gè)規(guī)則,怎么給他們加上數(shù)值呢?
答:我也不知道的說:D
小白問:啥都不知道為什么還這么激動(dòng)?
答:這就是機(jī)器學(xué)習(xí)的神奇所在!這個(gè)計(jì)算數(shù)值的過程中不需要人的插手诺核,自動(dòng)就可以得到數(shù)值抄肖。而且這些向量中的數(shù)值是有確切含義的久信。
比如下面有這三句話:
1.梅西射門得分了
2.羅納爾多點(diǎn)球沒進(jìn)
3.小剛希望自己的工資多點(diǎn)
傳統(tǒng)的學(xué)習(xí)方法會(huì)認(rèn)為窖杀,第二句和第三句話中都有“多點(diǎn)”這部分,別的好像沒有什么字是重合的了裙士。所以結(jié)論是:那第二句和第三句肯定有相同之處吧?
但是任何正常的人類大腦都知道其實(shí)第一句和第二句才是同一個(gè)主題入客,都是討論足球,所以更有可能同時(shí)出現(xiàn)腿椎。機(jī)器學(xué)習(xí)中的向量也明白這個(gè)道理J桌硫。經(jīng)過機(jī)器學(xué)習(xí)后,“羅納爾多”的向量和“梅西”的向量更為接近啃炸。當(dāng)我們可以比較向量的相似程度的時(shí)候铆隘,最后得到的結(jié)果就和我們大腦得到的結(jié)果更加接近。是不是很神奇呀?
小白問:所以你的意思是矩陣中的數(shù)值可以幫助我們理解一句話到底是講的啥了?
答:你真聰明!現(xiàn)在你還覺得機(jī)器學(xué)習(xí)難懂嗎?