姓名:楊晶晶 學(xué)號(hào):21011210420 學(xué)院:通信工程學(xué)院
轉(zhuǎn)載自:https://blog.csdn.net/ritterliu/article/details/54821300
【嵌牛導(dǎo)讀】在本篇文章中赛糟,我將對(duì)機(jī)器學(xué)習(xí)做個(gè)概要的介紹诅需。本文的目的是能讓即便完全不了解機(jī)器學(xué)習(xí)的人也能了解機(jī)器學(xué)習(xí)碗短,并且上手相關(guān)的實(shí)踐。這篇文檔也算是EasyPR開(kāi)發(fā)的番外篇伪很,從這里開(kāi)始岸裙,必須對(duì)機(jī)器學(xué)習(xí)了解才能進(jìn)一步介紹EasyPR的內(nèi)核似嗤。當(dāng)然,本文也面對(duì)一般讀者贰拿,不會(huì)對(duì)閱讀有相關(guān)的前提要求。
【嵌牛鼻子】機(jī)器學(xué)習(xí)的概念熄云、范圍膨更、方法、子類(lèi)缴允、父類(lèi)荚守、思考。
【嵌牛提問(wèn)】什么是機(jī)器學(xué)習(xí)练般?
【嵌牛正文】
引言
這幅圖上上的三人是當(dāng)今機(jī)器學(xué)習(xí)界的執(zhí)牛耳者矗漾。中間的是Geoffrey Hinton, 加拿大多倫多大學(xué)的教授,如今被聘為“Google大腦”的負(fù)責(zé)人踢俄。右邊的是Yann LeCun, 紐約大學(xué)教授缩功,如今是Facebook人工智能實(shí)驗(yàn)室的主任。而左邊的大家都很熟悉都办,Andrew Ng嫡锌,中文名吳恩達(dá)虑稼,斯坦福大學(xué)副教授,如今也是“百度大腦”的負(fù)責(zé)人與百度首席科學(xué)家势木。這三位都是目前業(yè)界炙手可熱的大牛蛛倦,被互聯(lián)網(wǎng)界大鱷求賢若渴的聘請(qǐng),足見(jiàn)他們的重要性啦桌。而他們的研究方向溯壶,則全部都是機(jī)器學(xué)習(xí)的子類(lèi)--深度學(xué)習(xí)。
這幅圖上描述的是什么甫男?Windows Phone上的語(yǔ)音助手Cortana且改,名字來(lái)源于《光環(huán)》中士官長(zhǎng)的助手。相比其他競(jìng)爭(zhēng)對(duì)手板驳,微軟很遲才推出這個(gè)服務(wù)又跛。Cortana背后的核心技術(shù)是什么,為什么它能夠聽(tīng)懂人的語(yǔ)音若治?事實(shí)上慨蓝,這個(gè)技術(shù)正是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是所有語(yǔ)音助手產(chǎn)品(包括Apple的siri與Google的Now)能夠跟人交互的關(guān)鍵技術(shù)端幼。
通過(guò)上面兩圖礼烈,我相信大家可以看出機(jī)器學(xué)習(xí)似乎是一個(gè)很重要的,有很多未知特性的技術(shù)婆跑。學(xué)習(xí)它似乎是一件有趣的任務(wù)此熬。實(shí)際上,學(xué)習(xí)機(jī)器學(xué)習(xí)不僅可以幫助我們了解互聯(lián)網(wǎng)界最新的趨勢(shì)洽蛀,同時(shí)也可以知道伴隨我們的便利服務(wù)的實(shí)現(xiàn)技術(shù)摹迷。
機(jī)器學(xué)習(xí)是什么,為什么它能有這么大的魔力郊供,這些問(wèn)題正是本文要回答的峡碉。同時(shí),本文叫做“從機(jī)器學(xué)習(xí)談起”驮审,因此會(huì)以漫談的形式介紹跟機(jī)器學(xué)習(xí)相關(guān)的所有內(nèi)容鲫寄,包括學(xué)科(如數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)等)疯淫,算法(神經(jīng)網(wǎng)絡(luò)地来,svm)等等。
1.一個(gè)故事說(shuō)明什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)這個(gè)詞是讓人疑惑的熙掺,首先它是英文名稱(chēng)Machine Learning(簡(jiǎn)稱(chēng)ML)的直譯未斑,在計(jì)算界Machine一般指計(jì)算機(jī)。這個(gè)名字使用了擬人的手法币绩,說(shuō)明了這門(mén)技術(shù)是讓機(jī)器“學(xué)習(xí)”的技術(shù)蜡秽。但是計(jì)算機(jī)是死的府阀,怎么可能像人類(lèi)一樣“學(xué)習(xí)”呢?
傳統(tǒng)上如果我們想讓計(jì)算機(jī)工作芽突,我們給它一串指令试浙,然后它遵照這個(gè)指令一步步執(zhí)行下去。有因有果寞蚌,非常明確田巴。但這樣的方式在機(jī)器學(xué)習(xí)中行不通。機(jī)器學(xué)習(xí)根本不接受你輸入的指令挟秤,相反壹哺,它接受你輸入的數(shù)據(jù)! 也就是說(shuō),機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)利用數(shù)據(jù)而不是指令來(lái)進(jìn)行各種工作的方法艘刚。這聽(tīng)起來(lái)非常不可思議斗躏,但結(jié)果上卻是非常可行的昔脯。“統(tǒng)計(jì)”思想將在你學(xué)習(xí)“機(jī)器學(xué)習(xí)”相關(guān)理念時(shí)無(wú)時(shí)無(wú)刻不伴隨笛臣,相關(guān)而不是因果的概念將是支撐機(jī)器學(xué)習(xí)能夠工作的核心概念云稚。你會(huì)顛覆對(duì)你以前所有程序中建立的因果無(wú)處不在的根本理念。
下面我通過(guò)一個(gè)故事來(lái)簡(jiǎn)單地闡明什么是機(jī)器學(xué)習(xí)沈堡。這個(gè)故事比較適合用在知乎上作為一個(gè)概念的闡明静陈。在這里,這個(gè)故事沒(méi)有展開(kāi)诞丽,但相關(guān)內(nèi)容與核心是存在的鲸拥。如果你想簡(jiǎn)單的了解一下什么是機(jī)器學(xué)習(xí),那么看完這個(gè)故事就足夠了僧免。如果你想了解機(jī)器學(xué)習(xí)的更多知識(shí)以及與它關(guān)聯(lián)緊密的當(dāng)代技術(shù)刑赶,那么請(qǐng)你繼續(xù)往下看,后面有更多的豐富的內(nèi)容懂衩。
這個(gè)例子來(lái)源于我真實(shí)的生活經(jīng)驗(yàn)撞叨,我在思考這個(gè)問(wèn)題的時(shí)候突然發(fā)現(xiàn)它的過(guò)程可以被擴(kuò)充化為一個(gè)完整的機(jī)器學(xué)習(xí)的過(guò)程,因此我決定使用這個(gè)例子作為所有介紹的開(kāi)始浊洞。這個(gè)故事稱(chēng)為“等人問(wèn)題”牵敷。
我相信大家都有跟別人相約,然后等人的經(jīng)歷》ㄏ#現(xiàn)實(shí)中不是每個(gè)人都那么守時(shí)的枷餐,于是當(dāng)你碰到一些愛(ài)遲到的人,你的時(shí)間不可避免的要浪費(fèi)苫亦。我就碰到過(guò)這樣的一個(gè)例子毛肋。
對(duì)我的一個(gè)朋友小Y而言怨咪,他就不是那么守時(shí),最常見(jiàn)的表現(xiàn)是他經(jīng)常遲到村生。當(dāng)有一次我跟他約好3點(diǎn)鐘在某個(gè)麥當(dāng)勞見(jiàn)面時(shí)惊暴,在我出門(mén)的那一刻我突然想到一個(gè)問(wèn)題:我現(xiàn)在出發(fā)合適么?我會(huì)不會(huì)又到了地點(diǎn)后趁桃,花上30分鐘去等他辽话?我決定采取一個(gè)策略解決這個(gè)問(wèn)題。
要想解決這個(gè)問(wèn)題卫病,有好幾種方法油啤。第一種方法是采用知識(shí):我搜尋能夠解決這個(gè)問(wèn)題的知識(shí)。但很遺憾蟀苛,沒(méi)有人會(huì)把如何等人這個(gè)問(wèn)題作為知識(shí)傳授益咬,因此我不可能找到已有的知識(shí)能夠解決這個(gè)問(wèn)題。第二種方法是問(wèn)他人:我去詢問(wèn)他人獲得解決這個(gè)問(wèn)題的能力帜平。但是同樣的幽告,這個(gè)問(wèn)題沒(méi)有人能夠解答,因?yàn)榭赡軟](méi)人碰上跟我一樣的情況裆甩。第三種方法是準(zhǔn)則法:我問(wèn)自己的內(nèi)心冗锁,我有否設(shè)立過(guò)什么準(zhǔn)則去面對(duì)這個(gè)問(wèn)題?例如嗤栓,無(wú)論別人如何冻河,我都會(huì)守時(shí)到達(dá)。但我不是個(gè)死板的人茉帅,我沒(méi)有設(shè)立過(guò)這樣的規(guī)則叨叙。
事實(shí)上,我相信有種方法比以上三種都合適堪澎。我把過(guò)往跟小Y相約的經(jīng)歷在腦海中重現(xiàn)一下擂错,看看跟他相約的次數(shù)中,遲到占了多大的比例全封。而我利用這來(lái)預(yù)測(cè)他這次遲到的可能性马昙。如果這個(gè)值超出了我心里的某個(gè)界限,那我選擇等一會(huì)再出發(fā)刹悴。假設(shè)我跟小Y約過(guò)5次行楞,他遲到的次數(shù)是1次,那么他按時(shí)到的比例為80%土匀,我心中的閾值為70%子房,我認(rèn)為這次小Y應(yīng)該不會(huì)遲到,因此我按時(shí)出門(mén)。如果小Y在5次遲到的次數(shù)中占了4次证杭,也就是他按時(shí)到達(dá)的比例為20%田度,由于這個(gè)值低于我的閾值,因此我選擇推遲出門(mén)的時(shí)間解愤。這個(gè)方法從它的利用層面來(lái)看镇饺,又稱(chēng)為經(jīng)驗(yàn)法。在經(jīng)驗(yàn)法的思考過(guò)程中送讲,我事實(shí)上利用了以往所有相約的數(shù)據(jù)奸笤。因此也可以稱(chēng)之為依據(jù)數(shù)據(jù)做的判斷。
依據(jù)數(shù)據(jù)所做的判斷跟機(jī)器學(xué)習(xí)的思想根本上是一致的哼鬓。
剛才的思考過(guò)程我只考慮“頻次”這種屬性监右。在真實(shí)的機(jī)器學(xué)習(xí)中,這可能都不算是一個(gè)應(yīng)用异希。一般的機(jī)器學(xué)習(xí)模型至少考慮兩個(gè)量:一個(gè)是因變量健盒,也就是我們希望預(yù)測(cè)的結(jié)果,在這個(gè)例子里就是小Y遲到與否的判斷称簿。另一個(gè)是自變量扣癣,也就是用來(lái)預(yù)測(cè)小Y是否遲到的量。假設(shè)我把時(shí)間作為自變量憨降,譬如我發(fā)現(xiàn)小Y所有遲到的日子基本都是星期五搏色,而在非星期五情況下他基本不遲到。于是我可以建立一個(gè)模型券册,來(lái)模擬小Y遲到與否跟日子是否是星期五的概率。見(jiàn)下圖:
這樣的圖就是一個(gè)最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型垂涯,稱(chēng)之為決策樹(shù)烁焙。
當(dāng)我們考慮的自變量只有一個(gè)時(shí),情況較為簡(jiǎn)單耕赘。如果把我們的自變量再增加一個(gè)骄蝇。例如小Y遲到的部分情況時(shí)是在他開(kāi)車(chē)過(guò)來(lái)的時(shí)候(你可以理解為他開(kāi)車(chē)水平較臭,或者路較堵)操骡。于是我可以關(guān)聯(lián)考慮這些信息九火。建立一個(gè)更復(fù)雜的模型,這個(gè)模型包含兩個(gè)自變量與一個(gè)因變量册招。
再更復(fù)雜一點(diǎn)岔激,小Y的遲到跟天氣也有一定的原因,例如下雨的時(shí)候是掰,這時(shí)候我需要考慮三個(gè)自變量虑鼎。
如果我希望能夠預(yù)測(cè)小Y遲到的具體時(shí)間,我可以把他每次遲到的時(shí)間跟雨量的大小以及前面考慮的自變量統(tǒng)一建立一個(gè)模型。于是我的模型可以預(yù)測(cè)值炫彩,例如他大概會(huì)遲到幾分鐘匾七。這樣可以幫助我更好的規(guī)劃我出門(mén)的時(shí)間。在這樣的情況下江兢,決策樹(shù)就無(wú)法很好地支撐了昨忆,因?yàn)闆Q策樹(shù)只能預(yù)測(cè)離散值。我們可以用節(jié)2所介紹的線型回歸方法建立這個(gè)模型杉允。
如果我把這些建立模型的過(guò)程交給電腦邑贴。比如把所有的自變量和因變量輸入,然后讓計(jì)算機(jī)幫我生成一個(gè)模型夺颤,同時(shí)讓計(jì)算機(jī)根據(jù)我當(dāng)前的情況痢缎,給出我是否需要遲出門(mén),需要遲幾分鐘的建議世澜。那么計(jì)算機(jī)執(zhí)行這些輔助決策的過(guò)程就是機(jī)器學(xué)習(xí)的過(guò)程独旷。
機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)利用已有的數(shù)據(jù)(經(jīng)驗(yàn)),得出了某種模型(遲到的規(guī)律)寥裂,并利用此模型預(yù)測(cè)未來(lái)(是否遲到)的一種方法嵌洼。
通過(guò)上面的分析,可以看出機(jī)器學(xué)習(xí)與人類(lèi)思考的經(jīng)驗(yàn)過(guò)程是類(lèi)似的封恰,不過(guò)它能考慮更多的情況麻养,執(zhí)行更加復(fù)雜的計(jì)算。事實(shí)上诺舔,機(jī)器學(xué)習(xí)的一個(gè)主要目的就是把人類(lèi)思考?xì)w納經(jīng)驗(yàn)的過(guò)程轉(zhuǎn)化為計(jì)算機(jī)通過(guò)對(duì)數(shù)據(jù)的處理計(jì)算得出模型的過(guò)程鳖昌。經(jīng)過(guò)計(jì)算機(jī)得出的模型能夠以近似于人的方式解決很多靈活復(fù)雜的問(wèn)題。
下面低飒,我會(huì)開(kāi)始對(duì)機(jī)器學(xué)習(xí)的正式介紹许昨,包括定義、范圍褥赊,方法糕档、應(yīng)用等等,都有所包含拌喉。
2.機(jī)器學(xué)習(xí)的定義
從廣義上來(lái)說(shuō)速那,機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無(wú)法完成的功能的方法。但從實(shí)踐的意義上來(lái)說(shuō)尿背,機(jī)器學(xué)習(xí)是一種通過(guò)利用數(shù)據(jù)端仰,訓(xùn)練出模型,然后使用模型預(yù)測(cè)的一種方法田藐。
讓我們具體看一個(gè)例子榆俺。
拿國(guó)民話題的房子來(lái)說(shuō)。現(xiàn)在我手里有一棟房子需要售賣(mài),我應(yīng)該給它標(biāo)上多大的價(jià)格茴晋?房子的面積是100平方米陪捷,價(jià)格是100萬(wàn),120萬(wàn)诺擅,還是140萬(wàn)市袖?
很顯然,我希望獲得房?jī)r(jià)與面積的某種規(guī)律烁涌。那么我該如何獲得這個(gè)規(guī)律苍碟?用報(bào)紙上的房?jī)r(jià)平均數(shù)據(jù)么?還是參考別人面積相似的撮执?無(wú)論哪種微峰,似乎都并不是太靠譜。
我現(xiàn)在希望獲得一個(gè)合理的抒钱,并且能夠最大程度的反映面積與房?jī)r(jià)關(guān)系的規(guī)律蜓肆。于是我調(diào)查了周邊與我房型類(lèi)似的一些房子,獲得一組數(shù)據(jù)谋币。這組數(shù)據(jù)中包含了大大小小房子的面積與價(jià)格仗扬,如果我能從這組數(shù)據(jù)中找出面積與價(jià)格的規(guī)律,那么我就可以得出房子的價(jià)格蕾额。
對(duì)規(guī)律的尋找很簡(jiǎn)單早芭,擬合出一條直線,讓它“穿過(guò)”所有的點(diǎn)诅蝶,并且與各個(gè)點(diǎn)的距離盡可能的小退个。
通過(guò)這條直線,我獲得了一個(gè)能夠最佳反映房?jī)r(jià)與面積規(guī)律的規(guī)律调炬。這條直線同時(shí)也是一個(gè)下式所表明的函數(shù):房?jī)r(jià) = 面積 * a + b
上述中的a帜乞、b都是直線的參數(shù)。獲得這些參數(shù)以后筐眷,我就可以計(jì)算出房子的價(jià)格。
假設(shè)a = 0.75,b = 50习柠,則房?jī)r(jià) = 100 * 0.75 + 50 = 125萬(wàn)匀谣。這個(gè)結(jié)果與我前面所列的100萬(wàn),120萬(wàn)资溃,140萬(wàn)都不一樣武翎。由于這條直線綜合考慮了大部分的情況,因此從“統(tǒng)計(jì)”意義上來(lái)說(shuō)溶锭,這是一個(gè)最合理的預(yù)測(cè)宝恶。
在求解過(guò)程中透露出了兩個(gè)信息:
1.房?jī)r(jià)模型是根據(jù)擬合的函數(shù)類(lèi)型決定的。如果是直線,那么擬合出的就是直線方程垫毙。如果是其他類(lèi)型的線霹疫,例如拋物線,那么擬合出的就是拋物線方程综芥。機(jī)器學(xué)習(xí)有眾多算法丽蝎,一些強(qiáng)力算法可以擬合出復(fù)雜的非線性模型,用來(lái)反映一些不是直線所能表達(dá)的情況膀藐。
2.如果我的數(shù)據(jù)越多屠阻,我的模型就越能夠考慮到越多的情況,由此對(duì)于新情況的預(yù)測(cè)效果可能就越好额各。這是機(jī)器學(xué)習(xí)界“數(shù)據(jù)為王”思想的一個(gè)體現(xiàn)国觉。一般來(lái)說(shuō)(不是絕對(duì)),數(shù)據(jù)越多虾啦,最后機(jī)器學(xué)習(xí)生成的模型預(yù)測(cè)的效果越好麻诀。
通過(guò)我擬合直線的過(guò)程,我們可以對(duì)機(jī)器學(xué)習(xí)過(guò)程做一個(gè)完整的回顧缸逃。首先针饥,我們需要在計(jì)算機(jī)中存儲(chǔ)歷史的數(shù)據(jù)。接著需频,我們將這些 數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行處理沾凄,這個(gè)過(guò)程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”,處理的結(jié)果可以被我們用來(lái)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)纵诞,這個(gè)結(jié)果一般稱(chēng)之為“模型”辕翰。對(duì)新數(shù)據(jù) 的預(yù)測(cè)過(guò)程在機(jī)器學(xué)習(xí)中叫做“預(yù)測(cè)”∨捕“訓(xùn)練”與“預(yù)測(cè)”是機(jī)器學(xué)習(xí)的兩個(gè)過(guò)程蹂风,“模型”則是過(guò)程的中間輸出結(jié)果,“訓(xùn)練”產(chǎn)生“模型”乾蓬,“模型”指導(dǎo) “預(yù)測(cè)”惠啄。
讓我們把機(jī)器學(xué)習(xí)的過(guò)程與人類(lèi)對(duì)歷史經(jīng)驗(yàn)歸納的過(guò)程做個(gè)比對(duì)。
人類(lèi)在成長(zhǎng)任内、生活過(guò)程中積累了很多的歷史與經(jīng)驗(yàn)撵渡。人類(lèi)定期地對(duì)這些經(jīng)驗(yàn)進(jìn)行“歸納”,獲得了生活的“規(guī)律”死嗦。當(dāng)人類(lèi)遇到未知的問(wèn)題或者需要對(duì)未來(lái)進(jìn)行“推測(cè)”的時(shí)候趋距,人類(lèi)使用這些“規(guī)律”,對(duì)未知問(wèn)題與未來(lái)進(jìn)行“推測(cè)”越除,從而指導(dǎo)自己的生活和工作节腐。
機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過(guò)程可以對(duì)應(yīng)到人類(lèi)的“歸納”和“推測(cè)”過(guò)程外盯。通過(guò)這樣的對(duì)應(yīng),我們可以發(fā)現(xiàn)翼雀,機(jī)器學(xué)習(xí)的思想并不復(fù)雜饱苟,僅僅是對(duì)人類(lèi)在生活中學(xué)習(xí)成長(zhǎng)的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果锅纺,因此它的處理過(guò)程不是因果的邏輯掷空,而是通過(guò)歸納思想得出的相關(guān)性結(jié)論。
這也可以聯(lián)想到人類(lèi)為什么要學(xué)習(xí)歷史囤锉,歷史實(shí)際上是人類(lèi)過(guò)往經(jīng)驗(yàn)的總結(jié)坦弟。有句話說(shuō)得很好,“歷史往往不一樣官地,但歷史總是驚人的相似”酿傍。通過(guò)學(xué)習(xí)歷史,我們從歷史中歸納出人生與國(guó)家的規(guī)律驱入,從而指導(dǎo)我們的下一步工作赤炒,這是具有莫大價(jià)值的。當(dāng)代一些人忽視了歷史的本來(lái)價(jià)值亏较,而是把其作為一種宣揚(yáng)功績(jī)的手段莺褒,這其實(shí)是對(duì)歷史真實(shí)價(jià)值的一種誤用。
3.機(jī)器學(xué)習(xí)的范圍
上文雖然說(shuō)明了機(jī)器學(xué)習(xí)是什么雪情,但是并沒(méi)有給出機(jī)器學(xué)習(xí)的范圍遵岩。
其實(shí),機(jī)器學(xué)習(xí)跟模式識(shí)別巡通,統(tǒng)計(jì)學(xué)習(xí)尘执,數(shù)據(jù)挖掘,計(jì)算機(jī)視覺(jué)宴凉,語(yǔ)音識(shí)別誊锭,自然語(yǔ)言處理等領(lǐng)域有著很深的聯(lián)系。
從范圍上來(lái)說(shuō)弥锄,機(jī)器學(xué)習(xí)跟模式識(shí)別丧靡,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘是類(lèi)似的籽暇,同時(shí)温治,機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺(jué)图仓、語(yǔ)音識(shí)別、自然語(yǔ)言處理等交叉學(xué)科但绕。因此救崔,一般說(shuō)數(shù)據(jù)挖掘時(shí)惶看,可以等同于說(shuō)機(jī)器學(xué)習(xí)。同時(shí)六孵,我們平常所說(shuō)的機(jī)器學(xué)習(xí)應(yīng)用纬黎,應(yīng)該是通用的,不僅僅局限在結(jié)構(gòu)化數(shù)據(jù)劫窒,還有圖像本今,音頻等應(yīng)用。
在這節(jié)對(duì)機(jī)器學(xué)習(xí)這些相關(guān)領(lǐng)域的介紹有助于我們理清機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景與研究范圍主巍,更好的理解后面的算法與應(yīng)用層次冠息。
下圖是機(jī)器學(xué)習(xí)所牽扯的一些相關(guān)范圍的學(xué)科與研究領(lǐng)域。
模式識(shí)別
模式識(shí)別=機(jī)器學(xué)習(xí)孕索。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來(lái)的概念逛艰,后者則主要源自計(jì)算機(jī)學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書(shū)中搞旭,Christopher M. Bishop在開(kāi)頭是這樣說(shuō)的“模式識(shí)別源自工業(yè)界散怖,而機(jī)器學(xué)習(xí)來(lái)自于計(jì)算機(jī)學(xué)科。不過(guò)肄渗,它們中的活動(dòng)可以被視為同一個(gè)領(lǐng)域的兩個(gè)方面镇眷,同時(shí)在過(guò)去的10年間,它們都有了長(zhǎng)足的發(fā)展”翎嫡。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫(kù)欠动。這幾年數(shù)據(jù)挖掘的概念實(shí)在是太耳熟能詳。幾乎等同于炒作钝的。但凡說(shuō)數(shù)據(jù)挖掘都會(huì)吹噓數(shù)據(jù)挖掘如何如何翁垂,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價(jià)值等等硝桩。但是沿猜,我盡管可能會(huì)挖出金子,但我也可能挖的是“石頭”啊碗脊。這個(gè)說(shuō)法的意思是啼肩,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識(shí)衙伶,但不是每個(gè)數(shù)據(jù)都能挖掘出金子的祈坠,所以不要神話它。一個(gè)系統(tǒng)絕對(duì)不會(huì)因?yàn)樯狭艘粋€(gè)數(shù)據(jù)挖掘模塊就變得無(wú)所不能(這是IBM最喜歡吹噓的)矢劲,恰恰相反赦拘,一個(gè)擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵,而且他還必須對(duì)數(shù)據(jù)有深刻的認(rèn)識(shí)芬沉,這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善躺同。大部分?jǐn)?shù)據(jù)挖掘中的算法是機(jī)器學(xué)習(xí)的算法在數(shù)據(jù)庫(kù)中的優(yōu)化阁猜。
統(tǒng)計(jì)學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重疊的學(xué)科蹋艺。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來(lái)自統(tǒng)計(jì)學(xué)剃袍,甚至可以認(rèn)為,統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛捎谨。例如著名的支持向量機(jī)算法民效,就是源自統(tǒng)計(jì)學(xué)科。但是在某種程度上兩者是有分別的涛救,這個(gè)分別在于:統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注的是統(tǒng)計(jì)模型的發(fā)展與優(yōu)化畏邢,偏數(shù)學(xué),而機(jī)器學(xué)習(xí)者更關(guān)注的是能夠解決問(wèn)題州叠,偏實(shí)踐棵红,因此機(jī)器學(xué)習(xí)研究者會(huì)重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行的效率與準(zhǔn)確性的提升。
計(jì)算機(jī)視覺(jué)
計(jì)算機(jī)視覺(jué)=圖像處理+機(jī)器學(xué)習(xí)咧栗。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入逆甜,機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)的模式。計(jì)算機(jī)視覺(jué)相關(guān)的應(yīng)用非常的多致板,例如百度識(shí)圖交煞、手寫(xiě)字符識(shí)別、車(chē)牌識(shí)別等等應(yīng)用斟或。這個(gè)領(lǐng)域是應(yīng)用前景非乘卣鳎火熱的,同時(shí)也是研究的熱門(mén)方向萝挤。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展御毅,大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別的效果,因此未來(lái)計(jì)算機(jī)視覺(jué)界的發(fā)展前景不可估量怜珍。
語(yǔ)音識(shí)別
語(yǔ)音識(shí)別=語(yǔ)音處理+機(jī)器學(xué)習(xí)端蛆。語(yǔ)音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語(yǔ)音識(shí)別技術(shù)一般不會(huì)單獨(dú)使用酥泛,一般會(huì)結(jié)合自然語(yǔ)言處理的相關(guān)技術(shù)今豆。目前的相關(guān)應(yīng)用有蘋(píng)果的語(yǔ)音助手siri等。
自然語(yǔ)言處理
自然語(yǔ)言處理=文本處理+機(jī)器學(xué)習(xí)柔袁。自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類(lèi)的語(yǔ)言的一門(mén)領(lǐng)域呆躲。在自然語(yǔ)言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù)捶索,例如詞法分析插掂,語(yǔ)法分析等等,除此之外,在理解這個(gè)層面辅甥,則使用了語(yǔ)義理解箩祥,機(jī)器學(xué)習(xí)等技術(shù)。作為唯一由人類(lèi)自身創(chuàng)造的符號(hào)肆氓,自然語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專(zhuān)家余凱的說(shuō)法“聽(tīng)與看底瓣,說(shuō)白了就是阿貓和阿狗都會(huì)的谢揪,而只有語(yǔ)言才是人類(lèi)獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的的深度理解捐凭,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)拨扶。
可以看出機(jī)器學(xué)習(xí)在眾多領(lǐng)域的外延和應(yīng)用。機(jī)器學(xué)習(xí)技術(shù)的發(fā)展促使了很多智能領(lǐng)域的進(jìn)步茁肠,改善著我們的生活患民。
4.機(jī)器學(xué)習(xí)的方法
通過(guò)上節(jié)的介紹我們知曉了機(jī)器學(xué)習(xí)的大致范圍,那么機(jī)器學(xué)習(xí)里面究竟有多少經(jīng)典的算法呢垦梆?在這個(gè)部分我會(huì)簡(jiǎn)要介紹一下機(jī)器學(xué)習(xí)中的經(jīng)典代表方法匹颤。這部分介紹的重點(diǎn)是這些方法內(nèi)涵的思想,數(shù)學(xué)與實(shí)踐細(xì)節(jié)不會(huì)在這討論托猩。
1印蓖、回歸算法
在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法京腥。原因有兩個(gè):一.回歸算法比較簡(jiǎn)單赦肃,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石公浪,如果不理解回歸算法他宛,無(wú)法學(xué)習(xí)那些強(qiáng)大的算法∏菲回歸算法有兩個(gè)重要的子類(lèi):即線性回歸和邏輯回歸厅各。
線性回歸就是我們前面說(shuō)過(guò)的房?jī)r(jià)求解問(wèn)題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)晃琳?一般使用“最小二乘法”來(lái)求解讯检。“最小二乘法”的思想是這樣的卫旱,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值人灼,而觀測(cè)到的數(shù)據(jù)代表?yè)碛姓`差的值。為了盡可能減小誤差的影響顾翼,需要求解一條直線使所有誤差的平方和最小投放。最小二乘法將最優(yōu)問(wèn)題轉(zhuǎn)化為求函數(shù)極值問(wèn)題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法适贸。但這種做法并不適合計(jì)算機(jī)灸芳,可能求解不出來(lái)涝桅,也可能計(jì)算量太大。
計(jì)算機(jī)科學(xué)界專(zhuān)門(mén)有一個(gè)學(xué)科叫“數(shù)值計(jì)算”烙样,專(zhuān)門(mén)用來(lái)提升計(jì)算機(jī)進(jìn)行各類(lèi)計(jì)算時(shí)的準(zhǔn)確性和效率問(wèn)題冯遂。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法谒获,也非常適合來(lái)處理求解函數(shù)極值的問(wèn)題蛤肌。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一。從嚴(yán)格意義上來(lái)說(shuō)批狱,由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子裸准,因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用。
邏輯回歸是一種與線性回歸非常類(lèi)似的算法赔硫,但是炒俱,從本質(zhì)上講,線型回歸處理的問(wèn)題類(lèi)型與邏輯回歸不一致爪膊。線性回歸處理的是數(shù)值問(wèn)題权悟,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)推盛。而邏輯回歸屬于分類(lèi)算法僵芹,也就是說(shuō),邏輯回歸預(yù)測(cè)結(jié)果是離散的分類(lèi)小槐,例如判斷這封郵件是否是垃圾郵件拇派,以及用戶是否會(huì)點(diǎn)擊此廣告等等。
實(shí)現(xiàn)方面的話凿跳,邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù)件豌,將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來(lái)說(shuō)并不直觀,你只需要理解對(duì)數(shù)值越大控嗜,函數(shù)越逼近1茧彤,數(shù)值越小,函數(shù)越逼近0)疆栏,接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè)曾掂,例如概率大于0.5,則這封郵件就是垃圾郵件壁顶,或者腫瘤是否是惡性的等等珠洗。從直觀上來(lái)說(shuō),邏輯回歸是畫(huà)出了一條分類(lèi)線若专,見(jiàn)下圖许蓖。
假設(shè)我們有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn)),有些是惡性的(圖中的紅色點(diǎn))膊爪。這里腫瘤的紅藍(lán)色可以被稱(chēng)作數(shù)據(jù)的“標(biāo)簽”自阱。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”:患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上米酬,形成了我上圖的數(shù)據(jù)沛豌。
當(dāng)我有一個(gè)綠色的點(diǎn)時(shí),我該判斷這個(gè)腫瘤是惡性的還是良性的呢赃额?根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型琼懊,也就是圖中的分類(lèi)線。這時(shí)爬早,根據(jù)綠點(diǎn)出現(xiàn)在分類(lèi)線的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色启妹,也就是說(shuō)屬于惡性腫瘤筛严。
邏輯回歸算法劃出的分類(lèi)線基本都是線性的(也有劃出非線性分類(lèi)線的邏輯回歸,不過(guò)那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)饶米,這意味著當(dāng)兩類(lèi)之間的界線不是線性時(shí)桨啃,邏輯回歸的表達(dá)能力就不足。下面的兩個(gè)算法是機(jī)器學(xué)習(xí)界最強(qiáng)大且重要的算法檬输,都可以擬合出非線性的分類(lèi)線照瘾。
2、神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(也稱(chēng)之為人工神經(jīng)網(wǎng)絡(luò)丧慈,ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法析命,不過(guò)在90年代中途衰落。現(xiàn)在逃默,攜著“深度學(xué)習(xí)”之勢(shì)鹃愤,神經(jīng)網(wǎng)絡(luò)重裝歸來(lái),重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一完域。
神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究软吐。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來(lái)模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn)吟税,發(fā)現(xiàn)在視覺(jué)與語(yǔ)音的識(shí)別上效果都相當(dāng)好凹耙。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮肠仪。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)肖抱。
具體說(shuō)來(lái),神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么异旧?簡(jiǎn)單來(lái)說(shuō)虐沥,就是分解與整合。在著名的Hubel-Wiesel試驗(yàn)中,學(xué)者們研究貓的視覺(jué)分析機(jī)理是這樣的欲险。
比方說(shuō)镐依,一個(gè)正方形,分解為四個(gè)折線進(jìn)入視覺(jué)處理的下一層中天试。四個(gè)神經(jīng)元分別處理一個(gè)折線槐壳。每個(gè)折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個(gè)面喜每。于是务唐,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合带兜,最后得出了看到的是正方形的結(jié)論枫笛。這就是大腦視覺(jué)識(shí)別的機(jī)理,也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理刚照。
讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)刑巧。在這個(gè)網(wǎng)絡(luò)中,分成輸入層无畔,隱藏層啊楚,和輸出層。輸入層負(fù)責(zé)接收信號(hào)浑彰,隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理恭理,最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元郭变,可以認(rèn)為是模擬了一個(gè)神經(jīng)元颜价,若干個(gè)處理單元組成了一個(gè)層,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò)诉濒,也就是"神經(jīng)網(wǎng)絡(luò)"拍嵌。
在神經(jīng)網(wǎng)絡(luò)中,每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型循诉,邏輯回歸模型接收上層的輸入横辆,把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過(guò)這樣的過(guò)程茄猫,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類(lèi)狈蚤。
下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用,這個(gè)程序叫做LeNet划纽,是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)脆侮。通過(guò)LeNet可以識(shí)別多種手寫(xiě)數(shù)字,并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性勇劣。
右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像靖避,方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出潭枣。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出,可以看出幻捏,隨著層次的不斷深入盆犁,越深的層次處理的細(xì)節(jié)越低,例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了篡九。LeNet的發(fā)明人就是前文介紹過(guò)的機(jī)器學(xué)習(xí)的大牛Yann LeCun(圖1右者)谐岁。
進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期榛臼。其主要原因是盡管有BP算法的加速伊佃,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位沛善。
3航揉、SVM(支持向量機(jī))
支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法金刁。
支持向量機(jī)算法從某種意義上來(lái)說(shuō)是邏輯回歸算法的強(qiáng)化:通過(guò)給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件帅涂,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類(lèi)界線。但是如果沒(méi)有某類(lèi)函數(shù)技術(shù)胀葱,則支持向量機(jī)算法最多算是一種更好的線性分類(lèi)技術(shù)。
但是笙蒙,通過(guò)跟高斯“核”的結(jié)合抵屿,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類(lèi)界線,從而達(dá)成很好的的分類(lèi)效果捅位≡穑“核”事實(shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間艇搀。
例如下圖所示:
我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類(lèi)界線尿扯?在二維平面可能會(huì)很困難,但是通過(guò)“核”可以將二維空間映射到三維空間焰雕,然后使用一個(gè)線性平面就可以達(dá)成類(lèi)似效果衷笋。也就是說(shuō),二維平面劃分出的非線性分類(lèi)界線可以等價(jià)于三維平面的線性分類(lèi)界線矩屁。于是辟宗,我們可以通過(guò)在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。
支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的吝秕,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)泊脐。在算法的核心步驟中,有一步證明烁峭,即將數(shù)據(jù)從低維映射到高維不會(huì)帶來(lái)最后計(jì)算復(fù)雜性的提升容客。于是秕铛,通過(guò)支持向量機(jī)算法,既可以保持計(jì)算效率缩挑,又可以獲得非常好的分類(lèi)效果但两。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法调煎。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起镜遣,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。
4士袄、聚類(lèi)算法
前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽悲关,訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中娄柳,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的寓辱,而算法的目的則是通過(guò)訓(xùn)練,推測(cè)出這些數(shù)據(jù)的標(biāo)簽赤拒。這類(lèi)算法有一個(gè)統(tǒng)稱(chēng)秫筏,即無(wú)監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無(wú)監(jiān)督算法中最典型的代表就是聚類(lèi)算法挎挖。
讓我們還是拿一個(gè)二維的數(shù)據(jù)來(lái)說(shuō)这敬,某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望通過(guò)聚類(lèi)算法蕉朵,給他們中不同的種類(lèi)打上標(biāo)簽崔涂,我該怎么做呢?簡(jiǎn)單來(lái)說(shuō)始衅,聚類(lèi)算法就是計(jì)算種群中的距離冷蚂,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。
聚類(lèi)算法中最典型的代表就是K-Means算法汛闸。
5蝙茶、降維算法
降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次诸老。在這里隆夯,維度其實(shí)表示的是數(shù)據(jù)的特征量的大小,例如别伏,房?jī)r(jià)包含房子的長(zhǎng)吮廉、寬、面積與房間數(shù)量四個(gè)特征畸肆,也就是維度為4維的數(shù)據(jù)宦芦。可以看出來(lái)轴脐,長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了调卑,例如面積=長(zhǎng) × 寬抡砂。通過(guò)降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征恬涧,即從4維的數(shù)據(jù)壓縮到2維注益。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示溯捆,同時(shí)在計(jì)算上也能帶來(lái)加速丑搔。
剛才說(shuō)的降維過(guò)程中減少的維度屬于肉眼可視的層次檀蹋,同時(shí)壓縮也不會(huì)帶來(lái)信息的損失(因?yàn)樾畔⑷哂嗔?叁巨。如果肉眼不可視办龄,或者沒(méi)有冗余的特征拿霉,降維算法也能工作,不過(guò)這樣會(huì)帶來(lái)一些信息的損失红碑。但是幻梯,降維算法可以從數(shù)學(xué)上證明算行,從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息刨仑。因此郑诺,使用降維算法仍然有很多的好處。
降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率杉武。通過(guò)降維算法辙诞,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外轻抱,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化飞涂,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來(lái)可視十拣。降維算法的主要代表是PCA算法(即主成分分析算法)封拧。
6志鹃、推薦算法
推薦算法是目前業(yè)界非池参剩火的一種算法,在電商界曹铃,如亞馬遜缰趋,天貓,京東等得到了廣泛的運(yùn)用陕见。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西秘血,從而增加購(gòu)買(mǎi)率,提升效益评甜。推薦算法有兩個(gè)主要的類(lèi)別:
一類(lèi)是基于物品內(nèi)容的推薦灰粮,是將與用戶購(gòu)買(mǎi)的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽忍坷,因此才可以找出與用戶購(gòu)買(mǎi)物品類(lèi)似的物品粘舟,這樣推薦的好處是關(guān)聯(lián)程度較大熔脂,但是由于每個(gè)物品都需要貼標(biāo)簽,因此工作量較大柑肴。
另一類(lèi)是基于用戶相似度的推薦霞揉,則是將與目標(biāo)用戶興趣相同的其他用戶購(gòu)買(mǎi)的東西推薦給目標(biāo)用戶,例如小A歷史上買(mǎi)了物品B和C晰骑,經(jīng)過(guò)算法分析适秩,發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購(gòu)買(mǎi)了物品E,于是將物品E推薦給小A硕舆。
兩類(lèi)推薦都有各自的優(yōu)缺點(diǎn)秽荞,在一般的電商應(yīng)用中,一般是兩類(lèi)混合使用岗宣。推薦算法中最有名的算法就是協(xié)同過(guò)濾算法蚂会。
7、其他
除了以上算法之外耗式,機(jī)器學(xué)習(xí)界還有其他的如高斯判別胁住,樸素貝葉斯,決策樹(shù)等等算法刊咳。但是上面列的六個(gè)算法是使用最多彪见,影響最廣,種類(lèi)最全的典型娱挨。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多余指,發(fā)展百花齊放。
下面做一個(gè)總結(jié)跷坝,按照訓(xùn)練的數(shù)據(jù)有無(wú)標(biāo)簽酵镜,可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法,但推薦算法較為特殊柴钻,既不屬于監(jiān)督學(xué)習(xí)淮韭,也不屬于非監(jiān)督學(xué)習(xí),是單獨(dú)的一類(lèi)贴届。
監(jiān)督學(xué)習(xí)算法:
線性回歸靠粪,邏輯回歸,神經(jīng)網(wǎng)絡(luò)毫蚓,SVM
無(wú)監(jiān)督學(xué)習(xí)算法:
聚類(lèi)算法占键,降維算法
特殊算法:
推薦算法
除了這些算法以外,有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)元潘。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法畔乙,而是為了解決某個(gè)子問(wèn)題而誕生的。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴娓牛糜诖蠓忍岣哂?xùn)練過(guò)程牲距。其中的代表有:梯度下降法袖订,主要運(yùn)用在線型回歸,邏輯回歸嗅虏,神經(jīng)網(wǎng)絡(luò)洛姑,推薦算法中;牛頓法皮服,主要運(yùn)用在線型回歸中楞艾;BP算法,主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中龄广;SMO算法硫眯,主要運(yùn)用在SVM中。
5.機(jī)器學(xué)習(xí)的應(yīng)用--大數(shù)據(jù)
說(shuō)完機(jī)器學(xué)習(xí)的方法择同,下面要談一談機(jī)器學(xué)習(xí)的應(yīng)用了两入。無(wú)疑,在2010年以前敲才,機(jī)器學(xué)習(xí)的應(yīng)用在某些特定領(lǐng)域發(fā)揮了巨大的作用裹纳,如車(chē)牌識(shí)別,網(wǎng)絡(luò)攻擊防范紧武,手寫(xiě)字符識(shí)別等等剃氧。但是,從2010年以后阻星,隨著大數(shù)據(jù)概念的興起朋鞍,機(jī)器學(xué)習(xí)大量的應(yīng)用都與大數(shù)據(jù)高度耦合,幾乎可以認(rèn)為大數(shù)據(jù)是機(jī)器學(xué)習(xí)應(yīng)用的最佳場(chǎng)景妥箕。
譬如滥酥,但凡你能找到的介紹大數(shù)據(jù)魔力的文章,都會(huì)說(shuō)大數(shù)據(jù)如何準(zhǔn)確準(zhǔn)確預(yù)測(cè)到了某些事畦幢。例如經(jīng)典的Google利用大數(shù)據(jù)預(yù)測(cè)了H1N1在美國(guó)某小鎮(zhèn)的爆發(fā)坎吻。
百度預(yù)測(cè)2014年世界杯,從淘汰賽到?jīng)Q賽全部預(yù)測(cè)正確呛讲。
這些實(shí)在太神奇了禾怠,那么究竟是什么原因?qū)е麓髷?shù)據(jù)具有這些魔力的呢返奉?簡(jiǎn)單來(lái)說(shuō)贝搁,就是機(jī)器學(xué)習(xí)技術(shù)。正是基于機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用芽偏,數(shù)據(jù)才能發(fā)揮其魔力雷逆。
大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值,機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù)污尉,對(duì)于大數(shù)據(jù)而言膀哲,機(jī)器學(xué)習(xí)是不可或缺的往产。相反,對(duì)于機(jī)器學(xué)習(xí)而言某宪,越多的數(shù)據(jù)會(huì)越 可能提升模型的精確性仿村,同時(shí),復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時(shí)間也迫切需要分布式計(jì)算與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)兴喂。因此蔼囊,機(jī)器學(xué)習(xí)的興盛也離不開(kāi)大數(shù)據(jù)的幫助。 大數(shù)據(jù)與機(jī)器學(xué)習(xí)兩者是互相促進(jìn)衣迷,相依相存的關(guān)系畏鼓。
機(jī)器學(xué)習(xí)與大數(shù)據(jù)緊密聯(lián)系。但是壶谒,必須清醒的認(rèn)識(shí)到云矫,大數(shù)據(jù)并不等同于機(jī)器學(xué)習(xí),同理汗菜,機(jī)器學(xué)習(xí)也不等同于大數(shù)據(jù)让禀。大數(shù)據(jù)中包含有分布式計(jì)算,內(nèi)存數(shù)據(jù)庫(kù)陨界,多維分析等等多種技術(shù)堆缘。單從分析方法來(lái)看,大數(shù)據(jù)也包含以下四種分析方法:
1.大數(shù)據(jù)普碎,小分析:即數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的OLAP分析思路吼肥,也就是多維分析思想。
2.大數(shù)據(jù)麻车,大分析:這個(gè)代表的就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)分析法缀皱。
3.流式分析:這個(gè)主要指的是事件驅(qū)動(dòng)架構(gòu)。
4.查詢分析:經(jīng)典代表是NoSQL數(shù)據(jù)庫(kù)动猬。
也就是說(shuō)啤斗,機(jī)器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已。盡管機(jī)器學(xué)習(xí)的一些結(jié)果具有很大的魔力赁咙,在某種場(chǎng)合下是大數(shù)據(jù)價(jià)值最好的說(shuō)明钮莲。但這并不代表機(jī)器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法。
機(jī)器學(xué)習(xí)與大數(shù)據(jù)的結(jié)合產(chǎn)生了巨大的價(jià)值彼水〈抻担基于機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)能夠“預(yù)測(cè)”凤覆。對(duì)人類(lèi)而言链瓦,積累的經(jīng)驗(yàn)越豐富,閱歷也廣泛,對(duì)未來(lái)的判斷越準(zhǔn)確慈俯。例如常說(shuō)的“經(jīng)驗(yàn)豐富”的人比“初出茅廬”的小伙子更有工作上的優(yōu)勢(shì)渤刃,就在于經(jīng)驗(yàn)豐富的人獲得的規(guī)律比他人更準(zhǔn)確。而在機(jī)器學(xué)習(xí)領(lǐng)域贴膘,根據(jù)著名的一個(gè)實(shí)驗(yàn)卖子,有效的證實(shí)了機(jī)器學(xué)習(xí)界一個(gè)理論:即機(jī)器學(xué)習(xí)模型的數(shù)據(jù)越多,機(jī)器學(xué)習(xí)的預(yù)測(cè)的效率就越好刑峡。見(jiàn)下圖:
通過(guò)這張圖可以看出揪胃,各種不同算法在輸入的數(shù)據(jù)量達(dá)到一定級(jí)數(shù)后,都有相近的高準(zhǔn)確度氛琢。于是誕生了機(jī)器學(xué)習(xí)界的名言:成功的機(jī)器學(xué)習(xí)應(yīng)用不是擁有最好的算法喊递,而是擁有最多的數(shù)據(jù)!
在大數(shù)據(jù)的時(shí)代阳似,有好多優(yōu)勢(shì)促使機(jī)器學(xué)習(xí)能夠應(yīng)用更廣泛骚勘。例如隨著物聯(lián)網(wǎng)和移動(dòng)設(shè)備的發(fā)展,我們擁有的數(shù)據(jù)越來(lái)越多撮奏,種類(lèi)也包括圖片俏讹、文本、視頻等非結(jié)構(gòu)化數(shù)據(jù)畜吊,這使得機(jī)器學(xué)習(xí)模型可以獲得越來(lái)越多的數(shù)據(jù)泽疆。同時(shí)大數(shù)據(jù)技術(shù)中的分布式計(jì)算Map-Reduce使得機(jī)器學(xué)習(xí)的速度越來(lái)越快,可以更方便的使用玲献。種種優(yōu)勢(shì)使得在大數(shù)據(jù)時(shí)代殉疼,機(jī)器學(xué)習(xí)的優(yōu)勢(shì)可以得到最佳的發(fā)揮。
6.機(jī)器學(xué)習(xí)的子類(lèi)--深度學(xué)習(xí)
近來(lái)捌年,機(jī)器學(xué)習(xí)的發(fā)展產(chǎn)生了一個(gè)新的方向瓢娜,即“深度學(xué)習(xí)”。
雖然深度學(xué)習(xí)這四字聽(tīng)起來(lái)頗為高大上礼预,但其理念卻非常簡(jiǎn)單眠砾,就是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)發(fā)展到了多隱藏層的情況。
在上文介紹過(guò)托酸,自從90年代以后褒颈,神經(jīng)網(wǎng)絡(luò)已經(jīng)消寂了一段時(shí)間。但是BP算法的發(fā)明人Geoffrey Hinton一直沒(méi)有放棄對(duì)神經(jīng)網(wǎng)絡(luò)的研究励堡。由于神經(jīng)網(wǎng)絡(luò)在隱藏層擴(kuò)大到兩個(gè)以上谷丸,其訓(xùn)練速度就會(huì)非常慢,因此實(shí)用性一直低于支持向量機(jī)念秧。2006年淤井,Geoffrey Hinton在科學(xué)雜志《Science》上發(fā)表了一篇文章布疼,論證了兩個(gè)觀點(diǎn):
1.多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力摊趾,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫(huà)币狠,從而有利于可視化或分類(lèi);
2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度砾层,可以通過(guò)“逐層初始化” 來(lái)有效克服漩绵。
通過(guò)這樣的發(fā)現(xiàn),不僅解決了神經(jīng)網(wǎng)絡(luò)在計(jì)算上的難度肛炮,同時(shí)也說(shuō)明了深層神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)上的優(yōu)異性止吐。從此,神經(jīng)網(wǎng)絡(luò)重新成為了機(jī)器學(xué)習(xí)界中的主流強(qiáng)大學(xué)習(xí)技術(shù)侨糟。同時(shí)碍扔,具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)被稱(chēng)為深度神經(jīng)網(wǎng)絡(luò),基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)研究稱(chēng)之為深度學(xué)習(xí)秕重。
由于深度學(xué)習(xí)的重要性質(zhì)不同,在各方面都取得極大的關(guān)注,按照時(shí)間軸排序溶耘,有以下四個(gè)標(biāo)志性事件值得一說(shuō):
2012年6月二拐,《紐約時(shí)報(bào)》披露了Google Brain項(xiàng)目,這個(gè)項(xiàng)目是由Andrew Ng和Map-Reduce發(fā)明人Jeff Dean共同主導(dǎo)凳兵,用16000個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱(chēng)為“深層神經(jīng)網(wǎng)絡(luò)”的機(jī)器學(xué)習(xí)模型百新,在語(yǔ)音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功。Andrew Ng就是文章開(kāi)始所介紹的機(jī)器學(xué)習(xí)的大牛(圖1中左者)庐扫。
2012年11月饭望,微軟在中國(guó)天津的一次活動(dòng)上公開(kāi)演示了一個(gè)全自動(dòng)的同聲傳譯系統(tǒng),講演者用英文演講形庭,后臺(tái)的計(jì)算機(jī)一氣呵成自動(dòng)完成語(yǔ)音識(shí)別杰妓、英中機(jī)器翻譯,以及中文語(yǔ)音合成碘勉,效果非常流暢巷挥,其中支撐的關(guān)鍵技術(shù)是深度學(xué)習(xí);
2013年1月验靡,在百度的年會(huì)上倍宾,創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院,其中第一個(gè)重點(diǎn)方向就是深度學(xué)習(xí)胜嗓,并為此而成立深度學(xué)習(xí)研究院(IDL)高职。
2013年4月,《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)(Breakthrough Technology)之首辞州。
文章開(kāi)頭所列的三位機(jī)器學(xué)習(xí)的大牛怔锌,不僅都是機(jī)器學(xué)習(xí)界的專(zhuān)家,更是深度學(xué)習(xí)研究領(lǐng)域的先驅(qū)。因此埃元,使他們擔(dān)任各個(gè)大型互聯(lián)網(wǎng)公司技術(shù)掌舵者的原因不僅在于他們的技術(shù)實(shí)力涝涤,更在于他們研究的領(lǐng)域是前景無(wú)限的深度學(xué)習(xí)技術(shù)。
目前業(yè)界許多的圖像識(shí)別技術(shù)與語(yǔ)音識(shí)別技術(shù)的進(jìn)步都源于深度學(xué)習(xí)的發(fā)展岛杀,除了本文開(kāi)頭所提的Cortana等語(yǔ)音助手阔拳,還包括一些圖像識(shí)別應(yīng)用,其中典型的代表就是下圖的百度識(shí)圖功能类嗤。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的子類(lèi)糊肠。基于深度學(xué)習(xí)的發(fā)展極大的促進(jìn)了機(jī)器學(xué)習(xí)的地位提高遗锣,更進(jìn)一步地货裹,推動(dòng)了業(yè)界對(duì)機(jī)器學(xué)習(xí)父類(lèi)人工智能夢(mèng)想的再次重視。
7.機(jī)器學(xué)習(xí)的父類(lèi)--人工智能
人工智能是機(jī)器學(xué)習(xí)的父類(lèi)精偿。深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的子類(lèi)泪酱。如果把三者的關(guān)系用圖來(lái)表明的話,則是下圖:
毫無(wú)疑問(wèn),人工智能(AI)是人類(lèi)所能想象的科技界最突破性的發(fā)明了拓轻,某種意義上來(lái)說(shuō)斯撮,人工智能就像游戲最終幻想的名字一樣,是人類(lèi)對(duì)于科技界的最終夢(mèng)想扶叉。從50年代提出人工智能的理念以后勿锅,科技界,產(chǎn)業(yè)界不斷在探索枣氧,研究溢十。這段時(shí)間各種小說(shuō)、電影都在以各種方式展現(xiàn)對(duì)于人工智能的想象达吞。人類(lèi)可以發(fā)明類(lèi)似于人類(lèi)的機(jī)器张弛,這是多么偉大的一種理念!但事實(shí)上酪劫,自從50年代以后吞鸭,人工智能的發(fā)展就磕磕碰碰,未有見(jiàn)到足夠震撼的科學(xué)技術(shù)的進(jìn)步覆糟。
總結(jié)起來(lái)刻剥,人工智能的發(fā)展經(jīng)歷了如下若干階段,從早期的邏輯推理滩字,到中期的專(zhuān)家系統(tǒng)造虏,這些科研進(jìn)步確實(shí)使我們離機(jī)器的智能有點(diǎn)接近了御吞,但還有一大段距離。直到機(jī)器學(xué)習(xí)誕生以后漓藕,人工智能界感覺(jué)終于找對(duì)了方向陶珠。基于機(jī)器學(xué)習(xí)的圖像識(shí)別和語(yǔ)音識(shí)別在某些垂直領(lǐng)域達(dá)到了跟人相媲美的程度撵术。機(jī)器學(xué)習(xí)使人類(lèi)第一次如此接近人工智能的夢(mèng)想背率。
事實(shí)上话瞧,如果我們把人工智能相關(guān)的技術(shù)以及其他業(yè)界的技術(shù)做一個(gè)類(lèi)比嫩与,就可以發(fā)現(xiàn)機(jī)器學(xué)習(xí)在人工智能中的重要地位不是沒(méi)有理由的。
人類(lèi)區(qū)別于其他物體交排,植物划滋,動(dòng)物的最主要區(qū)別,作者認(rèn)為是“智慧”埃篓。而智慧的最佳體現(xiàn)是什么处坪?
是計(jì)算能力么,應(yīng)該不是架专,心算速度快的人我們一般稱(chēng)之為天才同窘。是反應(yīng)能力么,也不是部脚,反應(yīng)快的人我們稱(chēng)之為靈敏想邦。
是記憶能力么,也不是委刘,記憶好的人我們一般稱(chēng)之為過(guò)目不忘丧没。
是推理能力么,這樣的人我也許會(huì)稱(chēng)他智力很高锡移,類(lèi)似“福爾摩斯”呕童,但不會(huì)稱(chēng)他擁有智慧。
是知識(shí)能力么淆珊,這樣的人我們稱(chēng)之為博聞廣夺饲,也不會(huì)稱(chēng)他擁有智慧。
想想看我們一般形容誰(shuí)有大智慧施符?圣人钞支,諸如莊子,老子等操刀。智慧是對(duì)生活的感悟烁挟,是對(duì)人生的積淀與思考,這與我們機(jī)器學(xué)習(xí)的思想何其相似骨坑?通過(guò)經(jīng)驗(yàn)獲取規(guī)律撼嗓,指導(dǎo)人生與未來(lái)柬采。沒(méi)有經(jīng)驗(yàn)就沒(méi)有智慧。
那么且警,從計(jì)算機(jī)來(lái)看粉捻,以上的種種能力都有種種技術(shù)去應(yīng)對(duì)。
例如計(jì)算能力我們有分布式計(jì)算斑芜,反應(yīng)能力我們有事件驅(qū)動(dòng)架構(gòu)肩刃,檢索能力我們有搜索引擎,知識(shí)存儲(chǔ)能力我們有數(shù)據(jù)倉(cāng)庫(kù)杏头,邏輯推理能力我們有專(zhuān)家系統(tǒng)盈包,但是,唯有對(duì)應(yīng)智慧中最顯著特征的歸納與感悟能力醇王,只有機(jī)器學(xué)習(xí)與之對(duì)應(yīng)呢燥。這也是機(jī)器學(xué)習(xí)能力最能表征智慧的根本原因。
讓我們?cè)倏匆幌聶C(jī)器人的制造寓娩,在我們具有了強(qiáng)大的計(jì)算叛氨,海量的存儲(chǔ),快速的檢索棘伴,迅速的反應(yīng)寞埠,優(yōu)秀的邏輯推理后我們?nèi)绻倥浜仙弦粋€(gè)強(qiáng)大的智慧大腦,一個(gè)真正意義上的人工智能也許就會(huì)誕生焊夸,這也是為什么說(shuō)在機(jī)器學(xué)習(xí)快速發(fā)展的現(xiàn)在仁连,人工智能可能不再是夢(mèng)想的原因。
人工智能的發(fā)展可能不僅取決于機(jī)器學(xué)習(xí)淳地,更取決于前面所介紹的深度學(xué)習(xí)怖糊,深度學(xué)習(xí)技術(shù)由于深度模擬了人類(lèi)大腦的構(gòu)成,在視覺(jué)識(shí)別與語(yǔ)音識(shí)別上顯著性的突破了原有機(jī)器學(xué)習(xí)技術(shù)的界限颇象,因此極有可能是真正實(shí)現(xiàn)人工智能夢(mèng)想的關(guān)鍵技術(shù)伍伤。無(wú)論是谷歌大腦還是百度大腦,都是通過(guò)海量層次的深度學(xué)習(xí)網(wǎng)絡(luò)所構(gòu)成的遣钳。也許借助于深度學(xué)習(xí)技術(shù)扰魂,在不遠(yuǎn)的將來(lái),一個(gè)具有人類(lèi)智能的計(jì)算機(jī)真的有可能實(shí)現(xiàn)蕴茴。
最后再說(shuō)一下題外話劝评,由于人工智能借助于深度學(xué)習(xí)技術(shù)的快速發(fā)展,已經(jīng)在某些地方引起了傳統(tǒng)技術(shù)界達(dá)人的擔(dān)憂倦淀。真實(shí)世界的“鋼鐵俠”蒋畜,特斯拉CEO馬斯克就是其中之一。最近馬斯克在參加MIT討論會(huì)時(shí)撞叽,就表達(dá)了對(duì)于人工智能的擔(dān)憂姻成〔辶洌“人工智能的研究就類(lèi)似于召喚惡魔,我們必須在某些地方加強(qiáng)注意科展【危”
盡管馬斯克的擔(dān)心有些危言聳聽(tīng),但是馬斯克的推理不無(wú)道理才睹∨枪颍“如果人工智能想要消除垃圾郵件的話,可能它最后的決定就是消滅人類(lèi)琅攘】迓”馬斯克認(rèn)為預(yù)防此類(lèi)現(xiàn)象的方法是引入政府的監(jiān)管。在這里作者的觀點(diǎn)與馬斯克類(lèi)似乎澄,在人工智能誕生之初就給其加上若干規(guī)則限制可能有效突硝,也就是不應(yīng)該使用單純的機(jī)器學(xué)習(xí)测摔,而應(yīng)該是機(jī)器學(xué)習(xí)與規(guī)則引擎等系統(tǒng)的綜合能夠較好的解決這類(lèi)問(wèn)題置济。因?yàn)槿绻麑W(xué)習(xí)沒(méi)有限制,極有可能進(jìn)入某個(gè)誤區(qū)锋八,必須要加上某些引導(dǎo)浙于。正如人類(lèi)社會(huì)中,法律就是一個(gè)最好的規(guī)則挟纱,殺人者死就是對(duì)于人類(lèi)在探索提高生產(chǎn)力時(shí)不可逾越的界限羞酗。
在這里,必須提一下這里的規(guī)則與機(jī)器學(xué)習(xí)引出的規(guī)律的不同紊服,規(guī)律不是一個(gè)嚴(yán)格意義的準(zhǔn)則檀轨,其代表的更多是概率上的指導(dǎo),而規(guī)則則是神圣不可侵犯欺嗤,不可修改的参萄。規(guī)律可以調(diào)整,但規(guī)則是不能改變的煎饼。有效的結(jié)合規(guī)律與規(guī)則的特點(diǎn)讹挎,可以引導(dǎo)出一個(gè)合理的,可控的學(xué)習(xí)型人工智能吆玖。
8.機(jī)器學(xué)習(xí)的思考--計(jì)算機(jī)的潛意識(shí)
最后筒溃,作者想談一談關(guān)于機(jī)器學(xué)習(xí)的一些思考。主要是作者在日常生活總結(jié)出來(lái)的一些感悟沾乘。
回想一下我在節(jié)1里所說(shuō)的故事怜奖,我把小Y過(guò)往跟我相約的經(jīng)歷做了一個(gè)羅列。但是這種羅列以往所有經(jīng)歷的方法只有少數(shù)人會(huì)這么做翅阵,大部分的人采用的是更直接的方法歪玲,即利用直覺(jué)尽爆。那么,直覺(jué)是什么读慎?其實(shí)直覺(jué)也是你在潛意識(shí)狀態(tài)下思考經(jīng)驗(yàn)后得出的規(guī)律漱贱。就像你通過(guò)機(jī)器學(xué)習(xí)算法,得到了一個(gè)模型夭委,那么你下次只要直接使用就行了幅狮。那么這個(gè)規(guī)律你是什么時(shí)候思考的?可能是在你無(wú)意識(shí)的情況下株灸,例如睡覺(jué)崇摄,走路等情況。這種時(shí)候慌烧,大腦其實(shí)也在默默地做一些你察覺(jué)不到的工作逐抑。
這種直覺(jué)與潛意識(shí),我把它與另一種人類(lèi)思考經(jīng)驗(yàn)的方式做了區(qū)分屹蚊。如果一個(gè)人勤于思考厕氨,例如他會(huì)每天做一個(gè)小結(jié),譬如“吾日三省吾身”汹粤,或者他經(jīng)常與同伴討論最近工作的得失命斧,那么他這種訓(xùn)練模型的方式是直接的,明意識(shí)的思考與歸納嘱兼。這樣的效果很好国葬,記憶性強(qiáng),并且更能得出有效反應(yīng)現(xiàn)實(shí)的規(guī)律芹壕。但是大部分的人可能很少做這樣的總結(jié)汇四,那么他們得出生活中規(guī)律的方法使用的就是潛意識(shí)法。
舉一個(gè)作者本人關(guān)于潛意識(shí)的例子踢涌。作者本人以前沒(méi)開(kāi)過(guò)車(chē)通孽,最近一段時(shí)間買(mǎi)了車(chē)后,天天開(kāi)車(chē)上班斯嚎。我每天都走固定的路線利虫。有趣的是,在一開(kāi)始的幾天堡僻,我非常緊張的注意著前方的路況糠惫,而現(xiàn)在我已經(jīng)在無(wú)意識(shí)中就把車(chē)開(kāi)到了目標(biāo)。這個(gè)過(guò)程中我的眼睛是注視著前方的钉疫,我的大腦是沒(méi)有思考硼讽,但是我手握著的方向盤(pán)會(huì)自動(dòng)的調(diào)整方向。也就是說(shuō)牲阁。隨著我開(kāi)車(chē)次數(shù)的增多固阁,我已經(jīng)把我開(kāi)車(chē)的動(dòng)作交給了潛意識(shí)壤躲。這是非常有趣的一件事。在這段過(guò)程中备燃,我的大腦將前方路況的圖像記錄了下來(lái)碉克,同時(shí)大腦也記憶了我轉(zhuǎn)動(dòng)方向盤(pán)的動(dòng)作。經(jīng)過(guò)大腦自己的潛意識(shí)思考并齐,最后生成的潛意識(shí)可以直接根據(jù)前方的圖像調(diào)整我手的動(dòng)作漏麦。假設(shè)我們將前方的錄像交給計(jì)算機(jī),然后讓計(jì)算機(jī)記錄與圖像對(duì)應(yīng)的駕駛員的動(dòng)作况褪。經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)撕贞,計(jì)算機(jī)生成的機(jī)器學(xué)習(xí)模型就可以進(jìn)行自動(dòng)駕駛了框产。這很神奇靡挥,不是么。其實(shí)包括Google驯妄、特斯拉在內(nèi)的自動(dòng)駕駛汽車(chē)技術(shù)的原理就是這樣食侮。
除了自動(dòng)駕駛汽車(chē)以外号涯,潛意識(shí)的思想還可以擴(kuò)展到人的交際。譬如說(shuō)服別人疙描,一個(gè)最佳的方法就是給他展示一些信息诚隙,然后讓他自己去歸納得出我們想要的結(jié)論讶隐。這就好比在闡述一個(gè)觀點(diǎn)時(shí)起胰,用一個(gè)事實(shí),或者一個(gè)故事巫延,比大段的道理要好很多效五。古往今來(lái),但凡優(yōu)秀的說(shuō)客炉峰,無(wú)不采用的是這種方法畏妖。春秋戰(zhàn)國(guó)時(shí)期,各國(guó)合縱連橫疼阔,經(jīng)常有各種說(shuō)客去跟一國(guó)之君交流戒劫,直接告訴君主該做什么,無(wú)異于自尋死路婆廊,但是跟君主講故事迅细,通過(guò)這些故事讓君主恍然大悟,就是一種正確的過(guò)程淘邻。這里面有許多杰出的代表茵典,如墨子,蘇秦等等宾舅。
基本上所有的交流過(guò)程统阿,使用故事說(shuō)明的效果都要遠(yuǎn)勝于闡述道義之類(lèi)的效果好很多彩倚。為什么用故事的方法比道理或者其他的方法好很多,這是因?yàn)樵谌顺砷L(zhǎng)的過(guò)程扶平,經(jīng)過(guò)自己的思考帆离,已經(jīng)形成了很多規(guī)律與潛意識(shí)。如果你告訴的規(guī)律與對(duì)方的不相符结澄,很有可能出于保護(hù)盯质,他們會(huì)本能的拒絕你的新規(guī)律,但是如果你跟他講一個(gè)故事概而,傳遞一些信息呼巷,輸送一些數(shù)據(jù)給他,他會(huì)思考并自我改變赎瑰。他的思考過(guò)程實(shí)際上就是機(jī)器學(xué)習(xí)的過(guò)程王悍,他把新的數(shù)據(jù)納入到他的舊有的記憶與數(shù)據(jù)中,經(jīng)過(guò)重新訓(xùn)練餐曼。如果你給出的數(shù)據(jù)的信息量非常大压储,大到調(diào)整了他的模型,那么他就會(huì)按照你希望的規(guī)律去做事源譬。有的時(shí)候集惋,他會(huì)本能的拒絕執(zhí)行這個(gè)思考過(guò)程,但是數(shù)據(jù)一旦輸入踩娘,無(wú)論他希望與否刮刑,他的大腦都會(huì)在潛意識(shí)狀態(tài)下思考,并且可能改變他的看法养渴。
如果計(jì)算機(jī)也擁有潛意識(shí)(正如本博客的名稱(chēng)一樣)雷绢,那么會(huì)怎么樣?譬如讓計(jì)算機(jī)在工作的過(guò)程中理卑,逐漸產(chǎn)生了自身的潛意識(shí)翘紊,于是甚至可以在你不需要告訴它做什么時(shí)它就會(huì)完成那件事。這是個(gè)非常有意思的設(shè)想藐唠,這里留給各位讀者去發(fā)散思考吧帆疟。
9.總結(jié)
本文首先介紹了互聯(lián)網(wǎng)界與機(jī)器學(xué)習(xí)大牛結(jié)合的趨勢(shì),以及使用機(jī)器學(xué)習(xí)的相關(guān)應(yīng)用宇立,接著以一個(gè)“等人故事”展開(kāi)對(duì)機(jī)器學(xué)習(xí)的介紹踪宠。介紹中首先是機(jī)器學(xué)習(xí)的概念與定義,然后是機(jī)器學(xué)習(xí)的相關(guān)學(xué)科泄伪,機(jī)器學(xué)習(xí)中包含的各類(lèi)學(xué)習(xí)算法殴蓬,接著介紹機(jī)器學(xué)習(xí)與大數(shù)據(jù)的關(guān)系,機(jī)器學(xué)習(xí)的新子類(lèi)深度學(xué)習(xí),最后探討了一下機(jī)器學(xué)習(xí)與人工智能發(fā)展的聯(lián)系以及機(jī)器學(xué)習(xí)與潛意識(shí)的關(guān)聯(lián)染厅。經(jīng)過(guò)本文的介紹痘绎,相信大家對(duì)機(jī)器學(xué)習(xí)技術(shù)有一定的了解,例如機(jī)器學(xué)習(xí)是什么肖粮,它的內(nèi)核思想是什么(即統(tǒng)計(jì)和歸納)孤页,通過(guò)了解機(jī)器學(xué)習(xí)與人類(lèi)思考的近似聯(lián)系可以知曉機(jī)器學(xué)習(xí)為什么具有智慧能力的原因等等。其次涩馆,本文漫談了機(jī)器學(xué)習(xí)與外延學(xué)科的關(guān)系行施,機(jī)器學(xué)習(xí)與大數(shù)據(jù)相互促進(jìn)相得益彰的聯(lián)系,機(jī)器學(xué)習(xí)界最新的深度學(xué)習(xí)的迅猛發(fā)展魂那,以及對(duì)于人類(lèi)基于機(jī)器學(xué)習(xí)開(kāi)發(fā)智能機(jī)器人的一種展望與思考蛾号,最后作者簡(jiǎn)單談了一點(diǎn)關(guān)于讓計(jì)算機(jī)擁有潛意識(shí)的設(shè)想。
機(jī)器學(xué)習(xí)是目前業(yè)界最為Amazing與火熱的一項(xiàng)技術(shù)涯雅,從網(wǎng)上的每一次淘寶的購(gòu)買(mǎi)東西鲜结,到自動(dòng)駕駛汽車(chē)技術(shù),以及網(wǎng)絡(luò)攻擊抵御系統(tǒng)等等活逆,都有機(jī)器學(xué)習(xí)的因子在內(nèi)精刷,同時(shí)機(jī)器學(xué)習(xí)也是最有可能使人類(lèi)完成AI dream的一項(xiàng)技術(shù),各種人工智能目前的應(yīng)用蔗候,如微軟小冰聊天機(jī)器人怒允,到計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,都有機(jī)器學(xué)習(xí)努力的成分锈遥。作為一名當(dāng)代的計(jì)算機(jī)領(lǐng)域的開(kāi)發(fā)或管理人員纫事,以及身處這個(gè)世界,使用者IT技術(shù)帶來(lái)便利的人們迷殿,最好都應(yīng)該了解一些機(jī)器學(xué)習(xí)的相關(guān)知識(shí)與概念儿礼,因?yàn)檫@可以幫你更好的理解為你帶來(lái)莫大便利技術(shù)的背后原理,以及讓你更好的理解當(dāng)代科技的進(jìn)程庆寺。