什么是機(jī)器學(xué)習(xí)?
第一個(gè)機(jī)器學(xué)習(xí)的定義來(lái)自于Arthur Samuel嗓化,他定義機(jī)器學(xué)習(xí)為:在不直接針對(duì)問(wèn)題進(jìn)行編程的情況下撩鹿,賦予計(jì)算機(jī)學(xué)習(xí)能力的一個(gè)研究領(lǐng)域睡扬。
我個(gè)人來(lái)講更傾向于第二種定義方式盟蚣,我覺(jué)得第二種定義方式更容易去理解,是由CMU的Tom MItchell提出:對(duì)于某類任務(wù)T和性能度量P卖怜,如果計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善屎开,那么就稱這個(gè)計(jì)算機(jī)程序從經(jīng)驗(yàn)E學(xué)習(xí)。
簡(jiǎn)單的解釋一下任務(wù)T韧涨、性能度量P和經(jīng)驗(yàn)E。前段時(shí)間熱度非常高的AlphaGo Zero想必大家都有所了解侮繁,它通過(guò)與自身的棋局對(duì)弈來(lái)進(jìn)行學(xué)習(xí)虑粥,之后在對(duì)戰(zhàn)中戰(zhàn)勝諸多高手。實(shí)際上在這個(gè)學(xué)習(xí)的過(guò)程中宪哩,經(jīng)驗(yàn)E就是AlphaGo Zero成千上萬(wàn)次的自我練習(xí)娩贷,任務(wù)T就是下棋,而性能度量值P锁孟,就是它在與其他人對(duì)戰(zhàn)時(shí)獲勝的概率彬祖。接下來(lái)詳細(xì)解釋涉及到的概念
任務(wù)T
通常機(jī)器學(xué)習(xí)任務(wù)定義為機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)該如何處理樣本。樣本是指我們從某些希望機(jī)器學(xué)習(xí)系統(tǒng)處理的對(duì)象或事件中收集到的已經(jīng)量化的特征的集合品抽。我們通常會(huì)將樣本表示成一個(gè)向量
舉個(gè)例子突倍。影響房?jī)r(jià)的因素有面積,位置等盆昙,在本例中的每個(gè)樣本是指每一套房子的面積羽历、位置和房?jī)r(jià),而在這其中兩個(gè)影響因素面積和位置都是該房子具有的特征淡喜。后面還會(huì)繼續(xù)細(xì)說(shuō)這個(gè)問(wèn)題秕磷。(關(guān)于基本術(shù)語(yǔ)的解釋,在此強(qiáng)推周志華老師的《機(jī)器學(xué)習(xí)》炼团,P2-P3解釋的很詳細(xì)且通俗易懂)
機(jī)器學(xué)習(xí)可以解決很多類型的任務(wù)澎嚣,比如分類疏尿、回歸、機(jī)器翻譯和缺失值填補(bǔ)等币叹,在此不多贅述润歉,如果感興趣可以通過(guò)其他資料了解。
性能度量P
為了評(píng)估機(jī)器學(xué)習(xí)算法的能力颈抚,我們必須設(shè)計(jì)其性能的定量度量踩衩,通常性能度量P是特定于系統(tǒng)執(zhí)行的任務(wù)T而言的。對(duì)于分類等任務(wù)贩汉,我們通常度量模型的準(zhǔn)確率驱富。準(zhǔn)確率是指該模型輸出正確結(jié)果的樣本比率。我們也可以通過(guò)錯(cuò)誤率得到相同的信息匹舞。錯(cuò)誤率是指該模型輸出錯(cuò)誤結(jié)果的樣本比率褐鸥。
關(guān)于具體的評(píng)估方法,后續(xù)還有文章對(duì)其進(jìn)行詳細(xì)講解赐稽。
經(jīng)驗(yàn)E
根據(jù)學(xué)習(xí)過(guò)程中的不同經(jīng)驗(yàn)叫榕,機(jī)器學(xué)習(xí)算法可以大致分類為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)算法訓(xùn)練含有很多特征的數(shù)據(jù)集姊舵,不過(guò)數(shù)據(jù)集中的樣本都有一個(gè)標(biāo)簽晰绎。例如,kaggle上著名的問(wèn)題“貓狗大戰(zhàn)”括丁,在數(shù)據(jù)集中注明了每個(gè)圖像分別是貓還是狗荞下,監(jiān)督學(xué)習(xí)算法通過(guò)研究測(cè)試集,學(xué)習(xí)如何根據(jù)訓(xùn)練集中提取來(lái)的特征來(lái)將測(cè)試集的圖片分為貓和狗兩類史飞。
簡(jiǎn)單說(shuō)監(jiān)督學(xué)習(xí)的基本思想就是尖昏,數(shù)據(jù)集中的每個(gè)樣本都有相應(yīng)的“正確答案”,再根據(jù)這些樣本對(duì)其他樣本進(jìn)行預(yù)測(cè)构资。
無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)算法訓(xùn)練含有很多特征的數(shù)據(jù)集抽诉,然后學(xué)習(xí)出這個(gè)數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)。聚類算法是典型的無(wú)監(jiān)督學(xué)習(xí)算法吐绵。不同于監(jiān)督學(xué)習(xí)掸鹅,無(wú)監(jiān)督學(xué)習(xí)中沒(méi)有任何的標(biāo)簽。我們預(yù)先不知道樣本應(yīng)該屬于哪一類拦赠,通過(guò)學(xué)習(xí)數(shù)據(jù)集的特征巍沙,我們自行將數(shù)據(jù)集分成若干類,將每個(gè)樣本歸到某一類中荷鼠。
寫(xiě)在后面
本文是對(duì)機(jī)器學(xué)習(xí)的定義做了一個(gè)最基本的解釋句携,算是為我后續(xù)的總結(jié)開(kāi)了一個(gè)頭吧。鑒于本人水平有限允乐,所接觸的都是通過(guò)自學(xué)矮嫉,入門(mén)時(shí)間短削咆,甚至說(shuō)還沒(méi)能入門(mén)。蠢笋。拨齐。文中如有出現(xiàn)錯(cuò)誤,歡迎大家指正昨寞!