從我個(gè)人意愿來說呢,更想跳過這一章節(jié)少态。為什么呢城侧?因?yàn)閷?duì)我自己而言,再重溫機(jī)器學(xué)習(xí)的基本概念彼妻,意義并不大嫌佑,畢竟算法的代碼實(shí)現(xiàn)都在玩了,基本概念也是清楚的澳骤,又不用參加考試歧强,那么就更沒有必要將概念教條式的背下來了。
不過为肮,考慮到學(xué)習(xí)機(jī)器學(xué)習(xí)的還是存在一批“純白”摊册,甚至于是轉(zhuǎn)行過來的,這些概念就有似乎有必要了颊艳。記得前段時(shí)間茅特,我有個(gè)前同事,就報(bào)了一個(gè)人工智能的學(xué)習(xí)班棋枕。她的專業(yè)以及技能偏向白修,應(yīng)屬于廣告營銷領(lǐng)域,但即便是這樣的跨行幅度重斑,也因?yàn)槿斯ぶ悄艿臒衢T而被拉進(jìn)課堂學(xué)習(xí)兵睛,甚至包括編碼部分。對(duì)于她們而言,由于之前沒有接觸過基本的編程知識(shí)祖很,以及人工智能領(lǐng)域的一些專業(yè)基礎(chǔ)知識(shí)笛丙,學(xué)起來就會(huì)很累。
所以呢假颇,我想還是先來說一說基本概念吧胚鸯。
這本書里給了一個(gè)定義,一個(gè)很簡短的定義:機(jī)器學(xué)習(xí)就是把無序的數(shù)據(jù)轉(zhuǎn)換成有用的信息笨鸡。
可以說姜钳,機(jī)器學(xué)習(xí)有很多種不同的定義。吳恩達(dá)的視頻里形耗,就給出了兩個(gè)定義哥桥,我們也一并來看一下:
大家大概看下理解下就行。也就是說趟脂,機(jī)器學(xué)習(xí)是從無序的數(shù)據(jù)中泰讽,通過一定的手段方式,獲取到了有用的信息昔期,而這個(gè)過程又不是跟問題邏輯強(qiáng)相關(guān)的硬編碼已卸,是一種算法,這種算法具備通用性硼一。Tom同學(xué)給出的定義就像說相聲一樣累澡,不過其實(shí)是表達(dá)了機(jī)器學(xué)習(xí)訓(xùn)練及測試驗(yàn)證的整個(gè)過程,用來定義機(jī)器學(xué)習(xí)也無可厚非般贼,但確實(shí)不算是一個(gè)很友好愧哟、一眼就能看懂的定義。
相比之下哼蛆,反而是這本書的定義簡單易懂蕊梧,當(dāng)然也會(huì)忽略掉細(xì)節(jié)。這些細(xì)節(jié)腮介,倒是可以通過后面的學(xué)習(xí)來補(bǔ)全肥矢,所以也不用心急。大概理解了書中的定義叠洗,也已經(jīng)達(dá)到了目的甘改。
機(jī)器學(xué)習(xí)橫跨計(jì)算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科灭抑,需要多學(xué)科的專業(yè)知識(shí)十艾。其中統(tǒng)計(jì)學(xué)知識(shí)很重要,我們要為各個(gè)具體的問題建立統(tǒng)計(jì)學(xué)模型腾节。要想學(xué)好人工智能忘嫉、機(jī)器學(xué)習(xí)荤牍,就免不了要成為一名通才,啥都要懂一些榄融,因?yàn)檫@門學(xué)科確實(shí)跨度有點(diǎn)大参淫。
機(jī)器學(xué)習(xí)里救湖,又會(huì)涉及到監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)愧杯。監(jiān)督學(xué)習(xí)是你用來訓(xùn)練的樣本,本身是有標(biāo)記(正確答案)可以用來對(duì)比你用模型跑出來的結(jié)果的鞋既。這樣的話力九,就能夠利用這些結(jié)果來校準(zhǔn)模型,并且對(duì)測試數(shù)據(jù)進(jìn)行結(jié)果預(yù)測(預(yù)測結(jié)果可以分為值預(yù)測和分類預(yù)測)邑闺。而非監(jiān)督學(xué)習(xí)跌前,則是數(shù)據(jù)沒有標(biāo)記,你只是從這些數(shù)據(jù)中去識(shí)別出其結(jié)構(gòu)陡舅,從而進(jìn)行分群歸類等抵乓。
一般來說,監(jiān)督學(xué)習(xí)是主要的機(jī)器學(xué)習(xí)任務(wù)靶衍,我們運(yùn)用帶有標(biāo)記的數(shù)據(jù)灾炭,去訓(xùn)練出模型,并對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測颅眶。監(jiān)督學(xué)習(xí)的算法也更多一些蜈出,也不排除是大家的注意力都集中在這塊,導(dǎo)致算法百花齊放吧涛酗。也有大佬們探討過到底監(jiān)督學(xué)習(xí)還是非監(jiān)督學(xué)習(xí)才是人工智能的未來铡原。從直覺上來說,非監(jiān)督學(xué)習(xí)應(yīng)該更像是自然界生物智能的學(xué)習(xí)方法商叹,但就目前而言燕刻,監(jiān)督學(xué)習(xí)的成果會(huì)遠(yuǎn)大于非監(jiān)督學(xué)習(xí)。
其他的幾個(gè)概念:
訓(xùn)練樣本:即用來訓(xùn)練用的數(shù)據(jù)剖笙,含有一系列的屬性值卵洗;
訓(xùn)練集:用于訓(xùn)練機(jī)器學(xué)習(xí)算法的數(shù)據(jù)集合;
目標(biāo)變量:機(jī)器學(xué)習(xí)算法的預(yù)測結(jié)果枯途,也分為標(biāo)稱型和數(shù)值型忌怎,一般標(biāo)稱型是用來分類的,數(shù)值型是用來預(yù)測數(shù)值的酪夷;
特征(屬性):數(shù)據(jù)里的每一列榴啸,都是一項(xiàng)特征,如鳥的體重晚岭;特征分為兩種值屬性鸥印,一種是數(shù)值型,如體重XX公斤,另一種是標(biāo)稱型库说,就是在有限的集合里選一個(gè)狂鞋,如是否有腳蹼(是,否潜的,二值選擇)骚揍;
測試樣本:是用來評(píng)估算法模型是否真正可用的數(shù)據(jù),比較測試樣本預(yù)測的目標(biāo)啰挪,變量值與實(shí)際樣本類別之間的差別信不,就可以得出算法的實(shí)際精確度;
機(jī)器學(xué)習(xí)的幾大任務(wù)(其實(shí)前面也已經(jīng)講到了):
1)回歸:預(yù)測數(shù)值型數(shù)據(jù)亡呵,形成擬合曲線抽活,簡單理解就是生成一個(gè)多項(xiàng)式的擬合,最終是做數(shù)值預(yù)測(如線性回歸)锰什;回歸一般都是監(jiān)督學(xué)習(xí)下硕;
2)分類:預(yù)測標(biāo)稱型數(shù)據(jù),形成分類汁胆;但很奇怪的是邏輯回歸也帶“回歸”兩個(gè)字梭姓,實(shí)際又屬于分類;分類一般也是監(jiān)督學(xué)習(xí)沦泌;
3)聚類:將數(shù)據(jù)集合分成由類似的對(duì)象組成的多個(gè)類糊昙,算是統(tǒng)計(jì)學(xué)意義上的密度估計(jì);比如營銷上的客戶畫像分群谢谦,就可以考慮用類似的算法(在沒有標(biāo)記值的情況下對(duì)客戶群體進(jìn)行聚類释牺,再去分析為什么某些客戶會(huì)形成同一分群,尋找其“意義”)回挽;聚類一般是無監(jiān)督學(xué)習(xí)没咙;
如下是書中的一幅圖,包括了常用的算法千劈,可以了解一下:
從上面可以看到祭刚,監(jiān)督學(xué)習(xí)的算法確實(shí)會(huì)多一些。無監(jiān)督學(xué)習(xí)一般提到最多的就是K-均值墙牌。
好了涡驮,基本概念就講到這里。下一章節(jié)喜滨,將講一講開發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序的常用步驟捉捅。