一祝蝠、機(jī)器學(xué)習(xí)基本概念
1. 基本概念:訓(xùn)練集音诈、測(cè)試集 幻碱、特征值 、監(jiān)督學(xué)習(xí) 细溅、非監(jiān)督學(xué)習(xí) 褥傍、半監(jiān)督學(xué)習(xí) 、分類喇聊、 回歸恍风。
? ? 我們先熟悉一下這些概念,在后面的例子中會(huì)一一明確誓篱。
2. 概念的學(xué)習(xí):
????人類學(xué)習(xí)某種concept的過(guò)程:鳥(niǎo)朋贬、車(chē)、計(jì)算機(jī)等等(通過(guò)學(xué)習(xí)樣例并進(jìn)行區(qū)分學(xué)習(xí))
? ? 定義:概念的學(xué)習(xí)是指從有關(guān)某個(gè)bool函數(shù)的輸入輸出訓(xùn)練樣例中推斷出該bool函數(shù)
3. 例1:學(xué)習(xí)“享受運(yùn)動(dòng)”這一概念:
從上表可以看出窜骄,小明是否享受運(yùn)動(dòng)取決于很多個(gè)因素锦募,那么機(jī)器是如何根據(jù)這么多因素來(lái)學(xué)習(xí)判斷小明是否享受運(yùn)動(dòng)呢?我們先來(lái)看一組概念:
實(shí)例(instance):表中的每一行稱之為一個(gè)實(shí)例邻遏。待學(xué)習(xí)的概念定義在實(shí)例(instance)集合之上御滩,集合表示為X(每個(gè)實(shí)例由六個(gè)屬性表示,所有行的集合叫做集合X)
????-?x: 每個(gè)實(shí)例
????-?X: 樣例党远,所有實(shí)例的集合
目標(biāo)概念(target concept):待學(xué)習(xí)的概念或目標(biāo)函數(shù)稱為目標(biāo)概念(target concept)削解,記作c。
c(x)=1:享受運(yùn)動(dòng)沟娱,c(x)=0:不享受運(yùn)動(dòng)氛驮。c(x)也叫y。
訓(xùn)練集(training set/data)/訓(xùn)練樣例(training examples): 用來(lái)進(jìn)行訓(xùn)練济似,也就是產(chǎn)生模型或者算法的數(shù)據(jù)集矫废。
測(cè)試集:(testing set/data)/測(cè)試樣例(testing examples):用來(lái)專門(mén)進(jìn)行測(cè)試已經(jīng)學(xué)習(xí)好的模型或者算法的數(shù)據(jù)集。
特征向量:(features/feature vector):屬性的集合砰蠢,通常用一個(gè)向量來(lái)表示蓖扑,附屬于一個(gè)實(shí)例。對(duì)于每一天來(lái)說(shuō)台舱,都有六個(gè)屬性律杠,這六個(gè)值可以用一個(gè)向量來(lái)表示,稱為特征向量竞惋。對(duì)于每一個(gè)實(shí)例柜去,都有不同的特征向量。
目標(biāo)標(biāo)記(label):c(x)? 實(shí)例類別的標(biāo)記(可以理解為值(域))拆宛。
正例(positive example): 享受運(yùn)動(dòng)嗓奢。
反例(negative example):不享受運(yùn)動(dòng)。
學(xué)習(xí)目標(biāo):f: X -> Y(學(xué)習(xí)函數(shù)的關(guān)系)
我們可以看出浑厚,機(jī)器通過(guò)訓(xùn)練集來(lái)學(xué)習(xí)每個(gè)實(shí)例的特征向量股耽,總結(jié)出一定規(guī)律根盒,并建立模型或者算法,而后便可通過(guò)測(cè)試集來(lái)檢驗(yàn)?zāi)P突蛘咚惴ǖ臏?zhǔn)確度物蝙。從這個(gè)例子來(lái)說(shuō)炎滞,比如我們從100天的數(shù)據(jù)集中(包含了特征向量和label)訓(xùn)練模型或算法或函數(shù)(特征和label的關(guān)系),來(lái)預(yù)測(cè)10天的測(cè)試集(只有特征向量茬末,不知道label 的值)厂榛,最后結(jié)合實(shí)際來(lái)判斷模型或者算法的準(zhǔn)確度。
4. 例2:研究美國(guó)硅谷房?jī)r(jià)
? ? 影響房?jī)r(jià)的兩個(gè)重要因素:面積(平方米)丽惭,學(xué)區(qū)(評(píng)分1-10)
這個(gè)例子中击奶,實(shí)例是每一行,特征是面積和學(xué)區(qū)责掏,目標(biāo)label是房?jī)r(jià)柜砾。和第一個(gè)例子中,差別就在于標(biāo)記的數(shù)據(jù)類型是不一樣的换衬,這里是連續(xù)性數(shù)值的數(shù)據(jù)痰驱,而第一個(gè)例子中的標(biāo)記的數(shù)據(jù)類型是類別型。
根據(jù)這兩種例子瞳浦,ML中將目標(biāo)標(biāo)記不同的兩種問(wèn)題稱為分類(classification)問(wèn)題和回歸(regression)類型担映。
分類(classification):目標(biāo)標(biāo)記為類別型數(shù)據(jù)(category)
回歸(regression):目標(biāo)標(biāo)記為連續(xù)性數(shù)值(continuous numeric value)
5. 例3: 研究腫瘤良性、惡性與尺寸叫潦、顏色的關(guān)系
? ? 特征值:腫瘤尺寸蝇完,顏色
????標(biāo)記:良性/惡性
這個(gè)例子和之前的例子不同之處在于,我們完全不知道這些腫瘤的標(biāo)記矗蕊,我們只知道他們的顏色和尺寸短蜕,在這種情況下我們需要做一些聚類(以后的文章會(huì)提到)方面的工作,從顏色和尺寸上給它們大體上分類傻咖。而之前的例子中朋魔,我們是知道數(shù)據(jù)集當(dāng)中的label的。
所以卿操,從有無(wú)class label這個(gè)區(qū)別警检,我們可以將機(jī)器學(xué)習(xí)分為三大類:(在上篇文章提到過(guò))
監(jiān)督學(xué)習(xí):訓(xùn)練集有類別標(biāo)記
無(wú)監(jiān)督學(xué)習(xí):無(wú)類別標(biāo)記
半監(jiān)督學(xué)習(xí):有類別標(biāo)記+無(wú)類別標(biāo)記
6. 機(jī)器學(xué)習(xí)的步驟框架
? ? 6.1. 把數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集(110天 把100天作為訓(xùn)練集,把剩下10天作為測(cè)試集)硬纤。
? ? 6.2. 用訓(xùn)練集和訓(xùn)練集的特征向量來(lái)訓(xùn)練算法或模型或函數(shù)來(lái)表明特征和目標(biāo)label的關(guān)系解滓。
? ? 6.3 用學(xué)習(xí)來(lái)的算法運(yùn)用在測(cè)試集上評(píng)估算法(可能要涉及到調(diào)整參數(shù)(parameter tuning),用驗(yàn)證集(validation set))筝家。
二、深度學(xué)習(xí)介紹
1. 什么是深度學(xué)習(xí)邻辉?
深度學(xué)習(xí)是基于機(jī)器學(xué)習(xí)延伸出來(lái)的一個(gè)新的領(lǐng)域溪王,由以人大腦結(jié)構(gòu)為啟發(fā)的神經(jīng)網(wǎng)絡(luò)(NN)算法為起源加之模型結(jié)構(gòu)深度的增加發(fā)展腮鞍,并伴隨大數(shù)據(jù)和計(jì)算能力的提高而產(chǎn)生的一系列新的算法。
2. 深度學(xué)習(xí)是什么時(shí)間段發(fā)展起來(lái)的莹菱?
其概念由著名科學(xué)家Geoffrey Hinton 等人在2006年和2007年在《Sciences》等上發(fā)表的文章被提出和興起移国。
3. 深度學(xué)習(xí)能用來(lái)干什么?為什么近年來(lái)引起如此廣泛的關(guān)注道伟?
深度學(xué)習(xí)迹缀,作為ML中延伸出來(lái)的一個(gè)領(lǐng)域,被應(yīng)用在圖像處理與計(jì)算機(jī)視覺(jué)蜜徽、NLP以及語(yǔ)音識(shí)別等領(lǐng)域祝懂。自2006年至今,學(xué)術(shù)界和工業(yè)界合作在DL方面研究與應(yīng)用在以上領(lǐng)域取得了突破性的進(jìn)展拘鞋。以ImageNet為數(shù)據(jù)庫(kù)的經(jīng)典圖像中的物體識(shí)別競(jìng)賽為例砚蓬,擊敗了所有傳統(tǒng)算法,取得了前所未有的精確度盆色。
4. 深度學(xué)習(xí)目前有那些代表性的學(xué)術(shù)機(jī)構(gòu)和公司走在前沿灰蛙?人才需要如何?
學(xué)校以University of Toronto隔躲、New York University摩梧、Stanford University為代表,工業(yè)界以google宣旱、facebook和百度為代表走在深度學(xué)習(xí)研究與應(yīng)用的前沿仅父。
5. 深度學(xué)習(xí)如今和未來(lái)將對(duì)我們生活造成怎樣的影響?
目前我們使用的安卓手機(jī)中谷歌的語(yǔ)音識(shí)別响鹃、百度識(shí)圖驾霜、谷歌的圖片搜索都已經(jīng)使用到了深度學(xué)習(xí)技術(shù)。facebook的一個(gè)deepface項(xiàng)目中對(duì)人臉識(shí)別的準(zhǔn)確率(97.25%)第一次接近了人類肉眼(97.5%)买置。大數(shù)據(jù)時(shí)代粪糙,結(jié)合深度學(xué)習(xí)的發(fā)展在未來(lái)對(duì)我們生活的影響無(wú)法估量。保守而言忿项,很多目前人類從事的活動(dòng)都將因?yàn)樯疃葘W(xué)習(xí)和相關(guān)技術(shù)的發(fā)展被及其取代蓉冈,如自動(dòng)汽車(chē)駕駛,無(wú)人飛機(jī)轩触,以及更加智能的機(jī)器人等寞酿。DL的發(fā)展讓我們第一次看到并接近人工智能的終極目標(biāo)。