蠟炬教育:機(jī)器學(xué)習(xí)的12條核心知識(shí)

機(jī)器學(xué)習(xí)算法可以通過概括示例來確定如何執(zhí)行重要任務(wù)。在手動(dòng)編程不是這樣的情況下流部,這通常是可行且成本有效的。隨著更多數(shù)據(jù)的出現(xiàn)纹坐,可以解決更加雄心勃勃的問題枝冀。因此,機(jī)器學(xué)習(xí)被廣泛應(yīng)用于計(jì)算機(jī)真誠(chéng)等領(lǐng)域耘子。然而果漾,開發(fā)成功的機(jī)器學(xué)習(xí)應(yīng)用程序需要大量的“黑色藝術(shù)”,這在教科書中很難找到谷誓。

我最近閱讀了華盛頓大學(xué)Pedro Domingos教授的一篇驚人的技術(shù)論文绒障,題為“關(guān)于機(jī)器學(xué)習(xí)的一些有用的事情。“它總結(jié)了機(jī)器學(xué)習(xí)研究人員和從業(yè)人員學(xué)到的12個(gè)關(guān)鍵經(jīng)驗(yàn)教訓(xùn)捍歪,包括要避免的陷阱户辱,要關(guān)注的重要問題以及常見問題的答案。我想在本文中分享這些課程糙臼,因?yàn)樗鼈冊(cè)诳紤]解決您的下一個(gè)機(jī)器學(xué)習(xí)問題時(shí)非常有用庐镐。

1、學(xué)習(xí) = 表示 + 評(píng)估 + 優(yōu)化

所有機(jī)器學(xué)習(xí)算法通常只包含3個(gè)組件:

表示:分類器必須以計(jì)算機(jī)可以處理的某種形式語言表示变逃。相反必逆,為學(xué)習(xí)者選擇表示等同于選擇它可能學(xué)習(xí)的分類器集。該集合稱為學(xué)習(xí)者的假設(shè)空間揽乱。如果分類器不在假設(shè)空間中末患,則無法學(xué)習(xí)。一個(gè)相關(guān)的問題是如何表示輸入锤窑,即使用哪些功能璧针。

評(píng)估:需要評(píng)估函數(shù)來區(qū)分好的分類器和壞的分類器。算法內(nèi)部使用的評(píng)估函數(shù)可能與我們希望分類器優(yōu)化的外部評(píng)估函數(shù)不同渊啰,以便于優(yōu)化探橱,并且由于下一節(jié)中討論的問題。

優(yōu)化:最后绘证,我們需要一種方法在語言中的分類器中搜索得分最高的分類器隧膏。優(yōu)化技術(shù)的選擇是學(xué)習(xí)者效率的關(guān)鍵,也有助于確定評(píng)估函數(shù)具有多個(gè)最優(yōu)值時(shí)產(chǎn)生的分類器嚷那。新學(xué)員開始使用現(xiàn)成的優(yōu)化器是很常見的胞枕,后者后來被定制設(shè)計(jì)的優(yōu)化器取代。

2魏宽、計(jì)算的概括

機(jī)器學(xué)習(xí)的基本目標(biāo)是概括超出訓(xùn)練集中的示例腐泻。這是因?yàn)榫龊酰瑹o論我們擁有多少數(shù)據(jù),我們都不太可能在測(cè)試時(shí)再次看到這些確切的示例派桩。在訓(xùn)練集上做得很好很容易构诚。機(jī)器學(xué)習(xí)初學(xué)者中最常見的錯(cuò)誤是測(cè)試訓(xùn)練數(shù)據(jù)并具有成功的假象。如果所選分類器隨后在新數(shù)據(jù)上進(jìn)行測(cè)試铆惑,則通常不會(huì)比隨機(jī)猜測(cè)更好范嘱。因此,如果您雇用某人來構(gòu)建分類器员魏,請(qǐng)務(wù)必將一些數(shù)據(jù)保留給自己并測(cè)試他們?yōu)槟峁┑姆诸惼鞒蟾颉O喾矗绻呀?jīng)被雇用來構(gòu)建分類器撕阎,那么從一開始就設(shè)置一些數(shù)據(jù)盏阶,并且僅使用它來測(cè)試最終選擇的分類器,然后在整個(gè)數(shù)據(jù)上學(xué)習(xí)最終分類器闻书。

3名斟、單獨(dú)的數(shù)據(jù)不夠

作為目標(biāo)的概括具有另一個(gè)主要結(jié)果:僅憑數(shù)據(jù)是不夠的,無論你擁有多少數(shù)據(jù)魄眉。

這似乎是令人沮喪的新聞砰盐。那么我們?cè)趺茨芟M麑W(xué)到什么呢?幸運(yùn)的是坑律,我們想要在現(xiàn)實(shí)世界中學(xué)習(xí)的功能并不是從所有數(shù)學(xué)上可能的函數(shù)集中統(tǒng)一繪制的岩梳!實(shí)際上,非常一般的假設(shè) - 如平滑性晃择,具有相似類的類似示例冀值,有限的依賴性或有限的復(fù)雜性 - 通常足以做得很好,這也是機(jī)器學(xué)習(xí)如此成功的主要原因宫屠。像演繹一樣列疗,歸納(學(xué)習(xí)者所做的)是知識(shí)杠桿:它將少量的輸入知識(shí)轉(zhuǎn)化為大量的輸出知識(shí)。歸納是一種比推論更強(qiáng)大的杠桿浪蹂,需要更少的輸入知識(shí)來產(chǎn)生有用的結(jié)果抵栈,但它仍然需要超過零輸入知識(shí)才能工作。而且坤次,與任何杠桿一樣古劲,我們投入的越多,回想起來缰猴,對(duì)學(xué)習(xí)知識(shí)的需求應(yīng)該不足為奇产艾。機(jī)器學(xué)習(xí)并不神奇;?它無法從無到有。它的作用是從更少的東西中獲得更多。與所有工程一樣闷堡,編程需要做很多工作:我們必須從頭開始構(gòu)建所有東西隘膘。學(xué)習(xí)更像是農(nóng)業(yè),讓大自然完成大部分工作缚窿。農(nóng)民將種子與營(yíng)養(yǎng)物質(zhì)結(jié)合起來種植作物棘幸。學(xué)習(xí)者將知識(shí)與數(shù)據(jù)相結(jié)合焰扳,以發(fā)展計(jì)劃倦零。

4、過度擬合有很多形式

如果我們擁有的知識(shí)和數(shù)據(jù)不足以完全確定正確的分類器怎么辦吨悍?然后我們冒著將幻覺分類器(或其中的一部分)幻覺的風(fēng)險(xiǎn)扫茅,這種分類器在現(xiàn)實(shí)中并非基礎(chǔ),并且只是在數(shù)據(jù)中編碼隨機(jī)怪癖育瓜。這個(gè)問題叫做過度擬合葫隙,是機(jī)器學(xué)習(xí)的問題。當(dāng)你的學(xué)習(xí)者輸出一個(gè)對(duì)訓(xùn)練數(shù)據(jù)100%準(zhǔn)確但對(duì)測(cè)試數(shù)據(jù)只有50%準(zhǔn)確的分類器時(shí)躏仇,實(shí)際上它可以輸出一個(gè)對(duì)兩者都準(zhǔn)確率為75%的分類器恋脚,它就會(huì)過度擬合。

機(jī)器學(xué)習(xí)中的每個(gè)人都知道過度擬合焰手,但它有多種形式糟描,并不是很明顯。理解過度擬合的一種方法是將泛化誤差分解為偏差方差书妻。偏差是學(xué)習(xí)器一直學(xué)習(xí)同樣錯(cuò)誤的傾向船响。無論真實(shí)信號(hào)如何,方差都是學(xué)習(xí)隨機(jī)事物的傾向躲履。線性學(xué)習(xí)器具有較高的偏差见间,因?yàn)楫?dāng)兩個(gè)類之間的邊界不是超平面時(shí),學(xué)習(xí)器無法誘導(dǎo)它工猜。決策樹沒有這個(gè)問題米诉,因?yàn)樗鼈兛梢源砣魏尾紶柡瘮?shù),但另一方面它們可能遭受高度變化:在同一現(xiàn)象產(chǎn)生的不同訓(xùn)練集上學(xué)習(xí)的決策樹通常是非常不同的篷帅,實(shí)際上它們應(yīng)該是相同的荒辕。

交叉驗(yàn)證可以幫助對(duì)抗過度擬合,例如通過使用它來選擇要學(xué)習(xí)的決策樹的最佳大小犹褒。但它并不是靈丹妙藥抵窒,因?yàn)槿绻覀冇盟鼇碜鎏鄥?shù)選擇,它本身就會(huì)開始過度擬合叠骑。

除了交叉驗(yàn)證之外李皇,還有許多方法可以對(duì)抗過度擬合。

最受歡迎的是為評(píng)估函數(shù)添加正則化項(xiàng)。例如掉房,這可以懲罰具有更多結(jié)構(gòu)的分類器茧跋,從而有利于較小的分類器具有較少的過度擬合空間。

另一種選擇是在添加新結(jié)構(gòu)之前執(zhí)行像卡方的統(tǒng)計(jì)顯著性檢驗(yàn)卓囚,以確定在具有和不具有該結(jié)構(gòu)的情況下類的分布是否確實(shí)不同瘾杭。當(dāng)數(shù)據(jù)非常稀缺時(shí),這些技術(shù)特別有用哪亿。然而粥烁,你應(yīng)該對(duì)特定技術(shù)“解決”過度擬合問題的說法持懷疑態(tài)度。通過陷入欠擬合(偏差)的相反誤差蝇棉,很容易避免過度擬合(方差)讨阻。

同時(shí)避免這兩者需要學(xué)習(xí)一個(gè)完美的分類器,并且事先不知道它沒有一種技術(shù)總能做到最好(沒有免費(fèi)的午餐)篡殷。

5钝吮、直覺在高維度上失敗

過度擬合后,機(jī)器學(xué)習(xí)中最大的問題是維數(shù)詛咒板辽。這個(gè)表達(dá)式是由貝爾曼于1961年創(chuàng)造的奇瘦,指的是當(dāng)輸入是高維的時(shí),許多在低維度上工作良好的算法變得難以處理劲弦。但在機(jī)器學(xué)習(xí)方面耳标,它指的更多。由于固定大小的訓(xùn)練集覆蓋了輸入空間的減少部分瓶您,因此隨著實(shí)例的維度(特征的數(shù)量)的增長(zhǎng)麻捻,正確推廣變得指數(shù)級(jí)更難。

高維度的一般問題是我們的直覺來自三維世界呀袱,通常不適用于高維度的贸毕。在高維度上,多變量高斯分布的大部分質(zhì)量并非接近均值夜赵,而是在其周圍越來越遠(yuǎn)的“殼”中;?并且大部分高維度橙色的體積在皮膚中明棍,而不是紙漿中。如果在高維超立方體中均勻分布恒定數(shù)量的示例寇僧,則超出某些維度摊腋,大多數(shù)示例更接近超立方體的面而不是其最近的鄰域。如果我們通過將其刻在超立方體中來近似超球面嘁傀,則在高維度上兴蒸,超立方體的幾乎所有體積都在超球面之外。這對(duì)于機(jī)器學(xué)習(xí)來說是個(gè)壞消息细办,其中一種類型的形狀通常由另一種形狀近似橙凳。

建立2維或3維分類器很容易;?我們可以通過視覺檢查找到不同類別的例子之間的合理前沿

但在高維度上,很難理解發(fā)生了什么岛啸。這反過來又使得設(shè)計(jì)好的分類器變得困難钓觉。天真地,人們可能會(huì)認(rèn)為收集更多功能永遠(yuǎn)不會(huì)受到傷害坚踩,因?yàn)樵谧顗牡那闆r下荡灾,他們沒有提供有關(guān)該課程的新信息。但實(shí)際上瞬铸,維度的詛咒可能會(huì)超過它們的好處批幌。

6、理論上的保證不是他們所看到的

機(jī)器學(xué)習(xí)論文充滿理論保證赴捞。最常見的類型是確保良好泛化所需的示例數(shù)量的界限逼裆。你應(yīng)該對(duì)這些保證做些什么郁稍?首先赦政,它們甚至是可能的,這是非常了不起的耀怜。歸納傳統(tǒng)上與演繹形成對(duì)比:在演繹中恢着,你可以保證結(jié)論是正確的;?在歸納中,所有投注都已關(guān)閉财破£桑或許這是幾個(gè)世紀(jì)以來的傳統(tǒng)智慧。最近幾十年的一個(gè)主要發(fā)展是認(rèn)識(shí)到事實(shí)上我們可以對(duì)歸納的結(jié)果有所保證左痢,特別是如果我們?cè)敢饨邮芨怕时WC靡羡。

我們必須小心這樣的約束意味著什么。例如俊性,它沒有說略步,如果你的學(xué)習(xí)者返回了與特定訓(xùn)練集一致的假設(shè),那么這個(gè)假設(shè)可能很好地推廣定页。所說的是趟薄,給定足夠大的訓(xùn)練集,學(xué)習(xí)器很可能會(huì)返回一個(gè)概括得很好或無法找到一致假設(shè)的假設(shè)典徊。這個(gè)界限也沒有說明如何選擇一個(gè)好的假設(shè)空間杭煎。它只告訴我們,如果假設(shè)空間包含真實(shí)的分類器卒落,則學(xué)習(xí)者輸出不良分類器的概率隨訓(xùn)練集大小而減小羡铲。如果我們縮小假設(shè)空間,則邊界會(huì)改善儡毕,但它包含真實(shí)分類器的可能性也會(huì)縮小也切。

另一種常見的理論保證類型是漸近:給定無限數(shù)據(jù),學(xué)習(xí)者可以保證輸出正確的分類器。這是令人放心的贾费,但由于其漸近保證钦购,選擇一個(gè)學(xué)習(xí)者而不是另一個(gè)學(xué)習(xí)者會(huì)很輕率。在實(shí)踐中褂萧,我們很少處于漸近狀態(tài)(也稱為“asymptopia”)押桃。并且,由于上面討論的偏差 - 方差權(quán)衡导犹,如果學(xué)習(xí)者A比給定無限數(shù)據(jù)的學(xué)習(xí)者B更好唱凯,則B通常優(yōu)于給定的有限數(shù)據(jù)。

理論保證在機(jī)器學(xué)習(xí)中的主要作用不是作為實(shí)際決策的標(biāo)準(zhǔn)谎痢,而是作為算法設(shè)計(jì)的理解和推動(dòng)力的源泉磕昼。在這方面,它們非常有用;?事實(shí)上节猿,理論與實(shí)踐的密切相互作用是機(jī)器學(xué)習(xí)多年來取得如此巨大進(jìn)步的主要原因之一票从。但需要注意的是:學(xué)習(xí)是一種復(fù)雜的現(xiàn)象,只是因?yàn)閷W(xué)習(xí)者有理論上的理由并且在實(shí)踐中工作并不意味著前者是后者的原因滨嘱。

7峰鄙、特征工程是關(guān)鍵

在一天結(jié)束時(shí),一些機(jī)器學(xué)習(xí)項(xiàng)目成功太雨,一些失敗吟榴。有什么區(qū)別?很容易囊扳,最重要的因素是使用的功能吩翻。如果您有許多獨(dú)立的功能,每個(gè)功能都與課程相關(guān)锥咸,那么學(xué)習(xí)很容易狭瞎。另一方面,如果類是功能的一個(gè)非常復(fù)雜的功能她君,您可能無法學(xué)習(xí)它脚作。通常,原始數(shù)據(jù)的形式不適合學(xué)習(xí)缔刹,但您可以從中構(gòu)建特征球涛。這通常是機(jī)器學(xué)習(xí)項(xiàng)目中的大部分工作。它通常也是最有趣的部分之一校镐,直覺亿扁,創(chuàng)造力和“黑色藝術(shù)”與技術(shù)的東西一樣重要。

初學(xué)者經(jīng)常會(huì)驚訝于機(jī)器學(xué)習(xí)項(xiàng)目在實(shí)際進(jìn)行機(jī)器學(xué)習(xí)時(shí)花費(fèi)的時(shí)間很少鸟廓。但是从祝,如果考慮收集數(shù)據(jù)襟己,集成數(shù)據(jù),清理數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理以及在功能設(shè)計(jì)中可以進(jìn)行多少試驗(yàn)和錯(cuò)誤牍陌,這是多么有意義擎浴。此外,機(jī)器學(xué)習(xí)不是構(gòu)建數(shù)據(jù)集和運(yùn)行學(xué)習(xí)器的一次性過程毒涧,而是運(yùn)行學(xué)習(xí)器贮预,分析結(jié)果,修改數(shù)據(jù) 和/或 學(xué)習(xí)器以及重復(fù)的迭代過程契讲。學(xué)習(xí)往往是最快的部分仿吞,但那是因?yàn)槲覀円呀?jīng)掌握了很好的知識(shí)!特征工程更加困難捡偏,因?yàn)樗翘囟I(lǐng)域的唤冈,而學(xué)習(xí)器可以在很大程度上是通用的。但是银伟,兩者之間沒有明顯的邊界你虹,

8、更多數(shù)據(jù)擊敗更聰明的算法

在大多數(shù)計(jì)算機(jī)科學(xué)中枣申,2個(gè)主要的有限資源是時(shí)間和記憶售葡。在機(jī)器學(xué)習(xí)中看杭,還有第三個(gè):訓(xùn)練數(shù)據(jù)忠藤。哪個(gè)瓶頸已經(jīng)從十年變?yōu)槭辍T?0世紀(jì)80年代楼雹,它往往是數(shù)據(jù)模孩。今天通常是時(shí)間≈澹可以獲得大量數(shù)據(jù)榨咐,但沒有足夠的時(shí)間來處理它,因此它未被使用谴供。這導(dǎo)致了一個(gè)悖論:盡管原則上更多的數(shù)據(jù)意味著可以學(xué)習(xí)更復(fù)雜的分類器块茁,但實(shí)際上更簡(jiǎn)單的分類器最終被使用,因?yàn)閺?fù)雜的分類器需要花費(fèi)太長(zhǎng)時(shí)間才能學(xué)習(xí)桂肌。部分答案是提出快速學(xué)習(xí)復(fù)雜分類器的方法数焊,實(shí)際上在這方面取得了顯著進(jìn)展。

使用更聰明的算法的部分原因是收益比您預(yù)期的要小崎场,對(duì)于第一個(gè)近似值佩耳,它們都做同樣的事情。當(dāng)您將表示視為不同的規(guī)則和神經(jīng)網(wǎng)絡(luò)時(shí)谭跨,這是令人驚訝的干厚。但事實(shí)上李滴,命題規(guī)則很容易編碼為神經(jīng)網(wǎng)絡(luò),其他表征之間也存在類似的關(guān)系蛮瞄。所有學(xué)習(xí)者基本上都是通過將附近的例子分組到同一個(gè)班級(jí)來工作;?關(guān)鍵區(qū)別在于“附近”的含義所坯。對(duì)于非均勻分布的數(shù)據(jù),學(xué)習(xí)者可以產(chǎn)生廣泛不同的邊界挂捅,同時(shí)仍然在重要的區(qū)域進(jìn)行相同的預(yù)測(cè)(具有大量訓(xùn)練樣例的那些包竹,因此也在哪里大多數(shù)文本示例都可能出現(xiàn))。

通常籍凝,首先嘗試最簡(jiǎn)單的學(xué)習(xí)者是有好處的(例如周瞎,邏輯回歸之前的樸素貝葉斯,支持向量機(jī)之前的k-最近鄰居)饵蒂。更復(fù)雜的學(xué)習(xí)者是誘人的声诸,但他們通常更難使用,因?yàn)樗麄冃枰嗟男o來獲得良好的結(jié)果退盯,并且因?yàn)樗麄兊膬?nèi)部更不透明)彼乌。

學(xué)習(xí)者可分為兩種主要類型:表示具有(1)固定大小的那些,如線性分類器渊迁,以及其表示(2)可隨數(shù)據(jù)一起增長(zhǎng)的那些慰照,如決策樹。固定大小的學(xué)習(xí)者只能利用如此多的數(shù)據(jù)琉朽《咀猓可變大小的學(xué)習(xí)者原則上可以在給定足夠數(shù)據(jù)的情況下學(xué)習(xí)任何函數(shù),但實(shí)際上由于算法的限制或計(jì)算成本箱叁,它們可能不會(huì)墅垮。此外,由于維度的詛咒耕漱,沒有現(xiàn)有數(shù)據(jù)量可能就足夠了算色。出于這些原因,聰明的算法 - 那些充分利用數(shù)據(jù)和計(jì)算資源的算法 - 最終會(huì)得到回報(bào)螟够,前提是您愿意付出努力灾梦。設(shè)計(jì)學(xué)習(xí)者和學(xué)習(xí)分類器之間沒有明顯的前沿;?相反,任何給定的知識(shí)都可以在學(xué)習(xí)者中編碼或從數(shù)據(jù)中學(xué)習(xí)妓笙。因此若河,機(jī)器學(xué)習(xí)項(xiàng)目往往最終成為學(xué)習(xí)器設(shè)計(jì)的重要組成部分,從業(yè)者需要掌握一些專業(yè)知識(shí)给郊。

9牡肉、學(xué)習(xí)許多模型,而不只是一個(gè)

在機(jī)器學(xué)習(xí)的早期淆九,每個(gè)人都有他們最喜歡的學(xué)習(xí)者统锤,以及一些先驗(yàn)理由相信它的優(yōu)越性毛俏。大多數(shù)努力都嘗試了很多變化并選擇了最好的變體。然后系統(tǒng)的實(shí)證比較表明饲窿,最佳學(xué)習(xí)者因應(yīng)用程序而異煌寇,并且包含許多不同學(xué)習(xí)者的系統(tǒng)開始出現(xiàn)。現(xiàn)在努力嘗試了許多學(xué)習(xí)者的許多變化逾雄,并且仍然選擇最好的學(xué)習(xí)者阀溶。但是后來研究人員注意到,如果不是選擇找到的最佳變化鸦泳,我們會(huì)結(jié)合很多變化银锻,結(jié)果會(huì)更好 - 通常要好得多 - 并且對(duì)用戶來說只需要額外的努力。

創(chuàng)建這樣的模型集合現(xiàn)在是標(biāo)準(zhǔn)的做鹰。在最簡(jiǎn)單的技術(shù)中击纬,稱為裝袋,我們只需通過重新采樣生成訓(xùn)練集的隨機(jī)變體钾麸,在每個(gè)上學(xué)習(xí)分類器更振,并通過投票組合結(jié)果。這是有效的饭尝,因?yàn)樗蟠鬁p少了方差肯腕,而只是略微增加了偏差。在提升中钥平,訓(xùn)練樣例具有權(quán)重实撒,并且這些權(quán)重是變化的,因此每個(gè)新分類器都關(guān)注于先前的分類器往往出錯(cuò)的示例帖池。在堆疊中奈惑,各個(gè)分類器的輸出成為“更高級(jí)別”學(xué)習(xí)者的輸入,該學(xué)習(xí)者將如何最好地組合它們睡汹。

存在許多其他技術(shù),趨勢(shì)是越來越大的集合寂殉。在Netflix獎(jiǎng)項(xiàng)中囚巴,來自世界各地的團(tuán)隊(duì)參與競(jìng)爭(zhēng),以構(gòu)建最佳的視頻推薦系統(tǒng)友扰。隨著比賽的進(jìn)行彤叉,團(tuán)隊(duì)發(fā)現(xiàn)他們通過將學(xué)習(xí)者與其他團(tuán)隊(duì)相結(jié)合獲得了最佳成績(jī),并且合并為越來越大的團(tuán)隊(duì)村怪。獲勝者和亞軍都是超過100名學(xué)習(xí)者的疊加合奏秽浇,兩個(gè)合奏的結(jié)合進(jìn)一步改善了結(jié)果。毫無疑問甚负,我們將來會(huì)看到更大的柬焕。

10审残、簡(jiǎn)單并不意味著準(zhǔn)確性

奧卡姆的剃刀著名地說,實(shí)體不應(yīng)該超越必要性斑举。在機(jī)器學(xué)習(xí)中搅轿,這通常意味著,給定兩個(gè)具有相同訓(xùn)練誤差的分類器富玷,兩者中較簡(jiǎn)單的可能具有最低的測(cè)試誤差璧坟。這種主張的聲稱證據(jù)經(jīng)常出現(xiàn)在文獻(xiàn)中,但實(shí)際上有許多反例赎懦,“無免費(fèi)午餐”定理意味著它不可能是真的雀鹃。

我們?cè)谏弦还?jié)中看到了一個(gè)反例:模型集合。即使在訓(xùn)練誤差達(dá)到零之后励两,通過添加分類器褐澎,增強(qiáng)系綜的泛化誤差也會(huì)繼續(xù)改善。因此伐蒋,與直覺相反工三,模型的參數(shù)數(shù)量與其過度擬合傾向之間沒有必然的聯(lián)系。

更復(fù)雜的觀點(diǎn)將復(fù)雜性等同于假設(shè)空間的大小先鱼,其基礎(chǔ)是較小的空間允許假設(shè)由較短的代碼表示俭正。上面關(guān)于理論保證的部分中的界限可能被視為暗示較短的假設(shè)更好地概括。這可以通過在我們具有先驗(yàn)偏好的空間中為假設(shè)分配較短的代碼來進(jìn)一步細(xì)化焙畔。但是將其視為準(zhǔn)確性和簡(jiǎn)單性之間權(quán)衡的“證據(jù)”是循環(huán)推理:我們假設(shè)我們更喜歡設(shè)計(jì)更簡(jiǎn)單掸读,如果它們是準(zhǔn)確的,那是因?yàn)槲覀兊钠檬菧?zhǔn)確的宏多,而不是因?yàn)榧僭O(shè)在我們選擇的表示中是“簡(jiǎn)單的”儿惫。

11、可代表性并不意味著可以學(xué)習(xí)

基本上伸但,在可變大小的學(xué)習(xí)器中使用的所有表示都具有相關(guān)的定義形式“每個(gè)函數(shù)都可以使用這種表示來表示或任意近似地接近肾请。”由此可以保證更胖,表示的粉絲經(jīng)常忽略所有其他函數(shù)铛铁。然而,僅僅因?yàn)榭梢员硎竞瘮?shù)并不意味著它可以被學(xué)習(xí)却妨。例如饵逐,標(biāo)準(zhǔn)決策樹學(xué)習(xí)者無法學(xué)習(xí)葉子多于訓(xùn)練樣例的樹木。在連續(xù)空間中彪标,使用固定的基元組表示甚至簡(jiǎn)單的函數(shù)通常需要無限數(shù)量的組件倍权。

此外,如果假設(shè)空間具有評(píng)估函數(shù)的許多局部最優(yōu)捞烟,通常情況下薄声,即使可表示当船,學(xué)習(xí)器也可能找不到真正的函數(shù)。給定有限的數(shù)據(jù)奸柬,時(shí)間和記憶生年,標(biāo)準(zhǔn)學(xué)習(xí)者只能學(xué)習(xí)所有可能功能的一小部分,并且這些子集對(duì)于具有不同表示的學(xué)習(xí)者是不同的廓奕。因此抱婉,關(guān)鍵問題不是“它能表現(xiàn)出來嗎?”桌粉,答案通常是微不足道的蒸绩,但是“可以學(xué)習(xí)嗎?”并且嘗試不同的學(xué)習(xí)者(并且可能將它們結(jié)合起來)是值得的铃肯。

12患亿、相關(guān)并不意味著因果關(guān)系

關(guān)聯(lián)并不意味著因果關(guān)系這一點(diǎn)經(jīng)常發(fā)生,以至于它可能不值得懷疑押逼。但是步藕,盡管我們討論的那種學(xué)習(xí)者只能學(xué)習(xí)相關(guān)性,但他們的結(jié)果往往被視為代表因果關(guān)系挑格。這不對(duì)嗎咙冗?如果是這樣,為什么人們這樣做呢漂彤?

通常修壕,學(xué)習(xí)預(yù)測(cè)模型的目標(biāo)是將它們用作行動(dòng)指南洞渔。如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市一起買失都,那么也許在尿布部分旁邊放啤酒會(huì)增加銷量匿级。但實(shí)際上沒有進(jìn)行實(shí)驗(yàn),很難說媳板。機(jī)器學(xué)習(xí)通常應(yīng)用于觀察數(shù)據(jù)桑腮,其中預(yù)測(cè)變量不受學(xué)習(xí)者的控制,而不是實(shí)驗(yàn)數(shù)據(jù)拷肌。一些學(xué)習(xí)算法可能會(huì)從觀測(cè)數(shù)據(jù)中提取因果信息到旦,但其適用性相當(dāng)有限。另一方面巨缘,相關(guān)性是潛在因果關(guān)系的標(biāo)志,我們可以將其作為進(jìn)一步調(diào)查的指南采呐。

結(jié)論

像任何學(xué)科一樣若锁,機(jī)器學(xué)習(xí)有很多“民間智慧”,很難獲得斧吐,但對(duì)成功至關(guān)重要又固。多明戈斯教授的論文總結(jié)了一些你需要知道的最重要的項(xiàng)目仲器。

原文:https://medium.com/cracking-the-data-science-interview/12-useful-things-to-know-about-machine-learning-c599be92c98d

關(guān)于我們:蠟炬教育

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市仰冠,隨后出現(xiàn)的幾起案子乏冀,更是在濱河造成了極大的恐慌,老刑警劉巖洋只,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辆沦,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡识虚,警方通過查閱死者的電腦和手機(jī)肢扯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來担锤,“玉大人蔚晨,你說我怎么就攤上這事「匮” “怎么了铭腕?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)多糠。 經(jīng)常有香客問我累舷,道長(zhǎng),這世上最難降的妖魔是什么熬丧? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任笋粟,我火速辦了婚禮,結(jié)果婚禮上析蝴,老公的妹妹穿的比我還像新娘害捕。我一直安慰自己,他們只是感情好闷畸,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布尝盼。 她就那樣靜靜地躺著,像睡著了一般佑菩。 火紅的嫁衣襯著肌膚如雪盾沫。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天殿漠,我揣著相機(jī)與錄音赴精,去河邊找鬼。 笑死绞幌,一個(gè)胖子當(dāng)著我的面吹牛蕾哟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼谭确,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼帘营!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起逐哈,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤芬迄,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后昂秃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體禀梳,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年械蹋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了出皇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡哗戈,死狀恐怖郊艘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唯咬,我是刑警寧澤纱注,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站胆胰,受9級(jí)特大地震影響狞贱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜀涨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一瞎嬉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧厚柳,春花似錦氧枣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碳想,卻和暖如春烧董,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胧奔。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工逊移, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人龙填。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓螟左,卻偏偏與公主長(zhǎng)得像啡浊,于是被迫代替她去往敵國(guó)和親觅够。 傳聞我的和親對(duì)象是個(gè)殘疾皇子胶背,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容

  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 3,850評(píng)論 1 10
  • 客戶定位,找出你客戶的共性喘先,在找出他們的需求钳吟,如何通過優(yōu)勢(shì)滿足他們的需求,你是通過服務(wù)精品客戶去獲利還是獲取大量的...
    原來是醬子閱讀 154評(píng)論 0 0
  • 01 前幾天一個(gè)朋友找我聊天暇番,問些考研的事情。絮絮叨叨說著思喊,以前同學(xué)里誰誰誰其貌不揚(yáng)壁酬,竟然月薪過萬,自己普通二本畢...
    欣所向之閱讀 933評(píng)論 8 11
  • 昨天恨课,2月14號(hào)舆乔,中國(guó)的情人節(jié),俗稱剂公,織女會(huì)牛郎的日子希俩,想必,這應(yīng)該是讓很多的情侶纲辽,很開心吧颜武。但對(duì)于單身狗來說,...
    小玉兔閱讀 1,143評(píng)論 0 0
  • 【正念的修習(xí)】 ——2008年中秋講于嘉興精嚴(yán)講寺 濟(jì)群法師 佛教經(jīng)論眾多拖吼,若無善知識(shí)引導(dǎo)鳞上,僅靠個(gè)人摸索,很難深入...
    媚眼看網(wǎng)事閱讀 666評(píng)論 0 1