通過(guò)本文你可以學(xué)習(xí)到程序員初學(xué)機(jī)器學(xué)習(xí)的四種方式(其余兩種方式在下篇额湘,敬請(qǐng)期待)卿吐。這是給技術(shù)人員設(shè)計(jì)的實(shí)用方法,并以實(shí)驗(yàn)為依據(jù)锋华。大圣眾包威客平臺(tái)(www.dashengzb.cn)表示嗡官,你需要做調(diào)研并且完成實(shí)驗(yàn)才能建立自己的感性知識(shí)。
學(xué)習(xí)機(jī)器學(xué)習(xí)有很多方法毯焕,大多數(shù)人選擇從理論開(kāi)始衍腥。
如果你是個(gè)程序員,那么你已經(jīng)掌握了把問(wèn)題拆分成相應(yīng)組成部分及設(shè)計(jì)小項(xiàng)目原型的能力纳猫,這些能力能幫助你學(xué)習(xí)新的技術(shù)婆咸、類(lèi)庫(kù)和方法。這些對(duì)任何一個(gè)職業(yè)程序員來(lái)說(shuō)都是重要的能力芜辕,現(xiàn)在它們也能用在初學(xué)機(jī)器學(xué)習(xí)上尚骄。
要想有效地學(xué)習(xí)機(jī)器學(xué)習(xí)你必須學(xué)習(xí)相關(guān)理論,你可以利用你的興趣及對(duì)知識(shí)的渴望侵续,來(lái)激勵(lì)你從實(shí)際例子學(xué)起乖仇,然后再步入對(duì)算法的數(shù)學(xué)理解。
這四種方法分別是(由于篇幅關(guān)系询兴,本篇將介紹前兩種乃沙,后兩種在下篇中介紹):
學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)工具
學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集
學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)算法
實(shí)現(xiàn)一個(gè)機(jī)器學(xué)習(xí)算法
你應(yīng)該通讀一下這些方法的策略,然后選擇你覺(jué)得最適合自己的一個(gè)诗舰,有選擇性地執(zhí)行警儒。
一、學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)工具
選一個(gè)你喜歡的工具或者類(lèi)庫(kù)眶根,然后學(xué)著用好它蜀铲。
推薦你從一個(gè)自帶數(shù)據(jù)預(yù)處理工具,機(jī)器學(xué)習(xí)算法并且能呈現(xiàn)結(jié)果的工作平臺(tái)開(kāi)始學(xué)習(xí)属百。學(xué)習(xí)這樣一個(gè)工作平臺(tái)能讓你更熟悉機(jī)器學(xué)習(xí)從頭到尾的整個(gè)過(guò)程记劝,這比學(xué)習(xí)一個(gè)特定的數(shù)據(jù)處理技術(shù)或者一個(gè)機(jī)器學(xué)習(xí)算法更有價(jià)值。
或者族扰,也許你感興趣的是一個(gè)特定技術(shù)或者一類(lèi)技術(shù)厌丑。你可以利用這個(gè)機(jī)會(huì)更深入地學(xué)習(xí)一個(gè)提供這些方法的類(lèi)庫(kù)或工具,這樣渔呵,能幫助你掌握相應(yīng)的技術(shù)怒竿。
一些你可以采取的策略有:
比較一些可選的工具;
總結(jié)你選定的那個(gè)工具的能力扩氢;
閱讀并總結(jié)這個(gè)工具的文檔耕驰;
完成學(xué)習(xí)這個(gè)工具的文字或視頻教程,并且總結(jié)每個(gè)教程中你重點(diǎn)學(xué)到了什么录豺;
制作關(guān)于這個(gè)工具的功能或者特性的教程(選一些你不太了解的功能朦肘,然后寫(xiě)下得到結(jié)果的過(guò)程饭弓,或者把如何使用這個(gè)功能的過(guò)程錄個(gè)五分鐘的截屏視頻)。
一些值得考慮的工作平臺(tái)有:
R媒抠、Weka弟断、scikit-learn、waffles领舰、orange夫嗓。
二迟螺、學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集
選一個(gè)數(shù)據(jù)集冲秽,然后深入地理解它,發(fā)掘究竟哪類(lèi)算法最適合處理它矩父。
推薦你選擇一個(gè)中等大小的锉桑、內(nèi)存能放下的、可能被很多人研究過(guò)的數(shù)據(jù)集∏现辏現(xiàn)在有很多非常好的包含數(shù)據(jù)的類(lèi)庫(kù)民轴,你可以瀏覽它們并且從中選擇。你的目的是嘗試?yán)斫膺@個(gè)數(shù)據(jù)集背后的問(wèn)題球订、它的結(jié)構(gòu)后裸,以及哪些種類(lèi)的解決方法最適合這個(gè)問(wèn)題。
用一個(gè)機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)的工作平臺(tái)來(lái)研究這個(gè)數(shù)據(jù)集冒滩,這樣你能專(zhuān)心解答關(guān)于這個(gè)數(shù)據(jù)集你要研究的問(wèn)題微驶,而不是分心去學(xué)習(xí)某個(gè)特定的技術(shù)或者如何寫(xiě)代碼來(lái)實(shí)現(xiàn)它。
一些可以幫助你學(xué)習(xí)實(shí)驗(yàn)性的機(jī)器學(xué)習(xí)數(shù)據(jù)集的策略有:
清晰地描述這個(gè)數(shù)據(jù)集所呈現(xiàn)的問(wèn)題开睡;
用描述性的統(tǒng)計(jì)數(shù)據(jù)來(lái)總結(jié)數(shù)據(jù)因苹;
描述你從數(shù)據(jù)中觀察到的結(jié)構(gòu),并且提出對(duì)數(shù)據(jù)間關(guān)系的假設(shè)篇恒;
簡(jiǎn)單地在這個(gè)數(shù)據(jù)集上測(cè)試一些常用的機(jī)器學(xué)習(xí)算法扶檐,然后發(fā)掘哪些類(lèi)別的算法比其他的表現(xiàn)好;
調(diào)整表現(xiàn)好的算法的參數(shù)胁艰,然后發(fā)掘什么算法及算法參數(shù)設(shè)置在這個(gè)問(wèn)題上表現(xiàn)得好款筑。
你可以從這些包含高質(zhì)量數(shù)據(jù)集的庫(kù)中選擇:
UCIMLRepository、Kaggle腾么、data.gov醋虏。
額外有關(guān)項(xiàng)目的小貼士
這些策略的原則是讓你利用你的程序員技能開(kāi)始行動(dòng)。下面是3條幫助你調(diào)整思維模式哮翘,有助你開(kāi)始行動(dòng)的小貼士:
1.寫(xiě)下你學(xué)到的東西颈嚼。推薦你每個(gè)步驟都產(chǎn)生一個(gè)有形的勞動(dòng)成果,它可以是本子里的筆記饭寺、微博阻课、博客文章或者是開(kāi)源項(xiàng)目叫挟。每個(gè)勞動(dòng)成果都可以作為一個(gè)里程碑或錨。
2.除非項(xiàng)目的目的是寫(xiě)代碼限煞,否則不要寫(xiě)抹恳。這條不是那么顯而易見(jiàn),但卻是最能幫助你加快理解機(jī)器學(xué)習(xí)的速度的建議署驻。
3.目的是學(xué)到東西奋献,而不是產(chǎn)生獨(dú)一無(wú)二的資源。不要管是否有人讀你關(guān)于一個(gè)算法的研究旺上、教程或是筆記瓶蚂。這些都是你的觀點(diǎn),是你的勞動(dòng)成果宣吱,它們證明你現(xiàn)在掌握到了知識(shí)窃这。