"人工智能技術(shù)"這一近幾年來(lái)占有了全部互聯(lián)網(wǎng)技術(shù)江山半壁概耻,不但讓頂尖優(yōu)秀人才涌進(jìn)這方面行業(yè)鞠柄,也讓大量的平常人觸碰到,可是不得不承認(rèn)奉呛,人工智能技術(shù)是有門(mén)坎的,最先你要有比較不錯(cuò)的英語(yǔ)功底和數(shù)學(xué)課思維邏輯登馒,及其電子計(jì)算機(jī)的程序編寫(xiě)咆槽,這些看起來(lái)貌似很困難。但是隨著互聯(lián)網(wǎng)的不斷發(fā)達(dá)麦射,你會(huì)發(fā)現(xiàn)這些困難不再是那么難以逾越潜秋,網(wǎng)上會(huì)盛行著各種各樣的課程酬屉,各種各樣的資料,只要你愿意去挖掘杀饵、去尋找切距、去學(xué)習(xí)惨远。我相信這些將不再是你邁向AI的門(mén)檻。
接下來(lái)將介紹一下學(xué)習(xí)路線:
一葡幸、機(jī)器學(xué)習(xí)
有關(guān)機(jī)器學(xué)習(xí)領(lǐng)域的最佳介紹蔚叨,請(qǐng)觀看Coursera的Andrew Ng機(jī)器學(xué)習(xí)課程辙培。 它解釋了基本概念扬蕊,并讓你很好地理解最重要的算法。
有關(guān)ML算法的簡(jiǎn)要概述歇父,查看這個(gè)TutsPlus課程“Machine Learning Distilled”。
“Programming Collective Intelligence”這本書(shū)是一個(gè)很好的資源毁渗,可以學(xué)習(xí)ML 算法在Python中的實(shí)際實(shí)現(xiàn)单刁。 它需要你通過(guò)許多實(shí)踐項(xiàng)目羔飞,涵蓋所有必要的基礎(chǔ)。
這些不錯(cuò)的資源你可能也感興趣:
Perer Norvig 的Udacity Course on ML(ML Udacity 課程)
Tom Mitchell 在卡梅隆大學(xué)教授的 Another course on ML(另一門(mén)ML課程)
YouTube上的機(jī)器學(xué)習(xí)教程 mathematicalmonk
單單學(xué)習(xí)書(shū)面知識(shí)也許不夠深刻么伯,個(gè)人推薦以下網(wǎng)站去實(shí)戰(zhàn)一下學(xué)習(xí)到的東西
github開(kāi)源項(xiàng)目(機(jī)器學(xué)習(xí)100天):https://github.com/Avik-Jain/100-Days-Of-ML-Code
易學(xué)智能(機(jī)器學(xué)習(xí)100天):https://www.easyaiforum.cn/case
二卡儒、深度學(xué)習(xí)
開(kāi)始研究深度學(xué)習(xí)之前骨望,最好重溫一下大學(xué)數(shù)學(xué)。Ian Goodfellow傳奇般的“花書(shū)”《深度學(xué)習(xí)》缀磕,簡(jiǎn)明扼要的概括了大部分重要主題袜蚕。
建議大家盡可能深入地閱讀線性代數(shù)绢涡、概率、信息理論的章節(jié)凿傅。每當(dāng)讀論文遇到深度學(xué)習(xí)概念時(shí)狭归,都可以在書(shū)中找到參考文判。
Ian Goodfellow傳奇般的“花書(shū)”《深度學(xué)習(xí)》在線的版本室梅。
例如英文版在此:https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf。而中文翻譯版本在此:https://github.com/exacity/deeplearningbook-chinese
如果書(shū)本你覺(jué)得晦澀難懂赏殃,難么你可以聽(tīng)吳恩達(dá)的《深度學(xué)習(xí)專項(xiàng)系列課程(Deep Learning Specialization)》。
Coursera傳送門(mén):https://www.coursera.org/specializations/deep-learning網(wǎng)易云課堂的傳送門(mén):https://mooc.study.163.com/smartSpec/detail/1001319001.htm/
這五門(mén)課程主要講的是:
1榜揖、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)(4周)
2举哟、改善深度神經(jīng)網(wǎng)絡(luò)(3周)
3妨猩、結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目(2周)
4秽褒、卷積神經(jīng)網(wǎng)絡(luò)(4周)
5、序列模型(3周)
前三門(mén)課程涉及一般的神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)庐椒,第四扼睬、第五門(mén)課程涉及特定主題悴势。如果你打算搞視覺(jué),第四課必聽(tīng)军俊;如果你搞NLP粪躬、音頻等昔穴,第五課必聽(tīng)。但如果你需要聽(tīng)第五課泳唠,那么建議也把第四課好好聽(tīng)一下笨腥。
這里鼓勵(lì)大家一下,課程里每周的內(nèi)容脖母,實(shí)際上一兩天就能學(xué)完,所以不要被課程表嚇倒烤礁。勞逸集合鸽凶、提升效率建峭。
學(xué)到這個(gè)地步,其實(shí)就可以再去http://neuralnetworksanddeeplearning.com/凑兰,查看第三到第六章的內(nèi)容姑食,來(lái)強(qiáng)化你的概念茅坛。如果你有什么還沒(méi)搞懂的,請(qǐng)前往Olah的博客曹鸠。
以及彻桃,這時(shí)候你要開(kāi)始看深度學(xué)習(xí)的論文了晾蜘,從中學(xué)習(xí)知識(shí)。深度學(xué)習(xí)有個(gè)強(qiáng)烈的特點(diǎn)肆饶,那就是內(nèi)容都非常新驯镊,閱讀論文是跟上時(shí)代唯一的方法。不想被拋下,那么還是養(yǎng)成閱讀論文的好習(xí)慣吧洒放。
三滨砍、實(shí)戰(zhàn)與競(jìng)賽
如果你到達(dá)了這一步,恭喜你领追,你可以開(kāi)始在AI領(lǐng)域展現(xiàn)你自己了绒窑,你可以參加個(gè)中kaggle競(jìng)賽舔亭,在github上學(xué)習(xí)一些AI開(kāi)源項(xiàng)目,如果你在這些地方有所成就订雾,我想你的offer也必定不會(huì)讓你失望的洼哎。
在算法性能突飛猛進(jìn)之后沼本,是什么限制了AI技術(shù)的落地?總結(jié)起來(lái)壕探,以下幾方面是普通企業(yè)擁抱人工智能李请、程序員們轉(zhuǎn)行人工智能的攔路虎:
? ? ? 1.模型訓(xùn)練耗時(shí)長(zhǎng):當(dāng)前人工智能的核心是深度學(xué)習(xí)厉熟,它需要構(gòu)建復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)來(lái)完成各種任務(wù)。這些神經(jīng)網(wǎng)絡(luò)可能有數(shù)十億的節(jié)點(diǎn)與訓(xùn)練參數(shù)白翻。這種復(fù)雜模型的訓(xùn)練滤馍,往往需要數(shù)天甚至數(shù)月。
? ? ? 2.算力成本大:算力是AI的基礎(chǔ)槐瑞。英偉達(dá)(Nvidia)的GPU顯卡是深度學(xué)習(xí)主要的算力平臺(tái)困檩。然而那槽,以GTX、Tesla等為代表的顯卡糟趾,售價(jià)動(dòng)輒數(shù)千甚至數(shù)萬(wàn)拉讯。
? ? ? 3.學(xué)習(xí)門(mén)檻高:人工智能涉及高等數(shù)學(xué)鳖藕、概率統(tǒng)計(jì)、線性代數(shù)等院尔,又與程序設(shè)計(jì)喉誊、分布式計(jì)算、圖像處理與自然語(yǔ)言處理等密切關(guān)聯(lián)栋盹。許多人對(duì)人工智能的興趣濃厚例获,卻不知如何去學(xué)曹仗。
? ? ? 4.開(kāi)發(fā)門(mén)檻高:人工智能開(kāi)發(fā)通常在Linux,開(kāi)發(fā)環(huán)境安裝步驟多收壕、配置復(fù)雜。相關(guān)技術(shù)處于快速發(fā)展中虫埂,容易出現(xiàn)各種Bugs圃验。人才短缺、開(kāi)發(fā)環(huán)境難建等難題岖免,使AI業(yè)務(wù)難以開(kāi)展與落地照捡。
在算力共享租賃方面栗精,傳統(tǒng)上,云計(jì)算是一種主要的算力共享模式悲立。許多大公司薪夕,如Google赫悄、亞馬遜、微軟及華為姑隅、阿里倔撞、騰訊痪蝇、百度、UCloud等柔吼,均提供GPU云主機(jī)丙唧。去年Nvidia制定了一項(xiàng)政策,用于個(gè)人的顯卡培漏,不可用于云與數(shù)據(jù)中心牌柄。這兩個(gè)市場(chǎng)的顯卡,算力相近時(shí)售價(jià)差近十倍蹋宦。GPU云主機(jī)咒锻,火爆的同時(shí)惑艇,我們的感覺(jué)就是—“貴”。
另一種方式是共享主機(jī)思灌。采用共享經(jīng)濟(jì)的理念實(shí)現(xiàn)經(jīng)濟(jì)實(shí)惠恭取。主機(jī)可公司自建,也可采用P2P耗跛。用戶按需租用窃款。主機(jī)為普通PC或服務(wù)器晨继,可使用相對(duì)實(shí)惠的GTX顯卡(其實(shí)GTX1080Ti6K+的售價(jià),也是貴)蜒茄。
我們共選擇了9家相關(guān)公司:
云服務(wù):華為云餐屎、美團(tuán)云與UCloud。云服務(wù)廠家多屿聋,這里選它們?yōu)榇怼?/p>
國(guó)外共享主機(jī):FloydHub、VectorDash润讥、Vast.ai與ClusterOne。
國(guó)內(nèi)共享主機(jī):EasyAI與易學(xué)智能撮慨。
公司官網(wǎng)信息如表1所示砌溺。由于相關(guān)資料有限,描述未必完全準(zhǔn)確规伐,詳情請(qǐng)到公司官網(wǎng)了解楷力。
閑言少述,直接上表格岔留。各指標(biāo)的詳細(xì)解讀,請(qǐng)閱文后附錄
表3服務(wù)指標(biāo)比拼-2
表4算力共享服務(wù)總體感受
附錄:指標(biāo)詳解
我們采用的11項(xiàng)指標(biāo)如下:
價(jià)格:以1080Ti或算力相近的顯卡為例。
開(kāi)發(fā)環(huán)境配套:虛擬機(jī)是否預(yù)裝深度學(xué)習(xí)框架及常用軟件包
數(shù)據(jù)集配套:公開(kāi)數(shù)據(jù)集主要包括兩類进胯,一是用于學(xué)術(shù)的公開(kāi)數(shù)據(jù)集胁镐,二是各種AI競(jìng)賽的數(shù)據(jù)集诸衔。
培訓(xùn)配套:AI學(xué)習(xí)的配套教程笨农,既包括算力平臺(tái)的使用,也包括AI知識(shí)技能的學(xué)習(xí)竭宰。
討論社區(qū)配套:AI開(kāi)發(fā)所采用的各種框架、開(kāi)發(fā)包渣淳,本身就在急速發(fā)展中伴箩。可以預(yù)見(jiàn)棺蛛,AI開(kāi)發(fā)面臨的bug必然是層出不窮旁赊,一個(gè)AI學(xué)習(xí)與討論社區(qū)椅野,對(duì)于算力租賃是十分必要的配套。
分布式訓(xùn)練:加速AI算法的訓(xùn)練與執(zhí)行离福,并發(fā)是主要手段炼蛤。然而理朋,現(xiàn)在的并發(fā)方法都很復(fù)雜很不好用。方便易用的并發(fā)執(zhí)行次舌,對(duì)AI開(kāi)發(fā)者很有吸引力彼念。
用戶自有數(shù)據(jù):具體的AI業(yè)務(wù)国拇,當(dāng)然要用業(yè)務(wù)相關(guān)的數(shù)據(jù)來(lái)訓(xùn)練惯殊。支持用戶自定義數(shù)據(jù)上傳,算力平臺(tái)才能支撐各種實(shí)際業(yè)務(wù)的開(kāi)發(fā)务热。
用戶數(shù)據(jù)加密:用戶數(shù)據(jù)的隱私保護(hù),重要性不需多言捆毫。能否將私人數(shù)據(jù)保護(hù)好绩卤,也是用戶挑選算力平臺(tái)的重要依據(jù)江醇。
存儲(chǔ)與算力的可擴(kuò)展:任務(wù)的不同陶夜,所需要的數(shù)據(jù)量與計(jì)算量条辟,差別可以很大黔夭。這就要求算力平臺(tái)提供足夠的靈活性,可以讓用戶按需擴(kuò)展資源羽嫡。
主機(jī)形態(tài):共享經(jīng)濟(jì)是好東西本姥,優(yōu)點(diǎn)是實(shí)惠,缺點(diǎn)是可靠性可用性的損失厂僧。一種形式是公司自建算力平臺(tái)扣草,分時(shí)租給不同用戶了牛;還有一種徹底的共享——P2P颜屠,提供主機(jī)的也是散落各地的普通用戶,它的可靠性要差一些鹰祸。
遠(yuǎn)程控制調(diào)節(jié):立即在遠(yuǎn)程控制服務(wù)器程序編寫(xiě)并不方便甫窟。一些IDE早已適用遠(yuǎn)程控制調(diào)節(jié)。遠(yuǎn)程控制調(diào)節(jié)必須遠(yuǎn)程控制服務(wù)器開(kāi)啟相對(duì)的端口號(hào)與服務(wù)項(xiàng)目蛙婴,當(dāng)?shù)剡€必須開(kāi)展配備粗井。盡管工藝流程繁雜,但對(duì)客戶來(lái)講耘擂,感受非常好秩霍。
部分內(nèi)容來(lái)自知乎、CSDN等颠悬,歡迎大家在底下交流關(guān)于AI的問(wèn)題?返俊B撂酢!