1.機(jī)器學(xué)習(xí)的底層理論:
機(jī)器學(xué)習(xí)的底層理論有一些珍策,比如推理與規(guī)劃毅人、近似可計(jì)算理論吭狡、正則化、提升理論丈莺、核方法划煮、當(dāng)然還有大名鼎鼎的統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論等等。這部分內(nèi)容不是初學(xué)者學(xué)的缔俄。
一是這些理論其實(shí)是在實(shí)踐中總結(jié)的弛秋,沒(méi)有基礎(chǔ)的機(jī)器學(xué)習(xí)方法是不能明白理論的;二是這些理論需要的數(shù)學(xué)很高俐载,您那高等數(shù)學(xué)啥的就別提了蟹略,這些理論至少也得有泛函分析的一般知識(shí)、優(yōu)化理論的一般知識(shí)遏佣、矩陣?yán)碚摰囊话阒R(shí)挖炬、高等概率論、隨機(jī)分析等等的數(shù)學(xué)基礎(chǔ)状婶。三是這些理論對(duì)于大部分只是想用一下機(jī)器學(xué)習(xí)方法的人意敛,我覺(jué)得毫無(wú)意義馅巷;您要只是想用一下機(jī)器學(xué)習(xí),這些理論對(duì)您估計(jì)看過(guò)全當(dāng)娛樂(lè)草姻。
2.機(jī)器學(xué)習(xí)方法:
這部分才是初學(xué)者應(yīng)該學(xué)的令杈,也是必須學(xué)的。
1.監(jiān)督學(xué)習(xí):也就是你的數(shù)據(jù)都已經(jīng)處理的很好了碴倾,哪些數(shù)據(jù)是哪種情況都分清楚了。
2.非監(jiān)督學(xué)習(xí):你的數(shù)據(jù)太原始了掉丽,全是一堆數(shù)跌榔,都不知道哪個(gè)是哪個(gè)情況。
3.半監(jiān)督學(xué)習(xí):因?yàn)楸O(jiān)督學(xué)習(xí)效果好捶障,但是數(shù)據(jù)要求太高僧须;非監(jiān)督學(xué)習(xí)效果不咋地呀,但對(duì)數(shù)據(jù)要求低项炼;那么我們折中一下担平,先標(biāo)注一部分?jǐn)?shù)據(jù),然后用監(jiān)督學(xué)習(xí)對(duì)其他未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注锭部,如果算法產(chǎn)生的準(zhǔn)確率在某個(gè)參數(shù)以下暂论,則將這個(gè)數(shù)據(jù)給人來(lái)標(biāo)準(zhǔn)。
4.遷移學(xué)習(xí):比如我們現(xiàn)在有種方法拌禾,用在了圖書之間的相似分析上取胎,那么這個(gè)方法可不可以用在人人網(wǎng)上用戶的相關(guān)分析上呢?這就是遷移學(xué)習(xí)湃窍。
5.強(qiáng)化學(xué)習(xí):根據(jù)環(huán)境反饋進(jìn)行學(xué)習(xí)闻蛀。
6.“各種亂入學(xué)習(xí)”:其實(shí),還有很多奇葩的學(xué)習(xí)方法不是以上五種比較常見(jiàn)的學(xué)習(xí)方法您市,他們大體上都是各種奇葩的想法觉痛,加上各種有愛(ài)的數(shù)學(xué)理論推導(dǎo)而成。因?yàn)檫€不是十分的成熟茵休,所以初學(xué)者也不必太糾結(jié)這部分薪棒。
3.最常見(jiàn)的機(jī)器學(xué)習(xí)方法 = 基礎(chǔ)方法 * 拓展方法 * 應(yīng)用領(lǐng)域
(基礎(chǔ)方法)
1.關(guān)聯(lián)分析:現(xiàn)在數(shù)據(jù)是一條條的銷售記錄,我們要找出其中哪些商品經(jīng)常被一起買泽篮,這個(gè)到時(shí)候會(huì)有兩個(gè)主要方法:Apriori方法盗尸,主要就是剪枝,和他相識(shí)的有AIS和STEM帽撑,其中STEM是針對(duì)SQL語(yǔ)言使用的關(guān)聯(lián)分析算法泼各;FP-growth,主要是建立一個(gè)樹(shù)亏拉,通過(guò)這個(gè)結(jié)構(gòu)加速算法扣蜻;還有垂直關(guān)聯(lián)挖掘逆巍、數(shù)組方法。
2.決策樹(shù):有一個(gè)叫讀心術(shù)的應(yīng)用莽使,他不斷讓你提供你心中所想的人的信息锐极,進(jìn)行不斷的推演最終找到你所想的人。這個(gè)應(yīng)用看似神奇芳肌,其實(shí)說(shuō)白了用決策樹(shù)就可以大概做一個(gè)灵再。決策樹(shù)就是一顆樹(shù),樹(shù)的每個(gè)邊上都有條件亿笤,根節(jié)點(diǎn)是起始節(jié)點(diǎn)翎迁,葉節(jié)點(diǎn)是結(jié)果節(jié)點(diǎn);從根節(jié)點(diǎn)净薛,不斷的依據(jù)邊上的信息移動(dòng)到相應(yīng)的樹(shù)節(jié)點(diǎn)上汪榔,直到葉節(jié)點(diǎn),給出結(jié)果肃拜。這就是決策樹(shù)痴腌。決策樹(shù)是一大類算法,主要有ID3燃领、C4.5等等士聪。
3.感知器:還記得我剛才說(shuō)的向量空間么?每一個(gè)向量都可以表示為空間中的一個(gè)點(diǎn)柿菩,那如果我們可以找到一條直線把所有點(diǎn)分為兩部分戚嗅,一部分都是A類,另一部分都是B類枢舶。那么我們以后還有一個(gè)點(diǎn)懦胞,我們只要看他在直線的哪邊就可以直接判定他的類別。感知器是一大類算法凉泄,算法太多了躏尉,不一一枚舉。
4.支持向量機(jī):感知器的升級(jí)版后众。如果學(xué)過(guò)泛函的同學(xué)胀糜,都知道完備的內(nèi)積空間就是Hilbert空間,核方法可以在Hilbert空間上進(jìn)行蒂誉。支持向量機(jī)就是使用了間隔最大原則和核方法來(lái)對(duì)感知器進(jìn)行改進(jìn)教藻,從而得到相對(duì)好的效果。支持向量機(jī)右锨,是一大類算法寨腔。
5.反饋神經(jīng)網(wǎng)絡(luò):感知器的升級(jí)版息拜。感知器是一個(gè)線性函數(shù)素征,如果多個(gè)線性函數(shù)互相嵌套,而且使用非線性動(dòng)力提供復(fù)雜的向量空間曲面描述讥电,我們會(huì)得到比感知器更好的效果。= =轧抗!提問(wèn)支持向量機(jī)和反饋神經(jīng)網(wǎng)絡(luò)雜合是啥恩敌?
6.神經(jīng)網(wǎng)絡(luò):其實(shí)神經(jīng)網(wǎng)絡(luò)包括反饋神經(jīng)網(wǎng)絡(luò)。之所以把反饋神經(jīng)網(wǎng)絡(luò)單獨(dú)提出來(lái)横媚,是因?yàn)橛玫奶嗑琅冢宜抢^承感知器的。但是神經(jīng)網(wǎng)絡(luò)本身可是一個(gè)非常非常非常非常豐富的一大大大類算法灯蝴,而且錯(cuò)綜復(fù)雜抗碰。我嘗試分個(gè)類吧,主要有層次網(wǎng)絡(luò)绽乔、時(shí)延神經(jīng)網(wǎng)絡(luò)、耦合神經(jīng)網(wǎng)絡(luò)碳褒、自組織神經(jīng)網(wǎng)絡(luò)折砸、遞歸神經(jīng)網(wǎng)絡(luò)(和時(shí)延神經(jīng)網(wǎng)絡(luò)有點(diǎn)像,但是在連續(xù)和離散量上有些許的不同沙峻,連續(xù)可用模擬電路實(shí)現(xiàn))睦授、徑向基函數(shù)網(wǎng)絡(luò)(這個(gè)其實(shí)是正則化的網(wǎng)絡(luò),一般用的RBF網(wǎng)絡(luò)就是反饋神經(jīng)網(wǎng)絡(luò)T-正則化)摔寨、集成神經(jīng)網(wǎng)絡(luò)去枷、模糊神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機(jī)(使用退火算法的一種網(wǎng)絡(luò))是复、概率神經(jīng)網(wǎng)絡(luò)等等等等等等删顶。當(dāng)然還有神經(jīng)場(chǎng)理論,需要微分幾何的知識(shí)淑廊,屬于機(jī)器學(xué)習(xí)的基礎(chǔ)理論逗余,初學(xué)者可以無(wú)視。當(dāng)然還有人試圖設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)季惩,初學(xué)者也可以無(wú)視录粱。當(dāng)然神經(jīng)網(wǎng)絡(luò)可是很神奇的,他連PCA画拾、ICA啥繁、LDA(線性判別分析)、LDA(隱藏地理特來(lái)分布)啥的都可以用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)青抛。
- 統(tǒng)計(jì)判決方法:是依據(jù)統(tǒng)計(jì)理論設(shè)計(jì)的統(tǒng)計(jì)判決理論旗闽。其實(shí),統(tǒng)計(jì)判決是很實(shí)用的理論,而且其中包含的很多方法都在各個(gè)機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用宪睹,比如最小化最大損失愁茁、貫序判決、參數(shù)估計(jì)等等亭病。樸素貝葉斯就是其中的一個(gè)鹅很。這也是一大類算法。
8.貝葉斯網(wǎng)絡(luò):推理和規(guī)劃理論支持的一個(gè)理論罪帖。
9.序列分析方法:就是分析一個(gè)序列的學(xué)習(xí)促煮。語(yǔ)言就是一個(gè)文字的序列,所以諸如隱馬爾科夫方法啥的整袁。
10.邏輯回歸:如果你學(xué)習(xí)過(guò)生態(tài)學(xué)菠齿,你對(duì)邏輯方程和邏輯回歸就毫不陌生,其實(shí)這個(gè)和感知器是一個(gè)尿性的東西坐昙。他和隱馬爾科夫模型的學(xué)習(xí)可以用到一個(gè)叫最大熵原則绳匀。其實(shí)最大熵原則是可以在信息論下被用變分法中的柯西-拉格朗日方程推出來(lái)的,這也是Duda的《模式分類》后的一道習(xí)題炸客。
11.聚類方法:我們有一堆數(shù)據(jù)疾棵,我們想知道他們自己之間的哪些是一類。也是一大類方法痹仙,常用的有:k-均值是尔、層次聚類、密度分布聚類开仰、模型聚類拟枚、圖聚類算法(包括蟻群聚類)。
12.數(shù)據(jù)處理方法:比如主成分分析(PCA)众弓、線性判決LDA恩溅、獨(dú)立分析ICA等等。
(拓展方法)
1.在線化:因?yàn)槲覀冎牢酵蓿F(xiàn)在的數(shù)據(jù)都是不斷的來(lái)暴匠,不斷的更新。但由于數(shù)據(jù)巨大傻粘,我們不能每更新一次每窖,我們就重新計(jì)算一次,所以讓算法對(duì)增量有辦法的方法叫在線化弦悉≈系洌基礎(chǔ)方法都可以查到他們的在線化方法。
2.分布式和并行化:這個(gè)還是針對(duì)大數(shù)據(jù)稽莉,提供以上所有基礎(chǔ)方法的分布式和并行化方法瀑志。
3.修正過(guò)擬合方法:由于以上基礎(chǔ)方法中大部分都存在過(guò)擬合問(wèn)題,說(shuō)白了就是對(duì)數(shù)據(jù)中的噪聲進(jìn)行了擬合劈猪,使得學(xué)習(xí)效果變差昧甘,本來(lái)應(yīng)該得到的信息是y=x+1 , 而現(xiàn)在得到的信息是y=(x100+1)/(x99+1)+1常侦。。顯然后一種得到的太過(guò)于精密,反而效果不好了垢袱。以上大部分基礎(chǔ)方法都可以用修正過(guò)擬合的方法來(lái)修正。其中正則化就是一個(gè)比較好的方法港柜。
4.各種數(shù)學(xué)亂入的方法:沒(méi)錯(cuò)请契,你沒(méi)看錯(cuò),各種數(shù)學(xué)亂入呀夏醉。比如模糊數(shù)學(xué)亂入爽锥,產(chǎn)生一堆新方法:模糊SVM、模糊神經(jīng)網(wǎng)絡(luò)啥的畔柔。再比如比較綜合的數(shù)學(xué)亂入氯夷,商空間和粒運(yùn)算啥的。再比如李群:李群機(jī)器學(xué)習(xí)靶擦。再比如微分幾何亂入腮考,有什么流形學(xué)習(xí)。這些我覺(jué)得玄捕,看過(guò)全當(dāng)娛樂(lè)吧踩蔚。
(應(yīng)用領(lǐng)域)
1.應(yīng)用到圖,搖身一變?yōu)閳D挖掘枚粘。
2.應(yīng)用到數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中馅闽,搖身一變?yōu)閿?shù)據(jù)挖掘。
3.應(yīng)用到社交網(wǎng)絡(luò)中,搖身一變?yōu)榫W(wǎng)絡(luò)科學(xué)福也。
4.應(yīng)用到自然語(yǔ)言處理中局骤,搖身一變?yōu)榻y(tǒng)計(jì)自然語(yǔ)言處理(多有錯(cuò)誤,全當(dāng)娛樂(lè))暴凑。