前些天完成了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》這本書的學(xué)習(xí),也利用 Python3 實(shí)現(xiàn)了各個(gè)章節(jié)的代碼,對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)方法有了更進(jìn)一步的了解,這里做一個(gè)總結(jié)。
代碼傳送門:
https://github.com/xyxxmb/Machine-Learning-In-Action
目錄
第一部分:分類
【Ch1】機(jī)器學(xué)習(xí)基礎(chǔ)
【Ch2】k - 近鄰算法
【Ch3】決策樹
【Ch4】基于概率論的分類方法:樸素貝葉斯
【Ch5】Logistic 回歸
【Ch6】支持向量機(jī)
【Ch7】利用 AdaBoost 元算法提高分類性能
第二部分:利用回歸預(yù)測(cè)數(shù)值型數(shù)據(jù)
【Ch8】預(yù)測(cè)數(shù)值型數(shù)據(jù):回歸
【Ch9】樹回歸
第三部分:無監(jiān)督學(xué)習(xí)
【Ch10】利用 K-均值聚類算法對(duì)未標(biāo)注數(shù)據(jù)分組
【Ch11】基于 Apriori 算法進(jìn)行關(guān)聯(lián)分析
【Ch12】使用 FP-growth 算法來高效發(fā)現(xiàn)頻繁項(xiàng)集
第四部分:其他工具
【Ch13】利用 PCA 來簡(jiǎn)化數(shù)據(jù)
【Ch14】利用 SVD 簡(jiǎn)化數(shù)據(jù)
【Ch15】大數(shù)據(jù)與 MapReduce
補(bǔ)充:
【神經(jīng)網(wǎng)絡(luò)】
Ch1:機(jī)器學(xué)習(xí)基礎(chǔ)
監(jiān)督學(xué)習(xí)(分類全景、回歸);無監(jiān)督學(xué)習(xí)(聚類牵囤、密度估計(jì))
Ch2:k - 近鄰算法
簡(jiǎn)單來說爸黄,k - 近鄰算法采用測(cè)量不同特征值之間的距離的方法進(jìn)行分類。它是一種基于實(shí)例的學(xué)習(xí)奔浅,使用算法時(shí)必須有接近實(shí)際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù)馆纳。
優(yōu)點(diǎn):
- 精度高,對(duì)異常值不敏感汹桦,無數(shù)據(jù)輸入假定鲁驶;
- KNN 是一種在線技術(shù),新數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必進(jìn)行重新訓(xùn)練舞骆;
- KNN 理論簡(jiǎn)單钥弯,容易實(shí)現(xiàn)径荔。
缺點(diǎn):
- 對(duì)于樣本容量大的數(shù)據(jù)集計(jì)算量比較大,即計(jì)算復(fù)雜度高脆霎;
- 必須保存全部數(shù)據(jù)集总处,即空間復(fù)雜度高;
- KNN 每一次分類都會(huì)重新進(jìn)行一次全局運(yùn)算睛蛛;
- 樣本不平衡時(shí)鹦马,預(yù)測(cè)偏差比較大。如:某一類的樣本比較少忆肾,而其它類樣本比較多荸频;
- K 值大小的選擇;
- KNN 無法給出基礎(chǔ)結(jié)構(gòu)信息客冈,無法知曉平均實(shí)例樣本與典型實(shí)例樣本具有什么特征旭从,即無法給出數(shù)據(jù)的內(nèi)在含義。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型场仲。
應(yīng)用領(lǐng)域: 文本分類和悦;模式識(shí)別;聚類分析渠缕;多分類領(lǐng)域鸽素。
使用方法:
Ch3:決策樹
決策樹分類器就像帶有終止塊的流程圖,終止塊表示分類結(jié)果褐健。開始處理數(shù)據(jù)時(shí)付鹿,首先需要測(cè)量集合中數(shù)據(jù)的不一致性澜汤,也就是熵(反映數(shù)據(jù)的無序程度)蚜迅,然后尋找最優(yōu)方案劃分?jǐn)?shù)據(jù)集(選取信息增益(熵)最大的特征),直到數(shù)據(jù)集中的所有數(shù)據(jù)屬于同一分類俊抵。構(gòu)建決策樹時(shí)谁不,采用遞歸的方法將數(shù)據(jù)集轉(zhuǎn)化為決策樹。
優(yōu)點(diǎn):
- 決策樹易于理解和解釋徽诲,可以可視化分析刹帕,容易提取出規(guī)則;
- 計(jì)算復(fù)雜度不高谎替,對(duì)中間值的缺失不敏感偷溺,可以處理不相關(guān)特征數(shù)據(jù);
- 測(cè)試數(shù)據(jù)集時(shí)钱贯,運(yùn)行速度比較快挫掏;
- 決策樹可以很好的擴(kuò)展到大型數(shù)據(jù)庫中,同時(shí)它的大小獨(dú)立于數(shù)據(jù)庫大小秩命。
缺點(diǎn):
- 容易出現(xiàn)過擬合問題尉共。
- 對(duì)缺失數(shù)據(jù)處理比較困難褒傅。
- 忽略數(shù)據(jù)集中屬性的相互關(guān)聯(lián)。
- ID3 算法計(jì)算信息增益時(shí)結(jié)果偏向數(shù)值比較多的特征袄友。
適用數(shù)據(jù)類型: 標(biāo)稱型和數(shù)值型殿托。
改進(jìn)措施(主要解決過擬合問題):
- 對(duì)決策樹進(jìn)行剪枝,可以采用交叉驗(yàn)證法和正則化的方法剧蚣;
- 使用基于決策樹的 combination 算法支竹,如 Bagging,Random Forest 等鸠按。
決策樹流行算法: ID3唾戚、C4.5、CART
應(yīng)用領(lǐng)域: 企業(yè)管理實(shí)踐待诅,企業(yè)投資決策叹坦,由于決策樹很好的分析能力,在決策過程應(yīng)用較多卑雁。
使用方法:
總結(jié):Ch2 和 Ch3 都是確定的分類算法募书,數(shù)據(jù)實(shí)例最終會(huì)被明確的劃分到某個(gè)分類當(dāng)中。
Ch4:基于概率論的分類方法:樸素貝葉斯
使用概率测蹲,提供一種利用已知值來估計(jì)未知概率的方法莹捡。通過特征間的獨(dú)立性假設(shè)(樸素一詞的由來),降低對(duì)數(shù)據(jù)量的要求扣甲。
優(yōu)點(diǎn):
- 對(duì)大數(shù)量訓(xùn)練和查詢時(shí)具有較高的速度篮赢。即使使用超大規(guī)模的訓(xùn)練集,針對(duì)每個(gè)項(xiàng)目通常也只會(huì)有相對(duì)較少的特征數(shù)琉挖,并且對(duì)項(xiàng)目的訓(xùn)練和分類也僅僅是特征概率的數(shù)學(xué)運(yùn)算而已启泣;
- 支持增量式運(yùn)算,即可以實(shí)時(shí)的對(duì)新增的樣本進(jìn)行訓(xùn)練示辈;
- 樸素貝葉斯對(duì)結(jié)果解釋容易理解寥茫;
- 對(duì)數(shù)據(jù)較少的情況下仍然有效;
- 可以處理多類別問題矾麻。
缺點(diǎn):
- 因?yàn)橐獙⑽谋巨D(zhuǎn)化為詞向量(文檔中的每個(gè)詞在詞庫中只表示出現(xiàn)與不出現(xiàn)纱耻,即 [0,1,1,0,0,1],如果要表示一個(gè)詞出現(xiàn)了多次险耀,需要用到詞袋模型弄喘,即 [0,1,3,2,0,0,2]),因此對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感甩牺;
- 由于使用了樣本屬性獨(dú)立性的假設(shè)蘑志,所以如果樣本屬性有關(guān)聯(lián)時(shí)其效果不好。
適用數(shù)據(jù)類型: 標(biāo)稱型。
改進(jìn)措施:
- 下溢出問題:對(duì)概率取對(duì)數(shù)卖漫;
- 詞袋模型在解決文檔分類問題上比詞集模型好费尽;
- 移除提用詞(對(duì)分類基本上沒有幫助的詞,如助詞羊始、語氣詞等)旱幼。
應(yīng)用領(lǐng)域: 欺詐檢測(cè);一封電子郵件是否是垃圾郵件突委;一篇文章應(yīng)該分到科技柏卤、政治,還是體育類匀油;一段文字表達(dá)的是積極的情緒還是消極的情緒缘缚;人臉識(shí)別等。
使用方法:
Ch5:Logistic 回歸
尋找一個(gè)非線性函數(shù) Sigmoid 的最佳擬合參數(shù)敌蚜,求解過程可以由最優(yōu)化算法(如梯度上升或隨機(jī)梯度上升(占用更少資源桥滨,在線學(xué)習(xí))) 來完成。
優(yōu)點(diǎn): 計(jì)算代價(jià)不高弛车,易于理解和實(shí)現(xiàn)齐媒。
缺點(diǎn):
- 容易產(chǎn)生欠擬合;
- 分類精度可能不高纷跛。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型喻括。
改進(jìn)措施:
用隨機(jī)梯度上升訓(xùn)練算法代替梯度上升訓(xùn)練算法,實(shí)現(xiàn)在線學(xué)習(xí)贫奠。
應(yīng)用領(lǐng)域:
- 用于二分類領(lǐng)域唬血,可以得出概率值,適用于根據(jù)分類概率排名的領(lǐng)域唤崭,如搜索排名等拷恨;
- Logistic 回歸的擴(kuò)展 softmax 可以應(yīng)用于多分類領(lǐng)域,如手寫字識(shí)別等浩姥;
- 信用評(píng)估挑随;
- 測(cè)量市場(chǎng)營(yíng)銷的成功度;
- 預(yù)測(cè)某個(gè)產(chǎn)品的收益勒叠;
- 特定的某天是否會(huì)發(fā)生地震。
使用方法:
Ch6:支持向量機(jī)
一種二值決策分類“機(jī)”膏孟,泛化錯(cuò)誤率低和較好的推廣性使其被認(rèn)為是監(jiān)督學(xué)習(xí)中最好的定式算法眯分。它試圖求解一個(gè)二次優(yōu)化問題來最大化分類間隔。支持向量機(jī)采用 SMO 算法每次只優(yōu)化兩個(gè) alpha 值來加快 SVM 的訓(xùn)練速度柒桑。核方法(或核技巧)會(huì)將數(shù)據(jù)(有時(shí)是非線性數(shù)據(jù))從一個(gè)低維空間映射到一個(gè)高維空間弊决,將一個(gè)在低維空間中的非線性問題轉(zhuǎn)化為在高維空間的線性問題,如徑向基函數(shù)(度量?jī)蓚€(gè)向量距離的核函數(shù))。
優(yōu)點(diǎn):
- 解決小樣本下機(jī)器學(xué)習(xí)問題飘诗;
- 解決非線性問題与倡;
- 無局部極小值問題(相對(duì)于神經(jīng)網(wǎng)絡(luò)等算法);
- 可以很好的處理高維數(shù)據(jù)集昆稿,計(jì)算開銷不大纺座,結(jié)果易解釋;
- 泛化能力比較強(qiáng)溉潭。
缺點(diǎn):
- 對(duì)于核函數(shù)的高維映射解釋力不強(qiáng)净响,尤其是徑向基函數(shù);
- 對(duì)參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感喳瓣,原始分類器不加修改僅適用于處理二類問題馋贤;
- 對(duì)缺失數(shù)據(jù)敏感。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型畏陕。
應(yīng)用領(lǐng)域: 文本分類配乓、圖像識(shí)別、主要二分類領(lǐng)域惠毁。
使用方法:
Ch7:利用 AdaBoost 元算法提高分類性能
通過組合多個(gè)分類器(可以不同)的分類結(jié)果扰付,獲得了比簡(jiǎn)單的分類器更好的效果。選擇不同的分類器可以緩解同一分類器可能放大的過擬合問題仁讨。
有三種集成方法:Bagging羽莺、Boosting 和 Random Forset。Bagging
通過隨機(jī)抽樣 S 次(有放回的抽樣)洞豁,得到 S 個(gè)與原數(shù)據(jù)集大小相同的數(shù)據(jù)集盐固,作用到 S 個(gè)分類器上,最后根據(jù)投票決定分到哪一個(gè)類丈挟;Boosting 在 Bagging 上更進(jìn)一步刁卜,它在數(shù)據(jù)集上順序應(yīng)用了多個(gè)不同的分類器。
Boosting 中最流行的的一個(gè)算法是 AdaBoost曙咽,以弱學(xué)習(xí)器作為基分類器蛔趴,并且輸入數(shù)據(jù),使其通過權(quán)重向量進(jìn)行加權(quán)例朱。在第一次迭代中孝情,所有數(shù)據(jù)等權(quán)重,在后續(xù)迭代中洒嗤,前次迭代中分錯(cuò)的數(shù)據(jù)的權(quán)值增大箫荡,這種針對(duì)錯(cuò)誤的調(diào)節(jié)能力正是 AdaBoost 的長(zhǎng)處。
優(yōu)點(diǎn):
- 很好的利用了弱分類器進(jìn)行級(jí)聯(lián)渔隶;
- 可以將不同的分類算法作為弱分類器羔挡;
- AdaBoost 具有很高的精度洁奈;
- 相對(duì)于 Bagging 算法和 Random Forest 算法,AdaBoost 充分考慮的每個(gè)分類器的權(quán)重绞灼;
- 泛化錯(cuò)誤率低利术,易編碼,可以應(yīng)用在大部分分類器上低矮,無參數(shù)調(diào)整印叁。
缺點(diǎn):
- AdaBoost 迭代次數(shù)也就是弱分類器數(shù)目不太好設(shè)定,可以使用交叉驗(yàn)證來進(jìn)行確定商佛;
- 數(shù)據(jù)不平衡導(dǎo)致分類精度下降喉钢;
- 訓(xùn)練比較耗時(shí),每次重新選擇當(dāng)前分類器最好切分點(diǎn)良姆;
- 對(duì)離散點(diǎn)敏感肠虽。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型。
應(yīng)用領(lǐng)域:模式識(shí)別玛追、計(jì)算機(jī)視覺領(lǐng)域税课,用于二分類和多分類場(chǎng)景。
使用方法:
補(bǔ)充(非均衡分類問題):
非均衡分類問題是指在分類器訓(xùn)練時(shí)正例數(shù)目和反例數(shù)目相差很大的一類問題痊剖,該問題在錯(cuò)分正例和反例的代價(jià)不同時(shí)也存在(比如錯(cuò)分導(dǎo)致死亡)韩玩。因此,ROC曲線陆馁、正確率和召回率有利于度量分類器的指標(biāo)找颓。
調(diào)節(jié)正例和反例的數(shù)目可以采用欠抽樣(刪除多的樣本)和過抽樣(賦值少的樣本)的方法,另外一種方法就是在分類的過程中將錯(cuò)誤的代價(jià)也考慮在內(nèi)叮贩。
Ch8:預(yù)測(cè)數(shù)值型數(shù)據(jù):回歸
回歸與分類的不同點(diǎn)在于击狮,回歸預(yù)測(cè)連續(xù)型變量,分類預(yù)測(cè)離散型變量益老。在回歸方程中彪蓬,求得最佳回歸系數(shù)的方法是最小化誤差的平方和。使用嶺回歸可以保證 X^T*X 的逆不能計(jì)算時(shí)捺萌,仍然能求得回歸參數(shù)档冬。
嶺回歸是縮減法的一種,相當(dāng)于對(duì)回歸系數(shù)的大小施加了限制桃纯。另一種很好的方法是 lasso 算法酷誓,難以求解,但可以使用簡(jiǎn)便的逐步線性回歸來求得近似結(jié)果慈参。
縮減法還可以看做對(duì)一個(gè)模型增加偏差(模型預(yù)測(cè)值與數(shù)據(jù)之間的差異)的同時(shí)減少方差(模型之間的差異)呛牲。
優(yōu)點(diǎn): 結(jié)果易于理解,計(jì)算不復(fù)雜驮配。
缺點(diǎn): 對(duì)非線性的數(shù)據(jù)擬合不好。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型。
使用方法:
Ch9:樹回歸
輸入數(shù)據(jù)和目標(biāo)變量之間呈現(xiàn)非線性關(guān)系壮锻,一種可行的方法是使用樹對(duì)預(yù)測(cè)值分段琐旁,包括分段常數(shù)和分段直線。若葉節(jié)點(diǎn)使用的模型是分段常數(shù)則稱為回歸樹猜绣,若葉節(jié)點(diǎn)使用的模型是分段直線則稱為模型樹灰殴。
CART 算法可以用于構(gòu)造二元樹并處理離散型或數(shù)值型數(shù)據(jù)的切分,該算法構(gòu)造的回歸樹或模型樹傾向于產(chǎn)生過擬合問題掰邢,可以采用預(yù)剪枝(在樹的構(gòu)建過程中就進(jìn)行剪枝)和后剪枝(當(dāng)樹構(gòu)建完畢再進(jìn)行剪枝)牺陶。預(yù)剪枝更有效,但用戶需要定義一些參數(shù)辣之。
優(yōu)點(diǎn): 可以對(duì)復(fù)雜的和非線性的數(shù)據(jù)建模掰伸。
缺點(diǎn): 結(jié)果不易理解。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型怀估。
使用方法(R2為相關(guān)系數(shù)):
Ch10:利用 K-均值聚類算法對(duì)未標(biāo)注數(shù)據(jù)分組
聚類是一種無監(jiān)督的學(xué)習(xí)方法(沒有目標(biāo)變量)狮鸭。聚類將數(shù)據(jù)點(diǎn)歸到多個(gè)簇中,其中相似數(shù)據(jù)點(diǎn)屬于同一簇多搀,而不相似數(shù)據(jù)點(diǎn)屬于不同簇中歧蕉。
K-均值算法是廣泛使用的聚類算法,其中 K 是用戶指定的創(chuàng)建簇的數(shù)目康铭。算法以 K 個(gè)隨機(jī)質(zhì)心開始惯退,計(jì)算每個(gè)點(diǎn)到質(zhì)心的距離。每個(gè)點(diǎn)會(huì)被分配到最近的簇質(zhì)心从藤,然后更新簇質(zhì)心催跪。以上過程重復(fù)數(shù)次直至簇質(zhì)心不再改變。
K-均值算法易受到初始質(zhì)心的影響呛哟,為了獲得更好的聚類效果叠荠,可以采用二分 K-均值聚類算法。二分 K-均值聚類算法首先將所有點(diǎn)作為一個(gè)簇扫责,然后使用 K-均值算法(k=2)對(duì)其劃分榛鼎。下一次迭代時(shí),選擇有最大誤差的簇進(jìn)行劃分鳖孤。該過程重復(fù)直到 K 個(gè)簇創(chuàng)建成功為止者娱。
優(yōu)點(diǎn): 容易實(shí)現(xiàn)。
缺點(diǎn):可能收斂到局部最小值,在大規(guī)模數(shù)據(jù)集上收斂較慢。
適用數(shù)據(jù)類型: 數(shù)值型阳似。
使用方法:
Ch11:基于 Apriori 算法進(jìn)行關(guān)聯(lián)分析
兩種方式找到大數(shù)據(jù)集之間的關(guān)系盈魁。第一種使用頻繁項(xiàng)集,它會(huì)給出經(jīng)常出現(xiàn)在一起的元素項(xiàng)雇毫;第二種是關(guān)聯(lián)規(guī)則吧碾,每條關(guān)聯(lián)規(guī)則意味著元素項(xiàng)之間的“如果...那么”關(guān)系烟阐。
Apriori 算法保證在有限的時(shí)間內(nèi)找到頻繁項(xiàng)集忍燥。其原理是說如果一個(gè)元素項(xiàng)是不頻繁的拧晕,那么那些包含該元素的超集也是不頻繁的。Apriori 算法從單元素項(xiàng)集開始梅垄,通過組合滿足最小支持度要求的項(xiàng)集來形成更大的集合厂捞。支持度用來衡量一個(gè)集合在原始數(shù)據(jù)中出現(xiàn)的頻率。
每次增加頻繁項(xiàng)集的大小队丝,Apriori 算法都會(huì)重新掃描整個(gè)數(shù)據(jù)集靡馁。當(dāng)數(shù)據(jù)集很大時(shí),會(huì)顯著降低頻繁項(xiàng)集發(fā)現(xiàn)的速度机久。下一章的 FPgrowth 算法只需對(duì)數(shù)據(jù)庫進(jìn)行兩次遍歷臭墨,能夠顯著加快頻繁項(xiàng)集的發(fā)現(xiàn)速度。
優(yōu)點(diǎn): 易編碼實(shí)現(xiàn)吞加。
缺點(diǎn): 在大數(shù)據(jù)集上可能較慢裙犹。
適用數(shù)據(jù)類型: 數(shù)值型或標(biāo)稱型。
應(yīng)用領(lǐng)域: 商店中商品的關(guān)聯(lián)衔憨;網(wǎng)站的訪問頁面的關(guān)聯(lián)叶圃;查看選舉人及法官的投票歷史等。
使用方法:
Ch12:使用 FP-growth 算法來高效發(fā)現(xiàn)頻繁項(xiàng)集
FP-growth 算法是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁模式的有效方法践图,利用
Apriori 原理掺冠,只對(duì)數(shù)據(jù)集掃描兩次,運(yùn)行更快码党。在算法中德崭,數(shù)據(jù)集存儲(chǔ)在 FP 樹中,構(gòu)建完樹后揖盘,通過查找元素項(xiàng)的條件基及構(gòu)建條件 FP 樹來發(fā)現(xiàn)頻繁項(xiàng)集眉厨。重復(fù)進(jìn)行直到FP樹只包含一個(gè)元素為止。
優(yōu)點(diǎn): 一般要快于 Apriori 算法兽狭。
缺點(diǎn): 實(shí)現(xiàn)比較困難憾股,在某些數(shù)據(jù)集上性能會(huì)下降。
適用數(shù)據(jù)類型: 標(biāo)稱型箕慧。
應(yīng)用領(lǐng)域: 在多種文本文檔中查找頻繁單詞服球;購物交易;醫(yī)學(xué)診斷颠焦;大氣研究等斩熊。
使用方法:
Ch13:利用 PCA 來簡(jiǎn)化數(shù)據(jù)
降維往往作為預(yù)處理步驟,其中獨(dú)立成分分析伐庭、因子分析和主成分分析比較流行粉渠,主成分分析(PCA)最為廣泛分冈。
PCA 可以從數(shù)據(jù)中識(shí)別其主要特征,它是通過沿著數(shù)據(jù)最大方差方向旋轉(zhuǎn)坐標(biāo)軸來實(shí)現(xiàn)的渣叛。選擇方差最大的方向作為第一條坐標(biāo)軸丈秩,后續(xù)坐標(biāo)軸則與前面坐標(biāo)軸正交盯捌。協(xié)方差矩陣上的特征值分析可以用一系列的正交坐標(biāo)軸來獲取淳衙。
優(yōu)點(diǎn): 降低數(shù)據(jù)的復(fù)雜性,識(shí)別最重要的多個(gè)特征饺著。
缺點(diǎn): 不一定需要箫攀,且可能損失有用信息。
適用數(shù)據(jù)類型: 數(shù)值型幼衰。
Ch14:利用 SVD 簡(jiǎn)化數(shù)據(jù)
SVD 是一種強(qiáng)大的降維工具靴跛,可以利用 SVD 來逼近矩陣并從中獲得主要的特征。通過保留矩陣的 80%~90% 的能量渡嚣,就可以得到重用的特征并去除噪聲梢睛。
優(yōu)點(diǎn): 簡(jiǎn)化數(shù)據(jù),去除噪聲识椰,提高算法的結(jié)果绝葡。
缺點(diǎn): 數(shù)據(jù)的轉(zhuǎn)換可能難以理解。
適用數(shù)據(jù)類型: 數(shù)值型腹鹉。
應(yīng)用領(lǐng)域: 推薦引擎(協(xié)同過濾藏畅、相似度計(jì)算)、圖像壓縮等功咒。
Ch15:大數(shù)據(jù)與 MapReduce
MapReduce 是一種并行處理框架愉阎。在 MapReduce 中,作業(yè)被分為 map 階段和 reduce 階段力奋。先使用 map 階段并行處理數(shù)據(jù)榜旦,之后將這些數(shù)據(jù)在 reduce 階段合并,是一種多對(duì)一的模式景殷。mapper 和 reducer 之間傳輸數(shù)據(jù)的形式是 key/value 對(duì)溅呢。一般地,map 階段后還需要根據(jù) key 值進(jìn)行排序滨彻。
Hadoop 是一個(gè)流行的可運(yùn)行 MapReduce 作業(yè)的 java 項(xiàng)目藕届,它同時(shí)也提供非 java 作業(yè)的運(yùn)行支持,叫做 Hadoop 流亭饵。
神經(jīng)網(wǎng)絡(luò)
優(yōu)點(diǎn):
- 分類準(zhǔn)確度高休偶,學(xué)習(xí)能力極強(qiáng)。
- 對(duì)噪聲數(shù)據(jù)魯棒性和容錯(cuò)性較強(qiáng)辜羊。
- 有聯(lián)想能力踏兜,能逼近任意非線性關(guān)系词顾。
缺點(diǎn):
- 神經(jīng)網(wǎng)絡(luò)參數(shù)較多,權(quán)值和閾值碱妆。
- 黑盒過程肉盹,不能觀察中間結(jié)果。
- 學(xué)習(xí)過程比較長(zhǎng)疹尾,有可能陷入局部極小值上忍。
應(yīng)用領(lǐng)域: 目前深度神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用與計(jì)算機(jī)視覺,自然語言處理纳本,語音識(shí)別等領(lǐng)域并取得很好的效果窍蓝。
至此,總結(jié)完成繁成。后續(xù)有了更深地理解也會(huì)進(jìn)行補(bǔ)充完善吓笙。