簡(jiǎn)介
這本書是一位韓國(guó)的數(shù)據(jù)科學(xué)家寫的書,書并不新彬坏,幾年前的朦促,虛擬機(jī)都已經(jīng)過(guò)時(shí),但全書讀下來(lái)最大的感受是內(nèi)容寫的很詳細(xì)栓始,可以照著步驟實(shí)踐务冕,加深了對(duì)機(jī)器學(xué)習(xí)的理解,或者說(shuō)是一本入門好書幻赚。當(dāng)然禀忆,僅靠一本書臊旭,一次接觸一個(gè)知識(shí)點(diǎn),我們可能很難掌握一個(gè)技能箩退,只有項(xiàng)目實(shí)踐离熏,如果暫時(shí)沒(méi)有項(xiàng)目,可以用公開(kāi)數(shù)據(jù)集戴涝,跟著這本書的代碼測(cè)試下滋戳,我會(huì)把markdown文件上傳至github和gitee,歡迎交流啥刻,糾正錯(cuò)誤奸鸯,并給出少部分我在筆記中沒(méi)重復(fù)成功的原因。
https://gitee.com/zd200572/machine-learning-with-r-cookbook.git
附上本書目錄:
目錄
譯者序
前言
作者簡(jiǎn)介
審校者簡(jiǎn)介
第1章基于R實(shí)踐機(jī)器學(xué)習(xí)
1.1簡(jiǎn)介
1.2下載和安裝R
1.3下載和安裝R Studio
1.4包的安裝和加載
1.5數(shù)據(jù)讀寫
1.6使用R實(shí)現(xiàn)數(shù)據(jù)操作
1.7應(yīng)用簡(jiǎn)單統(tǒng)計(jì)
1.8數(shù)據(jù)可視化
1.9獲取用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集
第2章挖掘RMSTitanic數(shù)據(jù)集
2.1簡(jiǎn)介
2.2從CSV文件中讀取Titanic數(shù)據(jù)集
2.3根據(jù)數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換
2.4檢測(cè)缺失值
2.5插補(bǔ)缺失值
2.6識(shí)別和可視化數(shù)據(jù)
2.7基于決策樹(shù)預(yù)測(cè)獲救乘客
2.8基于混淆矩陣驗(yàn)證預(yù)測(cè)結(jié)果的準(zhǔn)確性
2.9使用ROC曲線評(píng)估性能
第3章R和統(tǒng)計(jì)
3.1簡(jiǎn)介
3.2理解R中的數(shù)據(jù)采樣
3.3在R中控制概率分布
3.4在R中進(jìn)行一元描述統(tǒng)計(jì)
3.5在R中進(jìn)行多元相關(guān)分析
3.6進(jìn)行多元線性回歸分析
3.7執(zhí)行二項(xiàng)分布檢驗(yàn)
3.8執(zhí)行t檢驗(yàn)
3.9執(zhí)行Kolmogorov—Smirnov檢驗(yàn)
3.10理解Wilcoxon秩和檢驗(yàn)及Wilcoxon符號(hào)秩檢驗(yàn)
3.11實(shí)施皮爾森卡方檢驗(yàn)
3.12進(jìn)行單因素方差分析
3.13進(jìn)行雙因素方差分析
第4章理解回歸分析
4.1簡(jiǎn)介
4.2調(diào)用1m函數(shù)構(gòu)建線性回歸模型
4.3輸出線性模型的特征信息
4.4使用線性回歸模型預(yù)測(cè)未知值
4.5生成模型的診斷圖
4.6利用1m函數(shù)生成多項(xiàng)式回歸模型
4.7調(diào)用rlm函數(shù)生成穩(wěn)健線性回歸模型
4.8在SLID數(shù)據(jù)集上研究線性回歸案例
4.9基于高斯模型的廣義線性回歸
4.10基于泊松模型的廣義線性回歸
4.11基于二項(xiàng)模型的廣義線性回歸
4.12利用廣義加性模型處理數(shù)據(jù)
4.13可視化廣義加性模型
4.14診斷廣義加性模型
第5章分類Ⅰ——樹(shù)可帽、延遲和概率
5.1簡(jiǎn)介
5.2準(zhǔn)備訓(xùn)練和測(cè)試數(shù)據(jù)集
5.3使用遞歸分割樹(shù)建立分類模型
5.4遞歸分割樹(shù)可視化
5.5評(píng)測(cè)遞歸分割樹(shù)的預(yù)測(cè)能力
5.6遞歸分割樹(shù)剪枝
5.7使用條件推理樹(shù)建立分類模型
5.8條件推理樹(shù)可視化
5.9評(píng)測(cè)條件推理樹(shù)的預(yù)測(cè)能力
5娄涩,10使用k近鄰分類算法
5.11使用邏輯回歸分類算法
5.12使用樸素貝葉斯分類算法
第6章分類Ⅱ——神經(jīng)網(wǎng)絡(luò)和SVM
6.1簡(jiǎn)介
6.2使用支持向量機(jī)完成數(shù)據(jù)分類
6_3選擇支持向量機(jī)的懲罰因子
6.4實(shí)現(xiàn)SVM模型的可視化
6.5基于支持向量機(jī)訓(xùn)練模型實(shí)現(xiàn)類預(yù)測(cè)
6.6調(diào)整支持向量機(jī)
6.7利用neuralnet包訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型
6.8可視化由neuralnet包得到的神經(jīng)網(wǎng)絡(luò)模型
6.9基于neuralnet包得到的模型實(shí)現(xiàn)類標(biāo)號(hào)預(yù)測(cè)
6.10利用nnet包訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型
6.11基于nnet包得到的模型實(shí)現(xiàn)類標(biāo)號(hào)預(yù)測(cè)
第7章模型評(píng)估
7.1簡(jiǎn)介
7.2基于k折交叉驗(yàn)證方法評(píng)測(cè)模型性能
7.3利用e1071包完成交叉驗(yàn)證
7.4利用caret包完成交叉檢驗(yàn)
7.5利用caret包對(duì)變量重要程度排序
7.6利用rmlner包對(duì)變量重要程度排序
7.7利用caret包找到高度關(guān)聯(lián)的特征
7.8利用caret包選擇特征
7.9評(píng)測(cè)回歸模型的性能
7.10利用混淆矩陣評(píng)測(cè)模型的預(yù)測(cè)能力
7.11利用ROCR評(píng)測(cè)模型的預(yù)測(cè)能力
7.12利用caret包比較ROC曲線
7.13利用caret包比較模型性能差異
第8章集成學(xué)習(xí)
8.1簡(jiǎn)介
8.2使用bagging方法對(duì)數(shù)據(jù)分類
8.3基于bagging方法進(jìn)行交叉驗(yàn)證
8.4使用boosting方法對(duì)數(shù)據(jù)分類
8.5基于boosting方法進(jìn)行交叉驗(yàn)證
8.6使用gradientboosting方法對(duì)數(shù)據(jù)分類
8.7計(jì)算分類器邊緣
8.8計(jì)算集成分類算法的誤差演變
8.9使用隨機(jī)森林方法對(duì)數(shù)據(jù)分類
8.10估算不同分類器的預(yù)測(cè)誤差
第9章聚類
9.1簡(jiǎn)介
9.2使用層次聚類處理數(shù)據(jù)
9.3將樹(shù)分成簇
9.4使用k均值方法處理數(shù)據(jù)
9.5繪制二元聚類圖
9.6聚類算法比較
9.7從簇中抽取輪廓信息
9.8獲得優(yōu)化的k均值聚類
9.9使用密度聚類方法處理數(shù)據(jù)
9.10使用基于模型的聚類方法處理數(shù)據(jù)
9.11相異度矩陣的可視化
9.12使用外部驗(yàn)證評(píng)估聚類效果
第10章關(guān)聯(lián)分析和序列挖掘
10.1簡(jiǎn)介
10.2將數(shù)據(jù)轉(zhuǎn)換成事務(wù)數(shù)據(jù)
10.3展示事務(wù)及關(guān)聯(lián)
10.4使用Apriori規(guī)則完成關(guān)聯(lián)挖掘
10.5去掉冗余規(guī)則
10.6關(guān)聯(lián)規(guī)則的可視化
10.7使用Eclat挖掘頻繁項(xiàng)集
10.8生成時(shí)態(tài)事務(wù)數(shù)據(jù)
10.9使用cSPADE挖掘頻繁時(shí)序模式
第11章降維
11.1簡(jiǎn)介
11.2使用FSelector完成特征篩選
11.3使用PCA進(jìn)行降維
11.4使用scree測(cè)試確定主成分?jǐn)?shù)
11.5使用Kaiser方法確定主成分?jǐn)?shù)
11.6使用主成分分析散點(diǎn)圖可視化多元變量
11.7使用MDS進(jìn)行降維
11.8使用SVD進(jìn)行降維
11.9使用SVD進(jìn)行圖像壓縮
11.10使用ISOMAP進(jìn)行非線性降維
11.11使用局部線性嵌入法進(jìn)行非線性降維
第12章大數(shù)據(jù)分析(R和Hadoop)
12.1簡(jiǎn)介
12.2準(zhǔn)備RHadoop環(huán)境
12.3安裝rmr2
12.4安裝rhdfs
12.5在thdfs中操作HDFS
12.6在RHadoop中解決單詞計(jì)數(shù)問(wèn)題
12.7比較RMapReduce程序和標(biāo)準(zhǔn)R程序的性能差別
12.8測(cè)試和調(diào)試rmr2程序
12.9安裝plymlr
12.10使用plyrmr處理數(shù)據(jù)
12.11在RHadoop中實(shí)施機(jī)器學(xué)習(xí)
12.12在AmazonEMR環(huán)境中配置RHadoop機(jī)群
附錄AR和機(jī)器學(xué)習(xí)的資源
附錄BTitanic幸存者的數(shù)據(jù)集