機器學習實戰(zhàn)（筆記）：第 1 章機器學習基礎

第一部分分類

本書前兩部分主要探討監(jiān)督學習（supervised learning）蹬碧。

監(jiān)督學習一般使用兩種類型的目標變量：

標稱型：目標變量的結果只在有限目標集中取值：真與假舱禽，動物分類集合
數(shù)值型：目標變量可以從無限的數(shù)值集合中取值：0.100、42.001恩沽；主要用于回歸分析

第 1 章機器學習基礎

[TOC]

本章內容：

機器學習的簡單概述
機器學習的主要任務
學習機器學習的原因
python 語言的優(yōu)勢

1. 何謂機器學習

簡單地說誊稚，機器學習 就是把無序的數(shù)據(jù)轉換成有用的信息。

**機器學習的主要任務 **就是分類。

訓練集 ：是用于訓練機器學習算法的數(shù)據(jù)樣板集合里伯。

目標變量 ：是機器學習算法的預測結果城瞎。在分類算法中目標變量的類型通常是標稱型的，而在回歸算法中通常是連續(xù)型的疾瓮。

特征脖镀，或者屬性：通常是訓練樣板集的列，它們是獨立測量得到的結果狼电，多個特征聯(lián)系在一起共同組成一個訓練樣板蜒灰。

決定使用某個機器學習算法進行分類時：

首先需要做的是算法訓練，即學習如何分類
測試機器學習算法的效果肩碟，通常使用兩套獨立的樣本集：訓練數(shù)據(jù)和測試數(shù)據(jù)

2. 機器學習的主要任務

機器學習的任務：分類和回歸强窖。都屬于 監(jiān)督學習。

回歸：主要用于預測數(shù)據(jù)值型數(shù)據(jù)腾务。

無監(jiān)督學習 ：數(shù)據(jù)沒有類別信息毕骡，也不會給定目標值

將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程被稱為聚類；
將尋找描述數(shù)據(jù)統(tǒng)計值得過程稱之為 密度估計 岩瘦；
降維：無監(jiān)督學習還可以減少數(shù)據(jù)特征的維度未巫，以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。

表 1-2 列出了機器學習的主要任務启昧，以及解決相應問題的算法：

2017-12-23_000423.png

3. 如何選擇合適的算法

從表1-2中所列的算法中選擇實際可用的算法叙凡，必須考慮下面兩個問題：

使用機器學習算法的目的，想要算法完成何種任務
1. 想要預測目標變量的值密末，則可選擇監(jiān)督學習算法握爷，否則可以選擇無監(jiān)督學習算法。
2. 確定選擇監(jiān)督學習算法后严里，需要進一步確定目標變量類型：離散則分類新啼，連續(xù)則回歸
3. 如果不想預測目標變量的值，可以選擇無監(jiān)督學習算法刹碾。
4. 進一步分析是否需要將數(shù)據(jù)分為離散的值燥撞，需要則使用聚類算法
5. 如果還需要顧及數(shù)據(jù)與每個分組的相似程度，則需要使用密度估計算法
6. 其他方面的考慮
需要分析或收集的數(shù)據(jù)是什么（主要了解數(shù)據(jù)以下特性）
1. 特征值是離散型變量還是連續(xù)型變量
2. 特征值中是否存在缺失的值
3. 何種原因造成缺失值
4. 數(shù)據(jù)中是否存在異常值
5. 某個特征發(fā)生的頻率如何迷帜，等等

一般來說物舒，發(fā)現(xiàn)最好算法的關鍵環(huán)節(jié)是反復試錯的迭代過程

4. 開發(fā)及其學習應用程序的步驟

本書學習和使用及其學習算法開發(fā)程序，通常遵循以下的步驟：

收集數(shù)據(jù)：制作網(wǎng)絡爬蟲從網(wǎng)站上抽取數(shù)據(jù)戏锹、從 RSS 反饋或者 API 中得到數(shù)據(jù)冠胯、設備發(fā)送過來的實測數(shù)據(jù)等
準備輸入數(shù)據(jù)：必須確保數(shù)據(jù)格式符合要求
分析輸入數(shù)據(jù)（主要是人工分析以前得到的數(shù)據(jù)，這一步的主要作用是確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)）：
1. 最簡單的方法是用文本編輯器打開數(shù)據(jù)文件锦针，查看得到的數(shù)據(jù)是否為空值
2. 還可以進一步瀏覽數(shù)據(jù)荠察，分析是否可以識別出模式
3. 數(shù)據(jù)中是否存在明顯的異常值
4. 通過一維置蜀、二維、三維展示數(shù)據(jù)也是不錯方法
訓練算法（4割粮、5 是機器學習的核心）：如果使用無監(jiān)督學習算啊盾碗，由于不存在目標變量值，故而不需要訓練算法舀瓢，所有與算法相關的內容都集中在第 5 步
測試算法：
1. 對于監(jiān)督學習，必須已知用于評估算法的目標變量值
2. 對于無監(jiān)督學習耗美，也必須用其他的評測手段來檢驗算法的成功率
3. 如果不滿意算法的輸出結果京髓，可以回到第 4 步，改正并加以測試商架。
4. 問題常常會跟數(shù)據(jù)的收集和準備有關堰怨，這是必須調回到第 1 步重新開始
使用算法：將機器學習算法轉換成應用程序，執(zhí)行實際任務蛇摸，以檢驗以上步驟是否可以實際環(huán)境中正常工作备图。此時如果碰到新的數(shù)據(jù)問題，同樣需要重復執(zhí)行上述的步驟

5.Python 語言的優(yōu)勢

基于以下三個原因赶袄，我們選擇 python 作為實現(xiàn)機器學習算法的編程語言：

python 的語法清晰
易于操作純文本文件
使用廣泛揽涮，存在大量的開發(fā)文檔

5.1 可執(zhí)行偽代碼

python 具有清晰的語法結構，也把它稱作 可執(zhí)行偽代碼（executable pseudo-code）饿肺。

python 語言處理和操作文本文件非常簡單蒋困，非常易于處理非數(shù)值型數(shù)據(jù)，還提供了豐富的正則表達式函數(shù)以及很多訪問 web 也的函數(shù)庫敬辣，使得從 html 中提取數(shù)據(jù)變得非常簡單直觀雪标。

5.2 python 比較流行

5.3 python 語言的特色

5.4 python 語言的缺點

python 語言唯一的不足是 性能問題 。

6. Numpy 函數(shù)庫基礎

7. 本章小結

最后編輯于：2018.01.14 16:09:28

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末溉跃，一起剝皮案震驚了整個濱河市村刨，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌撰茎，老刑警劉巖嵌牺，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異乾吻，居然都是意外死亡髓梅，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門绎签，熙熙樓的掌柜王于貴愁眉苦臉地迎上來枯饿，“玉大人，你說我怎么就攤上這事诡必∩莘剑” “怎么了搔扁？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長蟋字。經(jīng)常有香客問我稿蹲，道長，這世上最難降的妖魔是什么鹊奖？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任苛聘，我火速辦了婚禮，結果婚禮上忠聚，老公的妹妹穿的比我還像新娘设哗。我一直安慰自己，他們只是感情好两蟀，可當我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布网梢。她就那樣靜靜地躺著，像睡著了一般赂毯。火紅的嫁衣襯著肌膚如雪战虏。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天党涕，我揣著相機與錄音烦感，去河邊找鬼。笑死遣鼓，一個胖子當著我的面吹牛啸盏，可吹牛的內容都是我干的。我是一名探鬼主播骑祟，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼回懦，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了次企？” 一聲冷哼從身側響起怯晕，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎缸棵，沒想到半個月后舟茶，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡堵第，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年吧凉，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踏志。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡阀捅，死狀恐怖，靈堂內的尸體忽然破棺而出针余，到底是詐尸還是另有隱情饲鄙，我是刑警寧澤凄诞，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站忍级，受9級特大地震影響帆谍，放射性物質發(fā)生泄漏。R本人自食惡果不足惜轴咱，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一汛蝙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧嗦玖，春花似錦患雇、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽酪术。三九已至器瘪，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間绘雁，已是汗流浹背橡疼。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留庐舟，地道東北人欣除。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像挪略，于是被迫代替她去往敵國和親历帚。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,092評論 2贊 355

機器學習實戰(zhàn)（筆記）：第 1 章 機器學習基礎

第一部分 分類

第 1 章 機器學習基礎