機器學習實戰(zhàn)(筆記):第 1 章 機器學習基礎

第一部分 分類

本書前兩部分主要探討監(jiān)督學習(supervised learning)蹬碧。

監(jiān)督學習一般使用兩種類型的目標變量:

  • 標稱型:目標變量的結果只在有限目標集中取值:真與假舱禽,動物分類集合
  • 數(shù)值型:目標變量可以從無限的數(shù)值集合中取值:0.100、42.001恩沽;主要用于回歸分析

第 1 章 機器學習基礎

[TOC]

本章內容:

  • 機器學習的簡單概述
  • 機器學習的主要任務
  • 學習機器學習的原因
  • python 語言的優(yōu)勢

1. 何謂機器學習

簡單地說誊稚,機器學習 就是把無序的數(shù)據(jù)轉換成有用的信息。

**機器學習的主要任務 **就是分類。

訓練集 :是用于訓練機器學習算法的數(shù)據(jù)樣板集合里伯。

目標變量 :是機器學習算法的預測結果城瞎。在分類算法中目標變量的類型通常是標稱型的,而在回歸算法中通常是連續(xù)型的疾瓮。

特征 脖镀,或者 屬性 :通常是訓練樣板集的列,它們是獨立測量得到的結果狼电,多個特征聯(lián)系在一起共同組成一個訓練樣板蜒灰。

決定使用某個機器學習算法進行分類時:

  1. 首先需要做的是算法訓練,即學習如何分類
  2. 測試機器學習算法的效果肩碟,通常使用兩套獨立的樣本集:訓練數(shù)據(jù)和測試數(shù)據(jù)

2. 機器學習的主要任務

機器學習的任務:分類和回歸强窖。都屬于 監(jiān)督學習

回歸 :主要用于預測數(shù)據(jù)值型數(shù)據(jù)腾务。

無監(jiān)督學習 :數(shù)據(jù)沒有類別信息毕骡,也不會給定目標值

  • 將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程被稱為 聚類
  • 將尋找描述數(shù)據(jù)統(tǒng)計值得過程稱之為 密度估計 岩瘦;
  • 降維 :無監(jiān)督學習還可以減少數(shù)據(jù)特征的維度未巫,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。

表 1-2 列出了機器學習的主要任務启昧,以及解決相應問題的算法:


2017-12-23_000423.png

3. 如何選擇合適的算法

從表1-2中所列的算法中選擇實際可用的算法叙凡,必須考慮下面兩個問題:

  1. 使用機器學習算法的目的,想要算法完成何種任務
    1. 想要預測目標變量的值密末,則可選擇監(jiān)督學習算法握爷,否則可以選擇無監(jiān)督學習算法。
    2. 確定選擇監(jiān)督學習算法后严里,需要進一步確定目標變量類型:離散則分類新啼,連續(xù)則回歸
    3. 如果不想預測目標變量的值,可以選擇無監(jiān)督學習算法刹碾。
    4. 進一步分析是否需要將數(shù)據(jù)分為離散的值燥撞,需要則使用聚類算法
    5. 如果還需要顧及數(shù)據(jù)與每個分組的相似程度,則需要使用密度估計算法
    6. 其他方面的考慮
  2. 需要分析或收集的數(shù)據(jù)是什么(主要了解數(shù)據(jù)以下特性)
    1. 特征值是離散型變量還是連續(xù)型變量
    2. 特征值中是否存在缺失的值
    3. 何種原因造成缺失值
    4. 數(shù)據(jù)中是否存在異常值
    5. 某個特征發(fā)生的頻率如何迷帜,等等

一般來說物舒,發(fā)現(xiàn)最好算法的關鍵環(huán)節(jié)是反復試錯的迭代過程

4. 開發(fā)及其學習應用程序的步驟

本書學習和使用及其學習算法開發(fā)程序,通常遵循以下的步驟:

  1. 收集數(shù)據(jù):制作網(wǎng)絡爬蟲從網(wǎng)站上抽取數(shù)據(jù)戏锹、從 RSS 反饋或者 API 中得到數(shù)據(jù)冠胯、設備發(fā)送過來的實測數(shù)據(jù)等
  2. 準備輸入數(shù)據(jù):必須確保數(shù)據(jù)格式符合要求
  3. 分析輸入數(shù)據(jù)(主要是人工分析以前得到的數(shù)據(jù),這一步的主要作用是確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)):
    1. 最簡單的方法是用文本編輯器打開數(shù)據(jù)文件锦针,查看得到的數(shù)據(jù)是否為空值
    2. 還可以進一步瀏覽數(shù)據(jù)荠察,分析是否可以識別出模式
    3. 數(shù)據(jù)中是否存在明顯的異常值
    4. 通過一維置蜀、二維、三維展示數(shù)據(jù)也是不錯方法
  4. 訓練算法(4割粮、5 是機器學習的核心):如果使用無監(jiān)督學習算啊盾碗,由于不存在目標變量值,故而不需要訓練算法舀瓢,所有與算法相關的內容都集中在第 5 步
  5. 測試算法:
    1. 對于監(jiān)督學習,必須已知用于評估算法的目標變量值
    2. 對于無監(jiān)督學習耗美,也必須用其他的評測手段來檢驗算法的成功率
    3. 如果不滿意算法的輸出結果京髓,可以回到第 4 步,改正并加以測試商架。
    4. 問題常常會跟數(shù)據(jù)的收集和準備有關堰怨,這是必須調回到第 1 步重新開始
  6. 使用算法:將機器學習算法轉換成應用程序,執(zhí)行實際任務蛇摸,以檢驗以上步驟是否可以實際環(huán)境中正常工作备图。此時如果碰到新的數(shù)據(jù)問題,同樣需要重復執(zhí)行上述的步驟

5.Python 語言的優(yōu)勢

基于以下三個原因赶袄,我們選擇 python 作為實現(xiàn)機器學習算法的編程語言:

  1. python 的語法清晰
  2. 易于操作純文本文件
  3. 使用廣泛揽涮,存在大量的開發(fā)文檔

5.1 可執(zhí)行偽代碼

python 具有清晰的語法結構,也把它稱作 可執(zhí)行偽代碼(executable pseudo-code)饿肺。

python 語言處理和操作文本文件非常簡單蒋困,非常易于處理非數(shù)值型數(shù)據(jù),還提供了豐富的正則表達式函數(shù)以及很多訪問 web 也的函數(shù)庫敬辣,使得從 html 中提取數(shù)據(jù)變得非常簡單直觀雪标。

5.2 python 比較流行

5.3 python 語言的特色

5.4 python 語言的缺點

python 語言唯一的不足是 性能問題

6. Numpy 函數(shù)庫基礎

7. 本章小結

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末溉跃,一起剝皮案震驚了整個濱河市村刨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌撰茎,老刑警劉巖嵌牺,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異乾吻,居然都是意外死亡髓梅,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門绎签,熙熙樓的掌柜王于貴愁眉苦臉地迎上來枯饿,“玉大人,你說我怎么就攤上這事诡必∩莘剑” “怎么了搔扁?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蟋字。 經(jīng)常有香客問我稿蹲,道長,這世上最難降的妖魔是什么鹊奖? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任苛聘,我火速辦了婚禮,結果婚禮上忠聚,老公的妹妹穿的比我還像新娘设哗。我一直安慰自己,他們只是感情好两蟀,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布网梢。 她就那樣靜靜地躺著,像睡著了一般赂毯。 火紅的嫁衣襯著肌膚如雪战虏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天党涕,我揣著相機與錄音烦感,去河邊找鬼。 笑死遣鼓,一個胖子當著我的面吹牛啸盏,可吹牛的內容都是我干的。 我是一名探鬼主播骑祟,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼回懦,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了次企?” 一聲冷哼從身側響起怯晕,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缸棵,沒想到半個月后舟茶,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡堵第,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年吧凉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踏志。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡阀捅,死狀恐怖,靈堂內的尸體忽然破棺而出针余,到底是詐尸還是另有隱情饲鄙,我是刑警寧澤凄诞,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站忍级,受9級特大地震影響帆谍,放射性物質發(fā)生泄漏。R本人自食惡果不足惜轴咱,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一汛蝙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嗦玖,春花似錦患雇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酪术。三九已至器瘪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绘雁,已是汗流浹背橡疼。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留庐舟,地道東北人欣除。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像挪略,于是被迫代替她去往敵國和親历帚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內容