【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】第1章 機(jī)器學(xué)習(xí)基礎(chǔ)

第1章 機(jī)器學(xué)習(xí)基礎(chǔ)

機(jī)器學(xué)習(xí)基礎(chǔ)-首頁(yè).jpg

機(jī)器學(xué)習(xí) 概述

機(jī)器學(xué)習(xí)就是把無(wú)序的數(shù)據(jù)轉(zhuǎn)換成有用的信息羡滑。

  1. 獲取海量的數(shù)據(jù)
  2. 從海量數(shù)據(jù)中獲取有用的信息

我們會(huì)利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義,這才是機(jī)器學(xué)習(xí)的意義窄绒。

機(jī)器學(xué)習(xí) 場(chǎng)景

例如:識(shí)別動(dòng)物貓
模式識(shí)別(官方標(biāo)準(zhǔn)):人們通過大量的經(jīng)驗(yàn),得到結(jié)論患亿,從而判斷它就是貓商乎。
機(jī)器學(xué)習(xí)(數(shù)據(jù)學(xué)習(xí)):人們通過閱讀進(jìn)行學(xué)習(xí),觀察它會(huì)叫申尼、小眼睛垮卓、兩只耳朵、四條腿师幕、一條尾巴粟按,得到結(jié)論,從而判斷它就是貓霹粥。
深度學(xué)習(xí)(深入數(shù)據(jù)):人們通過深入了解它灭将,發(fā)現(xiàn)它會(huì)'喵喵'的叫、與同類的貓科動(dòng)物很類似后控,得到結(jié)論庙曙,從而判斷它就是貓。(深度學(xué)習(xí)常用領(lǐng)域:語(yǔ)音識(shí)別浩淘、圖像識(shí)別)

模式識(shí)別(pattern recognition): 模式識(shí)別是最古老的(作為一個(gè)術(shù)語(yǔ)而言捌朴,可以說是很過時(shí)的)。
    我們把環(huán)境與客體統(tǒng)稱為“模式”张抄,識(shí)別是對(duì)模式的一種認(rèn)知男旗,是如何讓一個(gè)計(jì)算機(jī)程序去做一些看起來(lái)很“智能”的事情。
    通過融于智慧和直覺后欣鳖,通過構(gòu)建程序察皇,識(shí)別一些事物,而不是人泽台,例如: 識(shí)別數(shù)字什荣。
機(jī)器學(xué)習(xí)(machine learning): 機(jī)器學(xué)習(xí)是最基礎(chǔ)的(當(dāng)下初創(chuàng)公司和研究實(shí)驗(yàn)室的熱點(diǎn)領(lǐng)域之一)。
    在90年代初怀酷,人們開始意識(shí)到一種可以更有效地構(gòu)建模式識(shí)別算法的方法稻爬,那就是用數(shù)據(jù)(可以通過廉價(jià)勞動(dòng)力采集獲得)去替換專家(具有很多圖像方面知識(shí)的人)。
    “機(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是蜕依,在給計(jì)算機(jī)程序(或者機(jī)器)輸入一些數(shù)據(jù)后桅锄,它必須做一些事情,那就是學(xué)習(xí)這些數(shù)據(jù)样眠,而這個(gè)學(xué)習(xí)的步驟是明確的友瘤。
    機(jī)器學(xué)習(xí)(Machine Learning)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能檐束,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的學(xué)科辫秧。
深度學(xué)習(xí)(deep learning): 深度學(xué)習(xí)是非常嶄新和有影響力的前沿領(lǐng)域,我們甚至不會(huì)去思考-后深度學(xué)習(xí)時(shí)代被丧。
    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域盟戏,其動(dòng)機(jī)在于建立绪妹、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)柿究,例如圖像邮旷,聲音和文本。

參考地址: 
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

機(jī)器學(xué)習(xí)已應(yīng)用于多個(gè)領(lǐng)域蝇摸,遠(yuǎn)遠(yuǎn)超出大多數(shù)人的想象婶肩,橫跨:計(jì)算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科探入。

  • 搜索引擎: 根據(jù)你的搜索點(diǎn)擊狡孔,優(yōu)化你下次的搜索結(jié)果懂诗。
  • 垃圾郵件: 會(huì)自動(dòng)的過濾垃圾廣告郵件到垃圾箱內(nèi)蜂嗽。
  • 超市優(yōu)惠券: 你會(huì)發(fā)現(xiàn),你在購(gòu)買小孩子尿布的時(shí)候殃恒,售貨員會(huì)贈(zèng)送你一張優(yōu)惠券可以兌換6罐啤酒植旧。
  • 郵局郵寄: 手寫軟件自動(dòng)識(shí)別寄送賀卡的地址。
  • 申請(qǐng)貸款: 通過你最近的金融活動(dòng)信息進(jìn)行綜合評(píng)定离唐,決定你是否合格病附。

機(jī)器學(xué)習(xí) 組成

主要任務(wù)

  • 分類:將實(shí)例數(shù)據(jù)劃分到合適的類別中。
  • 回歸:主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù)亥鬓。(示例:數(shù)據(jù)通過給定數(shù)據(jù)點(diǎn)來(lái)擬合最優(yōu)曲線)

監(jiān)督學(xué)習(xí)

  • 必須確定目標(biāo)變量的值完沪,以便機(jī)器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。 (包括:分類和回歸)
  • 樣本集:訓(xùn)練數(shù)據(jù) + 測(cè)試數(shù)據(jù)
    • 訓(xùn)練樣本 = 特征(feature) + 目標(biāo)變量(label: 分類-離散值/回歸-連續(xù)值)
    • 特征通常是訓(xùn)練樣本集的列嵌戈,它們是獨(dú)立測(cè)量得到的覆积。
    • 目標(biāo)變量: 目標(biāo)變量是機(jī)器學(xué)習(xí)預(yù)測(cè)算法的測(cè)試結(jié)果。
      • 在分類算法中目標(biāo)變量的類型通常是標(biāo)稱型(如:真與假)熟呛,而在回歸算法中通常是連續(xù)型(如:1~100)宽档。
  • 知識(shí)表示
    1. 可以采用規(guī)則集的形式【例如:數(shù)學(xué)成績(jī)大于90分為優(yōu)秀】
    2. 可以采用概率分布的形式【例如:通過統(tǒng)計(jì)分布發(fā)現(xiàn),90%的同學(xué)數(shù)學(xué)成績(jī)庵朝,在70分以下吗冤,那么大于70分定為優(yōu)秀】
    3. 可以使用訓(xùn)練樣本集中的一個(gè)實(shí)例【例如:通過樣本集合,我們訓(xùn)練出一個(gè)模型實(shí)例九府,得出 年輕椎瘟,數(shù)學(xué)成績(jī)中高等,談吐優(yōu)雅侄旬,我們認(rèn)為是優(yōu)秀】

非監(jiān)督學(xué)習(xí)

  • 數(shù)據(jù)沒有類別信息降传,也不會(huì)給定目標(biāo)值。
  • 聚類:在無(wú)監(jiān)督學(xué)習(xí)中勾怒,將數(shù)據(jù)集分成由類似的對(duì)象組成多個(gè)類的過程稱為聚類婆排。
  • 密度估計(jì):將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過程稱之為密度估計(jì)声旺。【就是:根據(jù)訓(xùn)練樣本確定x的概率分布】
  • 此外段只,無(wú)監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度腮猖,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。

訓(xùn)練過程

機(jī)器學(xué)習(xí)基礎(chǔ)訓(xùn)練過程.jpg

算法匯總

ml_algorithm.jpg

機(jī)器學(xué)習(xí) 使用

選擇算法需要考慮的兩個(gè)問題

  1. 算法場(chǎng)景
    • 預(yù)測(cè)明天是否下雨赞枕,因?yàn)榭梢杂脷v史的天氣情況做預(yù)測(cè)澈缺,所以選擇監(jiān)督學(xué)習(xí)算法
    • 給一群陌生的人進(jìn)行分組,但是我們并沒有這些人的類別信息炕婶,所以選擇無(wú)監(jiān)督學(xué)習(xí)算法姐赡、通過他們身高、體重等特征進(jìn)行處理柠掂。
  2. 需要收集或分析的數(shù)據(jù)是什么

舉例

機(jī)器學(xué)習(xí)基礎(chǔ)-選擇算法.jpg

機(jī)器學(xué)習(xí) 開發(fā)流程

* 收集數(shù)據(jù): 收集樣本數(shù)據(jù)
* 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式
* 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)项滑;
    如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源,則可以跳過該步驟涯贞;
    另外該步驟需要人工干預(yù)枪狂,會(huì)降低自動(dòng)化系統(tǒng)的價(jià)值。
* 訓(xùn)練算法: [機(jī)器學(xué)習(xí)算法核心]如果使用無(wú)監(jiān)督學(xué)習(xí)算法宋渔,由于不存在目標(biāo)變量值州疾,則可以跳過該步驟
* 測(cè)試算法: [機(jī)器學(xué)習(xí)算法核心]評(píng)估算法效果
* 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序

Python語(yǔ)言 優(yōu)勢(shì)

  1. 可執(zhí)行偽代碼
  2. Python比較流行:使用廣泛、代碼范例多皇拣、豐富模塊庫(kù)严蓖,開發(fā)周期短
  3. Python語(yǔ)言的特色:清晰簡(jiǎn)練、易于理解
  4. Python語(yǔ)言的缺點(diǎn):唯一不足的是性能問題
  5. Python相關(guān)的庫(kù)
    • 科學(xué)函數(shù)庫(kù):SciPy氧急、NumPy(底層語(yǔ)言:C和Fortran)
    • 繪圖工具庫(kù):Matplotlib

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末颗胡,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子态蒂,更是在濱河造成了極大的恐慌杭措,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钾恢,死亡現(xiàn)場(chǎng)離奇詭異手素,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)瘩蚪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門泉懦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人疹瘦,你說我怎么就攤上這事崩哩。” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵邓嘹,是天一觀的道長(zhǎng)酣栈。 經(jīng)常有香客問我,道長(zhǎng)汹押,這世上最難降的妖魔是什么矿筝? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮棚贾,結(jié)果婚禮上窖维,老公的妹妹穿的比我還像新娘。我一直安慰自己妙痹,他們只是感情好铸史,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著怯伊,像睡著了一般琳轿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上震贵,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天利赋,我揣著相機(jī)與錄音水评,去河邊找鬼猩系。 笑死,一個(gè)胖子當(dāng)著我的面吹牛中燥,可吹牛的內(nèi)容都是我干的寇甸。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼疗涉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼拿霉!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起咱扣,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绽淘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后闹伪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沪铭,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年偏瓤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杀怠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡厅克,死狀恐怖赔退,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤硕旗,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布窗骑,位于F島的核電站,受9級(jí)特大地震影響漆枚,放射性物質(zhì)發(fā)生泄漏慧域。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一浪读、第九天 我趴在偏房一處隱蔽的房頂上張望昔榴。 院中可真熱鬧,春花似錦碘橘、人聲如沸互订。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)仰禽。三九已至,卻和暖如春纺蛆,著一層夾襖步出監(jiān)牢的瞬間吐葵,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工桥氏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留温峭,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓字支,卻偏偏與公主長(zhǎng)得像凤藏,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子堕伪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容