第1章 機(jī)器學(xué)習(xí)基礎(chǔ)
機(jī)器學(xué)習(xí) 概述
機(jī)器學(xué)習(xí)
就是把無(wú)序的數(shù)據(jù)轉(zhuǎn)換成有用的信息羡滑。
- 獲取海量的數(shù)據(jù)
- 從海量數(shù)據(jù)中獲取有用的信息
我們會(huì)利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義,這才是機(jī)器學(xué)習(xí)
的意義窄绒。
機(jī)器學(xué)習(xí) 場(chǎng)景
例如:識(shí)別動(dòng)物貓
模式識(shí)別(官方標(biāo)準(zhǔn)):人們通過大量的經(jīng)驗(yàn),得到結(jié)論患亿,從而判斷它就是貓商乎。
機(jī)器學(xué)習(xí)(數(shù)據(jù)學(xué)習(xí)):人們通過閱讀進(jìn)行學(xué)習(xí),觀察它會(huì)叫申尼、小眼睛垮卓、兩只耳朵、四條腿师幕、一條尾巴粟按,得到結(jié)論,從而判斷它就是貓霹粥。
深度學(xué)習(xí)(深入數(shù)據(jù)):人們通過深入了解它灭将,發(fā)現(xiàn)它會(huì)'喵喵'的叫、與同類的貓科動(dòng)物很類似后控,得到結(jié)論庙曙,從而判斷它就是貓。(深度學(xué)習(xí)常用領(lǐng)域:語(yǔ)音識(shí)別浩淘、圖像識(shí)別)
模式識(shí)別(pattern recognition): 模式識(shí)別是最古老的(作為一個(gè)術(shù)語(yǔ)而言捌朴,可以說是很過時(shí)的)。
我們把環(huán)境與客體統(tǒng)稱為“模式”张抄,識(shí)別是對(duì)模式的一種認(rèn)知男旗,是如何讓一個(gè)計(jì)算機(jī)程序去做一些看起來(lái)很“智能”的事情。
通過融于智慧和直覺后欣鳖,通過構(gòu)建程序察皇,識(shí)別一些事物,而不是人泽台,例如: 識(shí)別數(shù)字什荣。
機(jī)器學(xué)習(xí)(machine learning): 機(jī)器學(xué)習(xí)是最基礎(chǔ)的(當(dāng)下初創(chuàng)公司和研究實(shí)驗(yàn)室的熱點(diǎn)領(lǐng)域之一)。
在90年代初怀酷,人們開始意識(shí)到一種可以更有效地構(gòu)建模式識(shí)別算法的方法稻爬,那就是用數(shù)據(jù)(可以通過廉價(jià)勞動(dòng)力采集獲得)去替換專家(具有很多圖像方面知識(shí)的人)。
“機(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是蜕依,在給計(jì)算機(jī)程序(或者機(jī)器)輸入一些數(shù)據(jù)后桅锄,它必須做一些事情,那就是學(xué)習(xí)這些數(shù)據(jù)样眠,而這個(gè)學(xué)習(xí)的步驟是明確的友瘤。
機(jī)器學(xué)習(xí)(Machine Learning)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能檐束,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的學(xué)科辫秧。
深度學(xué)習(xí)(deep learning): 深度學(xué)習(xí)是非常嶄新和有影響力的前沿領(lǐng)域,我們甚至不會(huì)去思考-后深度學(xué)習(xí)時(shí)代被丧。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域盟戏,其動(dòng)機(jī)在于建立绪妹、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)柿究,例如圖像邮旷,聲音和文本。
參考地址:
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q
機(jī)器學(xué)習(xí)已應(yīng)用于多個(gè)領(lǐng)域蝇摸,遠(yuǎn)遠(yuǎn)超出大多數(shù)人的想象婶肩,橫跨:計(jì)算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科探入。
- 搜索引擎: 根據(jù)你的搜索點(diǎn)擊狡孔,優(yōu)化你下次的搜索結(jié)果懂诗。
- 垃圾郵件: 會(huì)自動(dòng)的過濾垃圾廣告郵件到垃圾箱內(nèi)蜂嗽。
- 超市優(yōu)惠券: 你會(huì)發(fā)現(xiàn),你在購(gòu)買小孩子尿布的時(shí)候殃恒,售貨員會(huì)贈(zèng)送你一張優(yōu)惠券可以兌換6罐啤酒植旧。
- 郵局郵寄: 手寫軟件自動(dòng)識(shí)別寄送賀卡的地址。
- 申請(qǐng)貸款: 通過你最近的金融活動(dòng)信息進(jìn)行綜合評(píng)定离唐,決定你是否合格病附。
機(jī)器學(xué)習(xí) 組成
主要任務(wù)
- 分類:將實(shí)例數(shù)據(jù)劃分到合適的類別中。
- 回歸:主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù)亥鬓。(示例:數(shù)據(jù)通過給定數(shù)據(jù)點(diǎn)來(lái)擬合最優(yōu)曲線)
監(jiān)督學(xué)習(xí)
- 必須確定目標(biāo)變量的值完沪,以便機(jī)器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。 (包括:分類和回歸)
- 樣本集:訓(xùn)練數(shù)據(jù) + 測(cè)試數(shù)據(jù)
- 訓(xùn)練樣本 = 特征(feature) + 目標(biāo)變量(label: 分類-離散值/回歸-連續(xù)值)
- 特征通常是訓(xùn)練樣本集的列嵌戈,它們是獨(dú)立測(cè)量得到的覆积。
- 目標(biāo)變量: 目標(biāo)變量是機(jī)器學(xué)習(xí)預(yù)測(cè)算法的測(cè)試結(jié)果。
- 在分類算法中目標(biāo)變量的類型通常是標(biāo)稱型(如:真與假)熟呛,而在回歸算法中通常是連續(xù)型(如:1~100)宽档。
-
知識(shí)表示
:- 可以采用規(guī)則集的形式【例如:數(shù)學(xué)成績(jī)大于90分為優(yōu)秀】
- 可以采用概率分布的形式【例如:通過統(tǒng)計(jì)分布發(fā)現(xiàn),90%的同學(xué)數(shù)學(xué)成績(jī)庵朝,在70分以下吗冤,那么大于70分定為優(yōu)秀】
- 可以使用訓(xùn)練樣本集中的一個(gè)實(shí)例【例如:通過樣本集合,我們訓(xùn)練出一個(gè)模型實(shí)例九府,得出 年輕椎瘟,數(shù)學(xué)成績(jī)中高等,談吐優(yōu)雅侄旬,我們認(rèn)為是優(yōu)秀】
非監(jiān)督學(xué)習(xí)
- 數(shù)據(jù)沒有類別信息降传,也不會(huì)給定目標(biāo)值。
- 聚類:在無(wú)監(jiān)督學(xué)習(xí)中勾怒,將數(shù)據(jù)集分成由類似的對(duì)象組成多個(gè)類的過程稱為聚類婆排。
- 密度估計(jì):將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過程稱之為密度估計(jì)声旺。【就是:根據(jù)訓(xùn)練樣本確定x的概率分布】
- 此外段只,無(wú)監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度腮猖,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。
訓(xùn)練過程
算法匯總
機(jī)器學(xué)習(xí) 使用
選擇算法需要考慮的兩個(gè)問題
- 算法場(chǎng)景
- 預(yù)測(cè)明天是否下雨赞枕,因?yàn)榭梢杂脷v史的天氣情況做預(yù)測(cè)澈缺,所以選擇監(jiān)督學(xué)習(xí)算法
- 給一群陌生的人進(jìn)行分組,但是我們并沒有這些人的類別信息炕婶,所以選擇無(wú)監(jiān)督學(xué)習(xí)算法姐赡、通過他們身高、體重等特征進(jìn)行處理柠掂。
- 需要收集或分析的數(shù)據(jù)是什么
舉例
機(jī)器學(xué)習(xí) 開發(fā)流程
* 收集數(shù)據(jù): 收集樣本數(shù)據(jù)
* 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式
* 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)项滑;
如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源,則可以跳過該步驟涯贞;
另外該步驟需要人工干預(yù)枪狂,會(huì)降低自動(dòng)化系統(tǒng)的價(jià)值。
* 訓(xùn)練算法: [機(jī)器學(xué)習(xí)算法核心]如果使用無(wú)監(jiān)督學(xué)習(xí)算法宋渔,由于不存在目標(biāo)變量值州疾,則可以跳過該步驟
* 測(cè)試算法: [機(jī)器學(xué)習(xí)算法核心]評(píng)估算法效果
* 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序
Python語(yǔ)言 優(yōu)勢(shì)
- 可執(zhí)行偽代碼
- Python比較流行:使用廣泛、代碼范例多皇拣、豐富模塊庫(kù)严蓖,開發(fā)周期短
- Python語(yǔ)言的特色:清晰簡(jiǎn)練、易于理解
- Python語(yǔ)言的缺點(diǎn):唯一不足的是性能問題
- Python相關(guān)的庫(kù)
- 科學(xué)函數(shù)庫(kù):
SciPy
氧急、NumPy
(底層語(yǔ)言:C和Fortran) - 繪圖工具庫(kù):
Matplotlib
- 科學(xué)函數(shù)庫(kù):
- 作者:片刻 1988
- GitHub地址: https://github.com/apachecn/MachineLearning
- 版權(quán)聲明:歡迎轉(zhuǎn)載學(xué)習(xí) => 請(qǐng)標(biāo)注信息來(lái)源于 ApacheCN