歡迎關(guān)注公眾號-AI圈終身學(xué)習(xí)辜窑。
公眾號首頁回復(fù)“機(jī)器學(xué)習(xí)”查看所有系列文章讹剔。
機(jī)器學(xué)習(xí)基石課程大概八周头岔,分為四個部分:
- When Can Machines Learn?
- Why Can Machines Learn?
- How Can Machines Learn?
- How Can Machines Learn Better?
課程主頁:
http://www.csie.ntu.edu.tw/~htlin/
本節(jié)筆記Lecture 1-The Learning Problem包含內(nèi)容如下:
- When Can Machines Learn?(什么時候用機(jī)器學(xué)習(xí))
- What is Machine learning(什么是機(jī)器學(xué)習(xí))
- Applications of Machine Learning(機(jī)器學(xué)習(xí)應(yīng)用)
- Components of Machine Learning(機(jī)器學(xué)習(xí)組成部分)
- Machine Learning and Other Fields(機(jī)器學(xué)習(xí)和其他領(lǐng)域)
一古戴、什么是機(jī)器學(xué)習(xí)(What is Machine Learning)
機(jī)器學(xué)習(xí)和學(xué)習(xí)的異同是什么掰盘?首先學(xué)習(xí)和機(jī)器學(xué)習(xí)的共通性就是觀察摄悯,他們也有差異性。
1.1 學(xué)習(xí)的流程
學(xué)習(xí)的主體是人愧捕,人通過觀察(聽奢驯、觀、觸覺)出發(fā)次绘,經(jīng)過腦袋的內(nèi)化轉(zhuǎn)化瘪阁,變成有用的技能。流程圖如下:
1.2 機(jī)器學(xué)習(xí)的流程
機(jī)器學(xué)習(xí)的主體是電腦邮偎,電腦通過觀察資料(語料)管跺,經(jīng)過電腦的CPU運作,變成對電腦有用的技能禾进。流程圖如下:
什么是“變成有用的技能”豁跑?技能就是在某種領(lǐng)域做事靠譜,比如
- 對于人泻云,自己的英語能力艇拍、數(shù)學(xué)能力得到了提高
- 對于電腦狐蜕,預(yù)測股票的能力得到了提高
因此機(jī)器學(xué)習(xí)更準(zhǔn)確的定義是:
通過觀察計算有規(guī)律的數(shù)據(jù),根據(jù)某種評價指標(biāo)卸夕,提升電腦性能馏鹤。
流程圖如下:
1.3機(jī)器學(xué)習(xí)的三個關(guān)鍵要素
什么時候適合使用機(jī)器學(xué)習(xí),林老師總結(jié)三個關(guān)鍵要素如下:
- 編程定義不明確娇哆,普通編程難以完成的任務(wù)
- 資料數(shù)據(jù)具有某種潛藏的規(guī)律,可以學(xué)習(xí)
- 有關(guān)于潛藏的規(guī)律資料數(shù)據(jù)
(測試題)下面哪種情況最適合使用機(jī)器學(xué)習(xí)勃救?
- 預(yù)測小女孩下一次哭的時間是奇數(shù)還是偶數(shù)(No,沒有規(guī)律)
- 判斷一個圖是否有環(huán)(No,可以編程定義明確)
- 預(yù)測下一個十年地球是否會毀滅(No,沒有數(shù)據(jù))
- 決定是否同意給用戶辦理信用卡(Yes碍讨,有用戶歷史行為數(shù)據(jù)且難以編程解決)
二、機(jī)器學(xué)習(xí)應(yīng)用(Applications of Machine Learning)
- 衣(Abu-Mostafa, 2012)
- 技能:穿衣搭配推薦
- 數(shù)據(jù):衣服銷售數(shù)字+顧客調(diào)差反饋
- 食(Sadilek et al., 2013)
- 技能:正確告訴餐廳食物中毒的可能性
- 數(shù)據(jù):用戶的Twitter數(shù)據(jù)(評論的文字+餐廳地點)
- 住(Tsanas and Xifara, 2012)
- 技能:預(yù)測建房所需能源消耗
- 數(shù)據(jù):歷史修建房屋的能源消耗數(shù)據(jù)
- 行(Stalkamp et al., 2012)
- 技能:識別交通信號
- 數(shù)據(jù):交通信號圖片和含義數(shù)據(jù)
除此之外蒙秒,還有教育(流利說)勃黍、金融(信用卡辦理)、醫(yī)療(藥效預(yù)測)晕讲、法律(摘要)覆获、娛樂(推薦系統(tǒng))等各種行業(yè)。
二瓢省、機(jī)器學(xué)習(xí)組成部分(Components of Learning)
以信用卡辦理為例弄息,任務(wù)是給要用信用卡花錢的用戶辦理。機(jī)器學(xué)習(xí)組件如下:
- 輸入X(銀行用戶數(shù)據(jù)特征勤婚,如年齡摹量、性別、工資等)
- 輸出Y(辦卡后刷還信用卡的好壞)
- 訓(xùn)練數(shù)據(jù)
- 目標(biāo)函數(shù)(理想的函數(shù)馒胆,表示實際訓(xùn)練數(shù)據(jù)的分布規(guī)律缨称,但是未知)
- 假設(shè)集合H(hypothesis set),我們需要通過算法學(xué)到集合中最佳的假設(shè)祝迂,其對應(yīng)的函數(shù)為我們希望最終的模型表達(dá)式睦尽。
機(jī)器學(xué)習(xí)整個流程可以表示如下:
比如以上面的信用卡辦理為例,假設(shè)其中的hypothesis set H為:
- h1: 年薪 > 80萬
- h2: 欠款 > 10 萬
- h3: 工齡 < 2年
我們的H中的假設(shè)有好有壞型雳,我們通過演算法A去選擇最好的一個作為g当凡。
因此我們在機(jī)器學(xué)習(xí)中常說的模型是 演算法A+假設(shè)集合H。
我們再以預(yù)測用戶給歌曲打分(0-100分)為例纠俭,我們有:
訓(xùn)練數(shù)據(jù)D = 100萬條((userid, songid), rating)對
輸入X = 所有可能的(userid, songid)對
輸出Y = [0, 100]
假設(shè)集合H = 將用戶因素和歌曲因子相乘宁玫,并由所有可能的因素組合索引
我們以訓(xùn)練數(shù)據(jù)D為入口,通過演算法A選出H中最好的假設(shè)得到g柑晒。
四欧瘪、機(jī)器學(xué)習(xí)和其他領(lǐng)域(Machine Learning and Other Fields)
- 機(jī)器學(xué)習(xí)與統(tǒng)計
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘
- 機(jī)器學(xué)習(xí)與人工智能
總結(jié)來說:
- 統(tǒng)計可以實現(xiàn)機(jī)器學(xué)習(xí)
- 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘相互纏繞,難以區(qū)分
- 機(jī)器學(xué)習(xí)是實現(xiàn)人工智能的一種方式
五匙赞、總結(jié)
本節(jié)主要概括性的講了機(jī)器學(xué)習(xí)的方方面面佛掖,高層籠統(tǒng)妖碉,概念清晰,沒有太多技術(shù)性的東西芥被。