機(jī)器學(xué)習(xí)介紹

機(jī)器學(xué)習(xí)的定義(Machine Learning Definition)

Even among machine learning practitioners there isn't a well accepted definition of what is and what isn't machine learning. But let me show you a couple of examples of the ways that people have tried to define it.

  • Arthur Samuel(1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed. (This is an older, informal definition.)

  • Tom Mitchell(1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

    Example: playing checkers.
    E = the experience of playing many games of checks
    T = the task of playing checkers
    P = the probability that the program will win the next game

Question:
Suppose your email program watches which emails you do or do not mark as spam, and based on that learns how to better filter spam. What is the task T in this setting?
A. Classify email as spam or not spam.
B. Watching you label emails as spam or not spam.
C. The number (or fraction) of emails correctly classified as spam/not spam.
D. None of the above, this is not a machine learning algorithm.

我們通過Tom Mitchell教授對機(jī)器學(xué)習(xí)的定義可知照瘾,問題選項(xiàng)中:A即為Task T唯蝶,B即為Experience E,C即為Performance measure P。

機(jī)器學(xué)習(xí)的算法(Machine Learning Algorithms)

In general, any machine learning problem can be assigned to one of two broad classifications:

  • Supervised learning, the idea is that we're going to teach the computer how to do something;
  • Unsupervised learning, we're going let it learn by itself.

通常我們說的增強(qiáng)學(xué)習(xí)(Reinforcement Learning)和推薦系統(tǒng)(Recommender systems)這些其他類型的算法也是屬于機(jī)器學(xué)習(xí)算法瘩将。

監(jiān)督學(xué)習(xí)(Supervised learning)

我們先從一個(gè)例子開始:假設(shè)你需要預(yù)測房價(jià)帽撑,之前某個(gè)學(xué)生已經(jīng)從某地收集了數(shù)據(jù)集离咐,其中一個(gè)數(shù)據(jù)集如圖所示:

房價(jià)數(shù)據(jù)

圖中的每一個(gè)實(shí)例都為一次房屋交易浑吟,其中橫坐標(biāo)為不同房屋的面積,縱坐標(biāo)為房屋交易價(jià)格查描。

根據(jù)給定的數(shù)據(jù)突委,假設(shè)你朋友有棟750平方英尺的房屋想要你幫忙把房價(jià)定多少合適且可以將房屋賣掉柏卤。

那么,學(xué)習(xí)算法怎么幫你朋友呢匀油?學(xué)習(xí)算法可以:繪出一條直線缘缚,讓直線盡可能匹配到所有數(shù)據(jù)【疲基于此,你可以估計(jì)這棟房屋可以買到15萬美元匠襟。但這不是唯一的學(xué)習(xí)算法钝侠,這里使用平方函數(shù)可能會(huì)更好,即使用二次多項(xiàng)式可能更符合數(shù)據(jù)集酸舍。如果基于此的話帅韧,這棟房屋價(jià)格可以定價(jià)到20萬美元。這里我們先留下一個(gè)疑問是選擇直線呢還是選擇平方函數(shù)來擬合啃勉。我們到后面再來回答這個(gè)疑問忽舟。這里所用的兩個(gè)學(xué)習(xí)算法如圖所示:

學(xué)習(xí)算法演示

其中,紫色的線條表示直線的學(xué)習(xí)算法淮阐,藍(lán)色的線條即表示平方函數(shù)的學(xué)習(xí)算法叮阅。

這個(gè)預(yù)測房價(jià)的例子即是監(jiān)督學(xué)習(xí)的例子。因此泣特,監(jiān)督學(xué)習(xí)意指預(yù)先給出一個(gè)算法的“正確結(jié)果”——即通過已有的數(shù)據(jù)集建立某種函數(shù)關(guān)系得出相應(yīng)的結(jié)果浩姥。監(jiān)督學(xué)習(xí)又稱為回歸問題,意指要預(yù)測一個(gè)連續(xù)值得輸出状您。

接下來勒叠,我們再看一個(gè)監(jiān)督學(xué)習(xí)的例子。現(xiàn)在步入到醫(yī)學(xué)領(lǐng)域膏孟,我們想要預(yù)測胸部腫瘤是惡性還是良性眯分。假設(shè)我們有如圖所示的數(shù)據(jù)集,在數(shù)據(jù)集中柒桑,橫軸表示腫瘤的大小弊决,縱軸通過0(NO)和1(Yes)表示是否為惡性。

胸部腫瘤數(shù)據(jù)集

現(xiàn)在假設(shè)某人的腫瘤大小如圖中的紫色箭頭所示魁淳,預(yù)測該人所得的腫瘤是良性還是惡性丢氢。

此時(shí),對應(yīng)的機(jī)器學(xué)習(xí)的問題就是計(jì)算該大小的腫瘤是良性還是惡性的概論先改。專業(yè)地說疚察,這是個(gè)分類問題,意指要預(yù)測一個(gè)離散值的輸出仇奶。在分類問題中貌嫡,預(yù)測離散值的輸出有時(shí)會(huì)超過兩個(gè)值比驻。

同時(shí),還有另外一種作圖方式來描述數(shù)據(jù)集岛抄,即采用圓圈的方式表示良性腫瘤别惦,畫×的方式表示惡性腫瘤,如圖所示:

這時(shí)夫椭,我們可以將一開始的數(shù)據(jù)集的數(shù)據(jù)映射至我們上圖所示的數(shù)據(jù)集掸掸。除此之外,我們還擁有病人年齡和腫瘤大小關(guān)系的數(shù)據(jù)集蹭秋,以及某人的腫瘤大小和年齡如圖中紫色箭頭所示:

那么依據(jù)這些給定的數(shù)據(jù)集扰付,學(xué)習(xí)算法所做的就是畫一條直線,分開惡性腫瘤和良性腫瘤仁讨,然后我們就能判斷該人的腫瘤是否為惡性腫瘤了羽莺。

總結(jié)
  • 監(jiān)督學(xué)習(xí)的基本思想為:在監(jiān)督學(xué)習(xí)中,對于數(shù)據(jù)集中的每個(gè)數(shù)據(jù)洞豁,都有相應(yīng)的“正確答案”——訓(xùn)練集盐固,算法就是基于這些來做出預(yù)測。
  • 回歸問題丈挟,即預(yù)測一個(gè)連續(xù)值輸出刁卜。
  • 分類問題,目標(biāo)是預(yù)測離散值輸出曙咽。

Question:
You're running a company, and you want to develop learning algorithms to address each of two problems.

  • Problem 1: You have a large inventory of identical items. You want to predict how many of these items will sell over the next 3 months.
  • Problem 2: You'd like software to examine individual customer accounts, and for each account decide if it has been hacked/compromised.

Should you treat these as classification or as regression problems?
A. Treat both as classification problems.
B. Treat problem 1 as a classification problem, problem 2 as a regression problem.
C. Treat problem 1 as a regression problem, problem 2 as a classification problem.
D. Treat both as regression problems.

通過上述的總結(jié)长酗,我們很容易得知問題1為回歸問題,問題2為分類問題桐绒。

補(bǔ)充筆記
Supervised Learning

In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output.

Supervised learning problems are categorized into "regression" and "classification" problems. In a regression problem, we are trying to predict results within a continues output, meaning that we are trying to map inout variables to some continuous function. In a classification problem, we are instead trying to predict results in a discrete output. In other words, we are trying to map input variables into discrete categories.

無監(jiān)督學(xué)習(xí)(Unsupervised Learning)

在監(jiān)督學(xué)習(xí)中夺脾,我們回顧一下預(yù)測腫瘤的例子,在這個(gè)例子中的數(shù)據(jù)集每個(gè)樣本都已經(jīng)被標(biāo)明為正樣本或負(fù)樣本茉继,即良性腫瘤或惡性腫瘤咧叭。因此對于監(jiān)督學(xué)習(xí)中的每一個(gè)樣本,我們已經(jīng)清楚地告知了什么是所謂的正確答案烁竭,即它們是良性還是惡性菲茬。

在無監(jiān)督學(xué)習(xí)中,我們用的數(shù)據(jù)會(huì)和監(jiān)督學(xué)習(xí)中的不一樣派撕。在無監(jiān)督學(xué)習(xí)中婉弹,沒有屬性或標(biāo)簽這一概念,也就是說所有數(shù)據(jù)都是一樣的终吼,沒有區(qū)別镀赌。所以,在無監(jiān)督學(xué)習(xí)中际跪,我們只有一個(gè)數(shù)據(jù)集商佛,它可能判定該數(shù)據(jù)集包含兩個(gè)不同的聚類喉钢。

如上圖所示,無監(jiān)督學(xué)習(xí)算法會(huì)把這些數(shù)據(jù)分成兩個(gè)不同的聚類良姆,這就是所謂的聚類算法肠虽。這里我們舉一個(gè)關(guān)于基因芯片的例子說明無監(jiān)督學(xué)習(xí)算法和聚類算法在基因組學(xué)中的應(yīng)用。其基本的思想是:給定一組不同的個(gè)體玛追,對于每個(gè)個(gè)體檢測它們是否擁有某個(gè)特定的基因税课。即我們要去分析有多少基因顯現(xiàn)出來,因此下圖中的紅痊剖、綠和灰色等等顏色韩玩,它們展示了這些不同的個(gè)體是否擁有一個(gè)特定的基因。然后邢笙,我們就要通過聚類算法把不同的個(gè)體歸入不同的類或歸為不同類型的人啸如。

在這個(gè)例子中侍匙,我們沒有提前告知這些算法這是第一類人氮惯、這是第二類人······,相反我們只是告知算法這里有一堆數(shù)據(jù)想暗,以及向算法問道“你”能不能將這些數(shù)據(jù)自動(dòng)歸類妇汗,然后算法就自動(dòng)按得到的類型把這些數(shù)據(jù)歸類整理,這就是無監(jiān)督學(xué)習(xí)说莫。

而聚類算法只是無監(jiān)督學(xué)習(xí)的一種杨箭,現(xiàn)在我們來介紹另一種。按照慣例储狭,我們先舉一個(gè)例子說明互婿。

雞尾酒宴問題:假設(shè)有一個(gè)宴會(huì),有一屋子的人辽狈,大家都坐在一起而且都在同時(shí)說話慈参。在這種情況下,你很難聽清楚你面前的人說的話刮萌。因此驮配,我們不妨再做一個(gè)假設(shè)。假設(shè)有一個(gè)宴會(huì)着茸,屋子里只有兩個(gè)人壮锻,每個(gè)人面前都有一個(gè)麥克風(fēng),兩個(gè)人同時(shí)說話涮阔。這時(shí)有個(gè)無聊的研究人員錄下這兩人的聲音猜绣。

雞尾酒宴問題

當(dāng)我們打開這段錄音時(shí),我們會(huì)聽到兩個(gè)人的說話聲音敬特。類比于在無監(jiān)督學(xué)習(xí)中途事, 我們將兩個(gè)人的聲音輸入验懊,通過某種算法找出其中蘊(yùn)含的某種分類,將第一個(gè)人的聲音分離出來尸变,將第二種人的聲音分離出來义图。這種算法就稱為雞尾酒會(huì)算法。

這里你可能認(rèn)為實(shí)現(xiàn)這一算法很復(fù)雜召烂,但我們推薦使用Octave這款開源的免費(fèi)軟件編寫該算法只需一行碱工。

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

Question:
Of the following examples, which would you address using an unsupervised learning algorithm?
A. Given email labeled as spam/not spam, learn a spam filter.
B. Given a set of news articles found on the web, group them into set of articles about the same story.
C. Given a database of customer data, automatically discover market segments and group customs into different market segments.
D. Given a dataset of patients diagnosed as either having diabetes or not, learn to classify new patients as having diabetes or not.

A中的例子為監(jiān)督學(xué)習(xí)中垃圾郵件過濾的例子,D中的是否患有糖尿病的例子與是否胸部腫瘤是否為惡性的例子一樣屬于監(jiān)督學(xué)習(xí)奏夫;B中的新聞分類和C中的市場劃分均屬于無監(jiān)督學(xué)習(xí)怕篷。

補(bǔ)充筆記
Unsupervised Learning

Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don't necessarily know the effect of the variables.

We can derive this structure by clustering the data based on relationships among the variables in the data.

With unsupervised learning there is no feedback based on the prediction results.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市酗昼,隨后出現(xiàn)的幾起案子廊谓,更是在濱河造成了極大的恐慌,老刑警劉巖麻削,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒸痹,死亡現(xiàn)場離奇詭異,居然都是意外死亡呛哟,警方通過查閱死者的電腦和手機(jī)叠荠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扫责,“玉大人榛鼎,你說我怎么就攤上這事”罟拢” “怎么了者娱?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長苏揣。 經(jīng)常有香客問我黄鳍,道長,這世上最難降的妖魔是什么腿准? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任际起,我火速辦了婚禮,結(jié)果婚禮上吐葱,老公的妹妹穿的比我還像新娘街望。我一直安慰自己,他們只是感情好弟跑,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布灾前。 她就那樣靜靜地躺著,像睡著了一般孟辑。 火紅的嫁衣襯著肌膚如雪哎甲。 梳的紋絲不亂的頭發(fā)上蔫敲,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天,我揣著相機(jī)與錄音炭玫,去河邊找鬼奈嘿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吞加,可吹牛的內(nèi)容都是我干的裙犹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼衔憨,長吁一口氣:“原來是場噩夢啊……” “哼叶圃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起践图,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤掺冠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后码党,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體德崭,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年闽瓢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了接癌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片心赶。...
    茶點(diǎn)故事閱讀 38,566評論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡扣讼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缨叫,到底是詐尸還是另有隱情椭符,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布耻姥,位于F島的核電站销钝,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏琐簇。R本人自食惡果不足惜蒸健,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望婉商。 院中可真熱鬧似忧,春花似錦、人聲如沸丈秩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蘑秽。三九已至饺著,卻和暖如春箫攀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背幼衰。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工靴跛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人渡嚣。 一個(gè)月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓汤求,卻偏偏與公主長得像,于是被迫代替她去往敵國和親严拒。 傳聞我的和親對象是個(gè)殘疾皇子扬绪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 不管是坐火車還是坐飛機(jī)挤牛,只要客觀環(huán)境允許,我都喜歡和座位旁邊的人聊天种蘸。因?yàn)樽陨磉€算面善墓赴,喜歡聽別人講故事,也喜歡講...
    番茄曉蛋閱讀 763評論 0 1
  • 水墨小鎮(zhèn)航瞭,煙雨朦朧 青石白堤诫硕,綠樹成蔭 我從北方來,一身土氣無處安放 拘謹(jǐn)著刊侯,像一只迷路的笨熊 橫沖直撞章办,頭破血流...
    閑狐兔閱讀 207評論 2 3
  • 郭漢成
    郭漢成閱讀 178評論 0 0
  • 我有青玉美人, 妙手雕成滨彻, 極盡妍態(tài)藕届, 每夜子時(shí), 候君踏星來取亭饵, 我素雅達(dá)休偶, 必不致, 令君徒勞往返也辜羊! 我以深...
    七彩糖閱讀 237評論 3 9