啤酒尿布
沃爾瑪根據(jù)它每天記錄的大量的客戶消費(fèi)數(shù)據(jù)進(jìn)行分析前弯,發(fā)現(xiàn)了有勾,購買了啤酒的顧客更可能同時(shí)購買尿布。所以他們把尿布和啤酒放到一塊,結(jié)果大幅度的提高了這兩者的銷售額煎殷。
購買尿布和購買啤酒看上去毫無關(guān)系屯伞,但是通過用戶購物數(shù)據(jù)作為樣本發(fā)現(xiàn)了其中的關(guān)聯(lián)和規(guī)律,對(duì)于沃爾瑪而言無需知道規(guī)律背后的本質(zhì)豪直,只需要發(fā)現(xiàn)這個(gè)規(guī)律就可以大幅度的提升銷售額劣摇,這就足夠了。
其實(shí)機(jī)器學(xué)習(xí)的核心思想也大概如此弓乙,就是讓計(jì)算機(jī)程序隨著數(shù)據(jù)樣本的積累末融,可以自動(dòng)獲取精確的判斷和歸納能力。
可以把我們要進(jìn)行分析的數(shù)據(jù)叫做訓(xùn)練集暇韧,把現(xiàn)象歸納的過程叫訓(xùn)練
在啤酒尿布的故事中勾习,沃爾瑪使用的是一種叫Apriori的算法,可以用來挖掘關(guān)聯(lián)數(shù)據(jù)中的頻繁項(xiàng)集懈玻,也就是找尋數(shù)據(jù)集合的內(nèi)在聯(lián)系
另外我們還知道瑞雪兆豐年的故事巧婶,也就是勞動(dòng)人民通過大量的現(xiàn)象進(jìn)行分析,如果下了雪涂乌,很大程度上明年就是一個(gè)豐年艺栈。
瑞雪兆豐年和啤酒尿布有本質(zhì)的區(qū)別,
瑞雪兆豐年是對(duì)一個(gè)新現(xiàn)象進(jìn)行結(jié)果預(yù)測
啤酒尿布是對(duì)相關(guān)性的挖掘湾盒。
下圖是對(duì)兩個(gè)故事的流程進(jìn)行歸納湿右。
對(duì)于瑞雪兆豐年來說,可以根據(jù)多年的降雪與來年的豐收情況進(jìn)行分析罚勾,通過某種算法進(jìn)行訓(xùn)練毅人,然后得到規(guī)律也即假設(shè)模型。
根據(jù)降雪情況推斷出下一年的收成情況尖殃,這就是回歸
對(duì)于啤酒尿布屬于完全不一樣的機(jī)器學(xué)習(xí)類型堰塌,只需要找出關(guān)聯(lián)關(guān)系,并不需要回歸分衫。
所以這兩種其實(shí)是完全不同的機(jī)器學(xué)習(xí)方法场刑。
我們可以按照方式不同分為三類:
- 有監(jiān)督學(xué)習(xí)(supervised learning)
也就是已經(jīng)有了一部分輸入數(shù)據(jù)和數(shù)據(jù)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,可以生成一個(gè)函數(shù)蚪战,可以通過輸入獲得輸出牵现。
比如瑞雪兆豐年,頭年的降雪量就是輸入邀桑,來年產(chǎn)量就是輸出瞎疼。 - 無監(jiān)督學(xué)習(xí):直接對(duì)輸入進(jìn)行建模,尋找關(guān)聯(lián)壁畸。
比如啤酒尿布只需要尋找相關(guān)性贼急,不需要目標(biāo)輸出茅茂。 - 半監(jiān)督學(xué)習(xí):
就是上面兩種方法綜合起來。我們可以對(duì)有輸入輸出的數(shù)據(jù)+只有輸入的數(shù)據(jù)進(jìn)行綜合分析
參考
本文為什么是機(jī)器學(xué)習(xí)的筆記