一恢准,what is ml:
1:在進(jìn)行特定編程的情況下甫题,給與計(jì)算機(jī)學(xué)習(xí)能力的領(lǐng)域。這是較老的眯漩,不正式的定義? --Arthur Samuel
2:一個(gè)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí),解決任務(wù)T舱卡,達(dá)到性能度量值P队萤,當(dāng)且僅當(dāng)要尔,有了經(jīng)驗(yàn)E后,經(jīng)過P的評(píng)判赵辕,程序在處理任務(wù)T時(shí)性能有所提升 --Tom Mitchell
目前存在幾種不同類型的機(jī)器學(xué)習(xí)算法还惠,主要的為監(jiān)督學(xué)習(xí)(Supervised learnnig)和無監(jiān)督學(xué)習(xí)(Unsupervised learnnig),此外還有強(qiáng)化學(xué)習(xí)(Reinforcement learnnig)和推薦系統(tǒng)(Recommender systems)
監(jiān)督學(xué)習(xí)(Supervised learnnig):我們將教計(jì)算機(jī)如何去完成任務(wù)
無監(jiān)督學(xué)習(xí)(Unsupervised learnnig):我們打算讓它自己進(jìn)行學(xué)習(xí)
二 ,監(jiān)督學(xué)習(xí)(Supervised learnnig):
1救欧,導(dǎo)引:預(yù)測(cè)房?jī)r(jià)锣光,收集數(shù)據(jù)集,其中一個(gè)數(shù)據(jù)集如圖蹬刷,若想買一個(gè)70英尺的房子
2箍铭,定義:給出一個(gè)算法椎镣,需要部分?jǐn)?shù)據(jù)集已有正確答案状答。比如給定房?jī)r(jià)數(shù)據(jù)集里面每個(gè)數(shù)據(jù),算法都知道對(duì)應(yīng)的正確房?jī)r(jià)惊科,算法的結(jié)果為算出跟多正確的房?jī)r(jià)
更準(zhǔn)確的定義:監(jiān)督學(xué)習(xí)又叫回歸問題馆截,意為預(yù)測(cè)一個(gè)連續(xù)值的輸出蜂莉,而術(shù)語回歸意為預(yù)測(cè)這類連續(xù)值屬性的種類
eg:房?jī)r(jià)(一般把房?jī)r(jià)記為美分單位映穗,所以實(shí)際為離散值幕随,但通常把它看作在實(shí)數(shù)軸上連續(xù)的一個(gè)標(biāo)量,一個(gè)連續(xù)值的數(shù))
eg2:醫(yī)學(xué)記錄辕录,并預(yù)測(cè)胸部腫瘤為良性或者惡性的概率梢卸,假設(shè)有人發(fā)現(xiàn)了一個(gè)乳腺瘤,這個(gè)瘤就是一個(gè)收集好的數(shù)據(jù)集速梗,假設(shè)在其中襟齿,橫軸表示腫瘤的大小枕赵,縱軸圈上0或1拷窜,即是與否
這其實(shí)是一個(gè)分類問題,何為分類赋荆,分類就是要預(yù)測(cè)一個(gè)離散值的輸出懊昨,在這個(gè)例子中就是0 or 1
補(bǔ)充:
在分類問題中酵颁,還有另外一種方式來描繪數(shù)據(jù)。如果腫瘤大小作為唯一屬性被用于預(yù)測(cè)惡性良性幽污,可以將數(shù)據(jù)圖作成,使用不同符號(hào)表示良性惡性簿姨,所以改用符號(hào),圓圈是良准潭,叉是惡,要做的就是將上面的映射下來则酝,圖為
實(shí)際研究中爽雄,使用了其它更多的特征沐鼠,如腫塊的厚度饲梭,瘤細(xì)胞的尺寸的均勻向,相撞的均勻性等等
這表明了有趣的學(xué)習(xí)算法可以處理無窮多特征订框,不止5兜叨,6個(gè)特征,那么你要如何處理無窮多特征存儲(chǔ)無數(shù)數(shù)據(jù)(后邊的支持向量機(jī))
監(jiān)督學(xué)習(xí)中心思想:在監(jiān)督學(xué)習(xí)中矛物,數(shù)據(jù)集中的每個(gè)例子跪但,算法將預(yù)測(cè)得到每個(gè)例子的“正確答案”
回歸問題:回歸是指我們的目標(biāo)是預(yù)測(cè)一個(gè)連續(xù)的輸出值
分類:分類是要預(yù)測(cè)一個(gè)離散值輸出
習(xí)題:判斷是分類問題還是回歸問題特漩,答案在最后
1,有1000件貨物雄卷,想預(yù)測(cè)可以賣多少
2蛤售,判斷1000個(gè)人里面感冒的人
三,無監(jiān)督學(xué)習(xí)(Unsupervised learnnig)
1揣钦,引例:在上面的例子中,數(shù)據(jù)集每個(gè)樣本給出正確答案谎亩,如腫瘤的正樣本和負(fù)樣本宇姚,而在無監(jiān)督學(xué)習(xí)中數(shù)據(jù)集看起來有些不一樣浑劳,沒有屬性(特征)或者標(biāo)簽在一概念,即所有數(shù)據(jù)都一樣衷咽,無區(qū)別
蒜绽,也就是給定一個(gè)數(shù)據(jù)集,讓你來找出其中的某種結(jié)構(gòu)卖词。
2吏夯,定義:對(duì)于給定的數(shù)據(jù)集噪生,無監(jiān)督學(xué)習(xí)算法可以判斷該數(shù)據(jù)集包含幾種不同聚類东囚,這就是聚類算法。聚類算法在生活中的應(yīng)用很多桨嫁,百度搜索出的東西璃吧。大型計(jì)算機(jī)集群废境,社交網(wǎng)絡(luò)筒繁,對(duì)市場(chǎng)細(xì)分的方式等等
3巴元,請(qǐng)下載octave逮刨,本系列中將要使用octave作為學(xué)習(xí)工具
使用octave作為學(xué)習(xí)開發(fā)的原型工具很爽的哦嘿嘿
4,習(xí)題判斷屬于無監(jiān)督恢总,還是監(jiān)督:
請(qǐng)你回答箩退,糖尿病病人診斷戴涝,百度查詢的新聞,給一個(gè)城市某商品銷售數(shù)據(jù)后的劃分市場(chǎng)區(qū)域奸鸯,郵件的判斷
----------------------------------可愛的分割線------------------------------------------
回歸 可帽,分類 ,監(jiān)督蓄拣,無努隙,無,監(jiān)督