區(qū)分
有監(jiān)督學(xué)習(xí)- 無(wú)監(jiān)督學(xué)習(xí)
分類(得到唯一的類別值) - 回歸(得到區(qū)間中某一個(gè)值)
例子剖析
回歸問題蛉威,將會(huì)通過現(xiàn)有數(shù)據(jù)特征預(yù)測(cè)獲得得到多少錢馁筐,一個(gè)區(qū)間內(nèi)的一個(gè)任意數(shù)值猜拾。
分類問題胸懈,將會(huì)通過現(xiàn)有數(shù)據(jù)特征預(yù)測(cè)銀行是否會(huì)借貸錢扬舒,一個(gè)確定的類別值旬陡。
線型回歸算法原理
θ0為偏置項(xiàng)抬闯,獨(dú)立的井辆;其他θ為權(quán)重值,調(diào)整每一個(gè)特征的貢獻(xiàn)度溶握;從而去擬合一個(gè)平面杯缺。計(jì)算中常用矩陣
重點(diǎn)理解:獨(dú)立、同分布睡榆、高斯分布(正態(tài)分布)
加入標(biāo)準(zhǔn)的高斯分布的誤差表達(dá)式萍肆,變換形態(tài)表示出θ參數(shù)的取值;理解:尋求誤差值分布的大概率范圍對(duì)應(yīng)的θ參數(shù)值胀屿,這樣會(huì)是的函數(shù)的預(yù)測(cè)值更加趨近于真實(shí)值塘揣。
似然函數(shù):這里是最大似然函數(shù),通過參數(shù)與數(shù)據(jù)組合更加貼近真實(shí)值宿崭,使得屏幕擬合度提高亲铡。【最大似然估計(jì)原理:給定一個(gè)概率分布D葡兑,假定其概率密度函數(shù)(連續(xù)分布)或概率聚集函數(shù)(離散分布)為fD奖蔓,以及一個(gè)分布參數(shù)θ,我們可以從這個(gè)分布中抽出一個(gè)具有n個(gè)值的采樣X1,X2,...,Xn讹堤,通過利用fD锭硼,我們就能計(jì)算出其概率:
但是,我們可能不知道θ的值蜕劝,盡管我們知道這些采樣數(shù)據(jù)來(lái)自于分布D檀头。那么我們?nèi)绾尾拍芄烙?jì)出θ呢?一個(gè)自然的想法是從這個(gè)分布中抽出一個(gè)具有n個(gè)值的采樣X1,X2,...,Xn岖沛,然后用這些采樣數(shù)據(jù)來(lái)估計(jì)θ暑始。
一旦我們獲得,我們就能從中找到一個(gè)關(guān)于θ的估計(jì)婴削。最大似然估計(jì)會(huì)尋找關(guān)于 θ的最可能的值(即廊镜,在所有可能的θ取值中,尋找一個(gè)值使這個(gè)采樣的“可能性”最大化)唉俗。這種方法正好同一些其他的估計(jì)方法不同嗤朴,如θ的非偏估計(jì),非偏估計(jì)未必會(huì)輸出一個(gè)最可能的值虫溜,而是會(huì)輸出一個(gè)既不高估也不低估的θ值雹姊。
要在數(shù)學(xué)上實(shí)現(xiàn)最大似然估計(jì)法,我們首先要定義可能性:
并且在θ的所有取值上衡楞,使這個(gè)函數(shù)最大化吱雏。這個(gè)使可能性最大的值即被稱為θ的最大似然估計(jì)。】
引入對(duì)數(shù)似然的原因: 轉(zhuǎn)化為對(duì)數(shù)似然歧杏,是因?yàn)閷?duì)數(shù)的乘法會(huì)轉(zhuǎn)換成加法镰惦,減小運(yùn)算難度。
展開化簡(jiǎn)后形成犬绒,大于零的常數(shù) 減去 一個(gè)式子 (保證對(duì)數(shù)似然函數(shù)值最大旺入,那么就使式子的值越小越好)
重點(diǎn)理解:誤差的高斯分布,似然函數(shù)凯力、對(duì)數(shù)似然眨业;為什么回歸使用最小二乘法,它們之間的關(guān)系沮协。
三種梯度下降的分析如上龄捡,通常采用小批量梯度下降法
步長(zhǎng)的選擇一般為0.01,小的話就是0.005等慷暂;常見策略是最開始步長(zhǎng)大一點(diǎn)聘殖,最后逼近調(diào)優(yōu)時(shí)小一點(diǎn)