入門(mén)
ML定義:
一個(gè)電腦程序 被認(rèn)為能從經(jīng)驗(yàn)E中學(xué)習(xí) 解決任務(wù)T 達(dá)到性能度量值P 喊儡,當(dāng)且僅當(dāng)愚臀,有了經(jīng)驗(yàn)E科雳,經(jīng)過(guò)P的評(píng)判后范删,處理任務(wù)T的性能得到了提升
學(xué)會(huì)區(qū)分 任務(wù)T 經(jīng)驗(yàn)E 表現(xiàn)P
Example: playing checkers.
E = the experience of playing many games of checkers
T = the task of playing checkers.
P = the probability that the program will win the next game.
監(jiān)督學(xué)習(xí):我們教計(jì)算機(jī)如何去學(xué)習(xí)
非監(jiān)督學(xué)習(xí):計(jì)算機(jī)自己進(jìn)行學(xué)習(xí)
監(jiān)督學(xué)習(xí)
意指 給出一個(gè)算法所需要的部分?jǐn)?shù)據(jù)集已經(jīng)有正確答案蕾域,算法的結(jié)果就是給出更多未知數(shù)據(jù)的結(jié)果
回歸:預(yù)測(cè)的是連續(xù)值
分類(lèi):預(yù)測(cè)離散值的輸出
主要例子是房?jī)r(jià)預(yù)測(cè)(回歸)和 腫瘤判斷(分類(lèi))兩個(gè)問(wèn)題
非監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)中 所使用的數(shù)據(jù)是沒(méi)有標(biāo)簽的,沒(méi)人有告訴數(shù)據(jù)集的含義到旦,我們可以根據(jù)數(shù)據(jù)中變量之間的關(guān)系對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)旨巷。
例子
根據(jù)基因?qū)δ承┨囟ǖ娜巳哼M(jìn)行分類(lèi)(聚類(lèi),基因相似的分到一簇中)
雞尾酒酒宴(cocktail party problem)
svd算法
允許您在混亂的環(huán)境中找到結(jié)構(gòu)添忘。(例如采呐,從雞尾酒會(huì)上的各種聲音中識(shí)別出個(gè)人的聲音和音樂(lè))
單變量線性回歸算法
模型定義:
給定一個(gè)函數(shù) h 通過(guò)輸入x,經(jīng)過(guò)h搁骑,產(chǎn)生輸出h(x)
called hypothesis
其模型參數(shù)為
cost function (損失函數(shù))
目標(biāo)就是找到 最優(yōu)的 模型參數(shù) 斧吐,從而使我們的模型(或者h(yuǎn)ypothesis)最優(yōu)
使得產(chǎn)生的h(x)盡可能的接近 y。
損失函數(shù):
(squared error cost function)
式中的 是為了方便求導(dǎo)的時(shí)候產(chǎn)生的2 約去
可以看到的是 h(x) 是關(guān)于x的函數(shù)
而 是關(guān)于參數(shù)
的函數(shù)
通過(guò)求 的最小值靶病,也就是損失最小会通,使得損失最小的參數(shù)
就是我們要找到的 模型參數(shù)。
梯度下降法
- outline
- start with some
(均等于0娄周,或者隨機(jī)值)
- keep changing
to reduce
涕侈,until we hopefully end up at a minimum
- start with some
經(jīng)典解釋梯度下降算法:下山例子
The gradient descent algorithm is:
repeat until convergence:重復(fù)這個(gè)過(guò)程 直到收斂
學(xué)習(xí)率,來(lái)控制下降過(guò)程的步子大忻罕妗:
過(guò)大:下降很快裳涛,但是會(huì)越過(guò)最低點(diǎn)造成無(wú)法收斂或者發(fā)散
過(guò)心菊拧: 下降速度較慢,
參數(shù)學(xué)習(xí)過(guò)程是同步
進(jìn)行的:
參數(shù)更新過(guò)程端三,根據(jù)上面的公司舷礼,在最低點(diǎn)左右兩側(cè)均正確:
當(dāng)?shù)竭_(dá)局部最優(yōu)點(diǎn)的時(shí)候,會(huì)使得損失函數(shù)的偏導(dǎo)數(shù)=0 從而收斂到局部最優(yōu)郊闯。
再接近局部最優(yōu)點(diǎn)的時(shí)候妻献,梯度下降會(huì)自動(dòng)選擇更小的步子來(lái)達(dá)到最優(yōu)點(diǎn),**所以沒(méi)有必要減少學(xué)習(xí)率 **
線性回歸算法的梯度下降
首先應(yīng)該 搞清楚 梯度下降的導(dǎo)數(shù)部分团赁,對(duì)應(yīng)于線性回歸算法 應(yīng)該如何計(jì)算
[圖片上傳失敗...(image-774809-1550998380376)]
repeat until convergence:
{
}
凸函數(shù):其形狀類(lèi)似一個(gè)碗裝育拨,這樣的函數(shù)沒(méi)有局部最優(yōu)解,只有全局最優(yōu)解
上面的計(jì)算過(guò)程 我們總是遍歷整個(gè)樣本集來(lái)更新我們的參數(shù)欢摄, batch gradient descent 批量梯度下降
正規(guī)方程組解法 存在這樣的一種解法 不需要使用梯度下降熬丧。
梯度下降適用于更大的數(shù)據(jù)集(自己給的解釋就是,對(duì)于較大數(shù)據(jù)集怀挠,進(jìn)行矩陣計(jì)算較為麻煩)
線性代數(shù)部分復(fù)習(xí)
理解矩陣和向量的含義析蝴,向量多指 N*1 的矩陣
大寫(xiě)字母來(lái)表示矩陣
小寫(xiě)字母來(lái)表示向量
存在結(jié)合律(矩陣鏈乘法的優(yōu)化)
不可以使用交換律 A·B B·A