線性回歸
1.舉個例子:
數(shù)據(jù):工資和年齡(2個特征)
目標:預測銀行會貸款給我多少錢(標簽)
思考:工資和年齡都會影響最終銀行貸款的結果那么它們各自有多大的影響?(參數(shù))
2.通俗的解釋:
X1,X2就是兩個特征(年齡和工資)面粮,y是銀行最終會借給我們多少錢
找到最合適的一條線(想象一個高緯)來最好的擬合數(shù)據(jù)點
3.數(shù)學公式:
假設是年齡的參數(shù)饥追,是工資的參數(shù)
擬合的平面:? ?(是偏置項)
整合:
4.誤差:
真實值和預測值之間肯定是要存在差異的(用來表示該誤差)
對于每個樣本:
誤差是獨立并且具有相同的分布,并且服從均值為0方差為的高斯分布颠印;
獨立:張三和李四一起貸款,但他們之間沒任何關系
同分布:他倆來的是同一家銀行
高斯分布:銀行可能會多給,也可能會少給郎笆,但是絕大多數(shù)情況下這個浮動不會太大,極小情況下浮動會比較大忘晤,符合正常情況宛蚓。
預測值與誤差:
由于誤差服從高斯分布:
將(1)式帶入(2)式:
似然函數(shù):
解釋:什么樣的參數(shù)跟我們的數(shù)據(jù)組合后恰好是真實值
對數(shù)似然:
????????解釋:對數(shù)里面乘法可以轉(zhuǎn)換成加法
????????展開化簡:
????????目標:讓似然函數(shù)(對數(shù)變換后也一樣)越大越好
目標函數(shù):
????????求偏導:
????????偏導等于0:
5.評估方法:
最常用的評估項:
的取值越接近于1我們認為模型擬合的越好
6.梯度下降:
引入:當我們得到了一個目標函數(shù)后,如何進行求解设塔?
直接求解凄吏?(并不一定可解,線性回歸可以當做是一個特例)
常規(guī)套路:機器學習的套路就是我交給機器一堆數(shù)據(jù)闰蛔,然后告訴它什么樣的學習方式是對的(目標函數(shù))痕钢,然后讓它朝著這個方向去做
如何優(yōu)化:一步步的完成迭代(每次優(yōu)化一點點,累積起來就是個大成績了)
目標函數(shù):
尋找山谷的最低點序六,也就是我們的目標函數(shù)終點(什么樣的參數(shù)能使得目標函數(shù)達到極值點)
下山分幾步走呢盖喷?(更新參數(shù)):
(1):找到當前最合適的方向
(2):走那么一小步,走快了該”跌倒”了
(3):按照方向與步伐去更新我們的參數(shù)
梯度下降难咕,目標函數(shù):
批量梯度下降:
(容易得到最優(yōu)解课梳,但是由于每次考慮所有樣本,速度很慢)
隨機梯度下降:
(每次找一個樣本余佃,迭代速度快暮刃,但不一定每次都朝著收斂的方向)
小批量梯度下降法:
學習率(步長):對結果會產(chǎn)生巨大的影響,一般小一些
如何選擇:從小的時候爆土,不行再小
批處理數(shù)量:32椭懊,64,128都可以步势,很多時候還得考慮內(nèi)存和效率