最近正在參加一個公益AI課程要拂,學習深度學習抠璃,打卡監(jiān)督自己。由于剛開始學習pytorch和深度學習脱惰,進度比較慢搏嗡,沒有時間仔細寫筆記,因此先簡單列出提綱拉一,以后再進行補充彻况。本文目錄如下:
Task01
- 1.線性回歸
- 2.logistic回歸
- 3.softmax分類模型
- 4.多層感知機
Task02
- 1.文本預(yù)處理
- 語言模型
- 循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
1. 線性回歸
1.1 線性回歸的形式
1.2 平方損失函數(shù)
如何衡量線性回歸模型擬合得怎么樣?一個直觀的想法就是預(yù)測值和真實值的相差越小越好舅踪,但是由于正負會相互抵消纽甘,因此不直接進行求和,而是取平方和抽碌。
1.3 如何估計系數(shù)悍赢?
模型中的待估系數(shù)包括和,應(yīng)該如何估計這兩個系數(shù)呢货徙?
我們的目標是最小化損失函數(shù)左权,也就是
那么就有兩種思路,一種是求解析解痴颊,另一種是求數(shù)值解赏迟。
- 解析解即最小化一階導(dǎo)數(shù),解出和的表達式蠢棱。
- 很多情況下锌杀,最小化損失函數(shù)無法得到解析解甩栈,因此就需要求數(shù)值解,這里可以用梯度下降的方法求數(shù)值解糕再。
1.4 補充知識點:梯度下降法
2. logistic回歸
2.1 sigmoid函數(shù)
線性回歸可以對y的值是連續(xù)值時建模量没,但我們想象一下,當我們的y值的值域是{0突想,1}時殴蹄,用線性回歸模型顯然不合適,因為等式右邊的范圍時負無窮到正無窮猾担。
但是袭灯,如果我們依然想利用線性回歸模型怎么辦呢?有一個方法就是想辦法將負無窮到正無窮映射到0到1區(qū)間稽荧。那么怎么映射呢圾叼?——sigmoid函數(shù)就是一個方法捺癞。
2.2 logistic回歸的損失函數(shù)——交叉熵損失函數(shù)
對于樣本,我們構(gòu)造向量 惕鼓,使其第(樣本類別的離散數(shù)值)個元素為1唐础,其余為0。這樣我們的訓練目標可以設(shè)為使預(yù)測概率分布盡可能接近真實的標簽概率分布呀邢。
- 平方損失估計
然而价淌,想要預(yù)測分類結(jié)果正確瞒津,我們其實并不需要預(yù)測概率完全等于標簽概率。例如巷蚪,在圖像分類的例子里,如果啦膜,那么我們只需要比其他兩個預(yù)測值和大就行了。即使值為0.6功戚,不管其他兩個預(yù)測值為多少,類別預(yù)測均正確届宠。而平方損失則過于嚴格乘粒,例如比的損失要小很多,雖然兩者都有同樣正確的分類預(yù)測結(jié)果轧铁。
改善上述問題的一個方法是使用更適合衡量兩個概率分布差異的測量函數(shù)旦棉。其中,交叉熵(cross entropy)是一個常用的衡量方法:
其中帶下標的是向量中非0即1的元素救斑,需要注意將它與樣本類別的離散數(shù)值真屯,即不帶下標的區(qū)分。在上式中运沦,我們知道向量中只有第個元素為1配深,其余全為0,于是烈掠。也就是說澜共,交叉熵只關(guān)心對正確類別的預(yù)測概率,因為只要其值足夠大母谎,就可以確保分類結(jié)果正確京革。當然幸斥,遇到一個樣本有多個標簽時咬扇,例如圖像里含有不止一個物體時,我們并不能做這一步簡化经窖。但即便對于這種情況梭灿,交叉熵同樣只關(guān)心對圖像中出現(xiàn)的物體類別的預(yù)測概率。
假設(shè)訓練數(shù)據(jù)集的樣本數(shù)為配乱,交叉熵損失函數(shù)定義為
其中代表模型參數(shù)皮迟。同樣地,如果每個樣本只有一個標簽忿檩,那么交叉熵損失可以簡寫成烦粒。從另一個角度來看代赁,我們知道最小化等價于最大化,即最小化交叉熵損失函數(shù)等價于最大化訓練數(shù)據(jù)集所有標簽類別的聯(lián)合預(yù)測概率徒役。
2.3 估計系數(shù)
這里依然使用梯度下降法
2.4 反向傳播
3. 多層感知機
3.1 softmax
logistic回歸能解決二分類問題窖壕,但是當y的取值是多個的情況下,就需要用到softmax進行分類瞻讽。
softmax運算符(softmax operator)解決了以上兩個問題。它通過下式將輸出值變換成值為正且和為1的概率分布:
其中
容易看出且晌砾,因此是一個合法的概率分布养匈。這時候,如果呕乎,不管和的值是多少,我們都知道圖像類別為貓的概率是80%帝璧。此外,我們注意到
因此softmax運算不改變預(yù)測類別輸出聋溜。
4.多層感知機
其實logistic函數(shù)就是一個一層的神經(jīng)網(wǎng)絡(luò)模型撮躁,但如果想要使網(wǎng)絡(luò)更加復(fù)雜,就可以在其中增加隱藏層把曼。
4.1 不同的激活函數(shù)
- sigmoid
- tanh
- ReLu