《神經網絡與深度學習》筆記
?
入門篇
第一章 緒論
特征表示方法
局部特征
含義:也稱為離散表示或符號表示餐塘,通常是用one-hot向量的形式
優(yōu)點:
- 這種離散的表示方式具有很好的解釋性
- 因為向量稀疏蝶糯,所以用于線性模型時計算效率非常高
缺點:
- one-hot向量維數太高,不能擴展(因為維數是由詞表大小決定的)
- 不同向量之間的相似度為0样眠,無法進行相似度計算
分布式表示
含義:也稱為*分散式表示,如NLP中的詞嵌入翠肘,是用語義空間的基向量進行表示的
優(yōu)點:
- 可以表示成低維的稠密向量
- 表示能力強檐束,維數可以指定
- 相似度容易計算
缺點:
- 解釋性不強
?
第二章 機器學習概述
損失函數
優(yōu)化方法
批量梯度下降算法:計算量太大
隨機梯度下降算法:無法利用計算機的并行性
小批量梯度下降法:前兩者的折中,是目前最主要的優(yōu)化算法
參數學習
機器學習任務可以分為兩類: 一類是樣本的特征向量x 和標簽y 之間存在未知的函數關系y = h(x)律歼,另一類是條件概率p(y|x) 服從某個未知分布民镜。最小二乘法是屬于第一類,直接建模x 和標簽y 之間的函數關系险毁。此外制圈,線性回歸還可以通過建模條件概率p(y|x) 的角度來進行參數估計们童。
經驗風險最小化
可以用平方損失函數來計算:
結構風險最小化
為了解決最小二乘法中嵌戈,因為特征間的多重共線性而導致計算不準確的問題覆积,出現(xiàn)了嶺回歸,即給XXT的對角線元素都加上一個常數λ使得(XXT+λI)滿秩熟呛。從而最優(yōu)參數.
嶺回歸可以看作是結構風險最小化準則下的最小二乘法估計宽档。且其目標函數可以寫為:
第三章 線性模型
四種不同的線性分類模型:Logistic回歸、Softmax回歸庵朝、感知機和支持向量機
線性判別函數和決策邊界
最簡單的是二分類:只需要一個線性判別函數:吗冤。決策邊界就是特征空間中所有滿足的點組成的一個分割超平面。
多分類:是指分類的類別數C大于2九府。設計多分類的判別函數有三種常用方法:
“一對其余”方式椎瘟,也就是轉化成C個“一對其余”的二分類問題,這需要C個判別函數侄旬。
“一對一”方式肺蔚,就是轉化成C(C-1)/2個“一對一的”二分類問題。儡羔。這種方式共需要C(C ? 1)/2 個判別函數宣羊,其中第(i, j) 個判別函數是把類別 i 和類別 j 的樣本分開。
“argmax”方式:是一種改進的“一對其余”方式汰蜘,需要C個判別函數:
仇冯,對于樣本x,如果存在一個類別c族操,相對于所有的其他類別?c(?c≠ c) 有fc(x;wc) > f?c(x,w?c)苛坚,那么x 屬于類別c∩眩“argmax”方式的預測函數定義為:
“一對其余”方式和“一對一”方式都存在一個缺陷:特征空間中會存在一些 難以確定類別的區(qū)域炕婶,而“argmax”方式很好地解決了這個問題:
Logistic 回歸
是一種常用的處理二分類問題的線性模型。
為了解決連續(xù)的線性函數不適合進行分類的問題莱预,我們引入非線性函數來預測類別標簽的后驗概率p(y = 1|x)。项滑。
其中通常被稱為激活函數依沮,其作用是把線性函數的值域從實數“擠壓”到(0,1)之間涯贞,可以用來表示概率。危喉。在統(tǒng)計文獻中宋渔,g(·) 的逆函數g?1(·) 也稱為聯(lián)系函數(Link Function)。
在Logistic 回歸中辜限,激活函數就是Logistic 函數皇拣,標簽y=1的后驗概率為:。
Logistic 回歸采用交叉熵作為損失函數:
采用梯度下降法來對參數進行優(yōu)化:
Softmax 回歸
也稱為多項或多類的Logistic 回歸薄嫡,是Logistic 回歸在多分類問題上的推廣氧急。
對于多類問題,類別標簽y ∈ {1, 2, · · · ,C}可以有C個取值毫深。y是用one-hot向量表示的吩坝,給定一個樣本x,Softmax 回歸預測的屬于類別c 的條件概率為:
其中wc是第c類的權重向量哑蔫。上述公式向量表示為:
Softmax 回歸的決策函數可以表示為:
與Logistic 回歸的關系:當類別數C = 2 時,Softmax 回歸的決策函數為:
二分類中的權重向量
Softmax 回歸也采用交叉熵損失函數闸迷,其風險函數為:
風險函數
感知器
是一種線性分類器腥沽,也是最簡單的人工神經網絡
感知器的學習算法是一種錯誤驅動的在線學習算法逮走。先初始化一個權重向量(通常是全零向量),然后每次分錯一個樣本(x, y)時巡球,即言沐,就用這個樣本來更新權重,采用隨機梯度下降。
但是感知器的權重更新與樣本的順序有關酣栈,只要每次迭代的順序不一致時险胰,找到的分割超平面也往往不一致。同時矿筝,如果訓練集不是線性可分的起便,就永遠不會收斂。
為解決對樣本順序的依賴問題窖维,提出了參數平均感知器榆综。
同時,將感知器在多分類上進行擴展铸史,可以得到廣義感知器鼻疮。
支持向量機
參照《西瓜書》