《神經網絡與機器學習》筆記（一）

《神經網絡與深度學習》筆記

本書組織架構

入門篇

第一章緒論

特征表示方法

局部特征

含義：也稱為離散表示或符號表示餐塘，通常是用one-hot向量的形式

優(yōu)點：

這種離散的表示方式具有很好的解釋性

因為向量稀疏蝶糯，所以用于線性模型時計算效率非常高

缺點：

one-hot向量維數太高，不能擴展（因為維數是由詞表大小決定的）

不同向量之間的相似度為0样眠，無法進行相似度計算

分布式表示

含義：也稱為*分散式表示，如NLP中的詞嵌入翠肘，是用語義空間的基向量進行表示的

優(yōu)點：

可以表示成低維的稠密向量

表示能力強檐束，維數可以指定

相似度容易計算

缺點：

解釋性不強

深度學習需要解釋的問題是：貢獻度分配問題

第二章機器學習概述

損失函數

$\begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\left\{\begin{array}{ll}{0} & {\text { if } y=f(x ; \theta)} \\ {1} & {\text { if } y \neq f(x ; \theta)}\end{array}\right.\\ &=I(y \neq f(x ; \theta)) \end{aligned}\\ 0-1損失函數，能夠客觀的評價模型好壞束倍，但數學性質不好被丧，不連續(xù)且導數部位0，難以優(yōu)化绪妹。$

$平方損失函數：\mathcal{L}(y, f(x ; \theta))=\frac{1}{2}(y-f(x ; \theta))^{2}\\ 經常用在預測標簽y 為實數值的任務中甥桂，平方損失函數一般不適用于分類問題。因為輸入和輸出不為連續(xù)值邮旷。$

$交叉熵損失函數：一般用于分類問題（衡量兩個概率分布的差異：即標簽真實分布y和模型預測分布f(x;\theta)之間的交叉熵）\\ \mathcal{L}(\boldsymbol{y}, f(\boldsymbol{x} ; \theta))=-\sum_{c=1}^{C} y_{c} \log f_{c}(\boldsymbol{x} ; \theta)\\ 由上公式可知黄选，交叉熵損失函數也就是負對數似然損失函數$

$Hinge損失函數：在二分類問題中，假設y的取值為{-1婶肩，+1}办陷，f(x;\theta)\in\mathbb{R}:\\ \begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\max (0,1-y f(x ; \theta)) \\ & \triangleq[1-y f(x ; \theta)]_{+} \end{aligned} \\ 其中[x]_+=max(0,x)$

優(yōu)化方法

批量梯度下降算法：計算量太大

隨機梯度下降算法：無法利用計算機的并行性

小批量梯度下降法：前兩者的折中，是目前最主要的優(yōu)化算法

參數學習

機器學習任務可以分為兩類：一類是樣本的特征向量x 和標簽y 之間存在未知的函數關系y = h(x)律歼，另一類是條件概率p(y|x) 服從某個未知分布民镜。最小二乘法是屬于第一類，直接建模x 和標簽y 之間的函數關系险毁。此外制圈，線性回歸還可以通過建模條件概率p(y|x) 的角度來進行參數估計们童。

經驗風險最小化

可以用平方損失函數來計算：
$\begin{aligned} \mathcal{R}(\boldsymbol{w}) &=\sum_{n=1}^{N} \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \boldsymbol{w}\right)\right) \\ &=\frac{1}{2} \sum_{n=1}^{N}\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}\right)^{2} \\ &=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2} \end{aligned}\\ 用最小二乘法求得最優(yōu)參數：\begin{aligned} w^{*} &=\left(X X^{\mathrm{T}}\right)^{-1} X y &=\left(\sum_{n=1}^{N}x^{(n)}\left(x^{(n)}\right)^{\mathrm{T}}\right)^{-1}\left(\sum_{n=1}^{N} x^{(n)} y^{(n)}\right) \end{aligned}\\ 用最小二乘法進行計算有個限制:XX^T必須存在逆矩陣，也就是說X中得行向量必須是線性無關的鲸鹦。\\ 當XX^T不可逆時慧库，有兩種方法：1)使用主成分分析等方法先預處理數據，消除特征間的相關性亥鬓，再用最小二乘法完沪。\\ 2)通過梯度下降法來估計參數，然后用最小均方(LMS)法:w \leftarrow w+\alpha X\left(y-X^{\mathrm{T}} w\right)$

結構風險最小化

為了解決最小二乘法中嵌戈，因為特征間的多重共線性而導致計算不準確的問題覆积，出現(xiàn)了嶺回歸，即給XX^T的對角線元素都加上一個常數λ使得（XX^T+λI）滿秩熟呛。從而最優(yōu)參數 $w^*=(XX^T+\lambda I)^{-1}X y$ .

嶺回歸可以看作是結構風險最小化準則下的最小二乘法估計宽档。且其目標函數可以寫為：
$\mathcal{R}(\boldsymbol{w})=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\frac{1}{2} \lambda\|\boldsymbol{w}\|^{2}$

第三章線性模型

四種不同的線性分類模型：Logistic回歸、Softmax回歸庵朝、感知機和支持向量機

線性判別函數和決策邊界

最簡單的是二分類：只需要一個線性判別函數： $f(x;w)=w^Tx+b$ 吗冤。決策邊界就是特征空間 $\mathbb{R}^im9ddvy$ 中所有滿足 $f(x;w)=0$ 的點組成的一個分割超平面。

多分類：是指分類的類別數C大于2九府。設計多分類的判別函數有三種常用方法：

“一對其余”方式椎瘟，也就是轉化成C個“一對其余”的二分類問題，這需要C個判別函數侄旬。

“一對一”方式肺蔚，就是轉化成C(C-1)/2個“一對一的”二分類問題。儡羔。這種方式共需要C(C ? 1)/2 個判別函數宣羊，其中第(i, j) 個判別函數是把類別 i 和類別 j 的樣本分開。

“argmax”方式：是一種改進的“一對其余”方式汰蜘，需要C個判別函數：

$f_c(x;w_c)=w^T_cx+b_c, c=[1,\dots,C]$ 仇冯，對于樣本x，如果存在一個類別c族操，相對于所有的其他類別?c(?c≠ c) 有f_c(x;w_c) > f_?c(x,w_?c)苛坚，那么x 屬于類別c∩眩“argmax”方式的預測函數定義為:

$y=argmax^C_{c=1}f_c(x;w_c)$

“一對其余”方式和“一對一”方式都存在一個缺陷：特征空間中會存在一些難以確定類別的區(qū)域炕婶，而“argmax”方式很好地解決了這個問題：

Logistic 回歸

是一種常用的處理二分類問題的線性模型。

為了解決連續(xù)的線性函數不適合進行分類的問題莱预，我們引入非線性函數 $g:\mathbb{R}^d\rightarrow(0,1)$ 來預測類別標簽的后驗概率p(y = 1|x)。 $p(y=1|x)=g(f(x;w))$ 项滑。

其中 $g(\cdot)$ 通常被稱為激活函數依沮，其作用是把線性函數的值域從實數“擠壓”到(0,1)之間涯贞，可以用來表示概率。危喉。在統(tǒng)計文獻中宋渔，g(·) 的逆函數g^?1(·) 也稱為聯(lián)系函數（Link Function）。

在Logistic 回歸中辜限，激活函數就是Logistic 函數皇拣，標簽y=1的后驗概率為： $p(y=1|x)=\sigma\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)\triangleq \frac{1}{1+\exp \left(-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)}$ 。

Logistic 回歸采用交叉熵作為損失函數：

$\mathcal{R}(w)=-\frac{1}{N} \sum_{n=1}^{N}\left(p_{r}\left(y^{(n)}=1 | x^{(n)}\right) \log \hat{y}^{(n)}+p_{r}\left(y^{(n)}=0 | x^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)\\=-\frac{1}{N} \sum_{n=1}^{N}\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)$

采用梯度下降法來對參數進行優(yōu)化： $\boldsymbol{w}_{t+1} \leftarrow \boldsymbol{w}_{t}+\alpha \frac{1}{N} \sum_{n=1}^{N} \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}_{\boldsymbol{w}_{t}}^{(n)}\right)$

Softmax 回歸

也稱為多項或多類的Logistic 回歸薄嫡，是Logistic 回歸在多分類問題上的推廣氧急。

對于多類問題，類別標簽y ∈ {1, 2, · · · ,C}可以有C個取值毫深。y是用one-hot向量表示的吩坝，給定一個樣本x，Softmax 回歸預測的屬于類別c 的條件概率為：
$\begin{aligned} p(y=c | \boldsymbol{x}) &=\operatorname{softmax}\left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right) \\ &=\frac{\exp \left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right)}{\sum_{c^{\prime}=1}^{C} \exp \left(\boldsymbol{w}_{c^{\prime}}^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned}$
其中w_c是第c類的權重向量哑蔫。上述公式向量表示為：
$\begin{aligned} \hat{\boldsymbol{y}} &=\operatorname{softmax}\left(W^{\mathrm{T}} \boldsymbol{x}\right) =\frac{\exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)}{1^{\mathrm{T}} \exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned} 钉寝，1為全1向量$
Softmax 回歸的決策函數可以表示為：
$\begin{aligned} \hat{y} &=\underset{c=1}{\arg \max } p(y=c | \boldsymbol{x}) \\ &=\underset{c=1}{\arg \max } \boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x} \end{aligned}$
與Logistic 回歸的關系：當類別數C = 2 時，Softmax 回歸的決策函數為：
$\begin{aligned} \hat{y} &=\underset{y \in\{0,1\}}{\arg \max } \boldsymbol{w}_{y}^{\mathrm{T}} \boldsymbol{x} \\ &=I\left(\boldsymbol{w}_{1}^{\mathrm{T}} \boldsymbol{x}-\boldsymbol{w}_{0}^{\mathrm{T}} \boldsymbol{x}>0\right) =I\left(\left(\boldsymbol{w}_{1}-\boldsymbol{w}_{0}\right)^{\mathrm{T}} \boldsymbol{x}>0\right) \end{aligned}$
二分類中的權重向量 $w=w_1-w_0$

Softmax 回歸也采用交叉熵損失函數闸迷，其風險函數為：
$\begin{aligned} \mathcal{R}(W) &=-\frac{1}{N} \sum_{n=1}^{N} \sum_{c=1}^{C} \boldsymbol{y}_{c}^{(n)} \log \hat{\boldsymbol{y}}_{c}^{(n)} =-\frac{1}{N} \sum_{n=1}^{N}\left(\boldsymbol{y}^{(n)}\right)^{\mathrm{T}} \log \hat{\boldsymbol{y}}^{(n)} \end{aligned}\\其中\(zhòng)hat{y}^{(n)} = softmax(W^Tx^{(n)}) 為樣本x^{(n)} 在每個類別的后驗概率$
風險函數 $\mathcal{R}(W) 關于W 的梯度為 \frac{\partial \mathcal{R}(W)}{\partial W}=-\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}^{(n)}\right)^{\mathrm{T}}$
$采用梯度下降法嵌纲，Softmax 回歸的訓練過程為：初始化W~0~ ← 0，然后通過下式進行迭代更新：\\ W_{t+1} \leftarrow W_{t}+\alpha\left(\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(y^{(n)}-\hat{y}_{W_{t}}^{(n)}\right)^{\mathrm{T}}\right)$

感知器

是一種線性分類器腥沽，也是最簡單的人工神經網絡

感知器的學習算法是一種錯誤驅動的在線學習算法逮走。先初始化一個權重向量 $w\leftarrow0$ （通常是全零向量），然后每次分錯一個樣本(x, y)時巡球，即 $yw^Tx<0$ 言沐，就用這個樣本來更新權重,采用隨機梯度下降。 $w\leftarrow w+yx$

但是感知器的權重更新與樣本的順序有關酣栈，只要每次迭代的順序不一致時险胰，找到的分割超平面也往往不一致。同時矿筝，如果訓練集不是線性可分的起便，就永遠不會收斂。

為解決對樣本順序的依賴問題窖维，提出了參數平均感知器榆综。

同時，將感知器在多分類上進行擴展铸史，可以得到廣義感知器鼻疮。

支持向量機

參照《西瓜書》

小結

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市琳轿，隨后出現(xiàn)的幾起案子判沟，更是在濱河造成了極大的恐慌耿芹，老刑警劉巖，帶你破解...
沈念sama閱讀 211,194評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件挪哄，死亡現(xiàn)場離奇詭異吧秕，居然都是意外死亡，警方通過查閱死者的電腦和手機迹炼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,058評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門砸彬，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人斯入，你說我怎么就攤上這事砂碉。” “怎么了咱扣？”我有些...
開封第一講書人閱讀 156,780評論 0贊 346
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵绽淘，是天一觀的道長。經常有香客問我闹伪，道長沪铭，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,388評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任偏瓤，我火速辦了婚禮杀怠，結果婚禮上，老公的妹妹穿的比我還像新娘厅克。我一直安慰自己赔退，他們只是感情好，可當我...
茶點故事閱讀 65,430評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布证舟。她就那樣靜靜地躺著硕旗，像睡著了一般。火紅的嫁衣襯著肌膚如雪女责。梳的紋絲不亂的頭發(fā)上漆枚，一...
開封第一講書人閱讀 49,764評論 1贊 290
城市分裂傳說
那天，我揣著相機與錄音抵知，去河邊找鬼墙基。笑死，一個胖子當著我的面吹牛刷喜，可吹牛的內容都是我干的残制。我是一名探鬼主播，決...
沈念sama閱讀 38,907評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼掖疮，長吁一口氣：“原來是場噩夢啊……” “哼初茶！你這毒婦竟也來了？” 一聲冷哼從身側響起浊闪，我...
開封第一講書人閱讀 37,679評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤纺蛆，失蹤者是張志新（化名）和其女友劉穎吐葵，沒想到半個月后，有當地人在樹林里發(fā)現(xiàn)了一具尸體桥氏，經...
沈念sama閱讀 44,122評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,459評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年猛铅，在試婚紗的時候發(fā)現(xiàn)自己被綠了字支。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,605評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡奸忽，死狀恐怖堕伪，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情栗菜，我是刑警寧澤欠雌，帶...
沈念sama閱讀 34,270評論 4贊 329
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站疙筹，受9級特大地震影響富俄，放射性物質發(fā)生泄漏。R本人自食惡果不足惜而咆，卻給世界環(huán)境...
茶點故事閱讀 39,867評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一霍比、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧暴备，春花似錦悠瞬、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,734評論 0贊 21
一樁弒父案浅妆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至障癌，卻和暖如春凌外，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背混弥。一陣腳步聲響...
開封第一講書人閱讀 31,961評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工趴乡，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蝗拿。一個月前我還...
沈念sama閱讀 46,297評論 2贊 360
代替公主和親
正文我出身青樓晾捏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親哀托。傳聞我的和親對象是個殘疾皇子惦辛，可洞房花燭夜當晚...
茶點故事閱讀 43,472評論 2贊 348