《神經網絡與機器學習》筆記(一)

《神經網絡與深度學習》筆記

本書組織架構

?

入門篇


第一章 緒論

特征表示方法

局部特征

含義:也稱為離散表示符號表示餐塘,通常是用one-hot向量的形式

優(yōu)點:

  1. 這種離散的表示方式具有很好的解釋性
  2. 因為向量稀疏蝶糯,所以用于線性模型時計算效率非常高

缺點:

  1. one-hot向量維數太高,不能擴展(因為維數是由詞表大小決定的)
  2. 不同向量之間的相似度為0样眠,無法進行相似度計算

分布式表示

含義:也稱為*分散式表示,如NLP中的詞嵌入翠肘,是用語義空間的基向量進行表示的

優(yōu)點:

  1. 可以表示成低維的稠密向量
  2. 表示能力強檐束,維數可以指定
  3. 相似度容易計算

缺點:

  1. 解釋性不強
深度學習需要解釋的問題是:貢獻度分配問題

?

第二章 機器學習概述

損失函數

\begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\left\{\begin{array}{ll}{0} & {\text { if } y=f(x ; \theta)} \\ {1} & {\text { if } y \neq f(x ; \theta)}\end{array}\right.\\ &=I(y \neq f(x ; \theta)) \end{aligned}\\ 0-1損失函數,能夠客觀的評價模型好壞束倍,但數學性質不好被丧,不連續(xù)且導數部位0,難以優(yōu)化绪妹。

平方損失函數:\mathcal{L}(y, f(x ; \theta))=\frac{1}{2}(y-f(x ; \theta))^{2}\\ 經常用在預測標簽y 為實數值的任務中甥桂,平方損失函數一般不適用于分類問題。因為輸入和輸出不為連續(xù)值邮旷。

交叉熵損失函數:一般用于分類問題(衡量兩個概率分布的差異:即標簽真實分布y和模型預測分布f(x;\theta)之間的交叉熵)\\ \mathcal{L}(\boldsymbol{y}, f(\boldsymbol{x} ; \theta))=-\sum_{c=1}^{C} y_{c} \log f_{c}(\boldsymbol{x} ; \theta)\\ 由上公式可知黄选,交叉熵損失函數也就是 負對數似然損失函數

Hinge損失函數:在二分類問題中,假設y的取值為{-1婶肩,+1}办陷,f(x;\theta)\in\mathbb{R}:\\ \begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\max (0,1-y f(x ; \theta)) \\ & \triangleq[1-y f(x ; \theta)]_{+} \end{aligned} \\ 其中[x]_+=max(0,x)

優(yōu)化方法

批量梯度下降算法:計算量太大

隨機梯度下降算法:無法利用計算機的并行性

小批量梯度下降法:前兩者的折中,是目前最主要的優(yōu)化算法

參數學習

機器學習任務可以分為兩類: 一類是樣本的特征向量x 和標簽y 之間存在未知的函數關系y = h(x)律歼,另一類是條件概率p(y|x) 服從某個未知分布民镜。最小二乘法是屬于第一類,直接建模x 和標簽y 之間的函數關系险毁。此外制圈,線性回歸還可以通過建模條件概率p(y|x) 的角度來進行參數估計们童。

經驗風險最小化

可以用平方損失函數來計算:
\begin{aligned} \mathcal{R}(\boldsymbol{w}) &=\sum_{n=1}^{N} \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \boldsymbol{w}\right)\right) \\ &=\frac{1}{2} \sum_{n=1}^{N}\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}\right)^{2} \\ &=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2} \end{aligned}\\ 用最小二乘法求得最優(yōu)參數:\begin{aligned} w^{*} &=\left(X X^{\mathrm{T}}\right)^{-1} X y &=\left(\sum_{n=1}^{N}x^{(n)}\left(x^{(n)}\right)^{\mathrm{T}}\right)^{-1}\left(\sum_{n=1}^{N} x^{(n)} y^{(n)}\right) \end{aligned}\\ 用最小二乘法進行計算有個限制:XX^T必須存在逆矩陣,也就是說X中得行向量必須是線性無關的鲸鹦。\\ 當XX^T不可逆時慧库,有兩種方法:1)使用主成分分析等方法先預處理數據,消除特征間的相關性亥鬓,再用最小二乘法完沪。\\ 2)通過梯度下降法來估計參數,然后用最小均方(LMS)法:w \leftarrow w+\alpha X\left(y-X^{\mathrm{T}} w\right)

結構風險最小化

為了解決最小二乘法中嵌戈,因為特征間的多重共線性而導致計算不準確的問題覆积,出現(xiàn)了嶺回歸,即給XXT的對角線元素都加上一個常數λ使得(XXT+λI)滿秩熟呛。從而最優(yōu)參數w^*=(XX^T+\lambda I)^{-1}X y.

嶺回歸可以看作是結構風險最小化準則下的最小二乘法估計宽档。且其目標函數可以寫為:
\mathcal{R}(\boldsymbol{w})=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\frac{1}{2} \lambda\|\boldsymbol{w}\|^{2}

第三章 線性模型

四種不同的線性分類模型:Logistic回歸、Softmax回歸庵朝、感知機和支持向量機

線性判別函數和決策邊界

最簡單的是二分類:只需要一個線性判別函數:f(x;w)=w^Tx+b吗冤。決策邊界就是特征空間\mathbb{R}^im9ddvy中所有滿足f(x;w)=0的點組成的一個分割超平面。

多分類:是指分類的類別數C大于2九府。設計多分類的判別函數有三種常用方法:

  1. “一對其余”方式椎瘟,也就是轉化成C個“一對其余”的二分類問題,這需要C個判別函數侄旬。

  2. “一對一”方式肺蔚,就是轉化成C(C-1)/2個“一對一的”二分類問題。儡羔。這種方式共需要C(C ? 1)/2 個判別函數宣羊,其中第(i, j) 個判別函數是把類別 i 和類別 j 的樣本分開。

  3. “argmax”方式:是一種改進的“一對其余”方式汰蜘,需要C個判別函數:

    f_c(x;w_c)=w^T_cx+b_c, c=[1,\dots,C]仇冯,對于樣本x,如果存在一個類別c族操,相對于所有的其他類別?c(?c≠ c) 有fc(x;wc) > f?c(x,w?c)苛坚,那么x 屬于類別c∩眩“argmax”方式的預測函數定義為:

    y=argmax^C_{c=1}f_c(x;w_c)

“一對其余”方式和“一對一”方式都存在一個缺陷:特征空間中會存在一些 難以確定類別的區(qū)域炕婶,而“argmax”方式很好地解決了這個問題:

Logistic 回歸

是一種常用的處理二分類問題的線性模型。

為了解決連續(xù)的線性函數不適合進行分類的問題莱预,我們引入非線性函數g:\mathbb{R}^d\rightarrow(0,1)來預測類別標簽的后驗概率p(y = 1|x)。p(y=1|x)=g(f(x;w))项滑。

其中g(\cdot)通常被稱為激活函數依沮,其作用是把線性函數的值域從實數“擠壓”到(0,1)之間涯贞,可以用來表示概率。危喉。在統(tǒng)計文獻中宋渔,g(·) 的逆函數g?1(·) 也稱為聯(lián)系函數(Link Function)。

在Logistic 回歸中辜限,激活函數就是Logistic 函數皇拣,標簽y=1的后驗概率為:p(y=1|x)=\sigma\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)\triangleq \frac{1}{1+\exp \left(-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)}

Logistic 回歸采用交叉熵作為損失函數:

\mathcal{R}(w)=-\frac{1}{N} \sum_{n=1}^{N}\left(p_{r}\left(y^{(n)}=1 | x^{(n)}\right) \log \hat{y}^{(n)}+p_{r}\left(y^{(n)}=0 | x^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)\\=-\frac{1}{N} \sum_{n=1}^{N}\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)

采用梯度下降法來對參數進行優(yōu)化:\boldsymbol{w}_{t+1} \leftarrow \boldsymbol{w}_{t}+\alpha \frac{1}{N} \sum_{n=1}^{N} \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}_{\boldsymbol{w}_{t}}^{(n)}\right)

Softmax 回歸

也稱為多項或多類的Logistic 回歸薄嫡,是Logistic 回歸在多分類問題上的推廣氧急。

對于多類問題,類別標簽y ∈ {1, 2, · · · ,C}可以有C個取值毫深。y是用one-hot向量表示的吩坝,給定一個樣本x,Softmax 回歸預測的屬于類別c 的條件概率為:
\begin{aligned} p(y=c | \boldsymbol{x}) &=\operatorname{softmax}\left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right) \\ &=\frac{\exp \left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right)}{\sum_{c^{\prime}=1}^{C} \exp \left(\boldsymbol{w}_{c^{\prime}}^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned}
其中wc是第c類的權重向量哑蔫。上述公式向量表示為:
\begin{aligned} \hat{\boldsymbol{y}} &=\operatorname{softmax}\left(W^{\mathrm{T}} \boldsymbol{x}\right) =\frac{\exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)}{1^{\mathrm{T}} \exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned} 钉寝,1為全1向量
Softmax 回歸的決策函數可以表示為:
\begin{aligned} \hat{y} &=\underset{c=1}{\arg \max } p(y=c | \boldsymbol{x}) \\ &=\underset{c=1}{\arg \max } \boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x} \end{aligned}
與Logistic 回歸的關系:當類別數C = 2 時,Softmax 回歸的決策函數為:
\begin{aligned} \hat{y} &=\underset{y \in\{0,1\}}{\arg \max } \boldsymbol{w}_{y}^{\mathrm{T}} \boldsymbol{x} \\ &=I\left(\boldsymbol{w}_{1}^{\mathrm{T}} \boldsymbol{x}-\boldsymbol{w}_{0}^{\mathrm{T}} \boldsymbol{x}>0\right) =I\left(\left(\boldsymbol{w}_{1}-\boldsymbol{w}_{0}\right)^{\mathrm{T}} \boldsymbol{x}>0\right) \end{aligned}
二分類中的權重向量w=w_1-w_0

Softmax 回歸也采用交叉熵損失函數闸迷,其風險函數為:
\begin{aligned} \mathcal{R}(W) &=-\frac{1}{N} \sum_{n=1}^{N} \sum_{c=1}^{C} \boldsymbol{y}_{c}^{(n)} \log \hat{\boldsymbol{y}}_{c}^{(n)} =-\frac{1}{N} \sum_{n=1}^{N}\left(\boldsymbol{y}^{(n)}\right)^{\mathrm{T}} \log \hat{\boldsymbol{y}}^{(n)} \end{aligned}\\其中\(zhòng)hat{y}^{(n)} = softmax(W^Tx^{(n)}) 為樣本x^{(n)} 在每個類別的后驗概率
風險函數\mathcal{R}(W) 關于W 的梯度為 \frac{\partial \mathcal{R}(W)}{\partial W}=-\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}^{(n)}\right)^{\mathrm{T}}
采用梯度下降法嵌纲,Softmax 回歸的訓練過程為:初始化W~0~ ← 0,然后通過下式進行迭代更新:\\ W_{t+1} \leftarrow W_{t}+\alpha\left(\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(y^{(n)}-\hat{y}_{W_{t}}^{(n)}\right)^{\mathrm{T}}\right)

感知器

是一種線性分類器腥沽,也是最簡單的人工神經網絡

感知器的學習算法是一種錯誤驅動的在線學習算法逮走。先初始化一個權重向量w\leftarrow0(通常是全零向量),然后每次分錯一個樣本(x, y)時巡球,即yw^Tx<0言沐,就用這個樣本來更新權重,采用隨機梯度下降。w\leftarrow w+yx

但是感知器的權重更新與樣本的順序有關酣栈,只要每次迭代的順序不一致時险胰,找到的分割超平面也往往不一致。同時矿筝,如果訓練集不是線性可分的起便,就永遠不會收斂。

為解決對樣本順序的依賴問題窖维,提出了參數平均感知器榆综。

同時,將感知器在多分類上進行擴展铸史,可以得到廣義感知器鼻疮。

支持向量機

參照《西瓜書》

小結

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市琳轿,隨后出現(xiàn)的幾起案子判沟,更是在濱河造成了極大的恐慌耿芹,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件挪哄,死亡現(xiàn)場離奇詭異吧秕,居然都是意外死亡,警方通過查閱死者的電腦和手機迹炼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門砸彬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人斯入,你說我怎么就攤上這事砂碉。” “怎么了咱扣?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵绽淘,是天一觀的道長。 經常有香客問我闹伪,道長沪铭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任偏瓤,我火速辦了婚禮杀怠,結果婚禮上,老公的妹妹穿的比我還像新娘厅克。我一直安慰自己赔退,他們只是感情好,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布证舟。 她就那樣靜靜地躺著硕旗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪女责。 梳的紋絲不亂的頭發(fā)上漆枚,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機與錄音抵知,去河邊找鬼墙基。 笑死,一個胖子當著我的面吹牛刷喜,可吹牛的內容都是我干的残制。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼掖疮,長吁一口氣:“原來是場噩夢啊……” “哼初茶!你這毒婦竟也來了?” 一聲冷哼從身側響起浊闪,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤纺蛆,失蹤者是張志新(化名)和其女友劉穎吐葵,沒想到半個月后,有當地人在樹林里發(fā)現(xiàn)了一具尸體桥氏,經...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年猛铅,在試婚紗的時候發(fā)現(xiàn)自己被綠了字支。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡奸忽,死狀恐怖堕伪,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情栗菜,我是刑警寧澤欠雌,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站疙筹,受9級特大地震影響富俄,放射性物質發(fā)生泄漏。R本人自食惡果不足惜而咆,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一霍比、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧暴备,春花似錦悠瞬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至障癌,卻和暖如春凌外,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背混弥。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工趴乡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蝗拿。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓晾捏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哀托。 傳聞我的和親對象是個殘疾皇子惦辛,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內容

  • 在美國,對學業(yè)成就的最佳預測指標仓手,就是家庭情緒的穩(wěn)定性胖齐,而家庭情緒穩(wěn)定性大部分可被妻子的情緒所預測玻淑。 簡而言之: ...
    y詩淇閱讀 238評論 0 0
  • 昨天晚上我睡在炕上,準備入眠呀伙,突然媽媽沖了進來补履,讓我趕緊離開屋子,我問怎么了剿另,她說箫锤,地震了。 出來打開手機一...
    控衛(wèi)閱讀 133評論 0 0
  • 失去一個人雨女,從現(xiàn)在起不要有任何聯(lián)系谚攒,如果對方主動聯(lián)系你,說明心里還有你氛堕,如果沒有馏臭,也就沒有聯(lián)系的必要了。情淡了讼稚、 ...
    蒲公英樣的人閱讀 210評論 0 11
  • 1還是決定辭掉天府這份工了括儒。 實在很累,也消耗很多時間和精力乱灵。 每次回去都是問題塑崖,都需要18刀Uber;這樣的工作...
    Fishtail魚尾閱讀 245評論 0 1