如何從公式和矩陣操作角度理解多層感知機的前向傳播懈糯？

多層感知機（MLP）是深度學習的基礎，而深度學習中的大語言模型是現(xiàn)在ChatGPT等產(chǎn)品的核心技術单雾。多層感知機是最簡單的神經(jīng)網(wǎng)絡赚哗，包含輸入、隱層硅堆、輸出屿储，以及本文沒有涉及的反向傳播、代價函數(shù)等基礎卻核心的概念渐逃。所以了解多層感知機可以建立起對AI技術的基本認知够掠。

本文目的是從公式和矩陣操作角度來直觀理解多層感知機的前向傳播過程，對于初學者有助于建立起基本認知茄菊，對于有基本認知的讀者可以進一步理解其內(nèi)在過程疯潭。

首先大的層面看赊堪，多層感知機包含一個輸入矩陣 $\mathbf{X}$ ，一個輸出矩陣 $\mathbf{O}$ 竖哩，以及中間若干個隱層 $\mathbf{H}$ 哭廉。

一個輸入層

輸入 $\mathbf{X}$ 是一個形狀為 $n\times d_{in}$ 的矩陣，每一個行向量代表一個樣本（數(shù)據(jù)）相叁， $d_{in}$ 代表樣本的維度遵绰。

輸入層的目的是為多層感知機提供數(shù)據(jù)，數(shù)據(jù)可以是各種形式的數(shù)據(jù)例如圖片增淹、文字椿访，但是這些數(shù)據(jù)都需要轉(zhuǎn)換為以數(shù)字的形式。

舉例來幫助理解虑润，如果對 $28\times 28$ 像素的灰度圖片進行分類成玫，其中共有十類。每張圖片有784個像素端辱，如果每個像素的值用一個數(shù)字來表示梁剔，那么一張圖片可以用一個維度為784的行向量來表示。

以 $n$ 張圖片堆疊起來舞蔽，就形成了上述的輸入矩陣 $\mathbf{X}$ 荣病。一張圖片可能是十個類別中的一個，所以輸出矩陣 $\mathbf{O}$ 的一個行向量維度為10渗柿，代表一張圖片的分類結(jié)果个盆。行向量的元素代表圖片屬于某一類的概率。

$\mathbf{X}$ 使用矩陣表示為：
$\mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix}$

多個隱層

隱層可以理解為將數(shù)據(jù)根據(jù)參數(shù)矩陣 $\mathbf{W}$ 進行了線性變換和非線性變換朵栖。公式如下：
$\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf颊亮^{(1)})$
其中的 $\mathbf{W}$ 代表參數(shù)矩陣，由矩陣的乘法可知其有 $d_{in}$ 行陨溅，列的數(shù)量在數(shù)學上沒有限制终惑。在聯(lián)系圖和公式的時候，隱層中的一個神經(jīng)元中的參數(shù)對應著 $\mathbf{W}$ 的一列门扇，有多少個神經(jīng)元就有多少列雹有。

第一個隱層的參數(shù)矩陣表示如下，形狀為 $d_{in}\times d_1$ 臼寄。
$\mathbf{W}_1 = \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix}$

$b^{(1)} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}$

$b^{(1)}$ 在執(zhí)行運算時會有廣播的操作霸奕，簡單來講就是將自己作為行向量堆疊n次。

$\mathbf吉拳_1^{\text{broadcasted}} = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1}$

運算過程用矩陣可以表達為：

$\mathbf{X} \mathbf{W}_1 + \mathbf质帅_1 = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d_{\text{in}}} \\ x_{21} & x_{22} & \cdots & x_{2d_{\text{in}}} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd_{\text{in}}} \end{bmatrix} \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1d_1} \\ w_{21} & w_{22} & \cdots & w_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{d_{\text{in}}1} & w_{d_{\text{in}}2} & \cdots & w_{d_{\text{in}}d_1} \end{bmatrix} + \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1d_1} \\ b_{11} & b_{12} & \cdots & b_{1d_1} \\ \vdots & \vdots & \ddots & \vdots \\ b_{11} & b_{12} & \cdots & b_{1d_1} \end{bmatrix}_{n \times d_1} = \begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1d_1} \\ z_{21} & z_{22} & \cdots & z_{2d_1} \\ \vdots & \vdots & \ddots & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{nd_1} \end{bmatrix}$

公式中 $\sigma$ 代表激活函數(shù)，通常選用ReLU，其公式為：
$\text{ReLU}(x) = \max(0, x)$

ReLU的操作對象是 $\mathbf{H}$ 的每個行向量的元素煤惩，元素由一個樣本進行線性變換后得到嫉嘀。ReLU對結(jié)果進行激活操作是非線性的。由于需要對每個行向量進行同樣的操作盟庞，所以換句花話說吃沪，是對矩陣每個元素應用ReLU汤善。

$\mathbf{H}^{(1)} = \sigma(\mathbf{X}\mathbf{W}^{(1)} + \mathbf什猖^{(1)})=\sigma{(\mathbf{Z}^{(1)})}= \begin{bmatrix} \sigma(z_{11}) & \sigma(z_{12}) & \cdots & \sigma(z_{1d_1}) \\ \sigma(z_{21}) & \sigma(z_{22}) & \cdots & \sigma(z_{2d_1}) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma(z_{n1}) & \sigma(z_{n2}) & \cdots & \sigma(z_{nd_1}) \end{bmatrix}$

隱層的結(jié)果可以作為下一個隱層的輸入：
$\mathbf{H}^{(i)} = \sigma(\mathbf{H^{(i-1)}}\mathbf{W^{(i)}} + \mathbf{b^{(i)}})$

一個輸出層

輸出 $\mathbf{O}$ 是一個形狀為 $n\times d_{out}$ 的矩陣，每一個行向量代表一個樣本最終的變換結(jié)果红淡， $d_{out}$ 代表數(shù)據(jù)最終被變換成的維度不狮。

輸出層是對隱層結(jié)果的變換，分類任務會有非線性變換在旱，回歸任務只有線性變換摇零。例如對于多分類問題，有如下公式：
$\mathbf{O}=\text{Softmax}(\mathbf{H}\mathbf{W}+\mathbf桶蝎)$
相比于隱層的變換驻仅，結(jié)果的非線性部分使用了Softmax函數(shù)。其應用的對象是矩陣的行向量登渣，得到每一行中各元素在這一行的權重噪服，可以理解為屬于某一類的概率。以下為公式表達：

$\text{Softmax}(\mathbfayniy00)_i = \frac{e^{d_i}}{\sum_{j=1}^{C} e^{d_j}}$

$\mathbf5iddi4q$ 是輸入向量胜茧，包含 $C$ 個元素粘优。
$d_i$ 是輸入向量 $\mathbfgbgwgg1$ 的第 $i$ 個元素。
$\text{Softmax}(\mathbfdx4cruo)_i$ 是輸入向量 $\mathbfsr3lb2n$ 的第 $i$ 個元素經(jīng)過 Softmax 函數(shù)轉(zhuǎn)換后的值呻顽。
$\sum_{j=1}^{C} e^{d_j}$ 是輸入向量 $\mathbf6ojejeh$ 的所有元素的指數(shù)和

輸出層行向量的維度通常由問題決定雹顺，例如在大語言模型中解碼器輸出部分就是一個對所有單詞（準確說是token）的概率的行向量，數(shù)值代表每個單詞出現(xiàn)的概率廊遍，所以維度等于所有單詞的總數(shù)嬉愧。

總結(jié)

將公式與實際的矩陣操作聯(lián)系在一起能真正理解多層感知機的行為，將感性的認知具體的為實際的行為喉前，進而加深理解没酣。作為學習高階知識的一個基礎。

歡迎關注被饿，共同理解更多AI知識四康。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市狭握，隨后出現(xiàn)的幾起案子闪金，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 218,036評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件哎垦，死亡現(xiàn)場離奇詭異囱嫩，居然都是意外死亡，警方通過查閱死者的電腦和手機漏设，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門墨闲，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人郑口，你說我怎么就攤上這事鸳碧。” “怎么了犬性？”我有些...
開封第一講書人閱讀 164,411評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵瞻离，是天一觀的道長。經(jīng)常有香客問我乒裆，道長套利，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,622評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任鹤耍，我火速辦了婚禮肉迫，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘稿黄。我一直安慰自己喊衫，他們只是感情好，可當我...
茶點故事閱讀 67,661評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布抛猖。她就那樣靜靜地躺著格侯，像睡著了一般。火紅的嫁衣襯著肌膚如雪财著。梳的紋絲不亂的頭發(fā)上联四，一...
開封第一講書人閱讀 51,521評論 1贊 304
城市分裂傳說
那天，我揣著相機與錄音撑教，去河邊找鬼朝墩。笑死，一個胖子當著我的面吹牛伟姐，可吹牛的內(nèi)容都是我干的收苏。我是一名探鬼主播，決...
沈念sama閱讀 40,288評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼愤兵，長吁一口氣：“原來是場噩夢啊……” “哼鹿霸！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起秆乳，我...
開封第一講書人閱讀 39,200評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤懦鼠，失蹤者是張志新（化名）和其女友劉穎钻哩，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肛冶，經(jīng)...
沈念sama閱讀 45,644評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡街氢，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,837評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了睦袖。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片珊肃。...
茶點故事閱讀 39,953評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖馅笙，靈堂內(nèi)的尸體忽然破棺而出伦乔，到底是詐尸還是另有隱情，我是刑警寧澤延蟹，帶...
沈念sama閱讀 35,673評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布评矩，位于F島的核電站，受9級特大地震影響阱飘，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜虱颗，卻給世界環(huán)境...
茶點故事閱讀 41,281評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一沥匈、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧忘渔，春花似錦高帖、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評論 0贊 22
一樁弒父案散址，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至宣赔，卻和暖如春预麸，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背儒将。一陣腳步聲響...
開封第一講書人閱讀 33,011評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工吏祸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人钩蚊。一個月前我還...
沈念sama閱讀 48,119評論 3贊 370
代替公主和親
正文我出身青樓贡翘，卻偏偏與公主長得像，于是被迫代替她去往敵國和親砰逻。傳聞我的和親對象是個殘疾皇子鸣驱，可洞房花燭夜當晚...
茶點故事閱讀 44,901評論 2贊 355

如何從公式和矩陣操作角度理解多層感知機的前向傳播邑狸？

如何從公式和矩陣操作角度理解多層感知機的前向傳播懈糯？

一個輸入層

多個隱層

一個輸出層

總結(jié)

推薦閱讀更多精彩內(nèi)容