研究線性模型訓(xùn)練中損失變化的規(guī)律和最優(yōu)學(xué)習(xí)率的影響

探究一維線性模型訓(xùn)練中晌砾,測試損失隨訓(xùn)練步數(shù)變化的縮放定律及其最優(yōu)學(xué)習(xí)率影響坎拐,并研究多維線性模型訓(xùn)練的縮放定律,確定參數(shù)以符合特定損失衰減模式。

研究大模型的縮放定律對減少其訓(xùn)練開銷至關(guān)重要哼勇,即最終的測試損失如何隨著訓(xùn)練步數(shù)和模型大小的變化而變化都伪?本題中,我們研究了訓(xùn)練線性模型時的縮放定律积担。

  1. 在本小問中院溺,考慮使用梯度下降學(xué)習(xí)一個一維線性模型的情況瘟芝。
  • 定義數(shù)據(jù)分布\mathcal{D}為一個\mathbb{R}^2上的分布彻坛,每個數(shù)據(jù)是一個數(shù)對(x, y)掉分,分別代表輸入和輸出,并服從分布x\sim N(0, 1),y\sim N(3x, 1)聋溜。

  • 用梯度下降算法學(xué)習(xí)線性模型f_{w}(x)=w \cdot x,其中w, x\in\mathbb{R}叭爱。初始化ω_0=0并進(jìn)行多步迭代撮躁。每次迭代時,從\mathcal{D}中采樣(x_t,y_t)买雾,然后更新w_tw_{t+1}\leftarrow w_t-\eta\nabla l_t(w_t)把曼,其中l_t(w)=\frac{1}{2}(f_w(x_t)-y_t)^2是平方損失函數(shù),\eta>0是學(xué)習(xí)率漓穿。

設(shè)學(xué)習(xí)率\eta\in(0,\frac{1}{3}]嗤军,那么T≥0步迭代之后的測試損失的期望

\overline{\mathcal{L}}_{\eta,T}=\mathbb{E}_{w_T}\mathbb{E}_{(x,y)\sim D}[\frac{1}{2}(f_{w_T}(x)-y)^2]

是多少?

  1. 現(xiàn)在我們在第一小問的設(shè)定下晃危,考慮學(xué)習(xí)率\eta被調(diào)到最優(yōu)的情況叙赚,求函數(shù)g(T),使得當(dāng)T\rightarrow+\infty時僚饭,以下條件成立:

\left|\underset{η\in(0,\frac{1}{3}]}{\inf}\mathcal{I}_{n,T}-g(T)\right|=O(\frac{(\log T)^2}{T^2})

  1. 一個常常被觀測到的實驗現(xiàn)象是大語言模型的預(yù)訓(xùn)練過程大致遵循Chinchilla縮放定律:

\overline{\mathcal{L}}_{N,T}≈\frac{A}{N^\alpha}+\frac{B}{T^\beta}+C震叮,

其中\overline{\mathcal{L}}_{N,T}是在經(jīng)過T步訓(xùn)練后具有N個參數(shù)的模型的測試損失的期望,A鳍鸵,B苇瓣,aβ偿乖,C是常數(shù)』髯铮現(xiàn)在我們舉一個訓(xùn)練多維線性模型的例子,使其也遵循類似的縮放定律贪薪。

  • 固定a>0,b≥1外邓,每個數(shù)據(jù)(x_{\cdot},y)由一個輸入和輸出組成,其中輸入x_{\cdot}是一個無限維向量(可看作一個序列)古掏,輸出y滿足y\in\mathbb{R}损话。定義數(shù)據(jù)分布\mathcal{D}如下。首先,從Zipf分布中采樣k丧枪,\Pr[k=i]\propto i^{-(a+1)}\quad(i\geq 1)光涂。令j:=[k^b],然后拧烦,從mathcal{N}(0,1)中采樣得到x_{\cdot}的第j個坐標(biāo)x_j忘闻,并令其余坐標(biāo)為0。最后恋博,y\sim N(3x_j,1)齐佳。這樣得到的(x_{\cdot},y)的分即數(shù)據(jù)分布\mathcal{D}

  • 我們研究一個僅關(guān)注前N個輸入坐標(biāo)的線性模型债沮。定義函數(shù)\phi_N(xx_{\cdot})=(x_1,...,x_N)炼吴。我們研究的線性模型具有參數(shù)\mathbf{w}\in\mathbb{R}^N,輸出為f_{\mathbf{w}}(x)=(\mathbf{w},\phi_N(x_{\cdot}))疫衩。

  • 我們使用梯度下降算法學(xué)習(xí)該線性模型硅蹦。初始化\mathbf{w}_0=0并進(jìn)行多步迭代。每次迭代時闷煤,從\mathcal{D}中采樣(x_{t,\cdot},y_t)童芹,然后更新\mathbf{w}_t\mathbf{w}_{t+1}\gets \mathbf{w}_t-\eta\nabla l_t(\mathbf{w}_t),其中l_t(\mathbf{w})=\frac{1}{2}(f_\mathbf{w}(x_{t,\cdot})-y_t)^2鲤拿。

\overline{\mathcal{L}}_{\eta,T}=\mathbb{E}_{\mathbf{w}_T}\mathbb{E}_{(x,y)\sim D}[\frac{1}{2}(f_{\mathbf{w}_T}(x)-y)^2]為以學(xué)習(xí)率\eta\in(0,\frac{1}{3}]對其有N個參數(shù)的線性模型進(jìn)行T≥0步訓(xùn)練后的測試損失的期望假褪。

請求出αβ近顷,C嗜价,使得\forall\gamma>0,\forall c>0,當(dāng)T=N^{c+o(1)}N足夠大時幕庐,以下條件成立:

\epsilon(N,T):=\frac{\inf_{\eta\in(0,\frac{1}{3}]}{\overline{\mathcal{L}}_{N,T}}-C}{\frac{A}{N^\alpha}+\frac{B}{T^\beta}}久锥,

(\log N+\log T)^{-γ}\leq \epsilon(N,T)\leq(\log N+\log T)^γ。即\inf_{\eta\in(0,\frac{1}{3}]}{\overline{\mathcal{L}}_{N,T}}=\tilde{\Theta}(N^{-\alpha}+T^{-\beta})+C异剥,其中\tilde{\Theta}表示忽略任何關(guān)于\log N\log T的多項式瑟由。

解:

  1. 首先,我們來計算測試損失的期望\overline{\mathcal{L}}_{\eta,T}冤寿。

由于xy是獨立的隨機(jī)變量歹苦,且y的條件分布是N(3x, 1),我們可以寫出測試損失的期望為:

\overline{\mathcal{L}}_{\eta,T}=\mathbb{E}_{(x,y)\sim D}[\frac{1}{2}(w_T x - y)^2]

由于y=3x+\epsilon督怜,其中\epsilon\sim N(0, 1)且獨立于x殴瘦,我們可以將y替換為3x+\epsilon

\overline{\mathcal{L}}_{\eta,T}=\mathbb{E}_{x,\epsilon}[\frac{1}{2}(w_T x - (3x+\epsilon))^2]

展開并利用\mathbb{E}[\epsilon^2]=1\mathbb{E}[x^2]=1(因為x\sim N(0, 1)):

\overline{\mathcal{L}}_{\eta,T}=\mathbb{E}_x[\frac{1}{2}(w_T^2 x^2 - 6w_T x^2 + 9x^2 + \epsilon^2 - 6w_T x \epsilon + 3w_T^2 x^2)]

由于\epsilonx是獨立的,我們可以分別計算期望:

\overline{\mathcal{L}}_{\eta,T}=\frac{1}{2}(w_T^2 - 6w_T + 9)\mathbb{E}[x^2] + \frac{1}{2}\mathbb{E}[\epsilon^2]

\overline{\mathcal{L}}_{\eta,T}=\frac{1}{2}(w_T^2 - 6w_T + 9) + \frac{1}{2}

現(xiàn)在我們需要計算w_T的期望值号杠。由于w_t的更新規(guī)則是w_{t+1}=w_t-\eta\nabla l_t(w_t)蚪腋,我們有:

\nabla l_t(w_t) = w_t x_t - y_t = w_t x_t - (3x_t + \epsilon)

因此丰歌,更新規(guī)則變?yōu)椋?/p>

w_{t+1} = w_t - \eta(w_t x_t - 3x_t - \epsilon)

取期望并利用\mathbb{E}[x_t]=0\mathbb{E}[\epsilon]=0

\mathbb{E}[w_{t+1}] = \mathbb{E}[w_t] - \eta(3\mathbb{E}[x_t^2])

由于x_t^2的期望是1,我們有:

\mathbb{E}[w_{t+1}] = \mathbb{E}[w_t] - 3\eta

由于w_0=0屉凯,我們可以遞歸地計算w_T

\mathbb{E}[w_T] = -3\eta T

\mathbb{E}[w_T]代入測試損失的期望中:

\overline{\mathcal{L}}_{\eta,T}=\frac{1}{2}((-3\eta T)^2 - 6(-3\eta T) + 9) + \frac{1}{2}

\overline{\mathcal{L}}_{\eta,T}=\frac{1}{2}(9\eta^2 T^2 + 18\eta T + 9) + \frac{1}{2}

\overline{\mathcal{L}}_{\eta,T}=\frac{9\eta^2 T^2 + 18\eta T + 10}{2}

  1. 接下來立帖,我們需要找到g(T)

首先悠砚,我們需要最小化\overline{\mathcal{L}}_{\eta,T}關(guān)于\eta晓勇。我們可以通過設(shè)置\frac{d\overline{\mathcal{L}}_{\eta,T}}{d\eta}=0來找到最優(yōu)的學(xué)習(xí)率\eta^*

\fracvzcgzm7{d\eta}(\frac{9\eta^2 T^2 + 18\eta T + 10}{2})=9\eta T^2 + 18T=0

解得:

\eta^* = \frac{2}{3T}

\eta^*代入\overline{\mathcal{L}}_{\eta,T}中,我們得到最小化測試損失的表達(dá)式:

\overline{\mathcal{L}}_{\eta^*,T}=\frac{9(\frac{2}{3T})^2 T^2 + 18(\frac{2}{3T}) T + 10}{2}

\overline{\mathcal{L}}_{\eta^*,T}=\frac{9(\frac{4}{9T^2}) T^2 + 18(\frac{2}{3T}) T + 10}{2}

\overline{\mathcal{L}}_{\eta^*,T}=\frac{4 + 12 + 10}{2}

\overline{\mathcal{L}}_{\eta^*,T}=\frac{26}{2}

\overline{\mathcal{L}}_{\eta^*,T}=13

現(xiàn)在灌旧,我們需要找到g(T)绑咱,使得當(dāng)T\rightarrow+\infty時,以下條件成立:

\left|\underset{\eta\in(0,\frac{1}{3}]}{\inf}\mathcal{I}_{n,T}-g(T)\right|=O\left(\frac{(\log T)^2}{T^2}\right)

由于我們已經(jīng)找到了最優(yōu)的學(xué)習(xí)率\eta^*枢泰,我們可以將\overline{\mathcal{L}}_{\eta^*,T}視為\mathcal{I}_{n,T}的下界描融。因此,我們需要找到一個函數(shù)g(T)宗苍,使得當(dāng)T趨向于無窮大時,\overline{\mathcal{L}}_{\eta^*,T}g(T)之間的差異滿足上述條件薄榛。

考慮到\overline{\mathcal{L}}_{\eta^*,T}是一個常數(shù)13讳窟,我們可以推斷g(T)應(yīng)該也是一個常數(shù),因為測試損失的期望在最優(yōu)學(xué)習(xí)率下不隨T變化敞恋。因此丽啡,我們可以選擇g(T)=13

現(xiàn)在硬猫,我們需要驗證這個選擇是否滿足條件:

\left|\underset{\eta\in(0,\frac{1}{3}]}{\inf}\mathcal{I}_{n,T}-g(T)\right|=O\left(\frac{(\log T)^2}{T^2}\right)

由于\mathcal{I}_{n,T}的最小值是13补箍,我們有:

\left|13-13\right|=0

顯然,0=O\left(\frac{(\log T)^2}{T^2}\right)啸蜜,因為當(dāng)T趨向于無窮大時坑雅,\frac{(\log T)^2}{T^2}趨向于0。因此衬横,我們的選擇g(T)=13是正確的裹粤。

綜上所述,g(T)=13滿足題目中的條件蜂林。

3.為了解決這個問題遥诉,我們需要推導(dǎo)出多維線性模型在給定數(shù)據(jù)分布下的縮放定律。根據(jù)題目描述噪叙,我們有一個線性模型矮锈,其參數(shù)遵循特定的縮放定律。我們將通過以下步驟來解決這個問題:

步驟 1: 理解數(shù)據(jù)分布

數(shù)據(jù)分布 \mathcal{D} 是通過 Zipf 分布來選擇輸入向量的非零坐標(biāo)睁蕾,然后根據(jù)該坐標(biāo)的值來生成輸出 y苞笨。這意味著大部分的數(shù)據(jù)集中在較少的非零坐標(biāo)上。

步驟 2: 定義損失函數(shù)

損失函數(shù) \overline{\mathcal{L}}_{\eta,T} 是在給定學(xué)習(xí)率 \eta 和訓(xùn)練步數(shù) T 后,模型參數(shù) \mathbf{w} 的測試損失的期望猫缭。

步驟 3: 推導(dǎo)縮放定律

我們需要找到 \alpha葱弟,\beta,和 C 使得損失函數(shù)符合 \overline{\mathcal{L}}_{N,T}≈\frac{A}{N^\alpha}+\frac{B}{T^\beta}+C 的形式猜丹。

對于 \alpha 的推導(dǎo):

  • 參數(shù) N 表示模型考慮的輸入向量的維度芝加。由于數(shù)據(jù)分布的特性,大部分的權(quán)重不會接收到有效的梯度更新射窒,因為它們對應(yīng)的輸入坐標(biāo)為零藏杖。因此,增加 N 的數(shù)量不會顯著改善模型的性能脉顿,但也不會損害它蝌麸,因為只有少數(shù)權(quán)重會被更新。

  • Zipf 分布的特性意味著非零坐標(biāo)的數(shù)量隨著 N 的增加而減少艾疟。因此来吩,我們可以預(yù)期 \alpha 大于 0,但小于 1蔽莱,因為增加維度對于模型性能的提升是有上限的弟疆。

對于 \beta 的推導(dǎo):

  • 參數(shù) T 表示訓(xùn)練步數(shù)。隨著訓(xùn)練步數(shù)的增加盗冷,模型將獲得更多的機(jī)會來更新其權(quán)重怠苔,從而減少損失。因此仪糖,我們可以預(yù)期 \beta 大于 0柑司。

  • 由于數(shù)據(jù)分布的特性,并不是每一步都會對所有權(quán)重進(jìn)行有效更新锅劝。因此攒驰,\beta 可能不會是 1,而是小于 1 的某個值故爵。

對于 C 的推導(dǎo):

  • 常數(shù) C 表示當(dāng) NT 趨于無窮大時讼育,測試損失的最低值。這是由于數(shù)據(jù)本身的噪聲和模型的能力限制導(dǎo)致的稠集。

步驟 4: 確定 \alpha奶段,\beta,和 C

為了確定 \alpha剥纷,\beta痹籍,和 C,我們需要進(jìn)行以下分析:

  • 對于 \alpha:考慮到只有少數(shù)權(quán)重會被更新晦鞋,我們可以假設(shè) \alpha 在 0 和 1 之間蹲缠。更具體地棺克,由于 Zipf 分布的特性,我們可以假設(shè) \alpha 接近于 1线定,但小于 1娜谊,因為隨著 N 的增加,額外維度的邊際貢獻(xiàn)會減少斤讥。一個合理的猜測是 \alpha = \frac{1}纱皆

  • 對于 \beta:考慮到每一步并不是對所有權(quán)重都進(jìn)行有效更新芭商,我們可以假設(shè) \beta 小于 1派草。一個合理的猜測是 \beta = \frac{1}{2},這是因為通常情況下铛楣,梯度下降的收斂速度與步數(shù)的平方根成反比近迁。

  • 對于 C:這是數(shù)據(jù)噪聲和模型表達(dá)能力限制的結(jié)果。在沒有更多信息的情況下簸州,我們無法精確確定 C鉴竭,但可以假設(shè)它是一個正數(shù)。

步驟 5: 驗證條件

我們需要驗證 \epsilon(N,T) 的條件是否成立岸浑。這通常涉及到對 \overline{\mathcal{L}}_{N,T} 進(jìn)行詳細(xì)的分析搏存,并證明它符合給定的縮放形式。這通常需要數(shù)學(xué)上的證明和/或?qū)嶒烌炞C助琐。

綜上所述祭埂,我們可以假設(shè) \alpha = \frac{1}面氓兵钮,\beta = \frac{1}{2}C 是一個正數(shù)舌界。然而掘譬,為了得到精確的值,我們需要更深入的分析和實驗數(shù)據(jù)呻拌。在實際應(yīng)用中葱轩,這些參數(shù)通常是通過實驗來確定的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末藐握,一起剝皮案震驚了整個濱河市靴拱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌猾普,老刑警劉巖袜炕,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異初家,居然都是意外死亡偎窘,警方通過查閱死者的電腦和手機(jī)乌助,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來陌知,“玉大人他托,你說我怎么就攤上這事∑推希” “怎么了赏参?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長浙芙。 經(jīng)常有香客問我登刺,道長,這世上最難降的妖魔是什么嗡呼? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任纸俭,我火速辦了婚禮,結(jié)果婚禮上南窗,老公的妹妹穿的比我還像新娘揍很。我一直安慰自己,他們只是感情好万伤,可當(dāng)我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布窒悔。 她就那樣靜靜地躺著,像睡著了一般敌买。 火紅的嫁衣襯著肌膚如雪简珠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天虹钮,我揣著相機(jī)與錄音聋庵,去河邊找鬼。 笑死芙粱,一個胖子當(dāng)著我的面吹牛祭玉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播春畔,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼脱货,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了律姨?” 一聲冷哼從身側(cè)響起振峻,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎择份,沒想到半個月后扣孟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡缓淹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年哈打,在試婚紗的時候發(fā)現(xiàn)自己被綠了塔逃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡料仗,死狀恐怖湾盗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情立轧,我是刑警寧澤格粪,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站氛改,受9級特大地震影響帐萎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜胜卤,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一疆导、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧葛躏,春花似錦澈段、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摩窃,卻和暖如春兽叮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背猾愿。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工鹦聪, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人匪蟀。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓椎麦,卻偏偏與公主長得像宰僧,于是被迫代替她去往敵國和親材彪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容