數(shù)據(jù)集
在機(jī)器學(xué)習(xí)術(shù)語里嘀略,該數(shù)據(jù)集(收集一系列的真實(shí)數(shù)據(jù)宙橱,例如多棟房屋的真實(shí)售出價(jià)格和它們對(duì)應(yīng)的面積和房齡)被稱為訓(xùn)練數(shù)據(jù)集(training data set)或訓(xùn)練集(training set)责语,一棟房屋被稱為一個(gè)樣本(sample)逾柿,其真實(shí)售出價(jià)格叫作標(biāo)簽(label)茅糜,用來預(yù)測(cè)標(biāo)簽的兩個(gè)因素叫作特征(feature)莺葫。
損失函數(shù)
在模型訓(xùn)練中,需要衡量?jī)r(jià)格預(yù)測(cè)值與真實(shí)值之間的誤差捌肴。通常我們會(huì)選取一個(gè)非負(fù)數(shù)作為誤差蹬叭,且數(shù)值越小表示誤差越小。一個(gè)常用的選擇是平方函數(shù)状知。 它在評(píng)估索引為?i?的樣本誤差的表達(dá)式為:
優(yōu)化函數(shù) - 隨機(jī)梯度下降
當(dāng)模型和損失函數(shù)形式較為簡(jiǎn)單時(shí)秽五,上面的誤差最小化問題的解可以直接用公式表達(dá)出來。這類解叫作解析解(analytical solution)饥悴。本節(jié)使用的線性回歸和平方誤差剛好屬于這個(gè)范疇坦喘。然而盲再,大多數(shù)深度學(xué)習(xí)模型并沒有解析解,只能通過優(yōu)化算法有限次迭代模型參數(shù)來盡可能降低損失函數(shù)的值瓣铣。這類解叫作數(shù)值解(numerical solution)洲胖。
在求數(shù)值解的優(yōu)化算法中,小批量隨機(jī)梯度下降(mini-batch stochastic gradient descent)在深度學(xué)習(xí)中被廣泛使用坯沪。它的算法很簡(jiǎn)單:先選取一組模型參數(shù)的初始值绿映,如隨機(jī)選取腐晾;接下來對(duì)參數(shù)進(jìn)行多次迭代叉弦,使每次迭代都可能降低損失函數(shù)的值。在每次迭代中藻糖,先隨機(jī)均勻采樣一個(gè)由固定數(shù)目訓(xùn)練數(shù)據(jù)樣本所組成的小批量(mini-batch)B淹冰,然后求小批量中數(shù)據(jù)樣本的平均損失有關(guān)模型參數(shù)的導(dǎo)數(shù)(梯度),最后用此結(jié)果與預(yù)先設(shè)定的一個(gè)正數(shù)的乘積作為模型參數(shù)在本次迭代的減小量巨柒。
學(xué)習(xí)率:?η代表在每次優(yōu)化中樱拴,能夠?qū)W習(xí)的步長(zhǎng)的大小
批量大小:?B是小批量計(jì)算中的批量大小batch size
矢量計(jì)算
在模型訓(xùn)練或預(yù)測(cè)時(shí),我們常常會(huì)同時(shí)處理多個(gè)數(shù)據(jù)樣本并用到矢量計(jì)算洋满。在介紹線性回歸的矢量計(jì)算表達(dá)式之前晶乔,讓我們先考慮對(duì)兩個(gè)向量相加的兩種方法。
① 向量相加的一種方法是牺勾,將這兩個(gè)向量按元素逐一做標(biāo)量加法正罢。
② 向量相加的另一種方法是,將這兩個(gè)向量直接做矢量加法驻民。
學(xué)習(xí)鏈接:線性回歸