我們可以將監(jiān)督學(xué)習(xí)訓(xùn)練的前饋網(wǎng)絡(luò)視為表示學(xué)習(xí)的一種形式腥泥。具體地,網(wǎng)絡(luò)的最后一層通常是線性分類器啃匿,如 softmax 回歸分類器蛔外。網(wǎng)絡(luò)的其余部分學(xué)習(xí)出該分類器的表示。
貪心逐層無(wú)監(jiān)督預(yù)訓(xùn)練
學(xué)習(xí)算法可以使用無(wú)監(jiān)督階段學(xué)習(xí)的信息溯乒,在監(jiān)督學(xué)習(xí)的階段表現(xiàn)得更好夹厌。其基本想法是對(duì)于無(wú)監(jiān)督任務(wù)有用的一些特征對(duì)于監(jiān)督學(xué)習(xí)任務(wù)也可能是有用的。例如裆悄,如果我們訓(xùn)練汽車和摩托車圖像的生成模型矛纹,它 需要知道輪子的概念,以及一張圖中應(yīng)該有多少個(gè)輪子光稼。如果我們幸運(yùn)的話或南,無(wú)監(jiān) 督階段學(xué)習(xí)的輪子表示會(huì)適合于監(jiān)督學(xué)習(xí)。然而我們還未能從數(shù)學(xué)艾君、理論層面上證 明采够,因此并不總是能夠預(yù)測(cè)哪種任務(wù)能以這種形式從無(wú)監(jiān)督學(xué)習(xí)中受益。
對(duì)訓(xùn)練誤差和測(cè)試誤差的改進(jìn)都可以解釋為冰垄,無(wú)監(jiān)督預(yù)訓(xùn)練將參數(shù)引入到了其他方法可 能探索不到的區(qū)域蹬癌。神經(jīng)網(wǎng)絡(luò)訓(xùn)練是非確定性的,并且每次運(yùn)行都會(huì)收斂到不同的 函數(shù)虹茶。訓(xùn)練可以停止在梯度很小的點(diǎn)逝薪;也可以提前終止結(jié)束訓(xùn)練,以防過(guò)擬合蝴罪;還可 以停止在梯度很大董济,但由于諸如隨機(jī)性或 Hessian 矩陣病態(tài)條件等問(wèn)題難以找到合 適下降方向的點(diǎn)。經(jīng)過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停止在一片相同的函數(shù)空 間區(qū)域洲炊,但未經(jīng)過(guò)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停在另一個(gè)區(qū)域感局。
預(yù)訓(xùn)練的網(wǎng)絡(luò)越深,測(cè)試 誤差的均值和方差下降得越多暂衡。值得注意的是询微,這些實(shí)驗(yàn)是在訓(xùn)練非常深層網(wǎng)絡(luò)的 現(xiàn)代方法發(fā)明和流行(整流線性單元,Dropout 和批標(biāo)準(zhǔn)化)之前進(jìn)行的狂巢,因此對(duì) 于無(wú)監(jiān)督預(yù)訓(xùn)練與當(dāng)前方法的結(jié)合撑毛,我們所知甚少。
如今,大部分算法已經(jīng)不使用無(wú)監(jiān)督預(yù)訓(xùn)練了藻雌,除了在自然語(yǔ)言處理領(lǐng)域中單詞 作為 one-hot 向量的自然表示不能傳達(dá)相似性信息雌续,并且有非常多的未標(biāo)注數(shù)據(jù)集 可用。在這種情況下胯杭,預(yù)訓(xùn)練的優(yōu)點(diǎn)是可以對(duì)一個(gè)巨大的未標(biāo)注集合(例如用包含數(shù) 十億單詞的語(yǔ)料庫(kù))進(jìn)行預(yù)訓(xùn)練驯杜,學(xué)習(xí)良好的表示(通常是單詞,但也可以是句子)做个, 然后使用該表示或精調(diào)它鸽心,使其適合于訓(xùn)練集樣本大幅減少的監(jiān)督任務(wù)。
遷移學(xué)習(xí)和領(lǐng)域自適應(yīng)
遷移學(xué)習(xí)的兩種極端形式是一次學(xué)習(xí)(one-shot learning)和零次學(xué)習(xí)(zeroshot learning)居暖,有時(shí)也被稱為零數(shù)據(jù)學(xué)習(xí)(zero-data learning)顽频。只有一個(gè)標(biāo)注樣本 的遷移任務(wù)被稱為一次學(xué)習(xí);沒(méi)有標(biāo)注樣本的遷移任務(wù)被稱為零次學(xué)習(xí)太闺。
例如糯景,已知貓有四條腿和尖尖的耳朵,那么學(xué)習(xí)器可以在 沒(méi)有見(jiàn)過(guò)貓的情況下猜測(cè)該圖像中是貓省骂。
分布式表示
比如n 維二元向量是一個(gè)分布式表示的示例蟀淮,有 2n 種配置,每一種都對(duì)應(yīng)輸入空間中的一個(gè)不同區(qū)域
將分布式表示和符號(hào)表示區(qū)分開來(lái)的一個(gè)重要概念是冀宴,由不同概念之間的共享 屬性而產(chǎn)生的泛化灭贷。作為純符號(hào),‘‘貓’’ 和 ‘‘狗’’ 之間的距離和任意其他兩種符號(hào)的 距離一樣略贮。然而甚疟,如果將它們與有意義的分布式表示相關(guān)聯(lián),那么關(guān)于貓的很多特 點(diǎn)可以推廣到狗逃延,反之亦然览妖。例如,我們的分布式表示可能會(huì)包含諸如 ‘‘具有皮毛’’ 或 ‘‘腿的數(shù)目’’ 這類在 ‘‘貓’’ 和 ‘‘狗’’ 的嵌入上具有相同值的項(xiàng)揽祥。
我們會(huì)發(fā)現(xiàn)關(guān)于輸入大小呈指數(shù)級(jí)增長(zhǎng)讽膏,關(guān)于隱藏單元的數(shù)量呈多項(xiàng)式級(jí)增 長(zhǎng)。