現(xiàn)在我們的數(shù)據(jù)可能包含海量特征并闲,一個批量可能相當巨大倚舀,如果是超大批量叹哭,則單次迭代就可能要花費很長的時間計算。
包含隨機抽象樣本的大量數(shù)據(jù)集可能包含冗余數(shù)據(jù)痕貌。實際上风罩,批量越大,出現(xiàn)冗余的可能性越高舵稠。一些冗余可能有助于消除雜亂的梯度超升,但更大批量的預測價值往往并不能提高。
如果我們可以通過更少的計算量得出正確的平均梯度哺徊,會怎么樣室琢?通過從我們的數(shù)據(jù)集中隨機選擇樣本,我們可以通過小得多的數(shù)據(jù)集估算(盡管過程非常雜亂)出較大的平均值落追。?隨機梯度下降法?(SGD) 將這種想法運用到極致研乒,它每次迭代只使用一個樣本(批量大小為 1)。如果進行足夠的迭代淋硝,SGD 也可以發(fā)揮作用雹熬,但過程會非常雜亂宽菜。“隨機”這一術語表示構成各個批量的一個樣本都是隨機選擇的竿报。
小批量隨機梯度下降法(小批量 SGD)是介于全批量迭代與 SGD 之間的折衷方案铅乡。小批量通常包含 10-1000 個隨機選擇的樣本。小批量 SGD 可以減少 SGD 中的雜亂樣本數(shù)量烈菌,但仍然比全批量更高效阵幸。