39
4
1
11449
0
作者: 我們研究了在給定的計(jì)算預(yù)算下,訓(xùn)練transformer語(yǔ)言模型的最佳模型大小和標(biāo)記數(shù)量。我們發(fā)現(xiàn),目前的大型語(yǔ)言模型訓(xùn)練不足,這是最近...