訓(xùn)練模型優(yōu)化方案:
時(shí)間瓶頸分析:
流程:
相同打分-》抽樣-》離散化 -》樣本轉(zhuǎn)labeledPoint -》lr train --》特征有效性分析
場(chǎng)景:
每人目錄下有多個(gè)模型匾效,只有 正則化參數(shù)不同
當(dāng)前方案:
參數(shù)不同,重跑 整個(gè)流程 相同打分-》抽樣-》離散化 -》樣本轉(zhuǎn)labeledPoint -》lr train --》特征有效性分析
優(yōu)化方案:
只是模型訓(xùn)練的參數(shù)不同着裹,可以在模型中添加initweight冤灾,整個(gè)流程:耗時(shí)144分鐘拥峦,優(yōu)化后黔寇,只需要6分鐘镜粤,只需4%的時(shí)間幢踏,即時(shí)間效率提升24倍髓需。
空間瓶頸分析:
流程:相同打分-》抽樣-》離散化 -》樣本轉(zhuǎn)labeledPoint -》lr train --》特征有效性分析
場(chǎng)景:每人目錄下有多個(gè)模型,只有 正則化參數(shù)不同
優(yōu)化方案:打分房蝉、抽樣僚匆、離散化、樣本轉(zhuǎn)labeledPoint 這些數(shù)據(jù)都可以共用搭幻。僅僅參數(shù)不同咧擂,只需要1/10的空間。即空間效率提升10倍檀蹋。
評(píng)估:
“參數(shù)不同”的場(chǎng)景占比多少松申?假如占比為ratio,則優(yōu)化后為 空間消耗總量* ratio*0.1
舉例:
我的空間消耗15T 俯逾,“參數(shù)不同”的場(chǎng)景占1/3,即 此場(chǎng)景為5T贸桶,優(yōu)化后,只需要0.5T桌肴,即500G皇筛。節(jié)省30%左右。