提高準(zhǔn)確率:
learning_rate:學(xué)習(xí)率.
默認(rèn)值:0.1
調(diào)參策略:最開始可以設(shè)置得大一些了嚎,如0.1彰亥。調(diào)整完其他參數(shù)之后最后再將此參數(shù)調(diào)小咧七。
取值范圍:0.01~0.3.
max_depth:樹模型深度
默認(rèn)值:-1
調(diào)整策略:無
取值范圍:3-8(不超過10)
num_leaves:葉子節(jié)點(diǎn)數(shù),數(shù)模型復(fù)雜度任斋。
默認(rèn)值:31
調(diào)整策略:可以設(shè)置為2的n次冪继阻。如但要大于分類的類別數(shù)
取值范圍:
降低過擬合
max_bin:工具箱數(shù)(葉子結(jié)點(diǎn)數(shù)+非葉子節(jié)點(diǎn)數(shù)?)
工具箱的最大數(shù)特征值決定了容量 工具箱的最小數(shù)特征值可能會(huì)降低訓(xùn)練的準(zhǔn)確性, 但是可能會(huì)增加一些一般的影響(處理過度學(xué)習(xí))
LightGBM 將根據(jù) max_bin 自動(dòng)壓縮內(nèi)存废酷。 例如, 如果 maxbin=255, 那么 LightGBM 將使用 uint8t 的特性值
min_data_in_leaf:一個(gè)葉子上數(shù)據(jù)的最小數(shù)量. 可以用來處理過擬合
默認(rèn)值:20
調(diào)參策略:搜索瘟檩,盡量不要太大。
feature_fraction:每次迭代中隨機(jī)選擇特征的比例澈蟆。
默認(rèn)值:1.0
調(diào)參策略:0.5-0.9之間調(diào)節(jié)墨辛。
可以用來加速訓(xùn)練
可以用來處理過擬合
bagging_fraction:不進(jìn)行重采樣的情況下隨機(jī)選擇部分?jǐn)?shù)據(jù)
默認(rèn)值:1.0
調(diào)參策略:0.5-0.9之間調(diào)節(jié)。
可以用來加速訓(xùn)練
可以用來處理過擬合
bagging_freq:bagging的次數(shù)趴俘。0表示禁用bagging睹簇,非零值表示執(zhí)行k次bagging
默認(rèn)值:0
調(diào)參策略:3-5
lambda_l1:L1正則
lambda_l2:L2正則
min_split_gain:執(zhí)行切分的最小增益
默認(rèn)值:0.1
For Faster Speed
- Use bagging by setting
bagging_fraction
andbagging_freq
- Use feature sub-sampling by setting
feature_fraction
- Use small
max_bin
- Use
save_binary
to speed up data loading in future learning - Use parallel learning, refer to Parallel Learning Guide
For Better Accuracy
- Use large
max_bin
(may be slower) - Use small
learning_rate
with largenum_iterations
- Use large
num_leaves
(may cause over-fitting) - Use bigger training data
- Try
dart
Deal with Over-fitting
- Use small
max_bin
- Use small
num_leaves
- Use
min_data_in_leaf
andmin_sum_hessian_in_leaf
- Use bagging by set
bagging_fraction
andbagging_freq
- Use feature sub-sampling by set
feature_fraction
- Use bigger training data
- Try
lambda_l1
,lambda_l2
andmin_gain_to_split
for regularization - Try
max_depth
to avoid growing deep tree