- 用fp16訓(xùn)練的時(shí)候镐侯,得單獨(dú)把transformer layer改成fp32廉沮,不然可能loss不降
-
checkpoint+ddp的時(shí)候,可能會報(bào)這個(gè)錯(cuò):
把find_unused_parameters改成False就可以了。
model = build_ddp(
model,
cfg.device,
device_ids=[int(os.environ['LOCAL_RANK'])],
broadcast_buffers=False,
find_unused_parameters=False)