在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,如果程序沒有正常退出端考,尤其是多卡的時(shí)候雅潭,會(huì)導(dǎo)致僵尸進(jìn)程出現(xiàn),正常情況其實(shí)僵尸進(jìn)程影響不大却特。但是由深度學(xué)習(xí)導(dǎo)致的僵尸進(jìn)程會(huì)占用顯存扶供,導(dǎo)致無法訓(xùn)練。
ps -ef | grep defunct
前三列分別是UID裂明、PID椿浓、PPID
然后就開始一個(gè)一個(gè)殺把。 如果還不能解決問題漾岳,就重啟把
還有一種情況是轰绵,nvidia-smi 的時(shí)候沒有看到該進(jìn)程,但是上面的顯存卻實(shí)際被占用尼荆,遇到這種情況使用
fuser -v /dev/nvidia*
然后就看到占用顯存的進(jìn)程直接殺掉就可以了