問題描述
這兩天在服務器訓練TensorFlow時儡司,時不時報出“tensorflow.python.framework.errors_impl.ResourceExhaustedError
”的錯誤信息闲先,伴隨有大量的其他log颓遏,搜了一下說是可能資源不足切油,查了一下顯卡、內(nèi)存資源發(fā)現(xiàn)都是夠用的,很奇怪梧兼,過了一天再鏈接服務器訓練發(fā)現(xiàn)又可以了,訓練了一天又報出了相同錯誤智听。而且不單單是在已有模型基礎上訓練有這個錯誤羽杰,新建模型訓練也會報同樣的錯誤。
問題解決
后來突然想到到推,資源不夠也可能是硬盤資源不足考赛,查了一下發(fā)現(xiàn)真的是硬盤滿了,潛意識里一直覺得服務器的硬盤資源是不用操心的莉测,結(jié)果忽略了這個可能颜骤。。捣卤。
清除一些文件得到空間后忍抽,就可以繼續(xù)正常的訓練了。
查詢服務器各個資源情況的命令:命令查看Linux服務器內(nèi)存董朝、CPU鸠项、顯卡、硬盤使用情況