如何讓DL_Image_Gen在RTX2080Ti上跑起來

??首先, DL_Image_Gen這個平臺是在1080上順利運行的, 環(huán)境如下
os: ubuntu16.04 LTS
Driver: 384.130
CUDA: 9.0.176
CUDNN: 7.0.5
torch:0.4.0

1. CUDA10

環(huán)境如下
os: ubuntu18.04 LTS
Driver: 410.78
CUDA: 10.0.130
CUDNN: 7.4.2

??開始的時候, 裝torch是直接pip3 install torch, 裝上的是1.0.1版本, 這個時候跑RNAN(in DL_Image_Gen)會出現(xiàn)下面的問題

RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:844

??這個問題出現(xiàn)的原因還是pytorch的版本和CUDA版本對不上的問題, 之前BY在CUDA9.0下面也碰到這個問題, 但不同的是, 雖然同樣出現(xiàn)了THCudaCheck FAIL, 但他的代碼在出現(xiàn)了這個error之后還是可以順利運行過去, 我的就不行

??pytorch的論壇和github上, 很多人也都碰到了這個問題, 多數(shù)也都是在RTX2080或者2080Ti上, 有建設(shè)意見的有兩個

https://github.com/1adrianb/face-alignment/issues/123

??這個小姐姐最后的解決方案是pytorch源碼安裝, 其實源碼安裝也并不復(fù)雜, 但問題是

Makefile:127: recipe for target 'all' failed

??這個坑我過不去, 上面csdn那篇博客上說降級gcc/g++到4.9, 但試了一下gcc/g++的4.9版本沒法通過sudo apt-get install直接裝, 裝4.9,5.5都不好使, 所以這條路斷絕了

??另外一個

https://discuss.pytorch.org/t/thcudacheck-fail-file-pytorch-aten-src-thc-thcgeneral-cpp/31788/6

torch.backends.cudnn.benchmark=False
image.png

??我之前確實在程序一開頭設(shè)置過torch.backends.cudnn.benchmark=False, 但是還是出現(xiàn)了上面說的問題, 后來又用之前沒加distiller那個簡化版的DL_Image_Gen來試, 還是不行, 發(fā)現(xiàn)在solver.py里面, cudnn.benchmark=True, -_-! 改成False之后, Bing! 之前的錯誤不見了, 但有一個新問題

cublas runtime error: the GPU program failed to execute

??這個問題是在運行torch.matmul()函數(shù)的時候出現(xiàn)的

??再搜這個問題, 各種牛鬼蛇神又出來了, 靠譜的是這個

https://discuss.pytorch.org/t/bad-cuda-error-when-using-torch-matmul-with-cuda-10-0/36558

??一句話, 就是要用在Cuda10下編譯出來的pytorch, 而直接裝上的那個不知道是在什么環(huán)境下編譯的, 所以又重新在https://pytorch.org/get-started/previous-versions/下了cu100/torch-1.0.0-cp36-cp36m-linux_x86_64.whl, 裝上了之后, 就可以順利運行了

??奇怪的是一點, 就是裝了這個版本, 即使是把cudnn.benchmark=True, 也不會再報之前的THCudaCheck FAIL問題了, 很干凈, 連在BY那兒出現(xiàn)的雖然FAIL但程序依然可以運行的問題都沒有

??ps: 多說一句, DL_ImageGen的dependencies里面有tensorflow, 而tensorflow是沒有cuda10下的官方版本的, 要pip3 install tf-nightly-gpu, 如果直接pip3 install tf-gpu的話, 會報錯

can’t import “l(fā)ibcublas.so.9.0”

https://medium.com/@cjanze/how-to-install-tensorflow-with-gpu-support-on-ubuntu-18-04-lts-with-cuda-10-nvidia-gpu-312a693744b5

??總結(jié)一下, 在CUDA10下, 要把DL_Image_Gen跑起來, 其實關(guān)鍵是要在pytorch官網(wǎng)上, 安裝對應(yīng)CUDA10的那個torch版本, 而cudnn.benchmark=True or False其實并不影響, 下面, 就是要試一下在CUDA9.0的環(huán)境下能不能跑起來

2. CUDA9.0

環(huán)境如下
os: ubuntu18.04 LTS
Driver: 410.78
CUDA: 9.0.176
CUDNN: 7.0.5

??先完全照之前1080上的配置, 然后下pytorch官網(wǎng)的cu90/torch-0.4.0-cp36-cp36m-linux_x86_64.whl, 看能不能跑起來

??重新回到CUDA9.0之后, 按照在CUDA10.0上的經(jīng)驗, 我們把cudnn.benchmark=False, 并且安裝pytorch提供的在CUDA9.0下編譯出來的0.4.0版本, 運行RNAN的時候, 沒有再報之前的

RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:844

??但是, 出現(xiàn)了CUDA10上也出現(xiàn)過的問題, 就是在運行torch.matmul()的時候, 出現(xiàn)報錯

cublas runtime error : the GPU program failed to execute at /pytorch/aten/src/THC/THCBlas.cu:411

??我又在當(dāng)前的環(huán)境下跑了BY的SRGAN和mini DL_Image_Gen中的c3srcnn, 雖然依然有THCudaCheck FAIL, 但是都可以訓(xùn)練起來

??也就是說, 這個版本的pytorch實際上還是有問題, 只能說支持了一部分的cuda上的操作, 但是torch.matmul()或這torch.mm()這樣的操作在cuda上就會有問題

https://discuss.pytorch.org/t/runtimeerror-cublas-runtime-error-the-gpu-program-failed-to-execute-at/11470

https://discuss.pytorch.org/t/cublas-runtime-error/11243/7

??暫時還沒有看到有什么解決方案, 所以現(xiàn)在的狀態(tài)就是, 在CUDA10上, 用上一章的那套配置確定可以跑起來, 但是CUDA9上, 只要碰到torch.matmul()就跑不起來, 并且暫時沒看到有好的解決方案

??下一步, 還是先用CUDA10+torch1.0.0(cuda10上沒有編的torch0.4.0的版本)跑起來, 就跑在1080上跑的那個訓(xùn)練, 把torch.backends.cudnn.deterministic = True也開上, 然后看訓(xùn)練出來的模型的performance差異多大

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末妓雾,一起剝皮案震驚了整個濱河市非剃,隨后出現(xiàn)的幾起案子俩块,更是在濱河造成了極大的恐慌收奔,老刑警劉巖噩茄,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件垦写,死亡現(xiàn)場離奇詭異墙贱,居然都是意外死亡您单,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門陌僵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來轴合,“玉大人,你說我怎么就攤上這事碗短∈芨穑” “怎么了?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵豪椿,是天一觀的道長奔坟。 經(jīng)常有香客問我,道長搭盾,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任婉支,我火速辦了婚禮鸯隅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘向挖。我一直安慰自己蝌以,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布何之。 她就那樣靜靜地躺著跟畅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪溶推。 梳的紋絲不亂的頭發(fā)上徊件,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天奸攻,我揣著相機與錄音,去河邊找鬼虱痕。 笑死睹耐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的部翘。 我是一名探鬼主播硝训,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼新思!你這毒婦竟也來了窖梁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤夹囚,失蹤者是張志新(化名)和其女友劉穎纵刘,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崔兴,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡彰导,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了敲茄。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片位谋。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖堰燎,靈堂內(nèi)的尸體忽然破棺而出掏父,到底是詐尸還是另有隱情,我是刑警寧澤秆剪,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布赊淑,位于F島的核電站,受9級特大地震影響仅讽,放射性物質(zhì)發(fā)生泄漏陶缺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一洁灵、第九天 我趴在偏房一處隱蔽的房頂上張望饱岸。 院中可真熱鬧,春花似錦徽千、人聲如沸苫费。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽百框。三九已至,卻和暖如春牍汹,著一層夾襖步出監(jiān)牢的瞬間铐维,已是汗流浹背柬泽。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留方椎,地道東北人聂抢。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像棠众,于是被迫代替她去往敵國和親琳疏。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容