如何讓DL_Image_Gen在RTX2080Ti上跑起來

??首先, DL_Image_Gen這個平臺是在1080上順利運行的, 環(huán)境如下
os: ubuntu16.04 LTS
Driver: 384.130
CUDA: 9.0.176
CUDNN: 7.0.5
torch:0.4.0

1. CUDA10

環(huán)境如下
os: ubuntu18.04 LTS
Driver: 410.78
CUDA: 10.0.130
CUDNN: 7.4.2

??開始的時候, 裝torch是直接pip3 install torch, 裝上的是1.0.1版本, 這個時候跑RNAN(in DL_Image_Gen)會出現(xiàn)下面的問題

RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:844

??這個問題出現(xiàn)的原因還是pytorch的版本和CUDA版本對不上的問題, 之前BY在CUDA9.0下面也碰到這個問題, 但不同的是, 雖然同樣出現(xiàn)了THCudaCheck FAIL, 但他的代碼在出現(xiàn)了這個error之后還是可以順利運行過去, 我的就不行

??pytorch的論壇和github上, 很多人也都碰到了這個問題, 多數(shù)也都是在RTX2080或者2080Ti上, 有建設(shè)意見的有兩個

https://github.com/1adrianb/face-alignment/issues/123

??這個小姐姐最后的解決方案是pytorch源碼安裝, 其實源碼安裝也并不復(fù)雜, 但問題是

Makefile:127: recipe for target 'all' failed

??這個坑我過不去, 上面csdn那篇博客上說降級gcc/g++到4.9, 但試了一下gcc/g++的4.9版本沒法通過sudo apt-get install直接裝, 裝4.9,5.5都不好使, 所以這條路斷絕了

??另外一個

https://discuss.pytorch.org/t/thcudacheck-fail-file-pytorch-aten-src-thc-thcgeneral-cpp/31788/6

torch.backends.cudnn.benchmark=False

image.png

??我之前確實在程序一開頭設(shè)置過torch.backends.cudnn.benchmark=False, 但是還是出現(xiàn)了上面說的問題, 后來又用之前沒加distiller那個簡化版的DL_Image_Gen來試, 還是不行, 發(fā)現(xiàn)在solver.py里面, cudnn.benchmark=True, -_-! 改成False之后, Bing! 之前的錯誤不見了, 但有一個新問題

cublas runtime error: the GPU program failed to execute

??這個問題是在運行torch.matmul()函數(shù)的時候出現(xiàn)的

??再搜這個問題, 各種牛鬼蛇神又出來了, 靠譜的是這個

https://discuss.pytorch.org/t/bad-cuda-error-when-using-torch-matmul-with-cuda-10-0/36558

??一句話, 就是要用在Cuda10下編譯出來的pytorch, 而直接裝上的那個不知道是在什么環(huán)境下編譯的, 所以又重新在https://pytorch.org/get-started/previous-versions/下了cu100/torch-1.0.0-cp36-cp36m-linux_x86_64.whl, 裝上了之后, 就可以順利運行了

??奇怪的是一點, 就是裝了這個版本, 即使是把cudnn.benchmark=True, 也不會再報之前的THCudaCheck FAIL問題了, 很干凈, 連在BY那兒出現(xiàn)的雖然FAIL但程序依然可以運行的問題都沒有

??ps: 多說一句, DL_ImageGen的dependencies里面有tensorflow, 而tensorflow是沒有cuda10下的官方版本的, 要pip3 install tf-nightly-gpu, 如果直接pip3 install tf-gpu的話, 會報錯

can’t import “l(fā)ibcublas.so.9.0”

https://medium.com/@cjanze/how-to-install-tensorflow-with-gpu-support-on-ubuntu-18-04-lts-with-cuda-10-nvidia-gpu-312a693744b5

??總結(jié)一下, 在CUDA10下, 要把DL_Image_Gen跑起來, 其實關(guān)鍵是要在pytorch官網(wǎng)上, 安裝對應(yīng)CUDA10的那個torch版本, 而cudnn.benchmark=True or False其實并不影響, 下面, 就是要試一下在CUDA9.0的環(huán)境下能不能跑起來

2. CUDA9.0

環(huán)境如下
os: ubuntu18.04 LTS
Driver: 410.78
CUDA: 9.0.176
CUDNN: 7.0.5

??先完全照之前1080上的配置, 然后下pytorch官網(wǎng)的cu90/torch-0.4.0-cp36-cp36m-linux_x86_64.whl, 看能不能跑起來

??重新回到CUDA9.0之后, 按照在CUDA10.0上的經(jīng)驗, 我們把cudnn.benchmark=False, 并且安裝pytorch提供的在CUDA9.0下編譯出來的0.4.0版本, 運行RNAN的時候, 沒有再報之前的

RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:844

??但是, 出現(xiàn)了CUDA10上也出現(xiàn)過的問題, 就是在運行torch.matmul()的時候, 出現(xiàn)報錯

cublas runtime error : the GPU program failed to execute at /pytorch/aten/src/THC/THCBlas.cu:411

??我又在當(dāng)前的環(huán)境下跑了BY的SRGAN和mini DL_Image_Gen中的c3srcnn, 雖然依然有THCudaCheck FAIL, 但是都可以訓(xùn)練起來

??也就是說, 這個版本的pytorch實際上還是有問題, 只能說支持了一部分的cuda上的操作, 但是torch.matmul()或這torch.mm()這樣的操作在cuda上就會有問題

https://discuss.pytorch.org/t/runtimeerror-cublas-runtime-error-the-gpu-program-failed-to-execute-at/11470

https://discuss.pytorch.org/t/cublas-runtime-error/11243/7

??暫時還沒有看到有什么解決方案, 所以現(xiàn)在的狀態(tài)就是, 在CUDA10上, 用上一章的那套配置確定可以跑起來, 但是CUDA9上, 只要碰到torch.matmul()就跑不起來, 并且暫時沒看到有好的解決方案

??下一步, 還是先用CUDA10+torch1.0.0(cuda10上沒有編的torch0.4.0的版本)跑起來, 就跑在1080上跑的那個訓(xùn)練, 把torch.backends.cudnn.deterministic = True也開上, 然后看訓(xùn)練出來的模型的performance差異多大

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末妓雾，一起剝皮案震驚了整個濱河市非剃，隨后出現(xiàn)的幾起案子俩块，更是在濱河造成了極大的恐慌收奔，老刑警劉巖噩茄，帶你破解...
沈念sama閱讀 212,816評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件垦写，死亡現(xiàn)場離奇詭異墙贱，居然都是意外死亡您单，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,729評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門陌僵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來轴合，“玉大人，你說我怎么就攤上這事碗短∈芨穑” “怎么了？”我有些...
開封第一講書人閱讀 158,300評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵豪椿，是天一觀的道長奔坟。經(jīng)常有香客問我，道長搭盾，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,780評論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任婉支，我火速辦了婚禮鸯隅，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘向挖。我一直安慰自己蝌以，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,890評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布何之。她就那樣靜靜地躺著跟畅，像睡著了一般。火紅的嫁衣襯著肌膚如雪溶推。梳的紋絲不亂的頭發(fā)上徊件，一...
開封第一講書人閱讀 50,084評論 1贊 291
城市分裂傳說
那天奸攻，我揣著相機與錄音，去河邊找鬼虱痕。笑死睹耐，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的部翘。我是一名探鬼主播硝训，決...
沈念sama閱讀 39,151評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼新思！你這毒婦竟也來了窖梁？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,912評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤夹囚，失蹤者是張志新（化名）和其女友劉穎纵刘，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崔兴，經(jīng)...
沈念sama閱讀 44,355評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡彰导，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,666評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了敲茄。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片位谋。...
茶點故事閱讀 38,809評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖堰燎，靈堂內(nèi)的尸體忽然破棺而出掏父，到底是詐尸還是另有隱情，我是刑警寧澤秆剪，帶...
沈念sama閱讀 34,504評論 4贊 334
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布赊淑，位于F島的核電站，受9級特大地震影響仅讽，放射性物質(zhì)發(fā)生泄漏陶缺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,150評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一洁灵、第九天我趴在偏房一處隱蔽的房頂上張望饱岸。院中可真熱鬧，春花似錦徽千、人聲如沸苫费。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,882評論 0贊 21
一樁弒父案双抽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽百框。三九已至，卻和暖如春牍汹，著一層夾襖步出監(jiān)牢的瞬間铐维，已是汗流浹背柬泽。一陣腳步聲響...
開封第一講書人閱讀 32,121評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留方椎，地道東北人聂抢。一個月前我還...
沈念sama閱讀 46,628評論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像棠众，于是被迫代替她去往敵國和親琳疏。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,724評論 2贊 351

如何讓DL_Image_Gen在RTX2080Ti上跑起來

1. CUDA10

2. CUDA9.0

推薦閱讀更多精彩內(nèi)容