CPU要求:在深度學(xué)習(xí)任務(wù)中,CPU并不負(fù)責(zé)主要任務(wù),單顯卡計(jì)算時(shí)只有一個(gè)核心達(dá)到100%負(fù)荷妒蔚,所以CPU的核心數(shù)量和顯卡數(shù)量一致即可丧肴,太多沒(méi)有必要残揉,但是處理PCIE的帶寬要到40。
主板要求:需要支持X99架構(gòu)芋浮,支持PCIe3.0抱环,還要支持4通道DDR4內(nèi)存架構(gòu)。如果要搞四顯卡并行纸巷,PCIE帶寬支持要達(dá)到40镇草,并且支持4-Way NVIDA SLI技術(shù)。
內(nèi)存要求:達(dá)到顯存的二倍即可瘤旨,當(dāng)然有錢(qián)的話越大越好梯啤。鑒于相對(duì)GPU和CPU而言內(nèi)存所需要的資金投入比較少,建議至少配備32G存哲,總投入大約1500因宇,預(yù)算充裕的話,可以直接上64G祟偷。由于內(nèi)存的擴(kuò)展非常便捷察滑,完全可以先使用32G以后根據(jù)情況考慮是否擴(kuò)展。當(dāng)然修肠,前提是贺辰,你知道要選擇的都是DDR4的內(nèi)存。
電源要求:一個(gè)顯卡的功率接近300W嵌施,四顯卡建議電源在1500W以上饲化,為了以后擴(kuò)展,選擇了1600W的電源吗伤。電源可以根據(jù)GPU和CPU功率來(lái)大致算一下滓侍,比如i7-6800k的功率大概是150W,GTX1080公版大概是180-200W牲芋,如果是單顯卡的話撩笆,一個(gè)800W的電源就足夠了捺球,當(dāng)然如果以后有顯卡擴(kuò)展的需求,你就需要支持更大功率的電源了夕冲。比如你要搞四個(gè)GPU集成氮兵,你可能就需要1500W以上的電源了。
機(jī)箱散熱:因?yàn)楦鞣N部件相當(dāng)龐大歹鱼,需要有良好散熱功能的大機(jī)箱泣栈,選擇了Tt Thermaltake Core V51機(jī)箱,標(biāo)配3個(gè)12cm風(fēng)扇弥姻。未來(lái)如果需要還可以加裝水冷設(shè)備南片。機(jī)箱的空間最好是大一些,畢竟這一堆高性能的東西庭敦,要保證足夠好的散熱疼进,當(dāng)然,有條件還是上水冷吧秧廉,那么多錢(qián)都花了伞广。
硬盤(pán)要求:最好上SSD。大硬盤(pán)也是需要的疼电。硬盤(pán)還是主流的SSD+HDD配置嚼锄,SSD是必要的,程序啟動(dòng)和響應(yīng)都的需求很大蔽豺,大文件預(yù)處理也快很多区丑。如果只用HDD,很有可能會(huì)讓你懷疑人生修陡。但是刊苍,對(duì)于深度學(xué)習(xí)來(lái)說(shuō),當(dāng)你的輸入維數(shù)很高濒析,不能充分壓縮數(shù)據(jù)時(shí),這才是SSD必需的主要原因啥纸。
顯卡:基于CUDA計(jì)算(CUDA 是NVIDIA開(kāi)發(fā)的GPU并行計(jì)算環(huán)境)号杏,所以一般只推薦NVIDIA 系列的。在英偉達(dá)產(chǎn)品系列中斯棒,有消費(fèi)領(lǐng)域的GeForce系列盾致,有專業(yè)繪圖領(lǐng)域的Quadro系列,有高性能計(jì)算領(lǐng)域的Tesla系列荣暮。太高的精度對(duì)于深度學(xué)習(xí)的錯(cuò)誤率是沒(méi)有提升的庭惜,而且大部分的環(huán)境框架都只支持單精度,所以雙精度浮點(diǎn)計(jì)算是不必要穗酥,Tesla系列沒(méi)必要护赊。從顯卡效能的指標(biāo)看惠遏,CUDA核心數(shù)要多,GPU頻率要快骏啰,顯存要大节吮,帶寬要高。
每個(gè) GPU 的 RAM 或內(nèi)存帶寬等信息都展示在圖表中判耕。注意 Titan XP 和 GTX 1080 Ti 盡管價(jià)格相差非常多透绩,但它們的性能卻非常相近。
2017年底推出了一款Titan V壁熄,性能也是爆炸帚豪,不過(guò)價(jià)格也就水漲船高了。
Titan V
參數(shù)
- 現(xiàn)存(VRAM):12GB
內(nèi)存帶寬:653GB/s
處理器:5120個(gè)CUDA核心@1200MHz
價(jià)格:22999元
Titan V成為新旗艦草丧,性能較XP有了提升狸臣,完整的GV100核心,峰值浮點(diǎn)性能高達(dá)110TFlops方仿,相當(dāng)于Titan XP 12Tflops的9倍固棚,同時(shí)CUDA核心也向頂配的Tesla V100看齊,擁有5120個(gè)仙蚜。顯存更是使用了12GB的1.7Gbps HBM2此洲,帶寬達(dá)到653GB/sec,但價(jià)格同時(shí)水漲船高委粉,一般人消費(fèi)不起呜师。
Titan XP
參數(shù):
- 顯存(VRAM):12 GB
- 內(nèi)存帶寬:547.7 GB/s
- 處理器:3840 個(gè) CUDA 核心 @ 1480 MHz(約 5.49 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:9700 元
Titan XP 曾是目前英偉達(dá)消費(fèi)級(jí)顯卡的旗艦產(chǎn)品,正如性能指標(biāo)所述贾节,12GB 的內(nèi)存宣示著它并不是為大多數(shù)人準(zhǔn)備的汁汗,只有當(dāng)你知道為什么需要它的時(shí)候,它才會(huì)位列推薦列表栗涂。
一塊 Titan XP 的價(jià)格可以讓你買到兩塊 GTX 1080知牌,而那意味著強(qiáng)大的算力和 16GB 的顯存。
GTX 1080 Ti
參數(shù):
- 顯存(VRAM):11 GB
- 內(nèi)存帶寬:484 GB/s
- 處理器:3584 個(gè) CUDA 核心 @ 1582 MHz(約 5.67 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:4600 元
這塊顯卡是一個(gè)完美的高端選項(xiàng)斤程,擁有大容量顯存和高吞吐量角寸,物有所值。
如果資金允許忿墅,它是一個(gè)很好的選擇扁藕。GTX 1080 Ti 可以讓你完成計(jì)算機(jī)視覺(jué)任務(wù),并在 Kaggle 競(jìng)賽中保持強(qiáng)勢(shì)疚脐。
GTX 1080
參數(shù):
- 顯存(VRAM):8 GB
- 內(nèi)存帶寬:320 GB/s
- 處理器:2560 個(gè) CUDA 核心 @ 1733 MHz(約 4.44 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:3600 元
作為目前英偉達(dá)產(chǎn)品線里的中高端顯卡亿柑,GTX 1080 的官方價(jià)格從 1080 Ti 的 700 美元降到了 550 美元。8 GB 的內(nèi)存對(duì)于計(jì)算機(jī)視覺(jué)任務(wù)來(lái)說(shuō)夠用了棍弄。大多數(shù) Kaggle 上的人都在使用這款顯卡望薄。
GTX 1070 Ti
參數(shù):
- 顯存(VRAM):8 GB
- 內(nèi)存帶寬:256 GB/s
- 處理器:2432 個(gè) CUDA 核心 @ 1683 MHz(約 4.09 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:3000 元
2017年11 月 2 日推出的 GTX 1070 Ti 是英偉達(dá)產(chǎn)品線上最新的顯卡疟游。如果你覺(jué)得 GTX 1080 超出了預(yù)算,1070 Ti 可以為你提供同樣大的 8 GB 顯存式矫,以及大約 80% 的性能乡摹,價(jià)格也打了八折,看起來(lái)不錯(cuò)采转。
GTX 1070
參數(shù):
- 顯存(VRAM):8 GB
- 內(nèi)存帶寬:256 GB/s
- 處理器:1920 個(gè) CUDA 核心 @ 1683 MHz(約 3.23 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:2700 元
這款 GPU 主要用于虛擬貨幣挖礦聪廉。它的顯存配得上這個(gè)價(jià)位,就是速度有些慢故慈。如果你能用較便宜的價(jià)格買到一兩個(gè)二手的板熊,那就下手吧。
GTX 1060(6 GB 版本)
參數(shù):
- 顯存(VRAM):6 GB
- 內(nèi)存帶寬:216 GB/s
- 處理器:1280 個(gè) CUDA 核心 @ 1708 MHz(約 2.19 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:2000 元
相對(duì)來(lái)說(shuō)比較便宜察绷,但是 6 GB 顯存對(duì)于深度學(xué)習(xí)任務(wù)可能不夠用干签。如果你要做計(jì)算機(jī)視覺(jué),那么這可能是最低配置拆撼。如果做 NLP 和分類數(shù)據(jù)模型容劳,這款還可以。
GTX 1050 Ti
參數(shù):
- 顯存(VRAM):4 GB
- 內(nèi)存帶寬:112 GB/s
- 處理器:768 個(gè) CUDA 核心 @ 1392 MHz(約 1.07 億 CUDA 核心頻率)
- 英偉達(dá)官網(wǎng)價(jià)格:1060 元
這是一款入門(mén)級(jí) GPU闸度。如果你不確定是否要做深度學(xué)習(xí)竭贩,那么選擇這款不用花費(fèi)太多錢(qián)就可以體驗(yàn)一下。
值得注意的問(wèn)題
上代旗艦 Titan X Pascal 曾是英偉達(dá)最好的消費(fèi)級(jí) GPU 產(chǎn)品莺禁,而 GTX 1080 Ti 的出現(xiàn)淘汰了 Titan X Pascal留量,前者與后者有同樣的參數(shù),但 1080 Ti 便宜了 40%哟冬。
英偉達(dá)還擁有一個(gè)面向?qū)I(yè)市場(chǎng)的 Tesla GPU 產(chǎn)品線楼熄,其中包括 K40、K80浩峡、P100 和其他型號(hào)可岂。雖然你或許很少能夠接觸到,但你可能已經(jīng)通過(guò) Amazon Web Services翰灾、谷歌云平臺(tái)或其他云供應(yīng)商在使用這些 GPU 了缕粹。
有文章中對(duì) GTX 1080 Ti 和 K40 進(jìn)行了一些基準(zhǔn)測(cè)試。1080 的速度是 K40 的 5 倍预侯,是 K80 的 2.5 倍。K40 有 12 GB 顯存峰锁,K80 有 24 GB 的顯存萎馅。
理論上,P100 和 GTX 1080 Ti 應(yīng)該性能差不多虹蒋。但是糜芳,之前的對(duì)比(https://www.reddit.com/r/NiceHash/comments/77uxe0/gtx_1080ti_vs_nvidia_tesla_p100_xpost_from/)發(fā)現(xiàn) P100 在每個(gè)基準(zhǔn)中都比較落后飒货。
K40 售價(jià)超過(guò)了 13,000元,K80 售價(jià)超過(guò) 20,000 元峭竣,P100 售價(jià)約 30,000 元塘辅。它們的市場(chǎng)正被英偉達(dá)自家的桌面級(jí) GPU 無(wú)情吞噬。顯然皆撩,按照現(xiàn)在的情況扣墩,我不推薦你去購(gòu)買它們。
在挑選的時(shí)候要注意的幾個(gè)參數(shù)是處理器核心(core)扛吞、工作頻率呻惕、顯存位寬、單卡or雙卡滥比。我覺(jué)得對(duì)深度學(xué)習(xí)計(jì)算而言處理器核心數(shù)和顯存大小比較重要亚脆。這些參數(shù)越多越高是好,但是程序相應(yīng)的也要寫(xiě)好盲泛,如果無(wú)法讓所有的core都工作濒持,資源就被浪費(fèi)了。
所以綜合來(lái)說(shuō)寺滚,個(gè)人推薦 2 路 GPU柑营,直接用上 2 塊 GTX 1080Ti。
選擇多 GPU 有兩個(gè)理由:需要并行訓(xùn)練多個(gè)模型玛迄,或者對(duì)單個(gè)模型進(jìn)行分布式訓(xùn)練由境。并行訓(xùn)練多個(gè)模型是一種測(cè)試不同原型和超參數(shù)的技術(shù),可縮短反饋周期蓖议,你可以同時(shí)進(jìn)行多項(xiàng)嘗試虏杰。
分布式訓(xùn)練,或在多個(gè)顯卡上訓(xùn)練單個(gè)模型的效率較低勒虾,但這種方式確實(shí)越來(lái)越受人們的歡迎》睦現(xiàn)在,使用 TensorFlow修然、Keras(通過(guò) Horovod)笛钝、CNTK 和 PyTorch 可以讓我們輕易地做到分布式訓(xùn)練。這些分布式訓(xùn)練庫(kù)幾乎都可以隨 GPU 數(shù)量達(dá)成線性的性能提升愕宋。例如玻靡,使用兩個(gè) GPU 可以獲得 1.8 倍的訓(xùn)練速度。
PCIe 通道:使用多顯卡時(shí)需要注意中贝,必須具備將數(shù)據(jù)饋送到顯卡的能力囤捻。為此,每一個(gè) GPU 必須有 16 個(gè) PCIe 通道用于數(shù)據(jù)傳輸邻寿。Tim Dettmers 指出蝎土,使用兩個(gè)有 8 個(gè) PCIe 通道的 GPU视哑,性能應(yīng)該僅降低「0—10%」。
對(duì)于單個(gè) GPU 而言誊涯,任何桌面級(jí)處理器和芯片組如 Intel i5 7500 和 Asus TUF Z270 需要使用 16 個(gè)通道挡毅。
然而,對(duì)于雙 GPU暴构,你可以使用 8x/8x 通道跪呈,或者使用一個(gè)處理器和支持 32PCIe 通道的主板。32 個(gè)通道超出了桌面級(jí) CPU 的處理能力丹壕。使用 Intel Xeon 組合 MSI—X99A SLI PLUS 是可行的方案庆械。
對(duì)于 3 個(gè)或 4 個(gè) GPU,每個(gè) GPU 可使用 8x 通道菌赖,組合支持 24 到 32 個(gè) PCIe 通道的 Xeon缭乘。
如果需要使用 3 到 4 個(gè)有 16 個(gè) PCIe 通道的 GPU,你得有一個(gè)怪獸級(jí)處理器琉用。例如 AMD ThreadRipper(64 個(gè)通道)和相應(yīng)的主板堕绩。
總之,GPU 越多邑时,需要越快的處理器奴紧,還需要有更快的數(shù)據(jù)讀取能力的硬盤(pán)。
選好 GPU 后晶丘,其他配置有多少錢(qián)就買多少菜黍氮。
例子(2017):
1080ti換成Titan也沒(méi)問(wèn)題。
最后我綜合調(diào)研情況和實(shí)驗(yàn)室需求及經(jīng)費(fèi)浅浮,選擇了機(jī)架式的GPU服務(wù)器沫浆,選擇的配置單如下:
參考資料: