GPU集群管理得糜、使用指南

由于GPU集群的管理與使用涉及到一些復(fù)雜的主題,所以這一系列文檔并不是面向純小白的step-by-step教學(xué)繁扎,推薦先讀一下閱讀技術(shù)文檔需要的能力幔荒。

本文寫(xiě)于2022年04月30日,閱讀時(shí)請(qǐng)注意時(shí)效梳玫。

<font color="red">文章的大概內(nèi)容摘要</font>

通用

GPU用戶有必要掌握管理的部分嗎爹梁?

了解即可,學(xué)校的GPU資源緊張提澎,有時(shí)遇到趕文章需要租用云服務(wù)器救急姚垃,這時(shí)機(jī)器環(huán)境是需要自己配置的。

虛擬機(jī)的選擇盼忌、安裝积糯、配置掂墓、搭建模擬環(huán)境

使用虛擬機(jī)可以在不破壞本機(jī)操作系統(tǒng)環(huán)境的情況下同時(shí)使用Windows和Linux操作系統(tǒng)。對(duì)于管理人員看成,服務(wù)器重啟時(shí)間長(zhǎng)君编、機(jī)房環(huán)境惡劣,虛擬機(jī)可以作為很好的實(shí)驗(yàn)工具川慌。對(duì)于集群用戶啦粹,可以使用虛擬機(jī)練習(xí)Linux操作系統(tǒng)的使用而不用擔(dān)心破壞自己在服務(wù)器上搭建好的開(kāi)發(fā)環(huán)境。

劣勢(shì)是沒(méi)辦法用顯卡窘游,想要在PC上使用Linux操作系統(tǒng)+顯卡只能裝雙系統(tǒng)唠椭,這里推薦Manjaro,因?yàn)樗_(kāi)箱即用忍饰、最少折騰贪嫂、軟件版本新而且自帶nvidia閉源驅(qū)動(dòng),如果只是用來(lái)寫(xiě)代碼的話十分推薦艾蓝。

虛擬機(jī)選擇VirtualBox力崇,原因及設(shè)置內(nèi)容較多,見(jiàn)選擇VirtualBox的原因赢织、Linux虛擬機(jī)的正確設(shè)置

管理

配置RAID

這一步?jīng)]有單獨(dú)的文章亮靴,只提幾個(gè)重要的點(diǎn)。首先要知道RAID是什么于置,其次服務(wù)器的RAID是硬RAID茧吊,使用的是專門(mén)的RAID卡,操作系統(tǒng)無(wú)法直接“看到”硬盤(pán)八毯,只能看到RAID卡產(chǎn)生的邏輯設(shè)備搓侄。所以不配置RAID是無(wú)法成功安裝操作系統(tǒng)的,而配置RAID又無(wú)法遠(yuǎn)程操作话速。

現(xiàn)階段RAID是配置好的讶踪,如果不出現(xiàn)故障基本沒(méi)什么需要操作的,即使需要學(xué)習(xí)泊交,在知道RAID為何物的基礎(chǔ)上按照文檔操作也并非難事乳讥,所以此處不進(jìn)行詳細(xì)說(shuō)明,只放上RAID卡的相關(guān)文檔備查廓俭。

<font color='red'>2208文檔</font>

特別要提一下的是云石,一些文件系統(tǒng),如ceph白指,要求底層硬盤(pán)最好運(yùn)行在JBOD模式留晚,英文全稱just-a-bunch-of-disks,在RAID卡中告嘲,這個(gè)模式相當(dāng)于將每一塊硬盤(pán)配置為RAID0错维,目前大部分機(jī)器采用了這一模式。一方面我們的用戶資料沒(méi)有那么重要橄唬,而且用戶自己有電腦可以做代碼備份赋焕;另一方面在實(shí)踐中即使是復(fù)雜的RAID5故障率也很高,而且在重建RAID的時(shí)候非常容易出現(xiàn)第二塊壞盤(pán)的情況仰楚,綜合下來(lái)得不償失隆判。

安裝操作系統(tǒng)

CentOS停止支持后,Debian成了唯一的也是最大的開(kāi)源操作系統(tǒng)僧界,所以我們選擇Debian作為GPU服務(wù)器的操作系統(tǒng)侨嘀。

內(nèi)容較多,見(jiàn)手動(dòng)安裝Debian11操作系統(tǒng)

配置網(wǎng)絡(luò)環(huán)境ssh(之后都可以用ssh操作)

有root的時(shí)候默認(rèn)不裝sudo的捂襟,所以要開(kāi)一下ssh遠(yuǎn)程咬腕,pxe不需要

第 5 章 網(wǎng)絡(luò)設(shè)置

ifup(8) — ifupdown2 — Debian bullseye — Debian Manpages

ifdown(8) — ifupdown2 — Debian bullseye — Debian Manpages

interfaces(5) — ifupdown2 — Debian bullseye — Debian Manpages

這里只放上正確的配置文件和參考文檔

可以讓大家自己復(fù)制幾臺(tái)然后相互ping一下

配置包管理器

https://www.debian.org/doc/manuals/debian-handbook/

https://debian-handbook.info/get/now/

Debian -- 安全信息

sources.list

Debian -- Debian“bullseye”發(fā)行信息

安裝顯卡驅(qū)動(dòng)

一條命令安裝驅(qū)動(dòng)和cuda

不要用nvidia-detect,測(cè)不出來(lái)

NvidiaGraphicsDrivers - Debian Wiki

conda

能不能不裝葬荷?不能

PXE批量安裝操作系統(tǒng)+自動(dòng)配置環(huán)境搭建與使用

安裝slurm集群管理軟件

Linux常用命令(管理)

添加與刪除用戶

服務(wù)器定期下線維護(hù)

使用

申請(qǐng)賬號(hào)

隨機(jī)密碼生成器

服務(wù)器地址涨共、如何登陸服務(wù)器

mobaxterm

不要在tc6000上跑程序

如何申請(qǐng)資源

如何使用conda配置開(kāi)發(fā)環(huán)境

如何使用pycharm進(jìn)行遠(yuǎn)程調(diào)試

Linux簡(jiǎn)介與常用命令

不用知道所有參數(shù),man -h都很好用宠漩,manual page举反、wiki

nano編輯器

debian文檔

history

grep

wget

unzip

pwd

ls

tmux

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市扒吁,隨后出現(xiàn)的幾起案子火鼻,更是在濱河造成了極大的恐慌,老刑警劉巖雕崩,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件凝危,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡晨逝,警方通過(guò)查閱死者的電腦和手機(jī)蛾默,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捉貌,“玉大人支鸡,你說(shuō)我怎么就攤上這事〕们裕” “怎么了牧挣?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)醒陆。 經(jīng)常有香客問(wèn)我瀑构,道長(zhǎng),這世上最難降的妖魔是什么刨摩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任寺晌,我火速辦了婚禮世吨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘呻征。我一直安慰自己耘婚,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布陆赋。 她就那樣靜靜地躺著沐祷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪攒岛。 梳的紋絲不亂的頭發(fā)上赖临,一...
    開(kāi)封第一講書(shū)人閱讀 49,185評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音灾锯,去河邊找鬼兢榨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛挠进,可吹牛的內(nèi)容都是我干的色乾。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼领突,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼暖璧!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起君旦,我...
    開(kāi)封第一講書(shū)人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤澎办,失蹤者是張志新(化名)和其女友劉穎堕油,沒(méi)想到半個(gè)月后核偿,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體努释,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鞍历,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了后雷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邻眷。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡仗考,死狀恐怖鹅巍,靈堂內(nèi)的尸體忽然破棺而出千扶,到底是詐尸還是另有隱情,我是刑警寧澤骆捧,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布澎羞,位于F島的核電站,受9級(jí)特大地震影響敛苇,放射性物質(zhì)發(fā)生泄漏妆绞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望括饶。 院中可真熱鬧株茶,春花似錦、人聲如沸巷帝。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)楞泼。三九已至,卻和暖如春笤闯,著一層夾襖步出監(jiān)牢的瞬間堕阔,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工颗味, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留超陆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓浦马,卻偏偏與公主長(zhǎng)得像时呀,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子晶默,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容