yarn使用cgroup隔離cpu資源

yarn默認只管理內存資源,雖然也可以申請cpu資源,但是在沒有cpu資源隔離的情況下效果并不是太好.在集群規(guī)模大,任務多時資源競爭的問題尤為嚴重.
還好yarn提供的LinuxContainerExecutor可以通過cgroup來隔離cpu資源

cgroup

cgroup是系統提供的資源隔離功能,可以隔離系統的多種類型的資源,yarn只用來隔離cpu資源

安裝cgroup

默認系統已經安裝了cgroup了,如果沒有安裝可以通過命令安裝
CentOS 6

yum install -y libcgroup

CentOS 7

yum install -y libcgroup-tools

然后通過命令啟動
CentOS 6

/etc/init.d/cgconfig start

CentOS 7

systemctl start cgconfig.service

查看/cgroup目錄,可以看到里面已經創(chuàng)建了一些目錄,這些目錄就是可以隔離的資源

drwxr-xr-x 2 root root 0 3月  19 20:56 blkio
drwxr-xr-x 3 root root 0 3月  19 20:56 cpu
drwxr-xr-x 2 root root 0 3月  19 20:56 cpuacct
drwxr-xr-x 2 root root 0 3月  19 20:56 cpuset
drwxr-xr-x 2 root root 0 3月  19 20:56 devices
drwxr-xr-x 2 root root 0 3月  19 20:56 freezer
drwxr-xr-x 2 root root 0 3月  19 20:56 memory
drwxr-xr-x 2 root root 0 3月  19 20:56 net_cls

如果目錄沒有創(chuàng)建可以執(zhí)行

cd /
mkdir cgroup
mount -t tmpfs cgroup_root ./cgroup
mkdir cgroup/cpuset
mount -t cgroup -ocpuset cpuset ./cgroup/cpuset/
mkdir cgroup/cpu
mount -t cgroup -ocpu cpu ./cgroup/cpu/
mkdir cgroup/memory
mount -t cgroup -omemory memory ./cgroup/memory/

通過cgroup隔離cpu資源的步驟為

在cpu目錄創(chuàng)建分組
cgroup以組為單位隔離資源,同一個組可以使用的資源相同
一個組在cgroup里面體現為一個文件夾,創(chuàng)建分組直接使用mkdir命令即可.
組下面還可以創(chuàng)建下級組.最終可以形成一個樹形結構來完成復雜的資源隔離方案.
每當創(chuàng)建了一個組,系統會自動在目錄立即創(chuàng)建一些文件,資源控制主要就是通過配置這些文件來完成

--w--w--w- 1 root root 0 3月  19 21:09 cgroup.event_control
-rw-r--r-- 1 root root 0 3月  19 21:09 cgroup.procs
-rw-r--r-- 1 root root 0 3月  19 21:09 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 3月  19 21:09 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 3月  19 21:09 cpu.rt_period_us
-rw-r--r-- 1 root root 0 3月  19 21:09 cpu.rt_runtime_us
-rw-r--r-- 1 root root 0 3月  19 21:09 cpu.shares
-r--r--r-- 1 root root 0 3月  19 21:09 cpu.stat
-rw-r--r-- 1 root root 0 3月  19 21:09 notify_on_release
-rw-r--r-- 1 root root 0 3月  19 21:09 tasks

yarn默認使用hadoop-yarn組作為最上層,任務運行時yarn會為每個container在hadoop-yarn里面創(chuàng)建一個組
yarn主要使用cpu.cfs_quota_us cpu.cfs_period_us cpu.shares3個文件
yarn使用cgroup的兩種方式來控制cpu資源分配

嚴格按核數隔離資源
可使用核數 = cpu.cfs_quota_us/cpu.cfs_period_us
在yarn中cpu.cfs_quota_us被直接設置為1000000(這個參數可以設置的最大值)
然后根據任務申請的core來計算出cpu.cfs_period_us
按比例隔離資源
按每個分組里面cpu.shares的比率來分配cpu
比如A B C三個分組,cpu.shares分別設置為1024 1024 2048,那么他們可以使用的cpu比率為1:1:2
將進程id添加到指定組的tasks文件
創(chuàng)建完分組后只需要將要限制的進程的id寫入tasks文件即可,如果需要解除限制,在tasks文件刪除即可

yarn配置

啟動cgroup需要配置幾個配置文件

etc/hadoop/yarn-site.xml配置

可以參考http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 配置
這些配置大部分都是固定配置

<property>
    <name>yarn.nodemanager.container-executor.class</name>
  <value>org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor</value>
</property>
<property>
    <name>yarn.nodemanager.linux-container-executor.resources-handler.class</name>
    <value>org.apache.hadoop.yarn.server.nodemanager.util.CgroupsLCEResourcesHandler</value>
</property>
<property>
    <description>yarn使用的cgroup組,默認為/hadoop-yarn</description>
    <name>yarn.nodemanager.linux-container-executor.cgroups.hierarchy</name>
    <value>/hadoop-yarn</value>
</property>
<property>
    <description>是否自動掛載cgroup</description>
    <name>yarn.nodemanager.linux-container-executor.cgroups.mount</name>
    <value>true</value>
</property>
<property>
    <description>cgroup掛載目錄, /sys/fs/cgroup 或者是 /cgroup,目錄和系統有關</description>
    <name>yarn.nodemanager.linux-container-executor.cgroups.mount-path</name>
    <value>/cgroup</value>
</property>
<property>
    <name>yarn.nodemanager.linux-container-executor.group</name>
    <value>hadoop</value>
</property>
<property>
    <description>配置nodemanager使用多少物理cpu資源,比如24核服務器配置90的話,最近使用21.6核</description>
    <name>yarn.nodemanager.resource.percentage-physical-cpu-limit</name>
    <value>90</value>
</property>
<property>
    <description>是控制是否嚴格限制cpu,即按任務申請的core限制,還是非嚴格限制,即按core的比率限制</description>
    <name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name>
    <value>true</value>
</property>
<property>
    <description>非安全模式將會以這里設置的用戶運行container,比如配置hadoop用戶則以hadoop運行container</description>
    <name>yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user</name>
    <value>hadoop</value>
</property>

etc/hadoop/container-executor.cfg配置

這個配置文件每項都需要填,要不然會報錯

yarn.nodemanager.linux-container-executor.group=hadoop
banned.users=root
min.user.id=1000
allowed.system.users=hadoop

權限設置

在配置中文件的權限有特殊要求

chown root:hadoop bin/container-executor
chmod 6050 bin/container-executor

系統還要求etc/hadoop/container-executor.cfg 的所有父目錄(一直到/ 目錄) owner 都為 root
這個路徑是默認${HADOOP_HOME}/etc/hadoop/container-executor.cfg,如果不方便修改所有父級目錄為root權限,可以重新編譯代碼到其他目錄,比如/etc/hadoop/目錄

mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative

配置好以后檢測是否配置成功

./bin/container-executor --checksetup

如果沒有任何輸出表示配置成功
如果一切順利就可以啟動集群了

測試cgroup

可以運行測試腳本測試系統

./bin/spark-submit   \
--class org.apache.spark.examples.SparkPi   \
--master yarn-cluster   \
--deploy-mode cluster   \
--num-executors 5 \
--executor-cores 3 \
--executor-memory 4G \
--driver-memory 4G \
--driver-cores 2 \
lib/spark-examples-1.6.0-hadoop2.6.0.jar   10000```
查看系統是否生效只能登錄到服務器查看
通過`top`查看信息
![](http://upload-images.jianshu.io/upload_images/1439367-810b62ff2e95679d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
查看是否創(chuàng)建了cgroup分組,`ll /cgroup/hadoop-yarn/`

--w--w--w- 1 root root 0 3月 17 15:44 cgroup.event_control
-rw-r--r-- 1 root root 0 3月 17 15:44 cgroup.procs
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000011
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000026
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000051
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000076
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000101
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000123
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000136
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000155
drwxr-xr-x 2 root root 0 3月 17 16:30 container_1489736876249_0004_01_000008
-rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_period_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_runtime_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.shares
-r--r--r-- 1 root root 0 3月 17 15:44 cpu.stat
-rw-r--r-- 1 root root 0 3月 17 15:44 notify_on_release
-rw-r--r-- 1 root root 0 3月 17 15:44 tasks

查看`container_*`目錄下 `cpu.cfs_period_us`,計算` cpu.cfs_quota_us/cpu.cfs_period_us`即可知道分配的核數

[root@- ~]# cat /cgroup/cpu/hadoop-yarn/container*/cpu.cfs_period_us
462962
462962
462962
462962
462962
462962
462962
462962
308641

## 問題處理
配置的過程中免不了會碰上一些問題,以下是我碰到的問題
### spark任務申請了core,`node manager`分配不正確,都是分配1個核
這個是由于目前使用的`capacity scheduler`的資源計算方式只考慮了內存,沒有考慮CPU
這種方式會導致資源使用情況統計不準確,比如一個saprk程序啟動命令資源參數如下

--num-executors 1 --executor-cores 3 --executor-memory 4G --driver-memory 4G --driver-cores 1

DefaultResourceCalculator  統計占2核
DominantResourceCalculator 統計占4核
修改配置文件即可解決

<property>
<name>yarn.scheduler.capacity.resource-calculator</name>
<value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value>
<description>
The ResourceCalculator implementation to be used to compare
Resources in the scheduler.
The default i.e. DefaultResourceCalculator only uses Memory while
DominantResourceCalculator uses dominant-resource to compare
multi-dimensional resources such as Memory, CPU etc.
</description>
</property>

### container-executor運行時報缺少GLIBC_2.14庫

container-executor: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by bin/container-executor)

這個和系統版本有關,只能通過重新編譯`container-executor`來解決

mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative

### centos 7系統container啟動報錯,不能寫入/cgroup/cpu
這個是yarn在centos 7下的一個bug,hadoop 2.8以后的版本才會解決
這個bug主要是因為centos 7下cgroup的目錄和centos 6不一致導致,centos 7 cpu目錄合并成`cpu,cpuacct`, 這個`,`導致的錯誤,需要打補丁后編譯 https://issues.apache.org/jira/browse/YARN-2194

private String findControllerInMtab(String controller,
Map<String, List<String>> entries) {
for (Entry<String, List<String>> e : entries.entrySet()) {
// if (e.getValue().contains(controller))
// return e.getKey();

  if (e.getValue().contains(controller)) {
    String controllerKey = e.getKey();
    // In Redhat7, the controller is called "/sys/fs/cgroup/cpu,cpuacct"
    controllerKey = controllerKey.replace("cpu,cpuacct", "cpu");
    if (new File(controllerKey).exists()) {
      return controllerKey;
    }
  }
}

return null;

}

## 升級的風險
由于改變了資源的隔離方式,升級可能有幾個方面的影響
### 任務資源分配問題
升級cgroup后單個任務如果以前資源分配不合理可能會出現計算延時情況,出現資源問題時需要調整任務資源
在集群規(guī)模小的時候可能沒有資源可以調整,那么可以修改為非嚴格模式,非嚴格模式不能按配置限制資源,只能保證資源不被少數進程全部占用

<property>
<name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name>
<value>false</value>
</property

### spark driver資源問題
spark任務的driver在集群模式`deploy-mode cluster `時,如果沒有配置`driver-cores`的話默認分配1核,1核在任務規(guī)模大時有可能資源會緊張.采用`deploy-mode client `模式的不受cgroup限制

最后編輯于：2017.12.06 04:37:06

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末计技，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子山橄，更是在濱河造成了極大的恐慌垮媒，老刑警劉巖，帶你破解...
沈念sama閱讀 211,042評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件航棱，死亡現場離奇詭異睡雇，居然都是意外死亡，警方通過查閱死者的電腦和手機饮醇，發(fā)現死者居然都...
沈念sama閱讀 89,996評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門它抱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人朴艰，你說我怎么就攤上這事观蓄。” “怎么了祠墅？”我有些...
開封第一講書人閱讀 156,674評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蜘腌，是天一觀的道長。經常有香客問我饵隙，道長撮珠，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,340評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任金矛，我火速辦了婚禮芯急，結果婚禮上，老公的妹妹穿的比我還像新娘驶俊。我一直安慰自己娶耍，他們只是感情好，可當我...
茶點故事閱讀 65,404評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布饼酿。她就那樣靜靜地躺著榕酒，像睡著了一般。火紅的嫁衣襯著肌膚如雪故俐。梳的紋絲不亂的頭發(fā)上想鹰，一...
開封第一講書人閱讀 49,749評論 1贊 289
城市分裂傳說
那天，我揣著相機與錄音药版，去河邊找鬼辑舷。笑死，一個胖子當著我的面吹牛槽片，可吹牛的內容都是我干的何缓。我是一名探鬼主播肢础，決...
沈念sama閱讀 38,902評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼碌廓！你這毒婦竟也來了传轰？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,662評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤谷婆，失蹤者是張志新（化名）和其女友劉穎慨蛙，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體波材，經...
沈念sama閱讀 44,110評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡股淡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,451評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年身隐，在試婚紗的時候發(fā)現自己被綠了廷区。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,577評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡贾铝，死狀恐怖隙轻，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情垢揩，我是刑警寧澤玖绿，帶...
沈念sama閱讀 34,258評論 4贊 328
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站叁巨，受9級特大地震影響斑匪，放射性物質發(fā)生泄漏。R本人自食惡果不足惜锋勺，卻給世界環(huán)境...
茶點故事閱讀 39,848評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一蚀瘸、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧庶橱，春花似錦贮勃、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,726評論 0贊 21
一樁弒父案寂嘉，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至枫绅，卻和暖如春泉孩，著一層夾襖步出監(jiān)牢的瞬間并淋，已是汗流浹背棵譬。一陣腳步聲響...
開封第一講書人閱讀 31,952評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工预伺，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留订咸，地道東北人曼尊。一個月前我還...
沈念sama閱讀 46,271評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像夕晓，于是被迫代替她去往敵國和親悠咱。傳聞我的和親對象是個殘疾皇子蒸辆，可洞房花燭夜當晚...
茶點故事閱讀 43,452評論 2贊 348