前言
2016年捌木,Hadoop迎來(lái)了自己十周歲生日。過(guò)去的十年赁咙,hadoop雄霸武林盟主之位钮莲,號(hào)令天下,引領(lǐng)大數(shù)據(jù)技術(shù)生態(tài)不斷發(fā)展壯大彼水,一時(shí)間百家爭(zhēng)鳴崔拥,百花齊放。然而凤覆,兄弟多了不好管链瓦,為了搶占企業(yè)級(jí)市場(chǎng),各家都迭代出自己的一套訪問(wèn)控制體系盯桦,不管是老牌系統(tǒng)(比如HDFS慈俯、Hbase),還是生態(tài)新貴(比如Kafka拥峦、Alluxio)贴膘,ACL(Access Control List)支持都是Roadmap里被關(guān)注最高的issue之一。
歷史證明跳出混沌狀態(tài)的最好方式就是——出臺(tái)標(biāo)準(zhǔn)略号。于是刑峡,Hadoop兩大廠Cloudera和Hortonworks先后發(fā)起標(biāo)準(zhǔn)化運(yùn)動(dòng),分別開(kāi)源了Sentry和Ranger玄柠,在centralized訪問(wèn)控制領(lǐng)域展開(kāi)新一輪的角逐突梦。
Ranger在0.4版本的時(shí)候被Hortonworks加入到其Hadoop發(fā)行版HDP里,目前作為Apache incubator項(xiàng)目羽利,最新版本是0.6宫患。它主要提供如下特性:
基于策略(Policy-based)的訪問(wèn)權(quán)限模型
通用的策略同步與決策邏輯,方便控制插件的擴(kuò)展接入
內(nèi)置常見(jiàn)系統(tǒng)(如HDFS这弧、YARN娃闲、hbase)的控制插件虚汛,且可擴(kuò)展
內(nèi)置基于LDAP、文件的用戶同步機(jī)制皇帮,且可擴(kuò)展
統(tǒng)一的管理界面泽疆,包括策略管理、審計(jì)查看玲献、插件管理等
本文將從權(quán)限模型、總體架構(gòu)梯浪、系統(tǒng)插件三個(gè)角度來(lái)展開(kāi)捌年,剖析Ranger如何實(shí)現(xiàn)centralized訪問(wèn)控制。
權(quán)限模型
訪問(wèn)權(quán)限無(wú)非是定義了”用戶-資源-權(quán)限“這三者間的關(guān)系挂洛,Ranger基于策略來(lái)抽象這種關(guān)系礼预,進(jìn)而延伸出自己的權(quán)限模型。為了簡(jiǎn)化模型虏劲,便于理解托酸,我用以下表達(dá)式來(lái)描述它:
Policy = Service + List<Resource> + AllowACL + DenyACL
AllowACL = List<AccessItem> allow + List<AccssItem> allowException
DenyACL = List<AccessItem> deny + List<AccssItem> denyException
AccessItem = List<User/Group> + List<AccessType>
接下來(lái)從”用戶-資源-權(quán)限”的角度來(lái)詳解上述表達(dá):
用戶:由User或Group來(lái)表達(dá);User代表訪問(wèn)資源的用戶柒巫,Group代表用戶所屬的用戶組励堡。
資源:由(Service, Resource)二元組來(lái)表達(dá);一條Policy唯一對(duì)應(yīng)一個(gè)Service堡掏,但可以對(duì)應(yīng)多個(gè)Resource应结。
權(quán)限:由(AllowACL, DenyACL)二元組來(lái)表達(dá),兩者都包含兩組AccessItem泉唁。而AccessItem則描述一組用戶與一組訪問(wèn)之間的關(guān)系——在AllowACL中表示允許執(zhí)行鹅龄,而DenyACL中表示拒絕執(zhí)行。
下表列出了幾種常見(jiàn)系統(tǒng)的模型實(shí)體枚舉值:
關(guān)于權(quán)限這個(gè)部分亭畜,還有一點(diǎn)沒(méi)有解釋清楚:為什么AllowACL
和DenyACL
需要分別對(duì)應(yīng)兩組AccessItem扮休?這是由具體使用場(chǎng)景引出的設(shè)計(jì):
以AllowACL為例,假定我們要將資源授權(quán)給一個(gè)用戶組G1拴鸵,但是用戶組里某個(gè)用戶U1除外玷坠,這時(shí)只要增加一條包含G1的AccessItem到AllowACL_allow,同時(shí)增加一條包含U1的AccessItem到AllowACL_allowException即可宝踪。類似的原因可反推到DenyACL侨糟。
既然現(xiàn)在一條Policy有(allow, allowException, deny, denyException)這么四組AccessItem,那么判斷用戶最終權(quán)限的決策過(guò)程是怎樣的瘩燥?總體來(lái)說(shuō)秕重,這四組AccessItem的作用優(yōu)先級(jí)由高到低依次是:
denyException > deny > allowException > allow
訪問(wèn)決策樹(shù)可以用以下流程圖來(lái)描述:
這里要對(duì)決策下放做一個(gè)解釋:如果沒(méi)有policy能決策訪問(wèn),Ranger可以選擇將決策下放給系統(tǒng)自身的訪問(wèn)控制層厉膀,比如HDFS的ACL溶耘。
總體架構(gòu)
Ranger的總體架構(gòu)如下圖所示二拐,主要由以下三個(gè)組件構(gòu)成:
AdminServer: 以RESTFUL形式提供策略的增刪改查接口,同時(shí)內(nèi)置一個(gè)Web管理頁(yè)面凳兵。
AgentPlugin: 嵌入到各系統(tǒng)執(zhí)行流程中百新,定期從AdminServer拉取策略,根據(jù)策略執(zhí)行訪問(wèn)決策樹(shù)庐扫,并且定期記錄訪問(wèn)審計(jì)饭望。插件的實(shí)現(xiàn)原理將在后文詳細(xì)介紹。
UserSync: 定期從LDAP/File中加載用戶形庭,上報(bào)給AdminServer铅辞。
系統(tǒng)插件
前文已經(jīng)提到,系統(tǒng)插件主要負(fù)責(zé)三件事:
定期從AdminServer拉取策略
根據(jù)策略執(zhí)行訪問(wèn)決策樹(shù)
定期記錄訪問(wèn)審計(jì)
以上執(zhí)行邏輯是通用的萨醒,可由所有系統(tǒng)插件引用斟珊,因此剩下的問(wèn)題是如何把這些邏輯嵌入到各個(gè)系統(tǒng)的訪問(wèn)決策流程中去。目前Ranger里有兩種做法:
- 實(shí)現(xiàn)可擴(kuò)展接口:多數(shù)的系統(tǒng)在實(shí)現(xiàn)時(shí)都有考慮功能擴(kuò)展性的問(wèn)題富纸,一般會(huì)為核心的模塊暴露出可擴(kuò)展的接口囤踩,訪問(wèn)控制模塊也不例外。Ranger通過(guò)實(shí)現(xiàn)訪問(wèn)控制接口晓褪,將自己的邏輯嵌入各個(gè)系統(tǒng)堵漱。下表列出了Ranger插件對(duì)幾個(gè)常見(jiàn)系統(tǒng)的擴(kuò)展接口:
- 代碼注入:不排除有少數(shù)系統(tǒng)沒(méi)有將訪問(wèn)控制模塊暴露出擴(kuò)展點(diǎn),這個(gè)時(shí)候Ranger依賴Java代碼注入機(jī)制(java.lang.instrument)來(lái)實(shí)現(xiàn)邏輯嵌入涣仿。以HDFS插件為例怔锌,Ranger利用ClassFileTransformer,直接修改HDFS訪問(wèn)控制類FSPermissionChecker的ClassFile变过,將checkPermission方法替換成Ranger的自定義實(shí)現(xiàn)埃元。
運(yùn)行過(guò)程
整個(gè)Ranger的工作過(guò)程大概有以下幾部分:
User/Group同步
同步模塊從Unix系統(tǒng)或是LDAP文件系統(tǒng)同步users/groups信息,admin server會(huì)存儲(chǔ)這些信息供后續(xù)定義policy使用Rest/Web
用戶媚狰、管理員等使用Rest接口或是web界面創(chuàng)建/更新policies岛杀,保存到policy數(shù)據(jù)庫(kù)。同時(shí)崭孤,admin server還會(huì)收安裝到不同組件中插件收集來(lái)的訪問(wèn)信息类嗤,進(jìn)行統(tǒng)計(jì)。插件
輕量java程序辨宠,嵌入到hadoop各個(gè)組件中遗锣。會(huì)以一定間隔從admin server拉取policies信息存儲(chǔ)到本地文件中。當(dāng)用戶通過(guò)組件請(qǐng)求數(shù)據(jù)時(shí)嗤形,插件會(huì)攔截請(qǐng)求精偿,結(jié)合本地policy信息進(jìn)行鑒權(quán)。同時(shí)會(huì)啟一個(gè)獨(dú)立的線程將此次請(qǐng)求的信息收集起來(lái)發(fā)送admin server.
總結(jié)
隨著Hadoop生態(tài)圈進(jìn)軍企業(yè)級(jí)市場(chǎng),數(shù)據(jù)安全逐漸成為關(guān)注焦點(diǎn)笔咽。Ranger作為標(biāo)準(zhǔn)化的訪問(wèn)控制層搔预,引入統(tǒng)一的權(quán)限模型與管理界面,極大地簡(jiǎn)化了數(shù)據(jù)權(quán)限的管理叶组。不過(guò)拯田,Ranger目前處于孵化項(xiàng)目,在功能性與穩(wěn)定性上仍然有較大的提升空間甩十,其能否覆蓋更多的系統(tǒng)船庇,一統(tǒng)江湖成為標(biāo)準(zhǔn),讓我們拭目以待侣监。