Pinpoint系列之Hbase存儲(chǔ)介紹

參考自《HBASE總結(jié)與實(shí)踐》
xmind轉(zhuǎn)markdown存在圖片丟失各吨，源文件下載地址：github hbase xmind下載地址

系統(tǒng)特性

優(yōu)勢(shì)

容量巨大

HBase的單表可以支持千億行鱼辙、百萬(wàn)列的數(shù)據(jù)規(guī)模凌外，數(shù)據(jù)容量可以達(dá)到TB甚至PB級(jí)別苞也。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)汁针，如Oracle和MySQL等透葛，如果單表記錄條數(shù)超過億行续镇，讀寫性能都會(huì)急劇下降，在HBase中并不會(huì)出現(xiàn)這樣的問題陵究。
擴(kuò)展性強(qiáng)

HBase集群可以非常方便地實(shí)現(xiàn)集群容量擴(kuò)展眠饮，主要包括數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)擴(kuò)展以及讀寫服務(wù)節(jié)點(diǎn)擴(kuò)展。HBase底層數(shù)據(jù)存儲(chǔ)依賴于HDFS系統(tǒng)畔乙，HDFS可以通過簡(jiǎn)單地增加DataNode實(shí)現(xiàn)擴(kuò)展君仆，HBase讀寫服務(wù)節(jié)點(diǎn)也一樣翩概，可以通過簡(jiǎn)單的增加RegionServer節(jié)點(diǎn)實(shí)現(xiàn)計(jì)算層的擴(kuò)展牲距。
稀疏性支持好

HBase支持大量稀疏存儲(chǔ)，即允許大量列值為空钥庇，并不占用任何存儲(chǔ)空間牍鞠。這與傳統(tǒng)數(shù)據(jù)庫(kù)不同，傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)于空值的處理要占用一定的存儲(chǔ)空間评姨，這會(huì)造成一定程度的存儲(chǔ)空間浪費(fèi)难述。因此可以使用HBase存儲(chǔ)多至上百萬(wàn)列的數(shù)據(jù)萤晴，即使表中存在大量的空值，也不需要任何額外空間胁后。
高性能

HBase目前主要擅長(zhǎng)于OLTP場(chǎng)景店读，數(shù)據(jù)寫操作性能強(qiáng)勁，對(duì)于隨機(jī)單點(diǎn)讀以及小范圍的掃描讀攀芯，其性能也能夠得到保證屯断。對(duì)于大范圍的掃描讀可以使用MapReduce提供的API，以便實(shí)現(xiàn)更高效的并行掃描侣诺。
支持?jǐn)?shù)據(jù)版本

HBase支持多版本特性殖演，即一個(gè)KV可以同時(shí)保留多個(gè)版本，用戶可以根據(jù)需要選擇最新版本或者某個(gè)歷史版本年鸳。
支持?jǐn)?shù)據(jù)過期特性TTL

HBase支持TTL過期特性趴久，用戶只需要設(shè)置過期時(shí)間，超過TTL的數(shù)據(jù)就會(huì)被自動(dòng)清理搔确，不需要用戶寫程序手動(dòng)刪除彼棍。
hadoop原生支持

HBase是Hadoop生態(tài)中的核心成員之一，很多生態(tài)組件都可以與其直接對(duì)接膳算。HBase數(shù)據(jù)存儲(chǔ)依賴于HDFS滥酥，這樣的架構(gòu)可以帶來很多好處辜羊，比如用戶可以直接繞過HBase系統(tǒng)操作HDFS文件白群，高效地完成數(shù)據(jù)掃描或者數(shù)據(jù)導(dǎo)入工作；再比如可以利用HDFS提供的多級(jí)存儲(chǔ)特性（Archival Storage Feature）揪荣，根據(jù)業(yè)務(wù)的重要程度將HBase進(jìn)行分級(jí)存儲(chǔ)宇葱，重要的業(yè)務(wù)放到SSD瘦真，不重要的業(yè)務(wù)放到HDD∈蚯疲或者用戶可以設(shè)置歸檔時(shí)間诸尽，進(jìn)而將最近的數(shù)據(jù)放在SSD，將歸檔數(shù)據(jù)文件放在HDD印颤。另外您机，HBase對(duì)MapReduce的支持也已經(jīng)有了很多案例，后續(xù)還會(huì)針對(duì)Spark做更多的工作年局。

劣勢(shì)

不支持復(fù)雜聚合運(yùn)算

HBase本身不支持很復(fù)雜的聚合運(yùn)算（如Join际看、GroupBy等）。如果業(yè)務(wù)中需要使用聚合運(yùn)算矢否，可以在HBase之上架設(shè)Phoenix組件或者Spark組件仲闽，前者主要應(yīng)用于小規(guī)模聚合的OLTP場(chǎng)景，后者應(yīng)用于大規(guī)模聚合的OLAP場(chǎng)景僵朗。
不支持全局跨行事務(wù)

HBase原生不支持全局跨行事務(wù)赖欣，只支持單行事務(wù)模型屑彻。同樣，可以使用Phoenix提供的全局事務(wù)模型組件來彌補(bǔ)HBase的這個(gè)缺陷顶吮。

體系結(jié)構(gòu)

總架構(gòu)圖

HBase客戶端

HBase客戶端（Client）提供了Shell命令行接口社牲、原生Java API編程接口、Thrift/REST API編程接口以及MapReduce編程接口悴了。HBase客戶端支持所有常見的DML操作以及DDL操作膳沽，即數(shù)據(jù)的增刪改查和表的日常維護(hù)等。其中Thrift/REST API主要用于支持非Java的上層業(yè)務(wù)需求让禀，MapReduce接口主要用于批量數(shù)據(jù)導(dǎo)入以及批量數(shù)據(jù)讀取挑社。HBase客戶端訪問數(shù)據(jù)行之前，首先需要通過元數(shù)據(jù)表定位目標(biāo)數(shù)據(jù)所在RegionServer巡揍，之后才會(huì)發(fā)送請(qǐng)求到該RegionServer痛阻。同時(shí)這些元數(shù)據(jù)會(huì)被緩存在客戶端本地，以方便之后的請(qǐng)求訪問腮敌。如果集群RegionServer發(fā)生宕機(jī)或者執(zhí)行了負(fù)載均衡等阱当，從而導(dǎo)致數(shù)據(jù)分片發(fā)生遷移，客戶端需要重新請(qǐng)求最新的元數(shù)據(jù)并緩存在本地糜工。

ZooKeeper

ZooKeeper（ZK）也是Apache Hadoop的一個(gè)頂級(jí)項(xiàng)目弊添，基于Google的Chubby開源實(shí)現(xiàn)，主要用于協(xié)調(diào)管理分布式應(yīng)用程序捌木。在HBase系統(tǒng)中油坝，ZooKeeper扮演著非常重要的角色。

實(shí)現(xiàn)Master高可用

通常情況下系統(tǒng)中只有一個(gè)Master工作刨裆，一旦Active Master由于異常宕機(jī)澈圈，ZooKeeper會(huì)檢測(cè)到該宕機(jī)事件，并通過一定機(jī)制選舉出新的Master帆啃，保證系統(tǒng)正常運(yùn)轉(zhuǎn)瞬女。
管理系統(tǒng)核心元數(shù)據(jù)

比如，管理當(dāng)前系統(tǒng)中正常工作的RegionServer集合努潘，保存系統(tǒng)元數(shù)據(jù)表hbase:meta所在的RegionServer地址等诽偷。
參與RegionServer宕機(jī)恢復(fù)

ZooKeeper通過心跳可以感知到RegionServer是否宕機(jī)，并在宕機(jī)后通知Master進(jìn)行宕機(jī)處理疯坤。
實(shí)現(xiàn)分布式表鎖

HBase中對(duì)一張表進(jìn)行各種管理操作（比如alter操作）需要先加表鎖报慕，防止其他用戶對(duì)同一張表進(jìn)行管理操作，造成表狀態(tài)不一致贴膘。和其他RDBMS表不同卖子，HBase中的表通常都是分布式存儲(chǔ)，ZooKeeper可以通過特定機(jī)制實(shí)現(xiàn)分布式表鎖刑峡。

Master

處理用戶的各種管理請(qǐng)求

包括建表洋闽、修改表、權(quán)限操作突梦、切分表诫舅、合并數(shù)據(jù)分片以及Compaction等
管理集群中所有RegionServer

管理集群中所有RegionServer，包括RegionServer中Region的負(fù)載均衡宫患、RegionServer的宕機(jī)恢復(fù)以及Region的遷移等
清理過期日志以及文件

Master會(huì)每隔一段時(shí)間檢查HDFS中HLog是否過期刊懈、HFile是否已經(jīng)被刪除，并在過期之后將其刪除娃闲。

RegionServer

RegionServer主要用來響應(yīng)用戶的IO請(qǐng)求虚汛，是HBase中最核心的模塊，由WAL(HLog)皇帮、BlockCache以及多個(gè)Region構(gòu)成卷哩。

WAL(HLog)

HLog在HBase中有兩個(gè)核心作用——其一，用于實(shí)現(xiàn)數(shù)據(jù)的高可靠性属拾，HBase數(shù)據(jù)隨機(jī)寫入時(shí)将谊，并非直接寫入HFile數(shù)據(jù)文件，而是先寫入緩存渐白，再異步刷新落盤尊浓。為了防止緩存數(shù)據(jù)丟失，數(shù)據(jù)寫入緩存之前需要首先順序?qū)懭際Log纯衍，這樣栋齿，即使緩存數(shù)據(jù)丟失，仍然可以通過HLog日志恢復(fù)襟诸；其二褒颈，用于實(shí)現(xiàn)HBase集群間主從復(fù)制，通過回放主集群推送過來的HLog日志實(shí)現(xiàn)主從復(fù)制励堡。
BlockCache

HBase系統(tǒng)中的讀緩存谷丸。客戶端從磁盤讀取數(shù)據(jù)之后通常會(huì)將數(shù)據(jù)緩存到系統(tǒng)內(nèi)存中应结，后續(xù)訪問同一行數(shù)據(jù)可以直接從內(nèi)存中獲取而不需要訪問磁盤刨疼。
- LRUBlockCache
- BucketCache
Region

數(shù)據(jù)表的一個(gè)分片，當(dāng)數(shù)據(jù)表大小超過一定閾值就會(huì)“水平切分”鹅龄，分裂為兩個(gè)Region揩慕。Region是集群負(fù)載均衡的基本單位。通常一張表的Region會(huì)分布在整個(gè)集群的多臺(tái)RegionServer上扮休，一個(gè)RegionServer上會(huì)管理多個(gè)Region迎卤，當(dāng)然，這些Region一般來自不同的數(shù)據(jù)表玷坠。
一個(gè)Region由一個(gè)或者多個(gè)Store構(gòu)成蜗搔，Store的個(gè)數(shù)取決于表中列簇（column family）的個(gè)數(shù)劲藐，多少個(gè)列簇就有多少個(gè)Store。HBase中樟凄，每個(gè)列簇的數(shù)據(jù)都集中存放在一起形成一個(gè)存儲(chǔ)單元Store聘芜，因此建議將具有相同IO特性的數(shù)據(jù)設(shè)置在同一個(gè)列簇中。
- Store
  
  每個(gè)Store由一個(gè)MemStore和一個(gè)或多個(gè)HFile組成缝龄。
  - MemStore
    
    MemStore稱為寫緩存汰现，用戶寫入數(shù)據(jù)時(shí)首先會(huì)寫到MemStore，當(dāng)MemStore寫滿之后（緩存數(shù)據(jù)超過閾值叔壤，默認(rèn)128M）系統(tǒng)會(huì)異步地將數(shù)據(jù)flush成一個(gè)HFile文件瞎饲。
  - HFile
    
    隨著數(shù)據(jù)不斷寫入，HFile文件會(huì)越來越多炼绘，當(dāng)HFile文件數(shù)超過一定閾值之后系統(tǒng)將會(huì)執(zhí)行Compact操作嗅战，將這些小文件通過一定策略合并成一個(gè)或多個(gè)大文件

HDFS

HBase底層依賴HDFS組件存儲(chǔ)實(shí)際數(shù)據(jù)，包括用戶數(shù)據(jù)文件饭望、HLog日志文件等最終都會(huì)寫入HDFS落盤仗哨。HDFS是Hadoop生態(tài)圈內(nèi)最成熟的組件之一，數(shù)據(jù)默認(rèn)三副本存儲(chǔ)策略可以有效保證數(shù)據(jù)的高可靠性铅辞。HBase內(nèi)部封裝了一個(gè)名為DFSClient的HDFS客戶端組件厌漂，負(fù)責(zé)對(duì)HDFS的實(shí)際數(shù)據(jù)進(jìn)行讀寫訪問。

數(shù)據(jù)模型

table(表)

表斟珊，一個(gè)表包含多行數(shù)

row(行)

行苇倡，一行數(shù)據(jù)包含一個(gè)唯一標(biāo)識(shí)rowkey、多個(gè)column以及對(duì)應(yīng)的值囤踩。在HBase中旨椒，一張表中所有row都按照rowkey的字典序由小到大排序

timestamp(時(shí)間戳)

時(shí)間戳，每個(gè)cell在寫入HBase的時(shí)候都會(huì)默認(rèn)分配一個(gè)時(shí)間戳作為該cell的版本堵漱，當(dāng)然综慎，用戶也可以在寫入的時(shí)候自帶時(shí)間戳。HBase支持多版本特性勤庐，即同一rowkey示惊、column下可以有多個(gè)value存在，這些value使用timestamp作為版本號(hào)愉镰，版本越大米罚，表示數(shù)據(jù)越新。

cell(具體value)

單元格丈探，由五元組（row, column, timestamp,type, value）組成的結(jié)構(gòu)录择，其中type表示Put/Delete這樣的操作類型，timestamp代表這個(gè)cell的版本。這個(gè)結(jié)構(gòu)在數(shù)據(jù)庫(kù)中實(shí)際是以KV結(jié)構(gòu)存儲(chǔ)的隘竭，其中（row, column,timestamp, type）是K塘秦，value字段對(duì)應(yīng)KV結(jié)構(gòu)的V

column(列)

列，與關(guān)系型數(shù)據(jù)庫(kù)中的列不同货裹，HBase中的column由column family（列簇）以及qualifier（列名）兩部分組成嗤形，兩者中間使用":"相連精偿。比如contents:html弧圆，其中contents為列簇，html為列簇下具體的一列笔咽。column family在表創(chuàng)建的時(shí)候需要指定搔预，用戶不能隨意增減。一個(gè)column family下可以設(shè)置任意多個(gè)qualifier叶组，因此可以理解為HBase中的列可以動(dòng)態(tài)增加拯田，理論上甚至可以擴(kuò)展到上百萬(wàn)列

數(shù)據(jù)結(jié)構(gòu)

跳躍表

image.png

跳躍表（SkipList）是一種能高效實(shí)現(xiàn)插入、刪除甩十、查找的內(nèi)存數(shù)據(jù)結(jié)構(gòu)船庇，這些操作的期望復(fù)雜度都是O(logN)。與紅黑樹以及其他的二分查找樹相比侣监，跳躍表的優(yōu)勢(shì)在于實(shí)現(xiàn)簡(jiǎn)單鸭轮，而且在并發(fā)場(chǎng)景下加鎖粒度更小，從而可以實(shí)現(xiàn)更高的并發(fā)性橄霉。正因?yàn)檫@些優(yōu)點(diǎn)窃爷，跳躍表廣泛使用于KV數(shù)據(jù)庫(kù)中，諸如Redis姓蜂、LevelDB按厘、HBase都把跳躍表作為一種維護(hù)有序數(shù)據(jù)集合的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。

多路歸并

image.png

先看一個(gè)簡(jiǎn)單的問題：現(xiàn)在有K個(gè)文件钱慢，其中第i個(gè)文件內(nèi)部存儲(chǔ)有Ni個(gè)正整數(shù)（這些整數(shù)在文件內(nèi)按照從小到大的順序存儲(chǔ)）逮京，如何設(shè)計(jì)一個(gè)算法將K個(gè)有序文件合并成一個(gè)大的有序文件？在排序算法中束莫，有一類排序算法叫做歸并排序懒棉，里面就有大家熟知的兩路歸并實(shí)現(xiàn)。現(xiàn)在相當(dāng)于K路歸并麦箍，因此可以拓展一下漓藕，思路類似。對(duì)每個(gè)文件設(shè)計(jì)一個(gè)指針挟裂，取出K個(gè)指針中數(shù)值最小的一個(gè)享钞，然后把最小的那個(gè)指針后移，接著繼續(xù)找K個(gè)指針中數(shù)值最小的一個(gè)，繼續(xù)后移指針……直到N個(gè)文件全部讀完為止

LSM樹

image.png

LSM樹本質(zhì)上和B+樹一樣栗竖，是一種磁盤數(shù)據(jù)的索引結(jié)構(gòu)暑脆。但和B+樹不同的是，LSM樹的索引對(duì)寫入請(qǐng)求更友好狐肢。因?yàn)闊o論是何種寫入請(qǐng)求添吗，LSM樹都會(huì)將寫入操作處理為一次順序?qū)懀鳫DFS擅長(zhǎng)的正是順序?qū)懀ㄇ襀DFS不支持隨機(jī)寫）份名，因此基于HDFS實(shí)現(xiàn)的HBase采用LSM樹作為索引是一種很合適的選擇碟联。LSM樹的索引一般由兩部分組成，一部分是內(nèi)存部分僵腺，一部分是磁盤部分鲤孵。內(nèi)存部分一般采用跳躍表來維護(hù)一個(gè)有序的KeyValue集合。磁盤部分一般由多個(gè)內(nèi)部KeyValue有序的文件組成

布隆過濾器

在HBase 1.x版本中辰如，用戶可以對(duì)某些列設(shè)置不同類型的布隆過濾器普监，共有3種類型。
? NONE：關(guān)閉布隆過濾器功能琉兜。
? ROW：按照rowkey來計(jì)算布隆過濾器的二進(jìn)制串并存儲(chǔ)凯正。Get查詢的時(shí)候，必須帶rowkey豌蟋，所以用戶可以在建表時(shí)默認(rèn)把布隆過濾器設(shè)置為ROW類型廊散。
? ROWCOL：按照rowkey+family+qualifier這3個(gè)字段拼出byte[]來計(jì)算布隆過濾器值并存儲(chǔ)。如果在查詢的時(shí)候夺饲，Get能指定rowkey奸汇、family、qualifier這3個(gè)字段往声，則肯定可以通過布隆過濾器提升性能擂找。但是如果在查詢的時(shí)候，Get中缺少rowkey浩销、family贯涎、qualifier中任何一個(gè)字段，則無法通過布隆過濾器提升性能慢洋，因?yàn)橛?jì)算布隆過濾器的Key不確定塘雳。

Compaction

Minor Compaction

是指選取部分小的、相鄰的HFile普筹，將它們合并成一個(gè)更大的HFile

Major Compaction

是指將一個(gè)Store中所有的HFile合并成一個(gè)HFile败明，這個(gè)過程還會(huì)完全清理三類無意義數(shù)據(jù)：被刪除的數(shù)據(jù)、TTL過期數(shù)據(jù)太防、版本號(hào)超過設(shè)定版本號(hào)的數(shù)據(jù)妻顶。

RegionServer核心模塊

HLog

HBase中系統(tǒng)故障恢復(fù)以及主從復(fù)制都基于HLog實(shí)現(xiàn)。默認(rèn)情況下，所有寫入操作（寫入讳嘱、更新以及刪除）的數(shù)據(jù)都先以追加形式寫入HLog幔嗦，再寫入MemStore。大多數(shù)情況下沥潭，HLog并不會(huì)被讀取邀泉，但如果RegionServer在某些異常情況下發(fā)生宕機(jī)，此時(shí)已經(jīng)寫入MemStore中但尚未f lush到磁盤的數(shù)據(jù)就會(huì)丟失钝鸽，需要回放HLog補(bǔ)救丟失的數(shù)據(jù)汇恤。此外，HBase主從復(fù)制需要主集群將HLog日志發(fā)送給從集群寞埠，從集群在本地執(zhí)行回放操作屁置，完成集群之間的數(shù)據(jù)復(fù)制焊夸。

HLog文件存儲(chǔ)

/hbase/WALs存儲(chǔ)當(dāng)前還未過期的日志仁连；/hbase/oldWALs存儲(chǔ)已經(jīng)過期的日志
HLog生命周期
- HLog構(gòu)建
  
  HBase的任何寫入（更新、刪除）操作都會(huì)先將記錄追加寫入到HLog文件中阱穗。
- HLog滾動(dòng)
  
  HBase后臺(tái)啟動(dòng)一個(gè)線程饭冬，每隔一段時(shí)間（由參數(shù)'hbase.regionserver. logroll.period'決定，默認(rèn)1小時(shí)）進(jìn)行日志滾動(dòng)揪阶。日志滾動(dòng)會(huì)新建一個(gè)新的日志文件昌抠，接收新的日志數(shù)據(jù)。日志滾動(dòng)機(jī)制主要是為了方便過期日志數(shù)據(jù)能夠以文件的形式直接刪除鲁僚。
- HLog失效
  
  寫入數(shù)據(jù)一旦從MemStore中落盤炊苫，對(duì)應(yīng)的日志數(shù)據(jù)就會(huì)失效。為了方便處理冰沙，HBase中日志失效刪除總是以文件為單位執(zhí)行侨艾。查看某個(gè)HLog文件是否失效只需確認(rèn)該HLog文件中所有日志記錄對(duì)應(yīng)的數(shù)據(jù)是否已經(jīng)完成落盤，如果日志中所有日志記錄已經(jīng)落盤拓挥，則可以認(rèn)為該日志文件失效唠梨。一旦日志文件失效，就會(huì)從WALs文件夾移動(dòng)到oldWALs文件夾侥啤。注意此時(shí)HLog并沒有被系統(tǒng)刪除当叭。
- HLog刪除
  
  Master后臺(tái)會(huì)啟動(dòng)一個(gè)線程，每隔一段時(shí)間（參數(shù)'hbase.master.cleaner. interval'盖灸，默認(rèn)1分鐘）檢查一次文件夾oldWALs下的所有失效日志文件蚁鳖，確認(rèn)是否可以刪除，確認(rèn)可以刪除之后執(zhí)行刪除操作赁炎。確認(rèn)條件主要有兩個(gè)：
  ?該HLog文件是否還在參與主從復(fù)制醉箕。對(duì)于使用HLog進(jìn)行主從復(fù)制的業(yè)務(wù)，需要繼續(xù)確認(rèn)是否該HLog還在應(yīng)用于主從復(fù)制。
  ?該HLog文件是否已經(jīng)在OldWALs目錄中存在10分鐘琅攘。為了更加靈活地管理HLog生命周期垮庐，系統(tǒng)提供了參數(shù)設(shè)置日志文件的TTL（參數(shù)'hbase.master.logcleaner.ttl'，默認(rèn)10分鐘）坞琴，默認(rèn)情況下oldWALs里面的HLog文件最多可以再保存10分鐘哨查。
HLog邏輯結(jié)構(gòu)圖

MemStore

MSLAB內(nèi)存管理

為了優(yōu)化這種內(nèi)存碎片可能導(dǎo)致的Full GC，HBase借鑒了線程本地分配緩存（Thread-Local Allocation Buffer剧辐，TLAB）的內(nèi)存管理方式寒亥，通過順序化分配內(nèi)存、內(nèi)存數(shù)據(jù)分塊等特性使得內(nèi)存碎片更加粗粒度荧关，有效改善Full GC情況溉奕。具體實(shí)現(xiàn)步驟如下：
1）每個(gè)MemStore會(huì)實(shí)例化得到一個(gè)MemStoreLAB對(duì)象。
2）MemStoreLAB會(huì)申請(qǐng)一個(gè)2M大小的Chunk數(shù)組忍啤，同時(shí)維護(hù)一個(gè)Chunk偏移量加勤，該偏移量初始值為0。
3）當(dāng)一個(gè)KeyValue值插入MemStore后同波，MemStoreLAB會(huì)首先通過KeyValue.getBuffer()取得data數(shù)組鳄梅，并將data數(shù)組復(fù)制到Chunk數(shù)組中，之后再將Chunk偏移量往前移動(dòng)data.length未檩。4）當(dāng)前Chunk滿了之后戴尸，再調(diào)用new byte[2 * 1024 * 1024]申請(qǐng)一個(gè)新的Chunk。這種內(nèi)存管理方式稱為MemStore本地分配緩存（MemStore-Local Allocation Buffer冤狡，MSLAB）孙蒙。
這是因?yàn)镸emStore會(huì)在將數(shù)據(jù)寫入內(nèi)存時(shí)首先申請(qǐng)2M的Chunk，再將實(shí)際數(shù)據(jù)寫入申請(qǐng)的Chunk中悲雳。這種內(nèi)存管理方式挎峦，使得f lush之后殘留的內(nèi)存碎片更加粗粒度，極大降低Full GC的觸發(fā)頻率怜奖。
MemStore Chunk Pool

經(jīng)過MSLAB優(yōu)化之后浑测，系統(tǒng)因?yàn)镸emStore內(nèi)存碎片觸發(fā)的Full GC次數(shù)會(huì)明顯降低。然而這樣的內(nèi)存管理模式并不完美歪玲，還存在一些“小問題”迁央。比如一旦一個(gè)Chunk寫滿之后，系統(tǒng)會(huì)重新申請(qǐng)一個(gè)新的Chunk滥崩，新建Chunk對(duì)象會(huì)在JVM新生代申請(qǐng)新內(nèi)存岖圈，如果申請(qǐng)比較頻繁會(huì)導(dǎo)致JVM新生代Eden區(qū)滿掉，觸發(fā)YGC钙皮。試想如果這些Chunk能夠被循環(huán)利用蜂科，系統(tǒng)就不需要申請(qǐng)新的Chunk顽决，這樣就會(huì)使得YGC頻率降低，晉升到老年代的Chunk就會(huì)減少导匣，CMS GC發(fā)生的頻率也會(huì)降低才菠。這就是MemStore Chunk Pool的核心思想，具體實(shí)現(xiàn)步驟如下：
1）系統(tǒng)創(chuàng)建一個(gè)Chunk Pool來管理所有未被引用的Chunk贡定，這些Chunk就不會(huì)再被JVM當(dāng)作垃圾回收赋访。
2）如果一個(gè)Chunk沒有再被引用，將其放入Chunk Pool缓待。
3）如果當(dāng)前Chunk Pool已經(jīng)達(dá)到了容量最大值蚓耽，就不會(huì)再接納新的Chunk。
4）如果需要申請(qǐng)新的Chunk來存儲(chǔ)KeyValue旋炒，首先從ChunkPool中獲取步悠，如果能夠獲取得到就重復(fù)利用，否則就重新申請(qǐng)一個(gè)新的Chunk瘫镇。
相關(guān)配置項(xiàng)

HBase中MSLAB功能默認(rèn)是開啟的鼎兽，默認(rèn)的ChunkSize是2M，也可以通過參數(shù)"hbase.hregion.memstore.mslab.chunksize"進(jìn)行設(shè)置汇四，建議保持默認(rèn)值接奈。Chunk Pool功能默認(rèn)是關(guān)閉的，需要配置參數(shù)"hbase.hregion.memstore.chunkpool.maxsize"為大于0的值才能開啟通孽，該值默認(rèn)是0。"hbase.hregion.memstore.chunkpool.maxsize"取值為[0,1]睁壁，表示整個(gè)MemStore分配給Chunk Pool的總大小為hbase.hregion.memstore.chunkpool. maxsize * MemstoreSize背苦。另一個(gè)相關(guān)參數(shù)"hbase.hregion.memstore.chunkpool.initialsize"取值為[0,1]，表示初始化時(shí)申請(qǐng)多少個(gè)Chunk放到Pool里面潘明，默認(rèn)是0行剂，表示初始化時(shí)不申請(qǐng)內(nèi)存。

HFile

HFile邏輯結(jié)構(gòu)
- Scanned Block部分
  
  顧名思義钳降，表示順序掃描HFile時(shí)所有的數(shù)據(jù)塊將會(huì)被讀取厚宰。這個(gè)部分包含3種數(shù)據(jù)塊：DataBlock，Leaf Index Block以及Bloom Block遂填。其中DataBlock中存儲(chǔ)用戶的KeyValue數(shù)據(jù)铲觉，Leaf Index Block中存儲(chǔ)索引樹的葉子節(jié)點(diǎn)數(shù)據(jù)，Bloom Block中存儲(chǔ)布隆過濾器相關(guān)數(shù)據(jù)吓坚。
- Non-scanned Block部分
  
  示在HFile順序掃描的時(shí)候數(shù)據(jù)不會(huì)被讀取撵幽，主要包括Meta Block和IntermediateLevel Data Index Blocks兩部分。
- Load-on-open部分
  
  這部分?jǐn)?shù)據(jù)會(huì)在RegionServer打開HFile時(shí)直接加載到內(nèi)存中礁击，包括FileInfo盐杂、布隆過濾器MetaBlock逗载、Root Data Index和Meta IndexBlock。
- Trailer部分
  
  這部分主要記錄了HFile的版本信息链烈、其他各個(gè)部分的偏移值和尋址信息厉斟。
HFile物理結(jié)構(gòu)

實(shí)際上，HFile文件由各種不同類型的Block（數(shù)據(jù)塊）構(gòu)成强衡，雖然這些Block的類型不同捏膨，但卻擁有相同的數(shù)據(jù)結(jié)構(gòu)。Block的大小可以在創(chuàng)建表列簇的時(shí)候通過參數(shù)blocksize=>'65535'指定食侮，默認(rèn)為64K号涯。通常來講，大號(hào)的Block有利于大規(guī)模的順序掃描锯七，而小號(hào)的Block更有利于隨機(jī)查詢链快。因此用戶在設(shè)置blocksize時(shí)需要根據(jù)業(yè)務(wù)查詢特征進(jìn)行權(quán)衡，默認(rèn)64K是一個(gè)相對(duì)折中的大小眉尸。HFile中所有Block都擁有相同的數(shù)據(jù)結(jié)構(gòu)域蜗，HBase將所有Block統(tǒng)一抽象為HFile-Block。HFileBlock支持兩種類型噪猾，一種類型含有checksum霉祸，另一種不含有checksum。
- HFileBlock結(jié)構(gòu)
  
  HFileBlock主要包含兩部分：BlockHeader和BlockData袱蜡。其中BlockHeader主要存儲(chǔ)Block相關(guān)元數(shù)據(jù)丝蹭，BlockData用來存儲(chǔ)具體數(shù)據(jù)。Block元數(shù)據(jù)中最核心的字段是BlockType字段坪蚁，表示該Block的類型奔穿，HBase中定義了8種BlockType，每種BlockType對(duì)應(yīng)的Block都存儲(chǔ)不同的內(nèi)容敏晤，有的存儲(chǔ)用戶數(shù)據(jù)贱田，有的存儲(chǔ)索引數(shù)據(jù)，有的存儲(chǔ)元數(shù)據(jù)（meta）。對(duì)于任意一種類型的HFileBlock，都擁有相同結(jié)構(gòu)的BlockHeader扳抽，但是BlockData結(jié)構(gòu)卻不盡相同。
- HFileBlock類型
HFile基礎(chǔ)Block說明
- Trailer Block
  
  Trailer Block主要記錄了HFile的版本信息耗拓、各個(gè)部分的偏移值和尋址信息。
  - Trailer Block數(shù)據(jù)結(jié)構(gòu)
  - 重要字段
    - Version
      
      HBase中version包含majorVersion和minorVersion兩部分扶平，前者決定了HFile的主版本——V1帆离、V2還是V3；后者在主版本確定的基礎(chǔ)上決定是否支持一些微小修正结澄，比如是否支持checksum等哥谷。不同的版本使用不同的文件解析器對(duì)HFile進(jìn)行讀取解析岸夯。HBase會(huì)根據(jù)version信息計(jì)算Trailer Block的大小（不同version的Trailer Block大小不同）们妥，再根據(jù)Trailer Block大小加載整個(gè)HFileTrailer Block到內(nèi)存中猜扮。
    - LoadOnOpenDataOffset
      
      表示load-on-open Section在整個(gè)HFile文件中的偏移量
    - LoadOnOpenDataSize
      
      load-on-open Section的大小
- Data Block
  - 數(shù)據(jù)結(jié)構(gòu)
    
    KeyValue由4個(gè)部分構(gòu)成，分別為Key Length监婶、ValueLength旅赢、Key和Value。其中惑惶，Key Length和Value Length是兩個(gè)固定長(zhǎng)度的數(shù)值煮盼，Value是用戶寫入的實(shí)際數(shù)據(jù)，Key是一個(gè)復(fù)合結(jié)構(gòu)带污，由多個(gè)部分構(gòu)成：Rowkey僵控、Column Family、Column Qualif ier鱼冀、TimeStamp以及KeyType报破。其中，KeyType有四種類型千绪，分別是Put充易、Delete、DeleteColumn和DeleteFamily荸型。
- Bloom Index Block
  
  整個(gè)HFile中僅有一個(gè)Bloom Index Block數(shù)據(jù)塊盹靴，位于load-on-open部分。
  - 數(shù)據(jù)結(jié)構(gòu)
  - 重要字段
    - Bloom Index Entry
      
      Bloom Index Entry對(duì)應(yīng)每一個(gè)Bloom Block的索引項(xiàng)帆疟，作為索引分別指向scanned block部分的Bloom Block鹉究，Bloom Block中實(shí)際存儲(chǔ)了對(duì)應(yīng)的位數(shù)組。Bloom Index Entry的結(jié)構(gòu)見圖中間部分踪宠，其中BlockKey是一個(gè)非常關(guān)鍵的字段，表示該Index Entry指向的Bloom Block中第一個(gè)執(zhí)行Hash映射的Key妈嘹。BlockOffset表示對(duì)應(yīng)Bloom Block在HFile中的偏移量柳琢。
      因此，一次get請(qǐng)求根據(jù)布隆過濾器進(jìn)行過濾查找需要執(zhí)行以下三步操作：
      1）首先根據(jù)待查找Key在Bloom Index Block所有的索引項(xiàng)中根據(jù)BlockKey進(jìn)行二分查找润脸，定位到對(duì)應(yīng)的Bloom IndexEntry柬脸。
      2）再根據(jù)Bloom Index Entry中BlockOffset以及BlockOndiskSize加載該Key對(duì)應(yīng)的位數(shù)組。
      3）對(duì)Key進(jìn)行Hash映射毙驯，根據(jù)映射的結(jié)果在位數(shù)組中查看是否所有位都為1倒堕，如果不是，表示該文件中肯定不存在該Key爆价，否則有可能存在垦巴。
- Bloom Meta Block
- Bloom Block
- Root Index Block
  - 數(shù)據(jù)結(jié)構(gòu)
- IntermediateIndex Block
- Leaf Index Block

BlockCache

BlockCache是RegionServer級(jí)別的媳搪，一個(gè)RegionServer只有一個(gè)BlockCache，在RegionServer啟動(dòng)時(shí)完成BlockCache的初始化工作骤宣。到目前為止秦爆，HBase先后實(shí)現(xiàn)了3種BlockCache方案，LRUBlockCache是最早的實(shí)現(xiàn)方案憔披，也是默認(rèn)的實(shí)現(xiàn)方案等限；HBase 0.92版本實(shí)現(xiàn)了第二種方案SlabCache，參見HBASE-4027芬膝；HBase 0.96之后官方提供了另一種可選方案BucketCache望门，參見HBASE-7404。

LRUBlockCache

LRUBlockCache是HBase目前默認(rèn)的BlockCache機(jī)制锰霜，實(shí)現(xiàn)相對(duì)比較簡(jiǎn)單筹误。它使用一個(gè)ConcurrentHashMap管理BlockKey到Block的映射關(guān)系，緩存Block只需要將BlockKey和對(duì)應(yīng)的Block放入該HashMap中锈遥，查詢緩存就根據(jù)BlockKey從HashMap中獲取即可纫事。同時(shí)，該方案采用嚴(yán)格的LRU淘汰算法所灸，當(dāng)Block Cache總量達(dá)到一定閾值之后就會(huì)啟動(dòng)淘汰機(jī)制丽惶，最近最少使用的Block會(huì)被置換出來。
- 緩存分層策略
  
  HBase采用了緩存分層設(shè)計(jì)爬立，將整個(gè)BlockCache分為三個(gè)部分：single-access钾唬、multi-access和in-memory，分別占到整個(gè)BlockCache大小的25%侠驯、50%抡秆、25%。在一次隨機(jī)讀中吟策，一個(gè)Block從HDFS中加載出來之后首先放入single-access區(qū)儒士，后續(xù)如果有多次請(qǐng)求訪問到這個(gè)Block，就會(huì)將這個(gè)Block移到multi-access區(qū)檩坚。而in-memory區(qū)表示數(shù)據(jù)可以常駐內(nèi)存着撩，一般用來存放訪問頻繁、量小的數(shù)據(jù)匾委，比如元數(shù)據(jù)拖叙，用戶可以在建表的時(shí)候設(shè)置列簇屬性IN_MEMORY=true，設(shè)置之后該列簇的Block在從磁盤中加載出來之后會(huì)直接放入in-memory區(qū)赂乐。
  - single-access(總大小25%)
    
    在一次隨機(jī)讀中薯鳍，一個(gè)Block從HDFS中加載出來之后首先放入single-access區(qū)。
  - multi-access(總大小50%)
  - in-memory(總大小25%)
    
    需要注意的是挨措，設(shè)置IN_MEMORY=true并不意味著數(shù)據(jù)在寫入時(shí)就會(huì)被放到in-memory區(qū)挖滤，而是和其他BlockCache區(qū)一樣崩溪，只有從磁盤中加載出Block之后才會(huì)放入該區(qū)。另外壶辜，進(jìn)入in-memory區(qū)的Block并不意味著會(huì)一直存在于該區(qū)悯舟，仍會(huì)基于LRU淘汰算法在空間不足的情況下淘汰最近最不活躍的一些Block。因?yàn)镠Base系統(tǒng)元數(shù)據(jù)（hbase:meta砸民，hbase:namespace等表）都存放在in-memory區(qū)抵怎，因此對(duì)于很多業(yè)務(wù)表來說，設(shè)置數(shù)據(jù)屬性IN_MEMORY=true時(shí)需要非常謹(jǐn)慎岭参，一定要確保此列簇?cái)?shù)據(jù)量很小且訪問頻繁反惕，否則可能會(huì)將hbase:meta等元數(shù)據(jù)擠出內(nèi)存，嚴(yán)重影響所有業(yè)務(wù)性能演侯。
- 方案缺陷
  
  LRUBlockCache方案使用JVM提供的HashMap管理緩存姿染，簡(jiǎn)單有效。但隨著數(shù)據(jù)從single-access區(qū)晉升到multi-access區(qū)或長(zhǎng)時(shí)間停留在single-access區(qū)秒际，對(duì)應(yīng)的內(nèi)存對(duì)象會(huì)從young區(qū)晉升到old區(qū)，晉升到old區(qū)的Block被淘汰后會(huì)變?yōu)閮?nèi)存垃圾娄徊，最終由CMS回收（Conccurent Mark Sweep，一種標(biāo)記清除算法）寄锐，顯然這種算法會(huì)帶來大量的內(nèi)存碎片兵多，碎片空間一直累計(jì)就會(huì)產(chǎn)生臭名昭著的Full GC。尤其在大內(nèi)存條件下橄仆，一次Full GC很可能會(huì)持續(xù)較長(zhǎng)時(shí)間剩膘，甚至達(dá)到分鐘級(jí)別。Full GC會(huì)將整個(gè)進(jìn)程暫停盆顾，稱為stop-the-world暫停（STW）怠褐，因此長(zhǎng)時(shí)間Full GC必然會(huì)極大影響業(yè)務(wù)的正常讀寫請(qǐng)求。正因?yàn)樵摲桨赣羞@樣的弊端您宪，之后相繼出現(xiàn)了SlabCache方案和BucketCache方案惫搏。
SlabCache

為了解決LRUBlockCache方案中因JVM垃圾回收導(dǎo)致的服務(wù)中斷問題，SlabCache方案提出使用Java NIO DirectByteBuffer技術(shù)實(shí)現(xiàn)堆外內(nèi)存存儲(chǔ)蚕涤，不再由JVM管理數(shù)據(jù)內(nèi)存。默認(rèn)情況下铣猩，系統(tǒng)在初始化的時(shí)候會(huì)分配兩個(gè)緩存區(qū)揖铜，分別占整個(gè)BlockCache大小的80%和20%，每個(gè)緩存區(qū)分別存儲(chǔ)固定大小的Block达皿，其中前者主要存儲(chǔ)小于等于64K的Block天吓，后者存儲(chǔ)小于等于128K的Block贿肩，如果一個(gè)Block太大就會(huì)導(dǎo)致兩個(gè)區(qū)都無法緩存龄寞。和LRUBlockCache相同溜哮，SlabCache也使用Least-Recently-Used算法淘汰過期的Block。和LRUBlockCache不同的是述吸，SlabCache淘汰Block時(shí)只需要將對(duì)應(yīng)的BufferByte標(biāo)記為空閑，后續(xù)cache對(duì)其上的內(nèi)存直接進(jìn)行覆蓋即可。
- <=64K Block Cache(總大小80%)
- <=128K Block Cache(總大小20%)
DoubleBlockCache

不同表不同列簇設(shè)置的BlockSize都可能不同衅金，很顯然，默認(rèn)只能存儲(chǔ)小于等于128KB Block的SlabCache方案不能滿足部分用戶場(chǎng)景。比如瞒渠，用戶設(shè)置BlockSize=256K，簡(jiǎn)單使用SlabCache方案就不能達(dá)到緩存這部分Block的目的窍箍。因此HBase在實(shí)際實(shí)現(xiàn)中將SlabCache和LRUBlockCache搭配使用，稱為DoubleBlockCache祷蝌。在一次隨機(jī)讀中，一個(gè)Block從HDFS中加載出來之后會(huì)在兩個(gè)Cache中分別存儲(chǔ)一份。緩存讀時(shí)首先在LRUBlockCache中查找，如果Cache Miss再在SlabCache中查找癣疟，此時(shí)如果命中，則將該Block放入LRUBlockCache中。
經(jīng)過實(shí)際測(cè)試淤击，DoubleBlockCache方案有很多弊端。比如印机，SlabCache中固定大小內(nèi)存設(shè)置會(huì)導(dǎo)致實(shí)際內(nèi)存使用率比較低奶是，而且使用LRUBlockCache緩存Block依然會(huì)因?yàn)镴VM GC產(chǎn)生大量?jī)?nèi)存碎片腐魂。因此在HBase 0.98版本之后，已經(jīng)不建議使用該方案。
BucketCache

BucketCache通過不同配置方式可以工作在三種模式下：heap育叁，offheap和file豌骏。heap模式表示這些Bucket是從JVMHeap中申請(qǐng)的；offheap模式使用DirectByteBuffer技術(shù)實(shí)現(xiàn)堆外內(nèi)存存儲(chǔ)管理躁倒；file模式使用類似SSD的存儲(chǔ)介質(zhì)來緩存Data Block纬凤。無論工作在哪種模式下，BucketCache都會(huì)申請(qǐng)?jiān)S多帶有固定大小標(biāo)簽的Bucket拇舀，和SlabCache一樣，一種Bucket存儲(chǔ)一種指定BlockSize的Data Block，但和SlabCache不同的是搏嗡，BucketCache會(huì)在初始化的時(shí)候申請(qǐng)14種不同大小的Bucket蔚润，而且如果某一種Bucket空間不足，系統(tǒng)會(huì)從其他Bucket空間借用內(nèi)存使用货徙，因此不會(huì)出現(xiàn)內(nèi)存使用率低的情況左权。
- 內(nèi)存結(jié)構(gòu)
  
  圖所示為BucketCache的內(nèi)存組織形式，圖中上半部分是邏輯組織結(jié)構(gòu)痴颊，下半部分是對(duì)應(yīng)的物理組織結(jié)構(gòu)赏迟。HBase啟動(dòng)之后會(huì)在內(nèi)存中申請(qǐng)大量的Bucket，每個(gè)Bucket的大小默認(rèn)為2MB蠢棱。每個(gè)Bucket會(huì)有一個(gè)baseoffset變量和一個(gè)size標(biāo)簽，其中baseoffset變量表示這個(gè)Bucket在實(shí)際物理空間中的起始地址刺下，因此Block的物理地址就可以通過baseoffset和該Block在Bucket的偏移量唯一確定惕鼓；size標(biāo)簽表示這個(gè)Bucket可以存放的Block大小价淌，比如圖中左側(cè)Bucket的size標(biāo)簽為65KB淌喻，表示可以存放64KB的Block伤塌，右側(cè)Bucket的size標(biāo)簽為129KB真屯，表示可以存放128KB的Block缸托。
- BucketSizeInfo
- BucketAllocator類
  
  1）HBase會(huì)根據(jù)每個(gè)Bucket的size標(biāo)簽對(duì)Bucket進(jìn)行分類廊勃，相同size標(biāo)簽的Bucket由同一個(gè)BucketSizeInfo管理皮迟，如圖所示，左側(cè)存放64KB Block的Bucket由65KB BucketSizeInfo管理，右側(cè)存放128KB Block的Bucket由129KBBucketSizeInfo管理∷儆拢可見诈闺，BucketSize大小總會(huì)比Block本身大1KB晃危，這是因?yàn)锽lock本身并不是嚴(yán)格固定大小的叙赚，總會(huì)大那么一點(diǎn)，比如64K的Block總是會(huì)比64K大一些僚饭。
  2）HBase在啟動(dòng)的時(shí)候就決定了size標(biāo)簽的分類震叮，默認(rèn)標(biāo)簽有(4+1)K，(8+1)K鳍鸵，(16+1)K...(48+1)K苇瓣，(56+1)K，(64+1)K偿乖，(96+1)K...(512+1)K击罪。而且系統(tǒng)會(huì)首先從小到大遍歷一次所有size標(biāo)簽，為每種size標(biāo)簽分配一個(gè)Bucket贪薪，最后所有剩余的Bucket都分配最大的size標(biāo)簽媳禁，默認(rèn)分配 (512+1)K。
  3）Bucket的size標(biāo)簽可以動(dòng)態(tài)調(diào)整画切，比如64K的Block數(shù)目比較多竣稽，65K的Bucket用完了以后，其他size標(biāo)簽的完全空閑的Bucket可以轉(zhuǎn)換成為65K的Bucket霍弹，但是會(huì)至少保留一個(gè)該size的Bucket毫别。
- BucketCache中Block緩存寫入、讀取流程
  - 名詞說明
    - RAMCache
      
      RAMCache是一個(gè)存儲(chǔ)blockKey和Block對(duì)應(yīng)關(guān)系的HashMap
    - WriteThead
      
      WriteThead是整個(gè)Block寫入的中心樞紐典格，主要負(fù)責(zé)異步地將Block寫入到內(nèi)存空間
    - BucketAllocator
      
      BucketAllocator主要實(shí)現(xiàn)對(duì)Bucket的組織管理岛宦，為Block分配內(nèi)存空間。
    - BackingMap
      
      BackingMap也是一個(gè)HashMap钝计，用來存儲(chǔ)blockKey與對(duì)應(yīng)物理內(nèi)存偏移量的映射關(guān)系恋博，并且根據(jù)blockKey定位具體的Block。圖中實(shí)線表示Block寫入流程私恬，虛線表示Block緩存讀取流程债沮。
    - IOEngine
      
      IOEngine是具體的內(nèi)存管理模塊，將Block數(shù)據(jù)寫入對(duì)應(yīng)地址的內(nèi)存空間本鸣。
  - 寫入流程
    
    1）將Block寫入RAMCache疫衩。實(shí)際實(shí)現(xiàn)中，HBase設(shè)置了多個(gè)RAMCache荣德，系統(tǒng)首先會(huì)根據(jù)blockKey進(jìn)行hash闷煤，根據(jù)hash結(jié)果將Block分配到對(duì)應(yīng)的RAMCache中童芹。
    2）WriteThead從RAMCache中取出所有的Block。和RAMCache相同鲤拿，HBase會(huì)同時(shí)啟動(dòng)多個(gè)WriteThead并發(fā)地執(zhí)行異步寫入假褪，每個(gè)WriteThead對(duì)應(yīng)一個(gè)RAMCache。
    3）每個(gè)WriteThead會(huì)遍歷RAMCache中所有Block近顷，分別調(diào)用bucketAllocator為這些Block分配內(nèi)存空間生音。
    4）BucketAllocator會(huì)選擇與Block大小對(duì)應(yīng)的Bucket進(jìn)行存放，并且返回對(duì)應(yīng)的物理地址偏移量offset窒升。
    5）WriteThead將Block以及分配好的物理地址偏移量傳給IOEngine模塊缀遍，執(zhí)行具體的內(nèi)存寫入操作。
    6）寫入成功后饱须，將blockKey與對(duì)應(yīng)物理內(nèi)存偏移量的映射關(guān)系寫入BackingMap中域醇，方便后續(xù)查找時(shí)根據(jù)blockKey直接定位。
  - 讀取流程
    
    1）首先從RAMCache中查找蓉媳。對(duì)于還沒有來得及寫入Bucket的緩存Block譬挚，一定存儲(chǔ)在RAMCache中。
    2）如果在RAMCache中沒有找到酪呻，再根據(jù)blockKey在BackingMap中找到對(duì)應(yīng)的物理偏移地址量offset殴瘦。
    3）根據(jù)物理偏移地址offset直接從內(nèi)存中查找對(duì)應(yīng)的Block數(shù)據(jù)。
- 配置使用
  - 工作模式
    
    <property
    <name>hbase.bucketcache.ioengine</name>
    <value>heap</value>
    </property>
  - bucketcache大小
    
    <property
    <name>hbase.bucketcache.size</name>
    <value>0.4</value>
    </property>
  - 示例
    - offheap模式
      
      <property>
      <name>hbase.bucketcache.ioengine</name>
      <value>offheap</value>
      </property>
      <property
      <name>hbase.bucketcache.size</name>
      <value>0.4</value>
      </property>
    - file模式
      
      <property>
      <name>hbase.bucketcache.ioengine</name>
      <value>file</value>
      </property>
      //bucketcache緩存空間大小号杠，單位為MB
      <property>
      <name>hbase.bucketcache.size</name>
      <value>10 ＊ 1024</value>
      </property>
      <property>
      <name>hbase.bucketcache.persistent.path</name>
      <value>file:/cache_path</value>
      </property>
CombinedBlock-Cache

實(shí)際實(shí)現(xiàn)中，HBase將BucketCache和LRUBlockCache搭配使用丰歌，稱為CombinedBlock-Cache姨蟋。和DoubleBlockCache不同，系統(tǒng)在LRUBlockCache中主要存儲(chǔ)Index Block和BloomBlock立帖，而將Data Block存儲(chǔ)在BucketCache中眼溶。因此一次隨機(jī)讀需要先在LRUBlockCache中查到對(duì)應(yīng)的Index Block，然后再到BucketCache查找對(duì)應(yīng)Data Block晓勇。BucketCache通過更加合理的設(shè)計(jì)修正了SlabCache的弊端堂飞，極大降低了JVM GC對(duì)業(yè)務(wù)請(qǐng)求的實(shí)際影響，但其也存在一些問題绑咱。比如绰筛，使用堆外內(nèi)存會(huì)存在拷貝內(nèi)存的問題，在一定程度上會(huì)影響讀寫性能描融。當(dāng)然铝噩，在之后的2.0版本中這個(gè)問題得到了解決，參見HBASE-11425窿克。

讀寫流程

寫入流程

客戶端處理階段

客戶端將用戶的寫入請(qǐng)求進(jìn)行預(yù)處理骏庸，并根據(jù)集群元數(shù)據(jù)定位寫入數(shù)據(jù)所在的RegionServer毛甲，將請(qǐng)求發(fā)送給對(duì)應(yīng)的RegionServer。
- 本地緩沖區(qū)暫存
  
  用戶提交put請(qǐng)求后具被，HBase客戶端會(huì)將寫入的數(shù)據(jù)添加到本地緩沖區(qū)中玻募，符合一定條件就會(huì)通過AsyncProcess異步批量提交。HBase默認(rèn)設(shè)置autoflush=true一姿，表示put請(qǐng)求直接會(huì)提交給服務(wù)器進(jìn)行處理七咧；用戶可以設(shè)置autoflush=false，這樣啸蜜，put請(qǐng)求會(huì)首先放到本地緩沖區(qū)坑雅，等到本地緩沖區(qū)大小超過一定閾值（默認(rèn)為2M，可以通過配置文件配置）之后才會(huì)提交衬横。很顯然裹粤，后者使用批量提交請(qǐng)求，可以極大地提升寫入吞吐量蜂林，但是因?yàn)闆]有保護(hù)機(jī)制遥诉，如果客戶端崩潰，會(huì)導(dǎo)致部分已經(jīng)提交的數(shù)據(jù)丟失噪叙。
- 查找RegionServer
  
  提交之前矮锈，HBase會(huì)在元數(shù)據(jù)表hbase:meta中根據(jù)rowkey找到它們歸屬的RegionServer，這個(gè)定位的過程是通過HConnection的locateRegion方法完成的睁蕾。如果是批量請(qǐng)求苞笨，還會(huì)把這些rowkey按照HRegionLocation分組，不同分組的請(qǐng)求意味著發(fā)送到不同的RegionServer子眶，因此每個(gè)分組對(duì)應(yīng)一次RPC請(qǐng)求瀑凝。
  客戶端根據(jù)寫入的表以及rowkey在元數(shù)據(jù)緩存中查找，如果能夠查找出該rowkey所在的RegionServer以及Region臭杰，就可以直接發(fā)送寫入請(qǐng)求（攜帶Region信息）到目標(biāo)RegionServer粤咪。
  如果客戶端緩存中沒有查到對(duì)應(yīng)的rowkey信息，需要首先到ZooKeeper上/hbase-root/meta-region-server節(jié)點(diǎn)查找HBase元數(shù)據(jù)表所在的RegionServer渴杆。向hbase:meta所在的RegionServer發(fā)送查詢請(qǐng)求寥枝，在元數(shù)據(jù)表中查找rowkey所在的RegionServer以及Region信息〈沤保客戶端接收到返回結(jié)果之后會(huì)將結(jié)果緩存到本地囊拜，以備下次使用。
  客戶端根據(jù)rowkey相關(guān)元數(shù)據(jù)信息將寫入請(qǐng)求發(fā)送給目標(biāo)RegionServer比搭，Region Server接收到請(qǐng)求之后會(huì)解析出具體的Region信息艾疟，查到對(duì)應(yīng)的Region對(duì)象，并將數(shù)據(jù)寫入目標(biāo)Region的MemStore中。
- 發(fā)送數(shù)據(jù)到RegionServer
  
  HBase會(huì)為每個(gè)HRegionLocation構(gòu)造一個(gè)遠(yuǎn)程RPC請(qǐng)求MultiServerCallable蔽莱，并通過rpcCallerFactory. newCaller()執(zhí)行調(diào)用弟疆。將請(qǐng)求經(jīng)過Protobuf序列化后發(fā)送給對(duì)應(yīng)的RegionServer。
Region寫入階段

服務(wù)器端RegionServer接收到客戶端的寫入請(qǐng)求后盗冷，首先會(huì)反序列化為put對(duì)象怠苔，然后執(zhí)行各種檢查操作，比如檢查Region是否是只讀仪糖、MemStore大小是否超過blockingMemstoreSize等柑司。檢查完成之后，執(zhí)行一系列核心操作
- 示意圖
- Acquire locks
  
  HBase中使用行鎖保證對(duì)同一行數(shù)據(jù)的更新都是互斥操作锅劝，用以保證更新的原子性攒驰，要么更新成功，要么更新失敗故爵。
- Update LATEST_TIMESTAMP timestamps
  
  更新所有待寫入（更新）KeyValue的時(shí)間戳為當(dāng)前系統(tǒng)時(shí)間玻粪。
- Build WAL edit
  
  HBase使用WAL機(jī)制保證數(shù)據(jù)可靠性，即首先寫日志再寫緩存诬垂，即使發(fā)生宕機(jī)劲室，也可以通過恢復(fù)HLog還原出原始數(shù)據(jù)。該步驟就是在內(nèi)存中構(gòu)建WALEdit對(duì)象结窘，為了保證Region級(jí)別事務(wù)的寫入原子性很洋，一次寫入操作中所有KeyValue會(huì)構(gòu)建成一條WALEdit記錄。
- Append WALEdit To WAL
  
  將步驟3中構(gòu)造在內(nèi)存中的WALEdit記錄順序?qū)懭際Log中隧枫，此時(shí)不需要執(zhí)行sync操作喉磁。當(dāng)前版本的HBase使用了disruptor實(shí)現(xiàn)了高效的生產(chǎn)者消費(fèi)者隊(duì)列，來實(shí)現(xiàn)WAL的追加寫入操作官脓。
- Write back to MemStore
  
  寫入WAL之后再將數(shù)據(jù)寫入MemStore线定。
- Release row locks
  
  釋放行鎖。
- Sync wal
  
  HLog真正sync到HDFS确买，在釋放行鎖之后執(zhí)行sync操作是為了盡量減少持鎖時(shí)間，提升寫性能纱皆。如果sync失敗湾趾，執(zhí)行回滾操作將MemStore中已經(jīng)寫入的數(shù)據(jù)移除。
- Advance mvcc
  
  此時(shí)該線程的更新操作才會(huì)對(duì)其他讀請(qǐng)求可見派草，更新才實(shí)際生效搀缠。
- HLog持久化等級(jí)
  
  HBase可以通過設(shè)置HLog的持久化等級(jí)決定是否開啟HLog機(jī)制以及HLog的落盤方式。
  用戶可以通過客戶端設(shè)置HLog持久化等級(jí)近迁，代碼如下：
  put.setDurability(Durability.SYNC_WAL );
  - SKIP_WAL
    
    只寫緩存艺普，不寫HLog日志。因?yàn)橹粚憙?nèi)存，因此這種方式可以極大地提升寫入性能歧譬，但是數(shù)據(jù)有丟失的風(fēng)險(xiǎn)岸浑。在實(shí)際應(yīng)用過程中并不建議設(shè)置此等級(jí)，除非確認(rèn)不要求數(shù)據(jù)的可靠性瑰步。
  - ASYNC_WAL
    
    異步將數(shù)據(jù)寫入HLog日志中矢洲。
  - SYNC_WAL
    
    同步將數(shù)據(jù)寫入日志文件中，需要注意的是缩焦，數(shù)據(jù)只是被寫入文件系統(tǒng)中读虏，并沒有真正落盤。HDFSFlush策略詳見HADOOP-6313袁滥。
  - FSYNC_WAL
    
    同步將數(shù)據(jù)寫入日志文件并強(qiáng)制落盤盖桥。這是最嚴(yán)格的日志寫入等級(jí)，可以保證數(shù)據(jù)不會(huì)丟失题翻，但是性能相對(duì)比較差揩徊。
  - USER_DEFAULT
    
    如果用戶沒有指定持久化等級(jí)，默認(rèn)HBase使用SYNC_WAL等級(jí)持久化數(shù)據(jù)藐握。
MemStore Flush階段

當(dāng)Region中MemStore容量超過一定閾值靴拱，系統(tǒng)會(huì)異步執(zhí)行flush操作，將內(nèi)存中的數(shù)據(jù)寫入文件猾普，形成HFile袜炕。
- 觸發(fā)條件
  - MemStore級(jí)別限制
    
    當(dāng)Region中任意一個(gè)MemStore的大小達(dá)到了上限（hbase.hregion.memstore.flush.size，默認(rèn)128MB）初家，會(huì)觸發(fā)MemStore刷新偎窘。
  - Region級(jí)別限制
    
    當(dāng)Region中所有MemStore的大小總和達(dá)到了上限（hbase.hregion.memstore.block.multiplier *hbase.hregion.memstore.flush.size），會(huì)觸發(fā)MemStore刷新溜在。
  - RegionServer級(jí)別限制
    
    當(dāng)RegionServer中MemStore的大小總和超過低水位閾值hbase.regionserver.global.memstore.size.lower.limit*hbase.regionserver.global.memstore.size陌知，RegionServer開始強(qiáng)制執(zhí)行flush，先f(wàn)lush MemStore最大的Region掖肋，再flush次大的仆葡，依次執(zhí)行。如果此時(shí)寫入吞吐量依然很高志笼，導(dǎo)致總MemStore大小超過高水位閾值hbase.regionserver.global.memstore.size沿盅，RegionServer會(huì)阻塞更新并強(qiáng)制執(zhí)行flush，直至總MemStore大小下降到低水位閾值纫溃。
    當(dāng)一個(gè)RegionServer中HLog數(shù)量達(dá)到上限（可通過參數(shù)hbase.regionserver.maxlogs配置）時(shí)腰涧，系統(tǒng)會(huì)選取最早的HLog對(duì)應(yīng)的一個(gè)或多個(gè)Region進(jìn)行f lush。
  - HBase級(jí)別限制
    
    默認(rèn)周期為1小時(shí)紊浩，確保MemStore不會(huì)長(zhǎng)時(shí)間沒有持久化窖铡。為避免所有的MemStore在同一時(shí)間都進(jìn)行flush而導(dǎo)致的問題疗锐，定期的f lush操作有一定時(shí)間的隨機(jī)延時(shí)。
  - 手動(dòng)觸發(fā)
    
    用戶可以通過shell命令flush 'tablename'或者flush 'regionname'分別對(duì)一個(gè)表或者一個(gè)Region進(jìn)行flush费彼。
- 執(zhí)行流程
  
  為了減少flush過程對(duì)讀寫的影響滑臊，HBase采用了類似于兩階段提交的方式，將整個(gè)flush過程分為三個(gè)階段敌买。
  - prepare階段
    
    遍歷當(dāng)前Region中的所有MemStore简珠，將MemStore中當(dāng)前數(shù)據(jù)集CellSkipListSet（內(nèi)部實(shí)現(xiàn)采用ConcurrentSkipListMap）做一個(gè)快照snapshot，然后再新建一個(gè)CellSkipListSet接收新的數(shù)據(jù)寫入虹钮。prepare階段需要添加updateLock對(duì)寫請(qǐng)求阻塞聋庵，結(jié)束之后會(huì)釋放該鎖。因?yàn)榇穗A段沒有任何費(fèi)時(shí)操作芙粱，因此持鎖時(shí)間很短祭玉。
  - flush階段
    
    遍歷所有MemStore，將prepare階段生成的snapshot持久化為臨時(shí)文件春畔，臨時(shí)文件會(huì)統(tǒng)一放到目錄.tmp下脱货。這個(gè)過程因?yàn)樯婕按疟PIO操作，因此相對(duì)比較耗時(shí)律姨。
  - commit階段
    
    遍歷所有的MemStore振峻，將flush階段生成的臨時(shí)文件移到指定的ColumnFamily目錄下，針對(duì)HFile生成對(duì)應(yīng)的storefile和Reader择份，把storefile添加到Store的storef iles列表中扣孟，最后再清空prepare階段生成的snapshot。
  - 注意
    
    在當(dāng)前大部分HBase1.x的Release中荣赶，上述prepare階段存在一個(gè)問題（HBASE-21738）：在使用updateLock鎖寫的過程中凤价，使用了ConcurrentSkipListMap#size()來統(tǒng)計(jì)MemStore的cell個(gè)數(shù)，而ConcurrentSkipListMap為了保證寫入刪除操作的高并發(fā)拔创，對(duì)size()接口采用實(shí)時(shí)遍歷的方式實(shí)現(xiàn)利诺，其時(shí)間復(fù)雜度為O(N)。正因?yàn)镃oncurrent SkipListMap#size()這個(gè)耗時(shí)操作剩燥，可能會(huì)在f lush階段造成較長(zhǎng)時(shí)間阻塞慢逾，嚴(yán)重拉高p999延遲。新版本已經(jīng)修復(fù)該Bug灭红，建議用戶升級(jí)到1.5.0或1.4.10（包括）以上版本侣滩。
- 生成HFile
  
  HFile依次由Scanned Block、Non-scanned Block比伏、Load-on-open以及Trailer四個(gè)部分組成。
  - Scanned Block
    
    這部分主要存儲(chǔ)真實(shí)的KV數(shù)據(jù)疆导，包括DataBlock赁项、Leaf Index Block和Bloom Block。
  - Non-scanned Block
    
    這部分主要存儲(chǔ)Meta Block，這種Block大多數(shù)情況下可以不用關(guān)心悠菜。
  - Load-on-open
    
    主要存儲(chǔ)HFile元數(shù)據(jù)信息舰攒，包括索引根節(jié)點(diǎn)、布隆過濾器元數(shù)據(jù)等，在RegionServer打開HFile就會(huì)加載到內(nèi)存，作為查詢的入口峡谊。
  - Trailer
    
    存儲(chǔ)Load-on-open和Scanned Block在HFile文件中的偏移量熊锭、文件大小（未壓縮）绰垂、壓縮算法、存儲(chǔ)KV個(gè)數(shù)以及HFile版本等基本信息。Trailer部分的大小是固定的蒂秘。
- MemStore Flush對(duì)業(yè)務(wù)影響
  
  在實(shí)踐過程中，f lush操作的不同觸發(fā)方式對(duì)用戶請(qǐng)求影響的程度不盡相同淘太。正常情況下姻僧，大部分MemStore Flush操作都不會(huì)對(duì)業(yè)務(wù)讀寫產(chǎn)生太大影響。比如系統(tǒng)定期刷新MemStore蒲牧、手動(dòng)執(zhí)行f lush操作撇贺、觸發(fā)MemStore級(jí)別限制、觸發(fā)HLog數(shù)量限制以及觸發(fā)Region級(jí)別限制等冰抢，這幾種場(chǎng)景只會(huì)阻塞對(duì)應(yīng)Region上的寫請(qǐng)求松嘶，且阻塞時(shí)間較短。然而晒屎，一旦觸發(fā)RegionServer級(jí)別限制導(dǎo)致f lush喘蟆，就會(huì)對(duì)用戶請(qǐng)求產(chǎn)生較大的影響。在這種情況下鼓鲁，系統(tǒng)會(huì)阻塞所有落在該RegionServer上的寫入操作蕴轨，直至MemStore中數(shù)據(jù)量降低到配置閾值內(nèi)。

讀取流程

和寫流程相比骇吭，HBase讀數(shù)據(jù)的流程更加復(fù)雜橙弱。主要基于兩個(gè)方面的原因：一是因?yàn)镠Base一次范圍查詢可能會(huì)涉及多個(gè)Region、多塊緩存甚至多個(gè)數(shù)據(jù)存儲(chǔ)文件燥狰；二是因?yàn)镠Base中更新操作以及刪除操作的實(shí)現(xiàn)都很簡(jiǎn)單棘脐，更新操作并沒有更新原有數(shù)據(jù)，而是使用時(shí)間戳屬性實(shí)現(xiàn)了多版本龙致；刪除操作也并沒有真正刪除原有數(shù)據(jù)蛀缝，只是插入了一條標(biāo)記為"deleted"標(biāo)簽的數(shù)據(jù)，而真正的數(shù)據(jù)刪除發(fā)生在系統(tǒng)異步執(zhí)行Major Compact的時(shí)候目代。很顯然屈梁，這種實(shí)現(xiàn)思路大大簡(jiǎn)化了數(shù)據(jù)更新嗤练、刪除流程，但是對(duì)于數(shù)據(jù)讀取來說卻意味著套上了層層枷鎖：讀取過程需要根據(jù)版本進(jìn)行過濾在讶，對(duì)已經(jīng)標(biāo)記刪除的數(shù)據(jù)也要進(jìn)行過濾煞抬。

Client-Server讀取交互邏輯

Client首先會(huì)從ZooKeeper中獲取元數(shù)據(jù)hbase:meta表所在的RegionServer，然后根據(jù)待讀寫rowkey發(fā)送請(qǐng)求到元數(shù)據(jù)所在RegionServer构哺，獲取數(shù)據(jù)所在的目標(biāo)RegionServer和Region（并將這部分元數(shù)據(jù)信息緩存到本地）革答，最后將請(qǐng)求進(jìn)行封裝發(fā)送到目標(biāo)RegionServer進(jìn)行處理。
Server端Scan框架體系

從宏觀視角來看曙强，一次scan可能會(huì)同時(shí)掃描一張表的多個(gè)Region残拐，對(duì)于這種掃描，客戶端會(huì)根據(jù)hbase:meta元數(shù)據(jù)將掃描的起始區(qū)間[startKey, stopKey)進(jìn)行切分旗扑，切分成多個(gè)互相獨(dú)立的查詢子區(qū)間蹦骑，每個(gè)子區(qū)間對(duì)應(yīng)一個(gè)Region。比如當(dāng)前表有3個(gè)Region臀防，Region的起始區(qū)間分別為：["a", "c")眠菇，["c", "e")，["e", "g")袱衷，客戶端設(shè)置scan的掃描區(qū)間為["b", "f")捎废。因?yàn)閽呙鑵^(qū)間明顯跨越了多個(gè)Region，需要進(jìn)行切分致燥，按照Region區(qū)間切分后的子區(qū)間為["b", "c")登疗，["c", "e")，["e", "f ")嫌蚤。HBase中每個(gè)Region都是一個(gè)獨(dú)立的存儲(chǔ)引擎辐益，因此客戶端可以將每個(gè)子區(qū)間請(qǐng)求分別發(fā)送給對(duì)應(yīng)的Region進(jìn)行處理。下文會(huì)聚焦于單個(gè)Region處理scan請(qǐng)求的核心流程脱吱。RegionServer接收到客戶端的get/scan請(qǐng)求之后做了兩件事情：首先構(gòu)建scanner iterator體系智政；然后執(zhí)行next函數(shù)獲取KeyValue，并對(duì)其進(jìn)行條件過濾箱蝠。
- 構(gòu)建Scanner Iterator體系
  
  Scanner的核心體系包括三層Scanner：RegionScanner续捂，StoreScanner，MemStoreScanner和StoreFileScanner宦搬。三者是層級(jí)的關(guān)系：
  一個(gè)RegionScanner由多個(gè)StoreScanner構(gòu)成牙瓢。一張表由多少個(gè)列簇組成，就有多少個(gè)StoreScanner间校，每個(gè)StoreScanner負(fù)責(zé)對(duì)應(yīng)Store的數(shù)據(jù)查找矾克。
  一個(gè)StoreScanner由MemStoreScanner和StoreFileScanner構(gòu)成。每個(gè)Store的數(shù)據(jù)由內(nèi)存中的MemStore和磁盤上的StoreFile文件組成憔足。相對(duì)應(yīng)的胁附，StoreScanner會(huì)為當(dāng)前該Store中每個(gè)HFile構(gòu)造一個(gè)StoreFileScanner差购，用于實(shí)際執(zhí)行對(duì)應(yīng)文件的檢索。同時(shí)汉嗽，會(huì)為對(duì)應(yīng)MemStore構(gòu)造一個(gè)MemStoreScanner，用于執(zhí)行該Store中MemStore的數(shù)據(jù)檢索找蜜。
- 執(zhí)行next函數(shù)獲取KeyValue并對(duì)其進(jìn)行條件過濾
過濾淘汰不符合查詢條件的HFile
從HFile中讀取待查找Key

Meta表

HBase一張表的數(shù)據(jù)是由多個(gè)Region構(gòu)成饼暑，而這些Region是分布在整個(gè)集群的RegionServer上的。那么客戶端在做任何數(shù)據(jù)操作時(shí)洗做，都要先確定數(shù)據(jù)在哪個(gè)Region上弓叛，然后再根據(jù)Region的RegionServer信息，去對(duì)應(yīng)的RegionServer上讀取數(shù)據(jù)诚纸。因此撰筷，HBase系統(tǒng)內(nèi)部設(shè)計(jì)了一張?zhí)厥獾谋怼猦base:meta表，專門用來存放整個(gè)集群所有的Region信息畦徘。hbase:meta中的hbase指的是namespace毕籽，HBase容許針對(duì)不同的業(yè)務(wù)設(shè)計(jì)不同的namespace，系統(tǒng)表采用統(tǒng)一的namespace井辆，即hbase关筒；meta指的是hbase這個(gè)namespace下的表名。

數(shù)據(jù)結(jié)構(gòu)

info:regioninfo

該列對(duì)應(yīng)的Value主要存儲(chǔ)4個(gè)信息杯缺，即EncodedName蒸播、RegionName、Region的StartRow萍肆、Region的StopRow袍榆。

info:seqnumDuringOpen

該列對(duì)應(yīng)的Value主要存儲(chǔ)Region打開時(shí)的sequenceId。
info:server

該列對(duì)應(yīng)的Value主要存儲(chǔ)Region落在哪個(gè)RegionServer上塘揣。

info:serverstartcode

該列對(duì)應(yīng)的Value主要存儲(chǔ)所在RegionServer的啟動(dòng)Timestamp包雀。

客戶端定位Region方式

HBase客戶端有一個(gè)叫做MetaCache的緩存，在調(diào)用HBaseAPI時(shí)勿负，客戶端會(huì)先去MetaCache中找到業(yè)務(wù)rowkey所在的Region馏艾，這個(gè)Region可能有以下三種情況：
?Region信息為空，說明MetaCache中沒有這個(gè)rowkey所在Region的任何Cache奴愉。此時(shí)直接用上述查詢語(yǔ)句去hbase:meta表中Reversed Scan即可琅摩，注意首次查找時(shí)，需要先讀取ZooKeeper的/hbase/meta-region-server這個(gè)ZNode锭硼，以便確定hbase:meta表所在的RegionServer房资。在hbase:meta表中找到業(yè)務(wù)rowkey所在的Region之后，將（regionStartRow, region）這樣的二元組信息存放在一個(gè)MetaCache中檀头。這種情況極少出現(xiàn)轰异，一般發(fā)生在HBase客戶端到服務(wù)端連接第一次建立后的少數(shù)幾個(gè)請(qǐng)求內(nèi)岖沛，所以并不會(huì)對(duì)HBase服務(wù)端造成巨大壓力。
?Region信息不為空搭独，但是調(diào)用RPC請(qǐng)求對(duì)應(yīng)RegionServer后發(fā)現(xiàn)Region并不在這個(gè)RegionServer上婴削。這說明MetaCache信息過期了，同樣直接ReversedScan hbase:meta表牙肝，找到正確的Region并緩存唉俗。通常，某些Region在兩個(gè)RegionServer之間移動(dòng)后會(huì)發(fā)生這種情況配椭。但事實(shí)上虫溜，無論是RegionServer宕機(jī)導(dǎo)致Region移動(dòng)，還是由于Balance導(dǎo)致Region移動(dòng)股缸，發(fā)生的幾率都極小衡楞。而且，也只會(huì)對(duì)Region移動(dòng)后的極少數(shù)請(qǐng)求產(chǎn)生影響敦姻，這些請(qǐng)求只需要通過HBase客戶端自動(dòng)重試locatemeta即可成功瘾境。
?Region信息不為空，且調(diào)用RPC請(qǐng)求到對(duì)應(yīng)RegionSsrver后镰惦，發(fā)現(xiàn)是正確的RegionServer寄雀。絕大部分的請(qǐng)求都屬于這種情況，也是代價(jià)極小的方案陨献。

負(fù)載均衡

Region遷移

作為一個(gè)分布式系統(tǒng)盒犹，分片遷移是最基礎(chǔ)的核心功能。集群負(fù)載均衡眨业、故障恢復(fù)等功能都是建立在分片遷移的基礎(chǔ)之上的急膀。比如集群負(fù)載均衡，可以簡(jiǎn)單理解為集群中所有節(jié)點(diǎn)上的分片數(shù)目保持相同龄捡。實(shí)際執(zhí)行分片遷移時(shí)可以分為兩個(gè)步驟：第一步卓嫂，根據(jù)負(fù)載均衡策略制定分片遷移計(jì)劃；第二步聘殖，根據(jù)遷移計(jì)劃執(zhí)行分片的實(shí)際遷移晨雳。HBase系統(tǒng)中，分片遷移就是Region遷移奸腺。和其他很多分布式系統(tǒng)不同餐禁，HBase中Region遷移是一個(gè)非常輕量級(jí)的操作。所謂輕量級(jí)突照，是因?yàn)镠Base的數(shù)據(jù)實(shí)際存儲(chǔ)在HDFS上帮非，不需要獨(dú)立進(jìn)行管理，因而Region在遷移的過程中不需要遷移實(shí)際數(shù)據(jù)，只要將讀寫服務(wù)遷移即可末盔。

Region狀態(tài)

其中筑舅，SPLITTING、SPLIT和SPLITTING_NEW 3個(gè)狀態(tài)是Region分裂過程中的狀態(tài)陨舱，MERGING翠拣、MERGED和MERGING_NEW 3個(gè)狀態(tài)是Region合并過程中的狀態(tài)，這6個(gè)狀態(tài)會(huì)在接下來兩節(jié)詳細(xì)講解游盲。本節(jié)重點(diǎn)關(guān)注OFFLINE心剥、OPENING、OPEN背桐、FAILED_OPEN、CLOSING蝉揍、CLOSED以及FAILED_CLOSE這7個(gè)狀態(tài)链峭。
unassign階段

Master生成事件M_ZK_REGION_CLOSING并更新到ZooKeeper組件，同時(shí)將本地內(nèi)存中該Region的狀態(tài)修改為PENDING_CLOSE又沾。
Master通過RPC發(fā)送close命令給擁有該Region的RegionServer弊仪，令其關(guān)閉該Region。
RegionServer接收到Master發(fā)送過來的命令后杖刷，生成一個(gè)RS_ZK_REGION_CLOSING事件励饵，更新到ZooKeeper。
Master監(jiān)聽到ZooKeeper節(jié)點(diǎn)變動(dòng)后滑燃，更新內(nèi)存中Region的狀態(tài)為CLOSING役听。
RegionServer執(zhí)行Region關(guān)閉操作。如果該Region正在執(zhí)行flush或者Compaction表窘，等待操作完成典予；否則將該Region下的所有MemStore強(qiáng)制flush，然后關(guān)閉Region相關(guān)的服務(wù)乐严。
關(guān)閉完成后生成事件RS_ZK_REGION_CLOSED瘤袖，更新到ZooKeeper。Master監(jiān)聽到ZooKeeper節(jié)點(diǎn)變動(dòng)后昂验，更新該Region的狀態(tài)為CLOSED捂敌。
assign階段

Master生成事件M_ZK_REGION_OFFLINE并更新到ZooKeeper組件，同時(shí)將本地內(nèi)存中該Region的狀態(tài)修改為PENDING_OPEN既琴。
Master通過RPC發(fā)送open命令給擁有該Region的RegionServer占婉，令其打開該Region。
RegionServer接收到Master發(fā)送過來的命令后甫恩，生成一個(gè)RS_ZK_REGION_OPENING事件锐涯，更新到ZooKeeper。
Master監(jiān)聽到ZooKeeper節(jié)點(diǎn)變動(dòng)后填物，更新內(nèi)存中Region的狀態(tài)為OPENING纹腌。
RegionServer執(zhí)行Region打開操作霎终，初始化相應(yīng)的服務(wù)。
打開完成之后生成事件RS_ZK_REGION_OPENED升薯，更新到ZooKeeper莱褒，Master監(jiān)聽到ZooKeeper節(jié)點(diǎn)變動(dòng)后，更新該Region的狀態(tài)為OPEN涎劈。

Region合并

在線合并Region是HBase非常重要的功能之一广凸。相比Region分裂，在線合并Region的使用場(chǎng)景比較有限蛛枚，最典型的一個(gè)應(yīng)用場(chǎng)景是谅海，在某些業(yè)務(wù)中本來接收寫入的Region在之后的很長(zhǎng)時(shí)間都不再接收任何寫入，而且Region上的數(shù)據(jù)因?yàn)門TL過期被刪除蹦浦。這種場(chǎng)景下的Region實(shí)際上沒有任何存在的意義扭吁，稱為空閑Region。一旦集群中空閑Region很多盲镶，就會(huì)導(dǎo)致集群管理運(yùn)維成本增加侥袜。此時(shí)，可以使用在線合并功能將這些Region與相鄰的Region合并溉贿，減少集群中空閑Region的個(gè)數(shù)枫吧。

合并流程

客戶端發(fā)送merge請(qǐng)求給Master
Master將待合并的所有Region都move到同一個(gè)RegionServer上
Master發(fā)送merge請(qǐng)求給該RegionServer。
RegionServer啟動(dòng)一個(gè)本地事務(wù)執(zhí)行merge操作宇色。
merge操作將待合并的兩個(gè)Region下線九杂，并將兩個(gè)Region的文件進(jìn)行合并。
將這兩個(gè)Region從hbase:meta中刪除宣蠕，并將新生成的Region添加到hbase:meta中尼酿。
將新生成的Region上線。

Region分裂

Region分裂是HBase最核心的功能之一植影，是實(shí)現(xiàn)分布式可擴(kuò)展性的基礎(chǔ)裳擎。HBase中，Region分裂有多種觸發(fā)策略可以配置思币，一旦觸發(fā)鹿响，HBase會(huì)尋找分裂點(diǎn)，然后執(zhí)行真正的分裂操作谷饿。

分裂策略
- ConstantSizeRegionSplitPolicy
  
  0.94版本之前默認(rèn)分裂策略惶我。表示一個(gè)Region中最大Store的大小超過設(shè)置閾值（hbase.hregion.max.filesize）之后會(huì)觸發(fā)分裂。ConstantSizeRegionSplitPolicy最簡(jiǎn)單博投，但是在生產(chǎn)線上這種分裂策略卻有相當(dāng)大的弊端——分裂策略對(duì)于大表和小表沒有明顯的區(qū)分绸贡。閾值（hbase.hregion.max.filesize）設(shè)置較大對(duì)大表比較友好，但是小表就有可能不會(huì)觸發(fā)分裂，極端情況下可能就只有1個(gè)Region听怕，這對(duì)業(yè)務(wù)來說并不是什么好事捧挺。如果閾值設(shè)置較小則對(duì)小表友好，但一個(gè)大表就會(huì)在整個(gè)集群產(chǎn)生大量的Region尿瞭，對(duì)于集群的管理闽烙、資源使用來說都不是一件好事。
- IncreasingToUpperBoundRegionSplitPolicy
  
  0.94版本～2.0版本默認(rèn)分裂策略声搁。這種分裂策略總體來看和ConstantSizeRegionSplitPolicy思路相同黑竞，一個(gè)Region中最大Store大小超過設(shè)置閾值就會(huì)觸發(fā)分裂。但是這個(gè)閾值并不像ConstantSizeRegionSplitPolicy是一個(gè)固定的值疏旨，而是在一定條件下不斷調(diào)整很魂，調(diào)整后的閾值大小和Region所屬表在當(dāng)前RegionServer上的Region個(gè)數(shù)有關(guān)系，調(diào)整后的閾值等于(#regions) *(#regions) * (#regions) * flushsize * 2檐涝，當(dāng)然閾值并不會(huì)無限增大遏匆，最大值為用戶設(shè)置的MaxRegionFileSize。這種分裂策略很好地彌補(bǔ)了ConstantSizeRegionSplitPolicy的短板骤铃，能夠自適應(yīng)大表和小表，而且在集群規(guī)模較大的場(chǎng)景下坷剧，對(duì)很多大表來說表現(xiàn)很優(yōu)秀惰爬。然而，這種策略并不完美惫企，比如在大集群場(chǎng)景下撕瞧，很多小表就會(huì)產(chǎn)生大量小Region，分散在整個(gè)集群中狞尔。
- SteppingSplitPolicy
  
  2.0版本默認(rèn)分裂策略丛版。這種分裂策略的分裂閾值也發(fā)生了變化，相比IncreasingToUpperBoundRegionSplitPolicy簡(jiǎn)單了一些偏序，分裂閾值大小和待分裂Region所屬表在當(dāng)前RegionServer上的Region個(gè)數(shù)有關(guān)系页畦，如果Region個(gè)數(shù)等于1，分裂閾值為f lush size * 2研儒，否則為MaxRegionFileSize豫缨。這種分裂策略對(duì)于大集群中的大表、小表會(huì)比IncreasingToUpperBoundRegionSplitPolicy更加友好端朵，小表不會(huì)再產(chǎn)生大量的小Region好芭。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市冲呢，隨后出現(xiàn)的幾起案子舍败，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 206,311評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件邻薯，死亡現(xiàn)場(chǎng)離奇詭異裙戏，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)弛说，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門挽懦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人木人，你說我怎么就攤上這事信柿。” “怎么了醒第？”我有些...
開封第一講書人閱讀 152,671評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵渔嚷，是天一觀的道長(zhǎng)。經(jīng)常有香客問我稠曼，道長(zhǎng)形病，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,252評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任霞幅，我火速辦了婚禮漠吻，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘司恳。我一直安慰自己途乃，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布扔傅。她就那樣靜靜地躺著耍共，像睡著了一般。火紅的嫁衣襯著肌膚如雪猎塞。梳的紋絲不亂的頭發(fā)上试读，一...
開封第一講書人閱讀 49,031評(píng)論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音荠耽，去河邊找鬼钩骇。笑死，一個(gè)胖子當(dāng)著我的面吹牛铝量，可吹牛的內(nèi)容都是我干的伊履。我是一名探鬼主播，決...
沈念sama閱讀 38,340評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼款违，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼唐瀑！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起插爹，我...
開封第一講書人閱讀 36,973評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤哄辣，失蹤者是張志新（化名）和其女友劉穎请梢，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體力穗，經(jīng)...
沈念sama閱讀 43,466評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡毅弧，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了当窗。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片够坐。...
茶點(diǎn)故事閱讀 38,039評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖崖面，靈堂內(nèi)的尸體忽然破棺而出元咙，到底是詐尸還是另有隱情，我是刑警寧澤巫员，帶...
沈念sama閱讀 33,701評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布庶香，位于F島的核電站，受9級(jí)特大地震影響简识，放射性物質(zhì)發(fā)生泄漏赶掖。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一七扰、第九天我趴在偏房一處隱蔽的房頂上張望奢赂。院中可真熱鬧，春花似錦颈走、人聲如沸膳灶。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評(píng)論 0贊 19
一樁弒父案疫鹊，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)袖瞻。三九已至司致，卻和暖如春拆吆，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背脂矫。一陣腳步聲響...
開封第一講書人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國(guó)打工枣耀，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人庭再。一個(gè)月前我還...
沈念sama閱讀 45,497評(píng)論 2贊 354
代替公主和親
正文我出身青樓捞奕，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親拄轻。傳聞我的和親對(duì)象是個(gè)殘疾皇子颅围，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評(píng)論 2贊 345

Pinpoint系列之Hbase存儲(chǔ)介紹

系統(tǒng)特性

優(yōu)勢(shì)

劣勢(shì)

體系結(jié)構(gòu)

總架構(gòu)圖

HBase客戶端

ZooKeeper

Master

RegionServer

HDFS

數(shù)據(jù)模型

table(表)

row(行)

timestamp(時(shí)間戳)

cell(具體value)

column(列)

數(shù)據(jù)結(jié)構(gòu)

跳躍表

多路歸并

LSM樹

布隆過濾器

Compaction

Minor Compaction

Major Compaction

RegionServer核心模塊

HLog

MemStore

HFile

BlockCache

讀寫流程

寫入流程

讀取流程

Meta表

數(shù)據(jù)結(jié)構(gòu)

客戶端定位Region方式

負(fù)載均衡

Region遷移

Region合并

Region分裂

推薦閱讀更多精彩內(nèi)容