HBase從入門到放棄

先放入一張HBase架構(gòu)整理鎮(zhèn)樓

HBase解決了什么問題:

1)HBase主要解決在Hdfs上可以隨機讀寫的問題

2)Hive只能查詢胎食,不能隨機讀寫



一竖配、HBase依賴于Zookeeper和HDFS

1)Zookeeper

HBase通過Zookeeper來做master的高可用、RegionServer的監(jiān)控朋沮、元數(shù)據(jù)的入口以及集群配置的維護等工作仲器。具體工作如下:

通過Zoopkeeper來保證集群中只有1個master在運行,如果master異常嗜闻,會通過競爭機制產(chǎn)生新的master提供服務(wù)

通過Zoopkeeper來監(jiān)控RegionServer的狀態(tài),當RegionSevrer有異常的時候桅锄,通過回調(diào)的形式通知Master RegionServer上下線的信息

通過Zoopkeeper存儲元數(shù)據(jù)的統(tǒng)一入口地址


2)HDFS

HDFS為Hbase提供最終的底層數(shù)據(jù)存儲服務(wù)琉雳,同時為HBase提供高可用(Hlog存儲在HDFS)的支持,具體功能概括如下:

提供元數(shù)據(jù)和表數(shù)據(jù)的底層分布式存儲服務(wù)

數(shù)據(jù)多副本友瘤,保證的高可靠和高可用性



二咐吼、HBase中的角色

1.3.1 HMaster

功能

1.監(jiān)控RegionServer

2.處理RegionServer故障轉(zhuǎn)移

3.處理元數(shù)據(jù)的變更

4.處理region的分配或轉(zhuǎn)移

5.在空閑時間進行數(shù)據(jù)的負載均衡

6.通過Zookeeper發(fā)布自己的位置給客戶端


1.3.2 RegionServer

功能

1、HregionServer直接對接用戶的讀寫請求商佑,是真正的“干活”的節(jié)點。它的功能概括如下:

2厢塘、管理master為其分配的Region

3茶没、處理來自客戶端的讀寫請求

4肌幽、負責和底層HDFS的交互,存儲數(shù)據(jù)到HDFS

5抓半、負責Region變大以后的拆分

6喂急、負責Storefile的合并工作


1.2.3相關(guān)名詞

1. Hlog:寫數(shù)據(jù)時會先把操作寫到Hlog,可以數(shù)據(jù)恢復笛求,如果某一臺RegionServer宕機了廊移,Hmaster通過Hlog的備份,把這臺RegionServer的表負載到不同的RegionServer上

2. Region:Hbase表的分片探入,HBase表會根據(jù)RowKey值被切分成不同的region存儲在RegionServer中狡孔,在一個RegionServer中可以有多個不同的region。

3. Store:HFile存儲在Store中蜂嗽,一個Store對應(yīng)HBase表中的一個列族苗膝。

4. MemStore:讀緩存

5. BlockCache:寫緩存

5. HFile:這是在磁盤上保存原始數(shù)據(jù)的實際的物理文件,是實際的存儲文件植旧。StoreFile是以Hfile的形式存儲在HDFS的辱揭。



三、HBase表的數(shù)據(jù)結(jié)構(gòu)

一病附、rowkey每張表的唯一主鍵

RowKey是用來檢索的主鍵


二问窃、column family列族

Hbase表中的每個列,都歸屬于某個列族完沪,列族是表schema的一部分(而列不是),必須在使用表之前定義域庇,列名都以列族為前綴。例如:courses:history丽焊,courses:math较剃;都屬于course這個列族


三、Cell單元格

Hbase中通過rowkey和columns確定的一個存儲單元稱為cell技健,每個cell保存著同一份數(shù)據(jù)的多個版本写穴。版本通過時間戳來索引,cell中的數(shù)據(jù)是沒有類型的雌贱,全都是字節(jié)碼形式存儲

關(guān)鍵字:無類型啊送,字節(jié)碼


四、TimeStamp時間戳

Hbase中通過rowkey和columns確定的一個存儲單元稱為cell欣孤,每個cell保存著同一份數(shù)據(jù)的多個版本馋没。版本通過時間戳來索引



四、HBase的讀寫流程

①? HBase的讀數(shù)據(jù)流程:

1)? Client向Zookeeper發(fā)送請求降传,得到meta表所在位置(如regionServer hadoop102)

2)? Client獲取mate表數(shù)據(jù)

3)? 讀取的rowKey所在的regionServer篷朵,先讀取緩存,緩存沒有讀取磁盤

4)? 返回讀取到數(shù)據(jù)


② Hbase寫數(shù)據(jù)流程

1) Client向Zookeeper發(fā)送請求,得到meta表所在位置(如regionServer hadoop102)

2) Client獲取mate表數(shù)據(jù)声旺,得到要寫到哪個region

3)?先寫數(shù)據(jù)到Hlog(為了數(shù)據(jù)的恢復)

4) 在寫到內(nèi)存笔链,當內(nèi)存足夠大會溢寫到HDFS,溢寫文件數(shù)量超過三個時腮猖,合并文件


③ 數(shù)據(jù)flush過程

1)當MemStore數(shù)據(jù)達到閾值(默認是128M鉴扫,老版本是64M),將數(shù)據(jù)刷到硬盤澈缺,將內(nèi)存中的數(shù)據(jù)刪除坪创,同時刪除HLog中的歷史數(shù)據(jù);

2)并將數(shù)據(jù)存儲到HDFS中姐赡;

3)在HLog中做標記點莱预。


④ 數(shù)據(jù)合并過程

1)當數(shù)據(jù)塊拆過三塊,Hmaster觸發(fā)合并操作雏吭,Region將數(shù)據(jù)塊加載到本地锁施,進行合并;

2)當合并的數(shù)據(jù)超過256M杖们,進行拆分悉抵,將拆分后的Region分配給不同的HregionServer管理;

3)當HregionServer宕機后摘完,將HregionServer上的hlog拆分姥饰,然后分配給不同的HregionServer加載,修改.META.孝治;

4)注意:HLog會同步到HDFS列粪。



五、HBase rowkey設(shè)計和預分區(qū)

Rowkey設(shè)計原則:

· 唯一性

· 散列(避免熱點)

· 長度


為了<散列>我們引入了預分區(qū):

· HBase默認建表時有一個region谈飒,這個region的rowkey是沒有邊界的岂座,即沒有startkey和endkey,在數(shù)據(jù)寫入時杭措,所有數(shù)據(jù)都會寫入這個默認的region担巩,隨著數(shù)據(jù)量的不斷增加闭树,此region已經(jīng)不能承受不斷增長的數(shù)據(jù)量,會進行split,分成2個region呀非。在此過程中湖苞,會產(chǎn)生兩個問題:

1. 數(shù)據(jù)往一個region上寫,會有寫熱點問題片部。

2. region split會消耗寶貴的集群I/O資源拱烁。


· 基于此我們可以控制在建表的時候,創(chuàng)建多個空region崩哩,并確定每個region的起始和終止rowky巡球,這樣只要我們的rowkey設(shè)計能均勻的命中各個region,就不會存在寫熱點問題。自然split的幾率也會大大降低辕漂。當然隨著數(shù)據(jù)量的不斷增長呢灶,該split的還是要進行split。像這樣預先創(chuàng)建hbase表分區(qū)的方式钉嘹,稱之為預分區(qū);



六鲸阻、Hbase API

1跋涣、HbaseAdmin admin = connection.getAdmin( ),獲取admin對象

admin:做DDL(數(shù)據(jù)庫定義語言)鸟悴,對命名空間陈辱,表,列族的 創(chuàng)建细诸、修改沛贪、刪除操作

①查看表是否存在:admin.tableExists(tableName)

②創(chuàng)建表:descript對象

HTableDescriptor descriptor = new HTabelDescriptor(TableName.valueOf(tableName)); //創(chuàng)建HTableDescriptor(表描述)對象

descriptor.addFamily(new HColumnDescriptor(columnFamily1)); ?//表描述 添加 列描述

admin.createTabel(descriptor); //根據(jù)描述創(chuàng)建表

③刪除表: admin.deleteTbale(tableName);



2、HTable table = connection.getTable( )震贵,獲取table對象

table:做DML(數(shù)據(jù)操縱語言)利赋,對數(shù)據(jù)的增刪改查

①插入數(shù)據(jù): PUT對象

//根據(jù)rowkey創(chuàng)建put對象,Bytes是Utils類中轉(zhuǎn)換字符串為字節(jié)數(shù)組猩系,因為Hbase存儲都是字節(jié)數(shù)組

Put put = new Put(Bytes.toBytes(rowKey));

put.add(Bytes.toBytes(columnFamily),Bytes.tiBytes(column),Bytes.toBytes(value)); //根據(jù)行

table.put(put); //向表中添加數(shù)據(jù)

table.colse(); //關(guān)閉資源媚送,源碼中為關(guān)閉執(zhí)行池和關(guān)閉連接



②刪除數(shù)據(jù):delete對象

List deleteList = new ArrayList();

Delete delete1 = new Delete(Bytes.toBytes(rowkey)); //根據(jù)rowkey創(chuàng)建delete對象

deleteList.add(delete1);

table.delete(deleteList); //每次刪除一組rowkey對應(yīng)的數(shù)據(jù)



③獲取所有數(shù)據(jù)scan對象

Scan scan = new Scan(); //得到用于掃描region的對象

ResultScanner resulteScanner = hTable.getScanner(scan); //掃描所有數(shù)據(jù)的結(jié)果

for(Result result : resultScanner){ //Result是一行數(shù)據(jù)的結(jié)果

????Cell[] cells = result.rawRow(); //cell是一個單元格對象

????for(Cell cell : cells){

????CellUtils.cloneValue; //獲取單元格的值

????}

}


④獲取單行數(shù)據(jù)get對象

Get get = new Get(Bytes.toBytes(rowkey));?

get.setMaxVersions(); //顯示最后一個版本

get.setTimeStamp(); //顯示指定時間戳的版本

get.addColumn(Bytes.toBytes(column_family),Bytes.toBytes(qualifier)); //指定列族:列


// 遍歷數(shù)據(jù)集

Result result = table.get(get); //獲取一行數(shù)據(jù)

Cell[] cells ?= result.rawRow(); //獲取所有單元格

for(Cell cell : cells){

????CellUtils.cloneValue; //獲取單元格的值

}



hbase周末小總結(jié)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末寇甸,一起剝皮案震驚了整個濱河市塘偎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拿霉,老刑警劉巖吟秩,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異绽淘,居然都是意外死亡涵防,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門收恢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來武学,“玉大人,你說我怎么就攤上這事伦意』鹬希” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵驮肉,是天一觀的道長熏矿。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么票编? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任褪储,我火速辦了婚禮,結(jié)果婚禮上慧域,老公的妹妹穿的比我還像新娘鲤竹。我一直安慰自己,他們只是感情好昔榴,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布辛藻。 她就那樣靜靜地躺著,像睡著了一般互订。 火紅的嫁衣襯著肌膚如雪吱肌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天仰禽,我揣著相機與錄音氮墨,去河邊找鬼。 笑死吐葵,一個胖子當著我的面吹牛规揪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播折联,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼粒褒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了诚镰?” 一聲冷哼從身側(cè)響起奕坟,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎清笨,沒想到半個月后月杉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡抠艾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年苛萎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片检号。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡腌歉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出齐苛,到底是詐尸還是另有隱情翘盖,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布凹蜂,位于F島的核電站馍驯,受9級特大地震影響阁危,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜汰瘫,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一狂打、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧混弥,春花似錦趴乡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蛹磺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間同仆,已是汗流浹背萤捆。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留俗批,地道東北人俗或。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像岁忘,于是被迫代替她去往敵國和親辛慰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345