表創(chuàng)建
HBase的表創(chuàng)建可以通過hbase shell
和Java API
。另外如果需要對(duì)列簇進(jìn)行修改的時(shí)候荸型,需要先去disable表盹靴。
通過Java API修改列簇例如
Configuration config = HBaseConfiguration.create();
Admin admin = new Admin(conf);
TableName table = TableName.valueOf("myTable");
admin.disableTable(table);
HColumnDescriptor cf1 = ...;
admin.addColumn(table, cf1); // adding new ColumnFamily
HColumnDescriptor cf2 = ...;
admin.modifyColumn(table, cf2); // modifying existing ColumnFamily
admin.enableTable(table);
表設(shè)計(jì)關(guān)鍵點(diǎn)
因?yàn)閿?shù)據(jù)集千差萬別,有很多不同的期望瑞妇,所以根據(jù)官網(wǎng)的這些經(jīng)驗(yàn)只是作為一個(gè)參考稿静。
- 每個(gè)region的size保持在10--50G
- 每個(gè)cell最好不要超過10MB,如果使用HBaseMob辕狰,不要超過50MB改备。否則,直接存儲(chǔ)數(shù)據(jù)到HDFS上蔓倍,然后存儲(chǔ)一個(gè)指標(biāo)索引到HBase中悬钳。
- 一個(gè)典型的表設(shè)計(jì)在1--3個(gè)列簇盐捷。
- 一張表中region數(shù)量最好在50--100個(gè),一個(gè)region上存儲(chǔ)的是列簇?cái)?shù)據(jù)的連續(xù)段默勾。
- 保證列簇的名字盡可能的短碉渡,列簇名在每個(gè)value中都有存儲(chǔ),不要認(rèn)為它類似于RDBMS表中的列名一樣母剥,具備解釋說明的含義滞诺。
- 如果說rowkey的設(shè)計(jì)是基于時(shí)間線或者日志信息來設(shè)計(jì)的,對(duì)表操作的讀寫环疼,基本會(huì)落在新region上铭段,較舊的數(shù)據(jù)不會(huì)進(jìn)行太多讀寫操作,這時(shí)候可以允許多region的存儲(chǔ)秦爆。
- 如果只有一個(gè)列簇有比較大規(guī)模的寫入請(qǐng)求序愚,且只有寫入請(qǐng)求占用內(nèi)存,這時(shí)候可以調(diào)配內(nèi)存資源在寫入模式上等限。
RegionServer的設(shè)計(jì)關(guān)鍵點(diǎn)
Personally I would place the maximum disk space per machine that can be served exclusively with HBase around 6T, unless you have a very read-heavy workload. In that case the Java heap should be 32GB (20G regions, 128M memstores, the rest defaults).
— Lars Hofhansl
從這段指導(dǎo)原則來看爸吮,我們?cè)诖罱℉Base集群的時(shí)候,盡可能的使用大機(jī)器來做regionserver望门。對(duì)于寫操作而言形娇,每個(gè)region 20G大小,可以設(shè)置128M的memstores筹误。
列簇的設(shè)計(jì)
對(duì)于列簇而言桐早,設(shè)計(jì)原則是盡可能的少,如果是有兩個(gè)列簇厨剪,盡可能的保證數(shù)量size一致哄酝。因?yàn)槿绻粋€(gè)列簇A行有100萬,列簇B行有10億祷膳。這時(shí)候因?yàn)榱写谹分配在多個(gè)region上陶衅,會(huì)導(dǎo)致其scan的效率過低。
rowkey的設(shè)計(jì)
rowkey的設(shè)計(jì)關(guān)鍵點(diǎn)就是防止熱點(diǎn)數(shù)據(jù)的產(chǎn)生直晨,也就防止把數(shù)據(jù)都集中在少數(shù)的region上搀军,導(dǎo)致讀寫效率的問題。要設(shè)計(jì)一個(gè)好的rowkey勇皇,就需要給rowkey進(jìn)行Salting罩句,通用的方式就是使用散列算法添加前綴。例如:
a-foo0003
b-foo0001
c-foo0003
c-foo0004
d-foo0002
關(guān)于rowkey的設(shè)計(jì)還有很多需要注意的地方敛摘,在此不做展開討論门烂。
版本的設(shè)計(jì)
不建議將最大版本數(shù)設(shè)置為過高的水平(例如,數(shù)百個(gè)或更多)着撩,除非非常需要那些舊值诅福,因?yàn)檫@會(huì)大大增加StoreFile的大小。