hbase bulkload 寫入數(shù)據(jù)

hbase 寫入數(shù)據(jù)有以下三種方式:

1.利用hbase提供的api寫入

2.通過mr任務(wù)將數(shù)據(jù)寫入

3.通過bulkload工具將數(shù)據(jù)寫入

前兩種寫入方式在面對大數(shù)據(jù)量寫入的時(shí)候效率會很低下看靠,因?yàn)樗鼈兌际峭ㄟ^請求regionserver將數(shù)據(jù)寫入液走,這期間數(shù)據(jù)會先寫入memstore,memstore達(dá)到閾值后會刷寫到磁盤生成hfile文件锨侯,hfile文件過多時(shí)會發(fā)生compaction,如果region大小過大時(shí)也會發(fā)生split绘闷。這些因素都會影響hbase數(shù)據(jù)寫入的效率器予,因此在面臨大數(shù)據(jù)寫入時(shí),這兩種方式是不合適的狈谊。

而bulkload正好解決了這個(gè)問題,bulkload工具是將數(shù)據(jù)直接寫入到hfile文件中沟沙,寫入完畢后河劝,通知hbase去加載這些hfile文件,因此可以避免上述耗時(shí)的因素矛紫,大大增加了數(shù)據(jù)寫入的效率赎瞎。下面就來講述下如何利用bulkloan加載數(shù)據(jù)。

這里通過hbase shell創(chuàng)建一個(gè)person表颊咬,person表有兩個(gè)列族分別為 "basic","social"务甥,結(jié)果如下圖所示:

image.png

注:因?yàn)檫@里講解的是bulkload加載數(shù)據(jù),因此對于rowkey的設(shè)計(jì)沒有做過多的處理

輸入源為txt格式文件喳篇,格式類型如下所示:

image

這里通過mr任務(wù)生成hfile文件敞临,再通過bulkload下載hfile到hbase中去,mr任務(wù)代碼如下:


package com.zjc.spark;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.TableName;

import org.apache.hadoop.hbase.client.*;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;

import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

* Created by zjc on 2018/12/26.

*/

public class sparkApplication10 {

public static class bulkLoadextends Mapper {

@Override

        protected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {

String[] strs = value.toString().split(",");

            String rowKey = strs[0];

            ImmutableBytesWritable ibw =new ImmutableBytesWritable(Bytes.toBytes(rowKey));

            Put put =new Put(Bytes.toBytes(rowKey));

            put.addColumn(Bytes.toBytes("basic"), Bytes.toBytes("name"), Bytes.toBytes(strs[1]));

            put.addColumn(Bytes.toBytes("basic"), Bytes.toBytes("age"), Bytes.toBytes(strs[4]));

            put.addColumn(Bytes.toBytes("basic"), Bytes.toBytes("birth"), Bytes.toBytes(strs[5]));

            put.addColumn(Bytes.toBytes("social"), Bytes.toBytes("idnum"), Bytes.toBytes(strs[2]));

            put.addColumn(Bytes.toBytes("social"), Bytes.toBytes("phone"), Bytes.toBytes(strs[3]));

            put.addColumn(Bytes.toBytes("social"), Bytes.toBytes("sex"), Bytes.toBytes(strs[6]));

            put.addColumn(Bytes.toBytes("social"), Bytes.toBytes("address"), Bytes.toBytes(strs[7]));

            put.addColumn(Bytes.toBytes("social"), Bytes.toBytes("company"), Bytes.toBytes(strs[8]));

            context.write(ibw, put);

        }

}

public static Configurationconf =null;

    public static Connectionconn =null;

    public static Tablet =null;

    public static RegionLocatorlocator =null;

    public static Adminadmin =null;

    static {

conf = HBaseConfiguration.create();

        conf.set("hbase.zookeeper.quorum", "自個(gè)兒的zk地址");

    }

public static void main(String[] args) {

try {

//獲得hbase 表資源

            conn = ConnectionFactory.createConnection(conf);

            t =conn.getTable(TableName.valueOf("person"));

            locator =conn.getRegionLocator(TableName.valueOf("person"));

            admin =conn.getAdmin();

            //定義一個(gè)mr job

            Job job = Job.getInstance();

            job.setJarByClass(sparkApplication10.class);

            //定義map任務(wù)輸出key value 類型

            job.setMapperClass(sparkApplication10.bulkLoad.class);

            job.setMapOutputKeyClass(ImmutableBytesWritable.class);

            job.setMapOutputValueClass(Put.class);

            //定義輸入輸出文件格式類型

            job.setInputFormatClass(TextInputFormat.class);

            job.setOutputFormatClass(HFileOutputFormat2.class);

            //定義輸入輸出文件路徑

            FileInputFormat.addInputPath(job, new Path("/test6/"));

            FileOutputFormat.setOutputPath(job, new Path("/tmp/"));

            //配置bulkLoad

            HFileOutputFormat2.configureIncrementalLoad(job, t, locator);

            boolean b = job.waitForCompletion(true);

            //hbase 下載hfile文件

            LoadIncrementalHFiles load =new LoadIncrementalHFiles(conf);

            load.doBulkLoad(new Path("/tmp/"), admin, t, locator);

        }catch (Exception e) {

System.out.println(e);

        }finally {

//resources closed

        }

}

}

然后將該項(xiàng)目打成一個(gè)jar包麸澜,將jar包提交到y(tǒng)arn運(yùn)行挺尿,執(zhí)行結(jié)果如下:

image

查看hbase shell 表中是否有導(dǎo)入的數(shù)據(jù):

image

到此,數(shù)據(jù)導(dǎo)入成功炊邦,筆者親測编矾,7000w的數(shù)據(jù)量3臺虛擬機(jī)默認(rèn)配置導(dǎo)入到Hbase中僅花費(fèi)40分鐘不到。本篇文章中主要運(yùn)用mr 任務(wù)將數(shù)據(jù)導(dǎo)入到hbase中馁害,bulkload也支持spark導(dǎo)入窄俏,不過spark官方文檔主要運(yùn)用scala來實(shí)現(xiàn)的。等有機(jī)會的時(shí)候再研究研究java實(shí)現(xiàn)方式的碘菜。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末裆操,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子炉媒,更是在濱河造成了極大的恐慌,老刑警劉巖昆烁,帶你破解...
    沈念sama閱讀 212,029評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吊骤,死亡現(xiàn)場離奇詭異,居然都是意外死亡静尼,警方通過查閱死者的電腦和手機(jī)白粉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,395評論 3 385
  • 文/潘曉璐 我一進(jìn)店門传泊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鸭巴,你說我怎么就攤上這事眷细。” “怎么了鹃祖?”我有些...
    開封第一講書人閱讀 157,570評論 0 348
  • 文/不壞的土叔 我叫張陵溪椎,是天一觀的道長。 經(jīng)常有香客問我恬口,道長校读,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,535評論 1 284
  • 正文 為了忘掉前任祖能,我火速辦了婚禮歉秫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘养铸。我一直安慰自己雁芙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,650評論 6 386
  • 文/花漫 我一把揭開白布钞螟。 她就那樣靜靜地躺著兔甘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪筛圆。 梳的紋絲不亂的頭發(fā)上裂明,一...
    開封第一講書人閱讀 49,850評論 1 290
  • 那天,我揣著相機(jī)與錄音太援,去河邊找鬼闽晦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛提岔,可吹牛的內(nèi)容都是我干的仙蛉。 我是一名探鬼主播,決...
    沈念sama閱讀 39,006評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼碱蒙,長吁一口氣:“原來是場噩夢啊……” “哼荠瘪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赛惩,我...
    開封第一講書人閱讀 37,747評論 0 268
  • 序言:老撾萬榮一對情侶失蹤哀墓,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后喷兼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體篮绰,經(jīng)...
    沈念sama閱讀 44,207評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,536評論 2 327
  • 正文 我和宋清朗相戀三年季惯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吠各。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臀突。...
    茶點(diǎn)故事閱讀 38,683評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖贾漏,靈堂內(nèi)的尸體忽然破棺而出候学,到底是詐尸還是另有隱情,我是刑警寧澤纵散,帶...
    沈念sama閱讀 34,342評論 4 330
  • 正文 年R本政府宣布梳码,位于F島的核電站,受9級特大地震影響困食,放射性物質(zhì)發(fā)生泄漏边翁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,964評論 3 315
  • 文/蒙蒙 一硕盹、第九天 我趴在偏房一處隱蔽的房頂上張望符匾。 院中可真熱鬧,春花似錦瘩例、人聲如沸啊胶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,772評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焰坪。三九已至,卻和暖如春聘惦,著一層夾襖步出監(jiān)牢的瞬間某饰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,004評論 1 266
  • 我被黑心中介騙來泰國打工善绎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留黔漂,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,401評論 2 360
  • 正文 我出身青樓禀酱,卻偏偏與公主長得像炬守,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子剂跟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,566評論 2 349

推薦閱讀更多精彩內(nèi)容

  • HBase那些事 @(大數(shù)據(jù)工程學(xué)院)[HBase, Hadoop, 優(yōu)化, HadoopChen, hbase]...
    分癡閱讀 3,931評論 3 17
  • 簡介 HBase是高可靠性减途,高性能,面向列曹洽,可伸縮的分布式存儲系統(tǒng)鳍置,利用HBase技術(shù)可在廉價(jià)PC Serve...
    九世的貓閱讀 2,179評論 1 6
  • 一、簡介 Hbase:全名Hadoop DataBase送淆,是一種開源的墓捻,可伸縮的,嚴(yán)格一致性(并非最終一致性)的分...
    菜鳥小玄閱讀 2,369評論 0 12
  • HBase存儲架構(gòu)圖 HBase Master 為Region server分配region 負(fù)責(zé)Region s...
    kimibob閱讀 5,572評論 0 52
  • 本文首先簡單介紹了HBase,然后重點(diǎn)講述了HBase的高并發(fā)和實(shí)時(shí)處理數(shù)據(jù) 、HBase數(shù)據(jù)模型砖第、HBase物理...
    達(dá)微閱讀 2,730評論 1 13