HBase掃描操作Scan

HBase掃描操作Scan

1 介紹

掃描操作的使用和get()方法類(lèi)似庆亡。同樣匾乓,和其他函數(shù)類(lèi)似,這里也提供了Scan類(lèi)又谋。但是由于掃描工作方式類(lèi)似于迭代器拼缝,所以用戶(hù)無(wú)需調(diào)用san()方法創(chuàng)建實(shí)例,只需要調(diào)用HTable的getScanner()方法,此方法才是返回真正的掃描器(scanner)實(shí)例的同時(shí)彰亥,用戶(hù)也可以使用它迭代獲取數(shù)據(jù)珍促,Table中的可用的方法如下:

ResultScanner getScanner(Scan scan)
ResultScanner getScanner(byte[] family)
ResultScanner getScanner(byte[] family, byte[] qualifier)

后兩個(gè)為了方便用戶(hù),隱式地幫助用戶(hù)創(chuàng)建一個(gè)Scan實(shí)例剩愧,邏輯中最后調(diào)用getScanner(Scan scan)方法。Scan類(lèi)擁有以下構(gòu)造器:

public Scan()
public Scan(byte [] startRow)
public Scan(byte [] startRow, byte [] stopRow)
public Scan(byte [] startRow, Filter filter)
public Scan(Get get)
public Scan(Scan scan)

用戶(hù)可以選擇性的提供startRow參數(shù)娇斩,來(lái)定義掃描讀取HBase表的起始行鍵仁卷,即行鍵不是必須指定的。同時(shí)可選stopRow參數(shù)來(lái)限定讀取到何處停止犬第。

其實(shí)行包括在內(nèi)锦积,而終止行不包含在內(nèi)。一般區(qū)間表示為[startRow,stopRow)

掃描操作有一個(gè)特點(diǎn):用戶(hù)提供的參數(shù)不必精確匹配兩行歉嗓。掃描會(huì)匹配相等或者大于給定的起始行的行鍵丰介。如果沒(méi)有顯示地指定起始行,它會(huì)從表的起始位置開(kāi)始獲取數(shù)據(jù)。

當(dāng)遇到了與設(shè)置的終止行相同或者大于終止行的行鍵時(shí)哮幢,掃描也會(huì)終止带膀。如果沒(méi)有指定終止鍵,會(huì)掃描到表尾橙垢。

另一個(gè)可選的參數(shù)叫做過(guò)濾器(filter),可直接指向Filter實(shí)例垛叨。盡管Scan實(shí)例通常由空白構(gòu)造器構(gòu)造,但其所有可選參數(shù)都有對(duì)應(yīng)的getter方法和setter方法柜某。

創(chuàng)建Scan實(shí)例后嗽元,用戶(hù)可能還要給它增加更多限制條件。這種情況下喂击,用戶(hù)仍然可以使用空白 參數(shù)的掃描剂癌,它可以讀取整個(gè)表格,包括所有列族以及它們的所有列翰绊∨骞龋可以用多種方法限制要讀取的數(shù)據(jù):

public Scan addFamily(byte [] family)                     // 方法限制返回?cái)?shù)據(jù)的列族
public Scan addColumn(byte [] family, byte [] qualifier)  // 方法限制返回的列
Scan setTimeRange(long minStamp,long maxStamp)            // 設(shè)置時(shí)間范圍
Scan setTimeStamp(long timestamp)                         // 設(shè)置時(shí)間戳
Scan setMaxVersions()                                     // 設(shè)置最大版本數(shù)
Scan setMaxVersions(int maxVersions)                      // 設(shè)置最大版本數(shù)

2 示例代碼

@Test
public void testScan() throws IOException {
    Connection conn = ConnectionFactory.createConnection();
    Table table = conn.getTable(TableName.valueOf("ns1:t1"));
    Scan scan = new Scan(Bytes.toBytes("row"),Bytes.toBytes("row010"));
    scan.addFamily(Bytes.toBytes("f1"));
    ResultScanner scanner = table.getScanner(scan)
    Iterator<Result> results = scanner.iterator();
    while (results.hasNext()){
        Result r = results.next();
        String rowId = Bytes.toString(r.getRow())
        Cell cId = r.getColumnLatestCell(Bytes.toBytes("f1"),Bytes.toBytes("id"));
        Cell cName = r.getColumnLatestCell(Bytes.toBytes("f1"),Bytes.toBytes("name"));
        Cell cAge = r.getColumnLatestCell(Bytes.toBytes("f1"),Bytes.toBytes("age"))
        int id = Bytes.toInt(CellUtil.cloneValue(cId));
        String name = Bytes.toString(CellUtil.cloneValue(cName));
        int age = Bytes.toInt(CellUtil.cloneValue(cAge))
        System.out.println("-----------------------------");
        System.out.println(rowId + "," + id + "," + age + "," + name);

    }
    scanner.close();
    table.close();
    conn.close();
}

上述代碼顯示結(jié)果如下:

-----------------------------
row000,0,0,tom0
-----------------------------
row001,1,1,tom1
-----------------------------
row002,2,2,tom2
-----------------------------
row003,3,3,tom3
-----------------------------
row004,4,4,tom4
-----------------------------
row005,5,5,tom5
-----------------------------
row006,6,6,tom6
-----------------------------
row007,7,7,tom7
-----------------------------
row008,8,8,tom8
-----------------------------
row009,9,9,tom9

3 ResultScanner類(lèi)

掃描操作不會(huì)通過(guò)一個(gè)RPC請(qǐng)求返回所有匹配的行,而是以行為單位進(jìn)行返回辞做。很明顯琳要,行的數(shù)目很大,可能有上千條甚至更多秤茅,同時(shí)在一次請(qǐng)求中發(fā)送大量數(shù)據(jù)稚补,會(huì)占用大量的系統(tǒng)資源并消耗很長(zhǎng)時(shí)間。

ResultScanner類(lèi)把掃描操作轉(zhuǎn)換為類(lèi)似的get操作框喳,它將每一行數(shù)據(jù)封裝成一個(gè)Result實(shí)例课幕,并將所有的Result實(shí)例放入一個(gè)迭代器中。ResultScanner的一些方法如下:

Result next()
Result[] next(int nbRows)
void close()

3.1 掃描器租約

要確保盡早釋放掃描器對(duì)象五垮,一個(gè)打開(kāi)的掃描器會(huì)占用不少的服務(wù)端資源乍惊,累計(jì)多了會(huì)占用大量的堆空間。當(dāng)使用完ResultScanner之后調(diào)用它的close()方法放仗,同時(shí)當(dāng)把close()方法放到try/finally塊中润绎,以保證其在迭代獲取數(shù)據(jù)過(guò)程中出現(xiàn)異常和錯(cuò)誤時(shí),仍然能執(zhí)行close()诞挨。

4 設(shè)置掃描器緩存

每一個(gè)next()調(diào)用都會(huì)為每一行數(shù)據(jù)生成一個(gè)單獨(dú)的RPC請(qǐng)求莉撇,即使使用next(int nbRows)方法也是如此,因?yàn)樵摲椒▋H僅是在客戶(hù)端循環(huán)地調(diào)用next()方法惶傻。很顯然棍郎,當(dāng)單元格數(shù)據(jù)較少時(shí),這樣做的性能不會(huì)很好银室。因此涂佃,如果一次RPC請(qǐng)求可以獲取多行數(shù)據(jù)励翼,這樣更有意義。這樣的方法可以由掃描器的緩存實(shí)現(xiàn)辜荠,默認(rèn)情況下汽抚,這個(gè)緩存是關(guān)閉的。

Scan類(lèi)中提供了設(shè)置緩存的方法如下:

public Scan setCacheBlocks(boolean cacheBlocks) // 設(shè)置是否應(yīng)用緩存塊來(lái)進(jìn)行掃描
public boolean getCacheBlocks()                 // 查看是否支持塊緩存
public Scan setCaching(int caching)             // 設(shè)置掃描器的緩存行數(shù)
public int getCaching()                         // 獲取掃描器中的緩存行數(shù)

用戶(hù)需要少量的RPC請(qǐng)求次數(shù)和客戶(hù)端以及服務(wù)器的內(nèi)存消耗找到平衡點(diǎn)侨拦。很多時(shí)候殊橙,設(shè)置掃描器緩存可以提高性能,不過(guò)設(shè)置的太高就會(huì)產(chǎn)生不良的影響:每次調(diào)用next()將會(huì)占用更長(zhǎng)的時(shí)間狱从,因?yàn)橐@取更多的文件并傳輸?shù)娇蛻?hù)端膨蛮,如果返回給客戶(hù)端的數(shù)據(jù)超出了其堆的大小,程序就會(huì)終止并拋出OutOfMemoryException異常季研。

Tip

當(dāng)傳輸和處理數(shù)據(jù)的時(shí)間超過(guò)配置的掃描器租約時(shí)間時(shí)敞葛,用戶(hù)將會(huì)收到一個(gè)ScannerTimeoutException形式拋出的租約過(guò)期錯(cuò)誤。

下面是代碼示例:

/**
 * 添加掃描
 */
@Test
public void testScanCacheBatch() throws Exception {
    //
    Configuration conf = HBaseConfiguration.create();
    Connection conn = ConnectionFactory.createConnection(conf);
    HTable table = (HTable) conn.getTable(TableName.valueOf("ns1:t2"));
    Scan scan = new Scan();
    System.out.println(scan.getBatch());
    //三行
    scan.setCaching(3) ;
    //2列
    scan.setBatch(2) ;
        ResultScanner scanner = table.getScanner(scan);
        Iterator<Result> it = scanner.iterator();
        while (it.hasNext()) {
            Result r = it.next();
            outResult(r);
        }
        scanner.close();
}
private void outResult(Result r){
    System.out.println("=========================");
    List<Cell> cells = r.listCells();
    for(Cell cell : cells){
        String rowkey = Bytes.toString(CellUtil.cloneRow(cell));
        String f = Bytes.toString(CellUtil.cloneFamily(cell));
        String col = Bytes.toString(CellUtil.cloneQualifier(cell));
        long ts = cell.getTimestamp();
        String value = Bytes.toString(CellUtil.cloneValue(cell));
        System.out.println(rowkey+"/"+f+":"+col+"/"+ts + "=" + value);
    }
}

4.1 chche

在默認(rèn)情況下与涡,如果你需要從hbase中查詢(xún)數(shù)據(jù)惹谐,在獲取結(jié)果ResultScanner時(shí),hbase會(huì)在你每次調(diào)用ResultScanner.next()操作時(shí)對(duì)返回的每個(gè)Row執(zhí)行一次RPC操作驼卖。即使你使用ResultScanner.next(int nbRows)時(shí)也只是在客戶(hù)端循環(huán)調(diào)用RsultScanner.next()操作氨肌,你可以理解為hbase將執(zhí)行查詢(xún)請(qǐng)求以迭代器的模式設(shè)計(jì),在執(zhí)行next()操作時(shí)才會(huì)真正的執(zhí)行查詢(xún)操作酌畜,而對(duì)每個(gè)Row都會(huì)執(zhí)行一次RPC操作怎囚。

因此顯而易見(jiàn)的就會(huì)想如果我對(duì)多個(gè)Row返回查詢(xún)結(jié)果才執(zhí)行一次RPC調(diào)用,那么就會(huì)減少實(shí)際的通訊開(kāi)銷(xiāo)桥胞。這個(gè)就是hbase配置屬性“hbase.client.scanner.caching”的由來(lái)恳守,設(shè)置cache可以在hbase配置文件中顯示靜態(tài)的配置,也可以在程序動(dòng)態(tài)的設(shè)置贩虾。

cache值得設(shè)置并不是越大越好催烘,需要做一個(gè)平衡。cache的值越大缎罢,則查詢(xún)的性能就越高伊群,但是與此同時(shí),每一次調(diào)用next()操作都需要花費(fèi)更長(zhǎng)的時(shí)間策精,因?yàn)楂@取的數(shù)據(jù)更多并且數(shù)據(jù)量大了傳輸?shù)娇蛻?hù)端需要的時(shí)間就越長(zhǎng)舰始,一旦你超過(guò)了maximum heap the client process 擁有的值,就會(huì)報(bào)outofmemoryException異常蛮寂。當(dāng)傳輸rows數(shù)據(jù)到客戶(hù)端的時(shí)候,如果花費(fèi)時(shí)間過(guò)長(zhǎng)易茬,則會(huì)拋出ScannerTimeOutException異常酬蹋。

4.2 batch

在cache的情況下及老,我們一般討論的是相對(duì)比較小的row,那么如果一個(gè)Row特別大的時(shí)候應(yīng)該怎么處理呢范抓?要知道cache的值增加骄恶,那么在client process 占用的內(nèi)存就會(huì)隨著row的增大而增大。在hbase中同樣為解決這種情況提供了類(lèi)似的操作:Batch匕垫∩常可以這么理解,cache是面向行的優(yōu)化處理象泵,batch是面向列的優(yōu)化處理寞秃。它用來(lái)控制每次調(diào)用next()操作時(shí)會(huì)返回多少列,比如你設(shè)置setBatch(5)偶惠,那么每一個(gè)Result實(shí)例就會(huì)返回5列春寿,如果你的列數(shù)為17的話(huà),那么就會(huì)獲得四個(gè)Result實(shí)例忽孽,分別含有5,5,5,2個(gè)列绑改。

下面會(huì)以表格的形式來(lái)幫助理解,假設(shè)我們擁有10Row兄一,每個(gè)row擁有2個(gè)family厘线,每個(gè)family擁有10個(gè)列。(也就是說(shuō)每個(gè)Row含有20列)

緩存 批量處理 Result個(gè)數(shù) RPC次數(shù) 說(shuō)明
1 1 200 201 每個(gè)列都作為一個(gè)Result實(shí)例返回出革。最后還多一個(gè)RPC確認(rèn)掃描完成
200 1 200 2 每個(gè)Result實(shí)例都只包含一列的值造壮,不過(guò)它們都被一次RPC請(qǐng)求取回
2 10 20 11 批量參數(shù)是一行所包含的列數(shù)的一半,所以200列除以10蹋盆,需要20個(gè)result實(shí)例费薄。同時(shí)需要10次RPC請(qǐng)求取回。
5 100 10 3 對(duì)一行來(lái)講栖雾,這個(gè)批量參數(shù)實(shí)在是太大了楞抡,所以一行的20列都被放入到了一個(gè)Result實(shí)例中。同時(shí)緩存為5析藕,所以10個(gè)Result實(shí)例被兩次RPC請(qǐng)求取回召廷。
5 20 10 3 同上,不過(guò)這次的批量值與一行列數(shù)正好相同账胧,所以輸出與上面一種情況相同
10 10 20 3 這次把表分成了較小的result實(shí)例竞慢,但使用了較大的緩存值,所以也是只用了兩次RPC請(qǐng)求就返回了數(shù)據(jù)

要計(jì)算一次掃描操作的RPC請(qǐng)求的次數(shù)治泥,用戶(hù)需要先計(jì)算出行數(shù)和每行列數(shù)的乘積筹煮。然后用這個(gè)值除以批量大小和每行列數(shù)中較小的那個(gè)值。最后再用除得的結(jié)果除以?huà)呙杵骶彺嬷怠?用數(shù)學(xué)公式表示如下:

RPC請(qǐng)求的次數(shù)=(行數(shù)x每行的列數(shù))/Min(每行的列數(shù)居夹,批量大小)/掃描器緩存

原文地址:http://blog.csdn.net/u010521842/article/details/77719433

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末败潦,一起剝皮案震驚了整個(gè)濱河市本冲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌劫扒,老刑警劉巖檬洞,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異沟饥,居然都是意外死亡添怔,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)贤旷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)广料,“玉大人,你說(shuō)我怎么就攤上這事遮晚⌒哉眩” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵县遣,是天一觀的道長(zhǎng)糜颠。 經(jīng)常有香客問(wèn)我,道長(zhǎng)萧求,這世上最難降的妖魔是什么其兴? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮夸政,結(jié)果婚禮上元旬,老公的妹妹穿的比我還像新娘。我一直安慰自己守问,他們只是感情好匀归,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著耗帕,像睡著了一般穆端。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仿便,一...
    開(kāi)封第一講書(shū)人閱讀 49,772評(píng)論 1 290
  • 那天体啰,我揣著相機(jī)與錄音,去河邊找鬼嗽仪。 笑死荒勇,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的闻坚。 我是一名探鬼主播沽翔,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼窿凤!你這毒婦竟也來(lái)了仅偎?” 一聲冷哼從身側(cè)響起西潘,我...
    開(kāi)封第一講書(shū)人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎哨颂,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體相种,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡威恼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了寝并。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箫措。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖衬潦,靈堂內(nèi)的尸體忽然破棺而出斤蔓,到底是詐尸還是另有隱情,我是刑警寧澤镀岛,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布弦牡,位于F島的核電站,受9級(jí)特大地震影響漂羊,放射性物質(zhì)發(fā)生泄漏驾锰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一走越、第九天 我趴在偏房一處隱蔽的房頂上張望椭豫。 院中可真熱鬧,春花似錦旨指、人聲如沸赏酥。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)裸扶。三九已至,卻和暖如春低淡,著一層夾襖步出監(jiān)牢的瞬間姓言,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工蔗蹋, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留何荚,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓猪杭,卻偏偏與公主長(zhǎng)得像餐塘,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子皂吮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 入門(mén)指南 1. 簡(jiǎn)介 Quickstart會(huì)讓你啟動(dòng)和運(yùn)行一個(gè)單節(jié)點(diǎn)單機(jī)HBase戒傻。 2. 快速啟動(dòng) – 單點(diǎn)HB...
    和心數(shù)據(jù)閱讀 4,524評(píng)論 1 41
  • HBase那些事 @(大數(shù)據(jù)工程學(xué)院)[HBase, Hadoop, 優(yōu)化, HadoopChen, hbase]...
    分癡閱讀 3,931評(píng)論 3 17
  • 目錄: 引言 -- 參數(shù)基礎(chǔ) 1. 結(jié)構(gòu)(Structural)過(guò)濾器--FilterList 2.列值過(guò)濾器--...
    磊寶萬(wàn)歲閱讀 1,482評(píng)論 0 2
  • 該文檔是用Hbase默認(rèn)配置文件生成的次泽,文件源是Hbase-default.xml hbase.rootdir 這...
    我是嘻哈大哥閱讀 4,749評(píng)論 0 7
  • 1. HBase介紹捧毛,Hbase是什么? HBase -- Hadoop Database ,是一個(gè)高可靠笤昨、高性能...
    奉先閱讀 3,730評(píng)論 1 36