關(guān)于spark-hbase在pyspark上的那些破事

背景:

項目需要讀取Hbase并把計算結(jié)果保存在Hbase里供其他接口獲取。

算法由pyspark實現(xiàn)言秸。

原先Hbase的Thrift接口三天兩頭宕筋搏,而且性能低下。


充滿糟點的background結(jié)束


結(jié)論:

先說結(jié)論驶社,想節(jié)約時間的可以跳過后面的"充滿糟點過程"部分。

前提:

1. 你要有個可以通repo的spark集群养晋,或通過某種手段可以通repo(自建內(nèi)網(wǎng) http://repo.hortonworks.com/content/groups/public/ 的clone衬吆,或proxy)

2. spark-shell/spark-submit部分:

spark-submit \
--conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=<代理服務器IP> \
-Dhttp.proxyPort=<代理服務器端口> -Dhttps.proxyHost=<代理服務器IP> \
-Dhttps.proxyPort=<代理服務器端口>"\
--packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11 \
--repositories http://repo.hortonworks.com/content/groups/public/ \
--files files:////hbase-site.xml script.py arg1, arg2 

相關(guān)的lib依賴會自動下載, 如果實在沒有手段通外網(wǎng), 可以考慮先用此命令在通外網(wǎng)的機器上產(chǎn)生ivy2的cache,然后復制到master服務器上(client只需要master有相關(guān)lib即可)。

配置及注意點:

此方法未在Spark Yarn/Yarn Client 模式下測試绳泉,有童鞋搞定了且愿意分享的話可以補充逊抡。

代理只能HTTP或HTTPS協(xié)議(自己用polipo轉(zhuǎn)一個就可以,不贅述)。

Local及Standalone模式經(jīng)測試無問題零酪。

由于用的是shc-core冒嫡,因此保險起見推薦將hbase-site.xml復制進$SPARK_HOME/conf, 之前直接-files里提交文件,結(jié)果查庫的時候連接失敗了(emmmm)

用pyspark DataFrame操作Hbase:

和JAVA/Scala版的shc一樣四苇,先要定義catalog

catalog = ''.join("""{
  "table":{"namespace":"test", "name":"test_table"},
  "rowkey":"key",
  "columns":{
  "col0":{"cf":"rowkey", "col":"key", "type":"string"},
  "col1":{"cf":"result", "col":"class", "type":"string"}
  }
  }""".split())

造一個dataframe來測試寫入:

  data_source_format = 'org.apache.spark.sql.execution.datasources.hbase'
  df = sc.parallelize([('a', '1.0'), ('b', '2.0')]).toDF(schema=['col0', 'col1'])
  df.show()
  df.write.options(catalog=catalog,newTable="5").format(data_source_format).save()

注: 推薦寫入時加上"newTable"選項孝凌,否則當表不存在時會報如下錯誤,也就是提醒你新表至少要有3個regions:

Py4JJavaError: An error occurred while calling o510.save.: 
org.apache.spark.sql.execution.datasources.hbase.InvalidRegionNumberException:
Number of regions specified for new table must be greater than 3.

再讀取數(shù)據(jù):

df_read = spark.read.options(catalog=catalog).format(data_source_format).load()
df_read.show()

注: 讀取的時候可以在load()之后加上各種select where 語句, 會自動轉(zhuǎn)換為各種不人性的scan filters月腋,并延遲加載到讀取時執(zhí)行蟀架。注意,因為spark是lazy執(zhí)行的榆骚,如果where特別復雜的話推薦先load().cache()完之后接一句dataframe.count()再進行where處理片拍,否則語句會被轉(zhuǎn)換為各種filter,并在Hbase中處理妓肢,value filter的速度有目共睹…當然Hbase集群夠強也可以無視捌省。

充滿糟點的過程:

在Thrift接口N**N次 OOM 之后,終于忍無可忍的想直接用原生spark-hbase讀寫數(shù)據(jù)碉钠。

OK纲缓,先去Hbase官網(wǎng)上找了reference,關(guān)于spark的部分只有Java和Scala有木有喊废?spark-hbase項目不知死活有木有祝高?最可氣的是reference上那個版本號(帶beta)全宇宙的repo都找不到有木有?github只有個空頁面有木有污筷?
雖然是開源項目褂策,好歹reference也稍微上點心好不好-_-||。
(未完待續(xù))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市斤寂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌揪惦,老刑警劉巖遍搞,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異器腋,居然都是意外死亡溪猿,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門纫塌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來诊县,“玉大人,你說我怎么就攤上這事措左∫廊” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵怎披,是天一觀的道長胸嘁。 經(jīng)常有香客問我,道長凉逛,這世上最難降的妖魔是什么性宏? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮状飞,結(jié)果婚禮上毫胜,老公的妹妹穿的比我還像新娘。我一直安慰自己诬辈,他們只是感情好酵使,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著自晰,像睡著了一般凝化。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上酬荞,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天搓劫,我揣著相機與錄音,去河邊找鬼混巧。 笑死枪向,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的咧党。 我是一名探鬼主播秘蛔,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了深员?” 一聲冷哼從身側(cè)響起负蠕,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎倦畅,沒想到半個月后遮糖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡叠赐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年欲账,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芭概。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡赛不,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出罢洲,到底是詐尸還是另有隱情踢故,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布奏路,位于F島的核電站畴椰,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鸽粉。R本人自食惡果不足惜斜脂,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望触机。 院中可真熱鬧帚戳,春花似錦、人聲如沸儡首。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔬胯。三九已至对供,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間氛濒,已是汗流浹背产场。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留舞竿,地道東北人京景。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像骗奖,于是被迫代替她去往敵國和親确徙。 傳聞我的和親對象是個殘疾皇子醒串,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 下午三點鐘,該給老板送咖啡了鄙皇。我把咖啡粉沖調(diào)好芜赌,送到辦公室。 輕輕推開門育苟,說较鼓,老板,您要的咖啡违柏,看樣子,菲律賓產(chǎn)的...
    李一十八閱讀 720評論 0 0
  • 最近在做RN開發(fā)香椎,雖然模擬器調(diào)試能滿足大多數(shù)情況漱竖,但少數(shù)情況還是需要真機調(diào)試。 下面是真機調(diào)試的設置步驟: 1.確...
    GL101閱讀 874評論 0 1
  • 一畜伐、街頭吃肉 這個命題很情色馍惹,但凡文藝女青年真不該這么直接,奈何我從不羞澀玛界。 我啃著一鳴的奧爾良飯團趕高鐵万矾, 車站...
    牛貓貓閱讀 313評論 0 0