PySpark + MinIO + Hudi問題集錦

示例代碼

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("MinioTest") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.hudi.catalog.HoodieCatalog") \
    .config("spark.sql.extensions", "org.apache.spark.sql.hudi.HoodieSparkSessionExtension") \
    .config("spark.kryo.registrator", "org.apache.spark.HoodieSparkKryoRegistrar") \
    .getOrCreate()

spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.access.key", "xxxxx")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "xxxxx")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "http://127.0.0.1:9000")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.sparkContext._jsc.hadoopConfiguration().set("fs.s3a.path.style.access", "true")
spark.sparkContext._jsc.hadoopConfiguration().set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

df = spark.read.csv('s3a://data-warehouse/input.txt',header=True)
df.show()
df.select("name","age").write.parquet("s3a://data-warehouse/test.parquet", mode="overwrite")

df = spark.read.parquet('s3a://data-warehouse/test.parquet')
df.show()

from pyspark.sql.functions import lit, col
columns = ["ts","uuid","rider","driver","fare","city"]
data =[(1695159649087,"334e26e9-8355-45cc-97c6-c31daf0df330","rider-A","driver-K",19.10,"san_francisco"),
       (1695091554788,"e96c4396-3fad-413a-a942-4cb36106d721","rider-C","driver-M",27.70 ,"san_francisco"),
       (1695046462179,"9909a8b1-2d15-4d3d-8ec9-efc48c536a00","rider-D","driver-L",33.90 ,"san_francisco"),
       (1695516137016,"e3cf430c-889d-4015-bc98-59bdce1e530c","rider-F","driver-P",34.15,"sao_paulo"),
       (1695115999911,"c8abbe79-8d89-47ea-b4ce-4d224bae5bfa","rider-J","driver-T",17.85,"chennai")]
inserts = spark.createDataFrame(data).toDF(*columns)

inserts.show()

hudi_options = {
    'hoodie.table.name': 'huditable',
    'hoodie.datasource.write.recordkey.field': 'uuid',
    'hoodie.datasource.write.table.name': 'huditable',
    'hoodie.datasource.write.partitionpath.field': 'city',
    'hoodie.datasource.write.operation': 'insert',
    'hoodie.upsert.shuffle.parallelism': 2,
    'hoodie.insert.shuffle.parallelism': 2
}

inserts.write.format("hudi"). \
    options(**hudi_options). \
    mode("overwrite"). \
    save("s3a://data-warehouse/test-hudi2")

問題集錦

1. HTTP_PROXY / HTTPS_PROXY

讀minio csv文件沒問題
寫parquet到minio沒問題
寫hudi到本地磁盤也沒問題
寫hudi到minio代碼就會一直阻塞
去掉環(huán)境變量 HTTP_PROXY / HTTPS_PROXY后重啟notebook后正常

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末纹烹,一起剝皮案震驚了整個濱河市放典,隨后出現(xiàn)的幾起案子舀凛,更是在濱河造成了極大的恐慌芯丧,老刑警劉巖沪饺,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件洲劣,死亡現(xiàn)場離奇詭異江醇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門贬循,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咸包,“玉大人,你說我怎么就攤上這事杖虾±锰保” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵奇适,是天一觀的道長坟比。 經(jīng)常有香客問我,道長嚷往,這世上最難降的妖魔是什么葛账? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮皮仁,結(jié)果婚禮上籍琳,老公的妹妹穿的比我還像新娘。我一直安慰自己贷祈,他們只是感情好趋急,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著势誊,像睡著了一般呜达。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上粟耻,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天查近,我揣著相機(jī)與錄音,去河邊找鬼挤忙。 笑死嗦嗡,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的饭玲。 我是一名探鬼主播侥祭,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼茄厘!你這毒婦竟也來了矮冬?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤次哈,失蹤者是張志新(化名)和其女友劉穎胎署,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窑滞,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡琼牧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年恢筝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巨坊。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡撬槽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出趾撵,到底是詐尸還是另有隱情侄柔,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布占调,位于F島的核電站暂题,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏究珊。R本人自食惡果不足惜薪者,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望剿涮。 院中可真熱鬧啸胧,春花似錦、人聲如沸幔虏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽想括。三九已至陷谱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瑟蜈,已是汗流浹背烟逊。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留铺根,地道東北人宪躯。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像位迂,于是被迫代替她去往敵國和親访雪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容