IP屬地:湖南
1. 小文件合并綜述 1.1 小文件表現(xiàn) 不論是Hive還是Spark SQL在使用過程中都可能會遇到小文件過多的問題狮崩。小文件過多最直接的表現(xiàn)是任務執(zhí)行時間長,查看Spark...
一、引子 項目中遇到這樣一張表:user 要求對這個表按照sid 進行聚合酬姆,將所有的id聚合成一個json嗜桌,所有的tag聚合成一個json。在hive和Spark中辞色,對tag...
Kevin Markham立美,數(shù)據(jù)科學講師棕所,2002 年,畢業(yè)于范德堡大學悯辙,計算機工程學士琳省,2014 年,創(chuàng)建了 Data School躲撰,在線教授 Python 數(shù)據(jù)科學課程针贬,...