使用sparksql訪問幾個hive表join的情況時結(jié)果為空烤低,且這個sql在hive里執(zhí)行是成功的懈费。
val sparkSession = SparkSession
.builder()
.config("jars","lib/*")
.appName("Spark Hive Example")
.enableHiveSupport()
.getOrCreate()
sparkSession.sql("select t1.c2,count(*) from t1 join t2 on (t1.c1=t2.c1) group by t1.c2").collect().map(r => mergeToOracle(r))
查看了t1,t2表的結(jié)構(gòu)
- t1是json格式密末,MR任務(wù)生成
- t2是parquet格式抢腐,sqoop導(dǎo)出
單獨查詢兩個表的結(jié)果
sparkSession.sql("select * from t1 limit 10").collect().map(r => println(r)) //正常顯示
sparkSession.sql("select * from t2 limit 10").collect().map(r => println(r)) //有結(jié)果摔癣,全部為null
因此可以判斷是讀parquet的結(jié)果出錯奴饮,因此導(dǎo)致兩個表join也沒有結(jié)果纬向。如果直接按文件讀取parquet文件择浊,使用臨時表查詢呢,結(jié)果正常顯示逾条,且與其他表join也是正常琢岩。
sparkSession.read.parquet("/path of the hive table/").createOrReplaceTempView("temp_a")
val rs = sparkSession.sql("select * from temp_a")
rs.printSchema()
rs.show()
線上環(huán)境剛好還有另外一套sparksql運行的beta環(huán)境,將sql拿去執(zhí)行是沒有問題的师脂,因此比較了當(dāng)前執(zhí)行環(huán)境和該beta環(huán)境的配制担孔,發(fā)現(xiàn)其中有一個區(qū)別是spark.sql.hive.convertMetastoreParquet配制為false江锨。
sparkSession.sqlContext.setConf("spark.sql.hive.convertMetastoreParquet","false")
加上這句之后數(shù)據(jù)正常了,這個配制有什么用糕篇,看字面也能理解了啄育。
spark.sql.hive.convertMetastoreParquet default is true.When set to false, Spark
SQL will use the Hive SerDe for parquet tables instead of the built in support.
當(dāng)向Hive metastore中讀寫Parquet表時,Spark SQL將使用Spark SQL自帶的Parquet SerDe(SerDe:Serialize/Deserilize的簡稱,目的是用于序列化和反序列化)拌消,而不是用Hive的SerDe挑豌,Spark SQL自帶的SerDe擁有更好的性能。這個優(yōu)化的配置參數(shù)為spark.sql.hive.convertMetastoreParquet墩崩,默認值為開啟氓英。