基于Hadoop的sql方案如hive争涌,sparksql架構一般如下:
- Server : ThriftServer 完成sql的解析及應用(如MR,Spark,Tez)的提交
- 傳統(tǒng)數(shù)據(jù)庫 : 用于存儲表的元數(shù)據(jù),常見的由Mysql,postgreSql等
- 管理元數(shù)據(jù): MetaStore张漂,作為ThriftServer和傳統(tǒng)數(shù)據(jù)庫的橋梁
- 數(shù)據(jù)存儲 : HDFS
Hive Sql執(zhí)行流程圖
HiveSql執(zhí)行力流程.jpg
SparkSql 執(zhí)行流程圖
SparkSql是基于spark Core的 onHadoop的sql解決方案。有多種sql解決方案谨娜,如通過啟動Server的方式對客戶端提交sql方案航攒,客戶端sql可通過beeline,JDBC的接口完成sql的解析執(zhí)行趴梢。也可以直接調用sparkApi完成sql執(zhí)行漠畜。
ThriftServer模式的sql方案
SparkSql流程.jpg
SparkApi模式的sql方案
Spark Sql 流程.jpg