相關(guān)說明:
Presto官網(wǎng): Presto | Distributed SQL Query Engine for Big Data (prestodb.io)
DeltaLake官網(wǎng): Delta Lake - Reliable Data Lakes at Scale
安裝Presto:
安裝文檔鏈接如下:
Deploying Presto — Presto 0.252 Documentation (prestodb.io)中文描述:
a. 下載presto-server-0.252.tar.gz棋弥,上傳到Linux 服務(wù)器并重命名為presto
b. 進入到presto目錄桌肴,創(chuàng)建etc目錄棍苹,命令如下:
cd presto
mkdir etc
mkdir etc/catalog
touch etc/node.properties
touch etc/jvm.config
touch etc/config.properties
c. 添加屬性
- node.properties添加以下屬性敬飒,當(dāng)然也可以根據(jù)官網(wǎng)的提示進行修改:
node.environment=production #節(jié)點名字,集群中這個名字要一樣
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff #唯一標(biāo)識读拆,可以為其他的數(shù)字
node.data-dir=/var/presto/data #數(shù)據(jù)目錄
- jvm.config添加以下屬性:
-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError
- config.properties添加以下屬性(這個是單機版的屬性供汛,如果是集群請參考官網(wǎng)):
coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
query.max-memory=5GB
query.max-memory-per-node=1GB
query.max-total-memory-per-node=2GB
discovery-server.enabled=true
discovery.uri=http://example.net:8080
- catalog目錄下是放置的連接器配置,需要根據(jù)自己的需要進行配置悉尾,連接器配置鏈接如下:
Connectors — Presto 0.252 Documentation (prestodb.io)
d. 下載 presto-cli-0.252-executable.jar 客戶端jar包,上傳到Linux服務(wù)器挫酿,并將jar包變?yōu)榭蓤?zhí)行環(huán)境构眯,命令如下:
chmod +x presto-cli-0.252-executable.jar
啟動Presto
- 進入到presto/bin目錄下,執(zhí)行以下命令:
bin/launcher start
- 客戶端登錄服務(wù)器早龟,執(zhí)行
presto --server localhost:8080 --catalog hive --schema default
# catalog 是catalog目錄的連接器文件名惫霸,而非配置名稱,很重要葱弟。
# schema 相當(dāng)于數(shù)據(jù)庫壹店,但并非是真正的數(shù)據(jù)庫
# 8080 是config.properties中配置的端口,自己根據(jù)需要改
Presto整合Deltalake
詳細整合的步驟鏈接:Presto and Athena to Delta Lake integration — Delta Lake Documentation
中文簡化版Presto與DeltaLake整合過程如下:
Step1. 通過SQL, Scala, Java, Python 其中之一生成Mainfest文件芝加,具體如下:
#SQL 生成方式
GENERATE symlink_format_manifest FOR TABLE delta.`<path-to-delta-table>`
#Scala 生成方式
val deltaTable = DeltaTable.forPath(<path-to-delta-table>)
deltaTable.generate("symlink_format_manifest")
#Java生成方式
DeltaTable deltaTable = DeltaTable.forPath(<path-to-delta-table>);
deltaTable.generate("symlink_format_manifest");
#Python生成方式
deltaTable = DeltaTable.forPath(<path-to-delta-table>)
deltaTable.generate("symlink_format_manifest")
#注意:forPath 是要整合的數(shù)據(jù)路徑硅卢,"symlink_format_manifest" 是固定的,不可更改
Step2. 生成Presto表
CREATE EXTERNAL TABLE mytable ([(col_name1 col_datatype1, ...)])
[PARTITIONED BY (col_name2 col_datatype2, ...)]
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.SymlinkTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '<path-to-delta-table>/_symlink_format_manifest/' -- location of the generated manifest
注意1:Presto是無法生成外部表的妖混,需要在Hive或者Spark中進行生成老赤,生成的語句就是上面的語句,但是Athena 是可以直接生成外部表的
注意2:在通過以上語句在Hive或者Spark中生成的表制市,可以直接在Presto直接使用抬旺,但在Hive中查出來的是為Null
===============================================================
2021-06-16 更新
通過以下命令進入到presto
./prestocli --server IP:Port --catalog hive
# ip:安裝有presto的地址
# port:/etc/config.properties 中 http-server.http.port=port 的端口配置
# catalog: /etc/catalog 下的hive.properties的文件名
進入之后進行相關(guān)的操作需要指定schema,查看有多少個schema,使用以下命令
show schemas;
#顯示結(jié)果如下:
default
information_schema
test
(3 rows)
Query 20210616_023139_00010_prehn, FINISHED, 3 nodes
Splits: 36 total, 36 done (100.00%)
0:00 [3 rows, 68B] [12 rows/s, 170B/s]