Spark 本地連接OSS
1. 對象存儲 OSS
阿里云對象存儲服務(wù)(Object Storage Service胞得,簡稱 OSS)慢洋,是阿里云提供的海量垮抗、安全刚陡、低成本惩妇、高可靠的云存儲服務(wù)。
在使用Hadoop和Spark及其周邊系統(tǒng)來處理和分析自己的數(shù)據(jù)時筐乳,則需要創(chuàng)建阿里云的E-MapReduce集群進行處理歌殃。
但是有時候,我們需要在本地環(huán)境下對程序進行調(diào)試蝙云,所以 本地的Spark環(huán)境能連接OSS對于開發(fā)者來說就顯得尤為重要挺份。
阿里云提供的文檔更新比較久遠,在使用教程時贮懈,會出現(xiàn)一些問題匀泊,所以本文提供一個可行的方法优训,讓我們可以在本地環(huán)境讀取OSS的數(shù)據(jù),進行程序調(diào)試各聘。
Maven配置
可以根據(jù)自己的版本進行相應(yīng)修改
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.8</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.3</version>
</dependency>
<!--支持OSS數(shù)據(jù)源 -->
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-core</artifactId>
<version>1.5.0</version>
</dependency>
<dependency>
<groupId>com.aliyun.oss</groupId>
<artifactId>aliyun-sdk-oss</artifactId>
<version>3.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpcore</artifactId>
<version>4.4</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.4.1</version>
</dependency>
代碼部分
val conf = new SparkConf()
.setAppName("OssWc")
.setMaster("local[4]")
conf.set("spark.hadoop.fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem")
conf.set("spark.hadoop.mapreduce.job.run-local", "true")
conf.set("spark.hadoop.fs.oss.accessKeyId", "accessKeyId")
conf.set("spark.hadoop.fs.oss.accessKeySecret", "accessKeySecret")
val sc = new SparkContext(conf)
val input = sc.textFile(inputPath) // 路徑格式 oss://bucket.Endpoint/datapath
println(input.count())
注意
顯式寫 AK 和 Endpoint 方式訪問 OSS 數(shù)據(jù)源時 :
1.spark需要配置 "spark.hadoop.fs.oss.accessKeyId" 和 "spark.hadoop.fs.oss.accessKeySecret"兩個參數(shù)
2.spark.hadoop.mapreduce.job.run-local 這個配置項只是針對需要在本地調(diào)試 Spark 代碼讀寫 OSS 數(shù)據(jù)的場景揣非,除此之外只需要保持默認即可。在本地調(diào)試運行 Spark 代碼讀寫 OSS 數(shù)據(jù)躲因,將 spark.hadoop.mapreduce.job.run-local設(shè)為 true
3.讀取oss的數(shù)據(jù)路徑的格式如下:oss://bucket.Endpoint/datapath
Endpoint 具體請參見OSS Endpoint
4.使用sparksql 讀取數(shù)據(jù)的配置方式和上述一樣
參考資料
https://help.aliyun.com/document_detail/28118.html?spm=a2c4g.11186623.6.808.36ad4132jjB0lE
https://help.aliyun.com/document_detail/31837.html?spm=a2c4g.11186623.2.11.66cd1aa1e2KPyg#concept-zt4-cvy-5db