測(cè)試環(huán)境
1.CM和CDH版本為5.11.2,Spark On Yarn模式
2.基于Anaconda部署Python3
下載anaconda包台囱,3.4.2版本的Anaconda和3.5.2的python系冗,下載地址:https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh
版本需要注意的是PySpark does not work with Python 3.6.0咒锻,SPARK-19019
https://issues.apache.org/jira/browse/SPARK-19019
安裝:sh /server/Anaconda3-4.2.0-Linux-x86_64.sh,一直默認(rèn)即可,注意選擇自己的安裝目錄调衰,最好寫path路徑時(shí)候,no
因?yàn)槲覀円渲萌值穆窂?/p>
echo "export PATH=/server/anaconda3/bin:$PATH">>/etc/profile
source /etc/profile
當(dāng)前這個(gè)操作不需要安裝也可以:使用conda創(chuàng)建python3環(huán)境并激活,conda create --unknown --offline -n py3 python=3.5
(注意:這里創(chuàng)建python3環(huán)境時(shí)使用了離線模式自阱,即--offline參數(shù)嚎莉,以及—unknown,這種方式適合安裝沒有依賴的python包沛豌,如果有依賴使用conda install會(huì)報(bào)錯(cuò)趋箩,需要搭建一個(gè)內(nèi)部倉(cāng)庫赃额。)
進(jìn)入python35環(huán)境:source activate python35
在CM配置Python環(huán)境變量
測(cè)試:
進(jìn)入spark2安裝目錄:cd /server/opt/cloudera/parcels/SPARK2/bin
root用戶,執(zhí)行命令./pyspark2,? ?會(huì)報(bào)錯(cuò)說? Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
解決辦法:
1.切換到hdfs用戶
2.修hdfs目錄/user的權(quán)限? hdfs dfs -chmod 777 /user