1鹃锈、下載hadoop
版本為CDH 5.16.2
2比勉、解壓hadoop
3清钥、建立軟鏈接
ln -s hadoop-2.6.0-cdh5.16.2 ./hadoop
4、配置配置文件
etc/hadoop/core-site.xml配置
在hdfs路徑中配的是hostname,讓namenote使用hostname啟動
hadoop.tmp.dir 是配置hadoop日志的路徑后众,注意配置就必須重新格式化hdfs胀糜,
所以建議在最開始配置hadoop的時候就配置此參數(shù),否則默認是linux的tmp路徑蒂誉,會面臨斷電和oom丟失數(shù)據(jù)的情況
同時需要注意的是如果datanode無法啟動,那么需要手動刪除/home/yj/tmp/hadoop_log/下面的dfs文件夾右锨,然后重新格式化dfs即可
vim etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://yj-bigdata:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/yj/tmp/hadoop_log/</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml 配置
dfs.replication是設置hdfs的副本數(shù)
namenode.secondary 設置以hostname啟動
vim etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>yj-bigdata:50090</value>
</property>
<property>
<name>dfs.namenode.secondary.https-address</name>
<value>yj-bigdata:50091</value>
</property>
</configuration>
hadoop-env.sh 配置
在hadoop-env.sh中設置JAVA_HOME為java的環(huán)境變量路徑
pid的存儲文件夾必須修改,默認是/tmp,Linux會自動清理绍移;
必須設置為其他目錄悄窃,否正會導致集群混亂
vim hadoop-env.sh中設置Java的環(huán)境變量
export JAVA_HOME=/usr/java/jdk1.8.0_45
export HADOOP_PID_DIR=/home/yj/tmp/hadoop_log/pids
export HADOOP_SECURE_DN_PID_DIR=/home/yj/tmp/hadoop_log/pids
slaves配置
在slaves中配置hostname,默認為localhost,配置這個是因為datanode啟動是通過這個控制的蹂窖。
第一次啟動
在這里需要注意一個點:namenode 轧抗、datanode、secondarynamenode都必須通過hostname啟動
hdfs namenode -format # 對hdfs進行格式化瞬测,格式化會清空hdfs的所有數(shù)據(jù)
start-dfs.sh
當啟動后横媚,用jps查看一下,如果存在進程纠炮,那么就是啟動成功了
yarn配置
mapred-site.xml配置
用yarn作為mapreduce的資源調(diào)度,默認是localhost,那么就無法使用集群的資源灯蝴,也無法在web ui看到資源利用情況
cp mapred-site.xml.template mapred-site.xml #拷貝一個恢口,重命名
vim mapred-site.xml #編輯,并在文件中配置以下信息
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml配置
yarn.resourcemanager.webapp.address 中的端口配置為yarn web ui端口穷躁,用來查看集群的資源情況
yarn.nodemanager.aux-services 默認值為mapreduce.shuffle,不做修改耕肩,NodeManager 會啟動失敗
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>yj-bigdata:38088</value>
</property>
</configuration>
yarn-env.sh配置
export YARN_PID_DIR=/home/yj/tmp/hadoop_log/pids
mapred-env.sh
修改pid的存儲路徑,默認為/tmp
export HADOOP_MAPRED_PID_DIR=/home/yj/tmp/hadoop_log/pids
啟動yarn
start-yarn.sh
至此hadoop和yarn的配置完成
hive安裝和配置
1折砸、下載解壓
2、添加環(huán)境變量
3沙峻、配置hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://yj-bigdata:3306/bigdata_hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>bigdata_user</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>qweqwe123</value>
</property>
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
</configuration>