注:本文涉及書中3.7~3.8小結(jié)
使用現(xiàn)成的工具將數(shù)據(jù)導(dǎo)入HDFS中
可以使用現(xiàn)成的工具瑟啃,如Flume和Sqoop谆奥,而非寫程序來將數(shù)據(jù)導(dǎo)入HDFS中镶柱。
1. Apache Flume
典型應(yīng)用場景:從另外一個(gè)系統(tǒng)中收集日志數(shù)據(jù)
2. Apache Sqoop
將數(shù)據(jù)從結(jié)構(gòu)化存儲(chǔ)設(shè)備批量導(dǎo)入HDFS中
多個(gè)HDFS之間的并行復(fù)制
1. 在兩個(gè)運(yùn)行著相同HDFS版本的集群之間復(fù)制數(shù)據(jù)
通過distcp來實(shí)現(xiàn)
2.?在兩個(gè)運(yùn)行著不同HDFS版本的集群之間復(fù)制數(shù)據(jù)
(1)使用基于只讀HTTP協(xié)議的HFTP文件系統(tǒng)從源文件系統(tǒng)中讀取數(shù)據(jù),作業(yè)只能運(yùn)作在目標(biāo)集群上
(2)使用webhdfs協(xié)議引矩,對(duì)源集群和目標(biāo)集群都可以使用HTTP協(xié)議進(jìn)行通信
(3)使用HDFS HTTP代理服務(wù)作為源distcp或者目標(biāo)distcp
3. 要注意保持HDFS集群的均衡性