數(shù)據(jù)遷移
1又固、問題描述
新搭建了一套CDH5.13.1集群,需要將原apache上的數(shù)據(jù)遷移至新集群。
2缔恳、數(shù)據(jù)遷移工具
Distcp(分布式拷貝)用于大規(guī)模集群內(nèi)部和集群之間拷貝的工具,使用Map/Reduce
實現(xiàn)文件分發(fā)洁闰。
3歉甚、遷移命令
hadoop distcp 數(shù)據(jù)源 目標(biāo)數(shù)據(jù)源
示例:
hadoop distcp hdfs://dsap0:9000/user/hive/warehouse/XX/XX hdfs://dsap7:8020/user/hive/warehouse/XX/XX
注意點:1、該示例中數(shù)據(jù)源端口為9000扑眉,一般默認(rèn)端口為8020 2纸泄、數(shù)據(jù)源和目標(biāo)地址均需指定集群namenode的ip 3、distcp命令在新集群中執(zhí)行(之前網(wǎng)上沒人說襟雷,在老集群上執(zhí)行一直O(jiān)OM)
4刃滓、表格修復(fù)
1仁烹、創(chuàng)建一個和數(shù)據(jù)源表一樣的表格
2耸弄、使用msck命令進(jìn)行表格修復(fù)(hive客戶端中執(zhí)行)
示例:
msck repair table 表名