5.1泌豆、常用命令列舉
這里給大家列出來(lái)了一部分Sqoop操作時(shí)的常用參數(shù)讨惩,以供參考婶熬,需要深入學(xué)習(xí)的可以參看對(duì)應(yīng)類(lèi)的源代碼。
序號(hào) | 命令 | 類(lèi) | 說(shuō)明 |
---|---|---|---|
1 | import | ImportTool | 將數(shù)據(jù)導(dǎo)入到集群 |
2 | export | ExportTool | 將集群數(shù)據(jù)導(dǎo)出 |
3 | codegen | CodeGenTool | 獲取數(shù)據(jù)庫(kù)中某張表數(shù)據(jù)生成Java并打包Jar |
4 | create-hive-table | CreateHiveTableTool | 創(chuàng)建Hive表 |
5 | eval | EvalSqlTool | 查看SQL執(zhí)行結(jié)果 |
6 | import-all-tables | ImportAllTablesTool | 導(dǎo)入某個(gè)數(shù)據(jù)庫(kù)下所有表到HDFS中 |
7 | job | JobTool | 用來(lái)生成一個(gè)sqoop的任務(wù)床估,生成后,該任務(wù)并不執(zhí)行诱渤,除非使用命令執(zhí)行該任務(wù)丐巫。 |
8 | list-databases | ListDatabasesTool | 列出所有數(shù)據(jù)庫(kù)名 |
9 | list-tables | ListTablesTool | 列出某個(gè)數(shù)據(jù)庫(kù)下所有表 |
10 | merge | MergeTool | 將HDFS中不同目錄下面的數(shù)據(jù)合在一起,并存放在指定的目錄中 |
11 | metastore | MetastoreTool | 記錄sqoop job的元數(shù)據(jù)信息勺美,如果不啟動(dòng)metastore實(shí)例递胧,則默認(rèn)的元數(shù)據(jù)存儲(chǔ)目錄為:~/.sqoop,如果要更改存儲(chǔ)目錄励烦,可以在配置文件sqoop-site.xml中進(jìn)行更改谓着。 |
12 | help | HelpTool | 打印sqoop幫助信息 |
13 | version | VersionTool | 打印sqoop版本信息 |
5.2、命令&參數(shù)詳解
剛才列舉了一些Sqoop的常用命令坛掠,對(duì)于不同的命令赊锚,有不同的參數(shù)治筒,讓我們來(lái)一一列舉說(shuō)明。
首先來(lái)我們來(lái)介紹一下公用的參數(shù)舷蒲,所謂公用參數(shù)耸袜,就是大多數(shù)命令都支持的參數(shù)。
5.2.1牲平、公用參數(shù):數(shù)據(jù)庫(kù)連接
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --connect | 連接關(guān)系型數(shù)據(jù)庫(kù)的URL |
2 | --connection-manager | 指定要使用的連接管理類(lèi) |
3 | --driver | Hadoop根目錄 |
4 | --help | 打印幫助信息 |
5 | --password | 連接數(shù)據(jù)庫(kù)的密碼 |
6 | --username | 連接數(shù)據(jù)庫(kù)的用戶(hù)名 |
7 | --verbose | 在控制臺(tái)打印出詳細(xì)信息 |
5.2.2堤框、公用參數(shù):import
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --enclosed-by <char> | 給字段值前加上指定的字符 |
2 | --escaped-by <char> | 對(duì)字段中的雙引號(hào)加轉(zhuǎn)義符 |
3 | --fields-terminated-by <char> | 設(shè)定每個(gè)字段是以什么符號(hào)作為結(jié)束,默認(rèn)為逗號(hào) |
4 | --lines-terminated-by <char> | 設(shè)定每行記錄之間的分隔符纵柿,默認(rèn)是\n |
5 | --mysql-delimiters | Mysql默認(rèn)的分隔符設(shè)置蜈抓,字段之間以逗號(hào)分隔,行之間以\n分隔昂儒,默認(rèn)轉(zhuǎn)義符是\沟使,字段值以單引號(hào)包裹。 |
6 | --optionally-enclosed-by <char> | 給帶有雙引號(hào)或單引號(hào)的字段值前后加上指定字符渊跋。 |
5.2.3腊嗡、公用參數(shù):export
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --input-enclosed-by <char> | 對(duì)字段值前后加上指定字符 |
2 | --input-escaped-by <char> | 對(duì)含有轉(zhuǎn)移符的字段做轉(zhuǎn)義處理 |
3 | --input-fields-terminated-by <char> | 字段之間的分隔符 |
4 | --input-lines-terminated-by <char> | 行之間的分隔符 |
5 | --input-optionally-enclosed-by <char> | 給帶有雙引號(hào)或單引號(hào)的字段前后加上指定字符 |
5.2.4、公用參數(shù):hive
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --hive-delims-replacement <arg> | 用自定義的字符串替換掉數(shù)據(jù)中的\r\n和\013 \010等字符 |
2 | --hive-drop-import-delims | 在導(dǎo)入數(shù)據(jù)到hive時(shí)拾酝,去掉數(shù)據(jù)中的\r\n\013\010這樣的字符 |
3 | --map-column-hive <arg> | 生成hive表時(shí)燕少,可以更改生成字段的數(shù)據(jù)類(lèi)型 |
4 | --hive-partition-key | 創(chuàng)建分區(qū),后面直接跟分區(qū)名蒿囤,分區(qū)字段的默認(rèn)類(lèi)型為string |
5 | --hive-partition-value <v> | 導(dǎo)入數(shù)據(jù)時(shí)客们,指定某個(gè)分區(qū)的值 |
6 | --hive-home <dir> | hive的安裝目錄,可以通過(guò)該參數(shù)覆蓋之前默認(rèn)配置的目錄 |
7 | --hive-import | 將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)中導(dǎo)入到hive表中 |
8 | --hive-overwrite | 覆蓋掉在hive表中已經(jīng)存在的數(shù)據(jù) |
9 | --create-hive-table | 默認(rèn)是false蟋软,即镶摘,如果目標(biāo)表已經(jīng)存在了,那么創(chuàng)建任務(wù)失敗岳守。 |
10 | --hive-table | 后面接要?jiǎng)?chuàng)建的hive表,默認(rèn)使用MySQL的表名 |
11 | --table | 指定關(guān)系數(shù)據(jù)庫(kù)的表名 |
公用參數(shù)介紹完之后凄敢,我們來(lái)按照命令介紹命令對(duì)應(yīng)的特有參數(shù)。
5.2.5湿痢、命令&參數(shù):import
將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入到HDFS(包括Hive涝缝,HBase)中,如果導(dǎo)入的是Hive譬重,那么當(dāng)Hive中沒(méi)有對(duì)應(yīng)表時(shí)拒逮,則自動(dòng)創(chuàng)建。
- 命令:
如:導(dǎo)入數(shù)據(jù)到hive中
$ bin/sqoop import \
--connect jdbc:mysql://bigdata111:3306/Andy \
--username root \
--password 000000 \
--table access \
--hive-import \
--fields-terminated-by "\t"
如:增量導(dǎo)入數(shù)據(jù)到hive中臀规,mode=append
append導(dǎo)入:
$ bin/sqoop import \
--connect jdbc:mysql://bigdata111:3306/Andy \
--username root \
--password 000000 \
--table aca \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/staff_hive \
--check-column id \
--incremental append \
--last-value 10
尖叫提示:append不能與--hive-等參數(shù)同時(shí)使用(Append mode for hive imports is not yet supported. Please remove the parameter --append-mode)
注:--last-value 2 的意思是標(biāo)記增量的位置為第二行滩援,也就是說(shuō),當(dāng)數(shù)據(jù)再次導(dǎo)出的時(shí)候塔嬉,從第二行開(kāi)始算
注:如果 --last-value N , N > MYSQL中最大行數(shù)玩徊,則HDFS會(huì)創(chuàng)建一個(gè)空文件租悄。如果N<=0 , 那么就是所有數(shù)據(jù)
如:增量導(dǎo)入數(shù)據(jù)到hdfs中,mode=lastmodified(注:卡锥鞲ぁ)
先在mysql中建表并插入幾條數(shù)據(jù):
mysql> create table company.staff_timestamp(id int(4), name varchar(255), sex varchar(255), last_modified timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);
mysql> insert into company.staff_timestamp (id, name, sex) values(1, 'AAA', 'female');
mysql> insert into company.staff_timestamp (id, name, sex) values(2, 'BBB', 'female');
先導(dǎo)入一部分?jǐn)?shù)據(jù):
$ bin/sqoop import \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--delete-target-dir \
--hive-import \
--fields-terminated-by "\t" \
--m 1
再增量導(dǎo)入一部分?jǐn)?shù)據(jù):
mysql> insert into company.staff_timestamp (id, name, sex) values(3, 'CCC', 'female');
$ bin/sqoop import \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--check-column last_modified \
--incremental lastmodified \
--m 1 \
--last-value "2019-05-17 09:50:12" \
--append
--last-value "2019-05-17 07:08:53" \
尖叫提示:使用lastmodified方式導(dǎo)入數(shù)據(jù)要指定增量數(shù)據(jù)是要--append(追加)還是要--merge-key(合并)
尖叫提示:在Hive中泣棋,如果不指定輸出路徑,可以去看以下兩個(gè)目錄
1./user/root(此為用戶(hù)名)
2./user/hive/warehouse 個(gè)人配置的目錄
尖叫提示:last-value指定的值是會(huì)包含于增量導(dǎo)入的數(shù)據(jù)中
如果卡住畔塔,在yarn-site.xml中加入以下配置
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>20480</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
- 參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --append | 將數(shù)據(jù)追加到HDFS中已經(jīng)存在的DataSet中潭辈,如果使用該參數(shù),sqoop會(huì)把數(shù)據(jù)先導(dǎo)入到臨時(shí)文件目錄澈吨,再合并把敢。 |
2 | --as-avrodatafile | 將數(shù)據(jù)導(dǎo)入到一個(gè)Avro數(shù)據(jù)文件中 |
3 | --as-sequencefile | 將數(shù)據(jù)導(dǎo)入到一個(gè)sequence文件中 |
4 | --as-textfile | 將數(shù)據(jù)導(dǎo)入到一個(gè)普通文本文件中 |
5 | --boundary-query <statement> | 邊界查詢(xún),導(dǎo)入的數(shù)據(jù)為該參數(shù)的值(一條sql語(yǔ)句)所執(zhí)行的結(jié)果區(qū)間內(nèi)的數(shù)據(jù)棚辽。 |
6 | --columns <col1, col2, col3> | 指定要導(dǎo)入的字段 |
7 | --direct | 直接導(dǎo)入模式技竟,使用的是關(guān)系數(shù)據(jù)庫(kù)自帶的導(dǎo)入導(dǎo)出工具,以便加快導(dǎo)入導(dǎo)出過(guò)程屈藐。 |
8 | --direct-split-size | 在使用上面direct直接導(dǎo)入的基礎(chǔ)上,對(duì)導(dǎo)入的流按字節(jié)分塊熙尉,即達(dá)到該閾值就產(chǎn)生一個(gè)新的文件 |
9 | --inline-lob-limit | 設(shè)定大對(duì)象數(shù)據(jù)類(lèi)型的最大值 |
10 | --m或–num-mappers | 啟動(dòng)N個(gè)map來(lái)并行導(dǎo)入數(shù)據(jù)联逻,默認(rèn)4個(gè)。 |
11 | --query或--e <statement> | 將查詢(xún)結(jié)果的數(shù)據(jù)導(dǎo)入检痰,使用時(shí)必須伴隨參--target-dir包归,--hive-table,如果查詢(xún)中有where條件铅歼,則條件后必須加上$CONDITIONS關(guān)鍵字 |
12 | --split-by <column-name> | 按照某一列來(lái)切分表的工作單元公壤,不能與--autoreset-to-one-mapper連用(請(qǐng)參考官方文檔) |
13 | --table <table-name> | 關(guān)系數(shù)據(jù)庫(kù)的表名 |
14 | --target-dir <dir> | 指定HDFS路徑 |
15 | --warehouse-dir <dir> | 與14參數(shù)不能同時(shí)使用,導(dǎo)入數(shù)據(jù)到HDFS時(shí)指定的目錄 |
16 | --where | 從關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)時(shí)的查詢(xún)條件 |
17 | --z或--compress | 允許壓縮 |
18 | --compression-codec | 指定hadoop壓縮編碼類(lèi)椎椰,默認(rèn)為gzip(Use Hadoop codec default gzip) |
19 | --null-string <null-string> | string類(lèi)型的列如果null厦幅,替換為指定字符串 |
20 | --null-non-string <null-string> | 非string類(lèi)型的列如果null,替換為指定字符串 |
21 | --check-column <col> | 作為增量導(dǎo)入判斷的列名 |
22 | --incremental <mode> | mode:append或lastmodified |
23 | --last-value <value> | 指定某一個(gè)值慨飘,用于標(biāo)記增量導(dǎo)入的位置 |
5.2.6确憨、命令&參數(shù):export
從HDFS(包括Hive和HBase)中將數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫(kù)中。
- 命令:
如:
bin/sqoop export \
--connect jdbc:mysql://bigdata111:3306/Andy \
--username root \
--password 000000 \
--export-dir /user/hive/warehouse/staff_hive \
--table aca \
--num-mappers 1 \
--input-fields-terminated-by "\t"
- 參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --direct | 利用數(shù)據(jù)庫(kù)自帶的導(dǎo)入導(dǎo)出工具瓤的,以便于提高效率 |
2 | --export-dir <dir> | 存放數(shù)據(jù)的HDFS的源目錄 |
3 | -m或--num-mappers <n> | 啟動(dòng)N個(gè)map來(lái)并行導(dǎo)入數(shù)據(jù)休弃,默認(rèn)4個(gè) |
4 | --table <table-name> | 指定導(dǎo)出到哪個(gè)RDBMS中的表 |
5 | --update-key <col-name> | 對(duì)某一列的字段進(jìn)行更新操作 |
6 | --update-mode <mode> | updateonly |
allowinsert(默認(rèn)) | ||
7 | --input-null-string <null-string> | 請(qǐng)參考import該類(lèi)似參數(shù)說(shuō)明 |
8 | --input-null-non-string <null-string> | 請(qǐng)參考import該類(lèi)似參數(shù)說(shuō)明 |
9 | --staging-table <staging-table-name> | 創(chuàng)建一張臨時(shí)表,用于存放所有事務(wù)的結(jié)果圈膏,然后將所有事務(wù)結(jié)果一次性導(dǎo)入到目標(biāo)表中塔猾,防止錯(cuò)誤。 |
10 | --clear-staging-table | 如果第9個(gè)參數(shù)非空稽坤,則可以在導(dǎo)出操作執(zhí)行前丈甸,清空臨時(shí)事務(wù)結(jié)果表 |
5.2.7医增、命令&參數(shù):codegen
將關(guān)系型數(shù)據(jù)庫(kù)中的表映射為一個(gè)Java類(lèi),在該類(lèi)中有各列對(duì)應(yīng)的各個(gè)字段老虫。
如:
$ bin/sqoop codegen \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--table staff \
--bindir /opt/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --bindir <dir> | 指定生成的Java文件叶骨、編譯成的class文件及將生成文件打包為jar的文件輸出路徑 |
2 | --class-name <name> | 設(shè)定生成的Java文件指定的名稱(chēng) |
3 | --outdir <dir> | 生成Java文件存放的路徑 |
4 | --package-name <name> | 包名,如com.z祈匙,就會(huì)生成com和z兩級(jí)目錄 |
5 | --input-null-non-string <null-str> | 在生成的Java文件中忽刽,可以將null字符串或者不存在的字符串設(shè)置為想要設(shè)定的值(例如空字符串) |
6 | --input-null-string <null-str> | 將null字符串替換成想要替換的值(一般與5同時(shí)使用) |
7 | --map-column-java <arg> | 數(shù)據(jù)庫(kù)字段在生成的Java文件中會(huì)映射成各種屬性,且默認(rèn)的數(shù)據(jù)類(lèi)型與數(shù)據(jù)庫(kù)類(lèi)型保持對(duì)應(yīng)關(guān)系夺欲。該參數(shù)可以改變默認(rèn)類(lèi)型跪帝,例如:--map-column-java id=long, name=String |
8 | --null-non-string <null-str> | 在生成Java文件時(shí),可以將不存在或者null的字符串設(shè)置為其他值 |
9 | --null-string <null-str> | 在生成Java文件時(shí)些阅,將null字符串設(shè)置為其他值(一般與8同時(shí)使用) |
10 | --table <table-name> | 對(duì)應(yīng)關(guān)系數(shù)據(jù)庫(kù)中的表名伞剑,生成的Java文件中的各個(gè)屬性與該表的各個(gè)字段一一對(duì)應(yīng) |
5.2.8、命令&參數(shù):create-hive-table
生成與關(guān)系數(shù)據(jù)庫(kù)表結(jié)構(gòu)對(duì)應(yīng)的hive表結(jié)構(gòu)市埋。
命令:
如:僅建表
$ bin/sqoop create-hive-table \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--table staff \
--hive-table hive_staff1
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --hive-home <dir> | Hive的安裝目錄黎泣,可以通過(guò)該參數(shù)覆蓋掉默認(rèn)的Hive目錄 |
2 | --hive-overwrite | 覆蓋掉在Hive表中已經(jīng)存在的數(shù)據(jù) |
3 | --create-hive-table | 默認(rèn)是false,如果目標(biāo)表已經(jīng)存在了缤谎,那么創(chuàng)建任務(wù)會(huì)失敗 |
4 | --hive-table | 后面接要?jiǎng)?chuàng)建的hive表 |
5 | --table | 指定關(guān)系數(shù)據(jù)庫(kù)的表名 |
5.2.9抒倚、命令&參數(shù):eval
可以快速的使用SQL語(yǔ)句對(duì)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行操作,經(jīng)常用于在import數(shù)據(jù)之前坷澡,了解一下SQL語(yǔ)句是否正確托呕,數(shù)據(jù)是否正常,并可以將結(jié)果顯示在控制臺(tái)频敛。
命令:
如:
$ bin/sqoop eval \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--query "SELECT * FROM staff"
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --query或--e | 后跟查詢(xún)的SQL語(yǔ)句 |
5.2.10项郊、命令&參數(shù):import-all-tables
可以將RDBMS中的所有表導(dǎo)入到HDFS中,每一個(gè)表都對(duì)應(yīng)一個(gè)HDFS目錄
命令:
如:注意:(卡住)
$ bin/sqoop import-all-tables \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--hive-import \
--fields-terminated-by "\t"
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --as-avrodatafile | 這些參數(shù)的含義均和import對(duì)應(yīng)的含義一致 |
2 | --as-sequencefile | |
3 | --as-textfile | |
4 | --direct | |
5 | --direct-split-size <n> | |
6 | --inline-lob-limit <n> | |
7 | --m或—num-mappers <n> | |
8 | --warehouse-dir <dir> | |
9 | -z或--compress | |
10 | --compression-codec |
5.2.11斟赚、命令&參數(shù):job
用來(lái)生成一個(gè)sqoop任務(wù)着降,生成后不會(huì)立即執(zhí)行,需要手動(dòng)執(zhí)行汁展。
命令:
如:
$ bin/sqoop job \
--create myjob -- import-all-tables \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000
$ bin/sqoop job \
--list
$ bin/sqoop job \
--exec myjob
尖叫提示:注意import-all-tables和它左邊的--之間有一個(gè)空格
尖叫提示:如果需要連接metastore鹊碍,則--meta-connect
執(zhí)行的結(jié)果在HDFS:/user/root/ 目錄中,即導(dǎo)出所有表到/user/root中
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --create <job-id> | 創(chuàng)建job參數(shù) |
2 | --delete <job-id> | 刪除一個(gè)job |
3 | --exec <job-id> | 執(zhí)行一個(gè)job |
4 | --help | 顯示job幫助 |
5 | --list | 顯示job列表 |
6 | --meta-connect <jdbc-uri> | 用來(lái)連接metastore服務(wù) |
7 | --show <job-id> | 顯示一個(gè)job的信息 |
8 | --verbose | 打印命令運(yùn)行時(shí)的詳細(xì)信息 |
尖叫提示:在執(zhí)行一個(gè)job時(shí)食绿,如果需要手動(dòng)輸入數(shù)據(jù)庫(kù)密碼侈咕,可以做如下優(yōu)化
<property>
<name>sqoop.metastore.client.record.password</name>
<value>true</value>
<description>If true, allow saved passwords in the metastore.</description>
</property>
5.2.12、命令&參數(shù):list-databases
命令:
如:
$ bin/sqoop list-databases \
--connect jdbc:mysql://bigdata111:3306/ \
--username root \
--password 000000
參數(shù):與公用參數(shù)一樣
5.2.13器紧、命令&參數(shù):list-tables
命令:
如:
$ bin/sqoop list-tables \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000
參數(shù):與公用參數(shù)一樣
5.2.14耀销、命令&參數(shù):merge
將HDFS中不同目錄下面的數(shù)據(jù)合并在一起并放入指定目錄中
數(shù)據(jù)環(huán)境:注意:以下數(shù)據(jù)自己手動(dòng)改成\t
new_staff
1 AAA male
2 BBB male
3 CCC male
4 DDD male
old_staff
1 AAA female
2 CCC female
3 BBB female
6 DDD female
尖叫提示:上邊數(shù)據(jù)的列之間的分隔符應(yīng)該為\t,行與行之間的分割符為\n铲汪,如果直接復(fù)制熊尉,請(qǐng)檢查之罐柳。
命令:
如:
創(chuàng)建JavaBean:
$ bin/sqoop codegen \
--connect jdbc:mysql://bigdata111:3306/company \
--username root \
--password 000000 \
--table staff \
--bindir /opt/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"
開(kāi)始合并:注:是hdfs路徑
$ bin/sqoop merge \
--new-data /test/new/ \
--onto /test/old/ \
--target-dir /test/merged \
--jar-file /opt/Desktop/staff/Staff.jar \
--class-name Staff \
--merge-key id
結(jié)果:
1 AAA MALE
2 BBB MALE
3 CCC MALE
4 DDD MALE
6 DDD FEMALE
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --new-data <path> | HDFS 待合并的數(shù)據(jù)目錄,合并后在新的數(shù)據(jù)集中保留 |
2 | --onto <path> | HDFS合并后狰住,重復(fù)的部分在新的數(shù)據(jù)集中被覆蓋 |
3 | --merge-key <col> | 合并鍵张吉,一般是主鍵ID |
4 | --jar-file <file> | 合并時(shí)引入的jar包,該jar包是通過(guò)Codegen工具生成的jar包 |
5 | --class-name <class> | 對(duì)應(yīng)的表名或?qū)ο竺咧玻揷lass類(lèi)是包含在jar包中的 |
6 | --target-dir <path> | 合并后的數(shù)據(jù)在HDFS里存放的目錄 |
5.2.15肮蛹、命令&參數(shù):metastore
記錄了Sqoop job的元數(shù)據(jù)信息,如果不啟動(dòng)該服務(wù)创南,那么默認(rèn)job元數(shù)據(jù)的存儲(chǔ)目錄為~/.sqoop伦忠,可在sqoop-site.xml中修改。
命令:
如:?jiǎn)?dòng)sqoop的metastore服務(wù)
$ bin/sqoop metastore
參數(shù):
序號(hào) | 參數(shù) | 說(shuō)明 |
---|---|---|
1 | --shutdown | 關(guān)閉metastore |