1. limit 語句快速出結(jié)果
一般情況下浩螺,Limit語句還是需要執(zhí)行整個查詢語句,然后再返回部分結(jié)果桨菜。
有一個配置屬性可以開啟豁状,避免這種情況---對數(shù)據(jù)源進行抽樣
hive.limit.optimize.enable=true --- 開啟對數(shù)據(jù)源進行采樣的功能
hive.limit.row.max.size --- 設(shè)置最小的采樣容量
hive.limit.optimize.limit.file --- 設(shè)置最大的采樣樣本數(shù)
缺點:有可能部分數(shù)據(jù)永遠不會被處理到
2.并行執(zhí)行
set hive.exec.parallel=true,可以開啟并發(fā)執(zhí)行
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 執(zhí)行前進行小文件合并 2)增加map數(shù)
3.執(zhí)行順序
3.1 sql語句定義順序
(1) SELECT (2)DISTINCT <select_list>
(3)FROM <left_table>
(4)<join_type> JOIN <right_table>
(5) ON <join_condition>
(6) WHERE <where_condition>
(7) GROUP BY <group_by_list>
(8) WITH {CUBE| ROLLUP}
(9) HAVING <having_condition>
(10) ORDER BY <order_by_condition>
(11) LIMIT <limit_number>
3.2 實際執(zhí)行順序
(1)FROM <left_table>
(2)ON <join_condition>
(3)<join_type> JOIN <right_table>
(4)WHERE <where_condition>
(5)GROUP BY <group_by_list>
(6)WITH {CUBE| ROLLUP}
(7)HAVING <having_condition>
(8) SELECT
(9)DISTINCT <select_list>
(10)ORDER BY <order_by_condition>
(11)LIMIT <limit_number>
可以看到,一共有十一個步驟倒得,最先執(zhí)行的是FROM操作替蔬,最后執(zhí)行的是LIMIT操作。每個操作都會產(chǎn)生一個虛擬表屎暇,該虛擬表作為一個處理的輸入,看下執(zhí)行順序:
(1) FROM:對FROM子句中的左表<left_table>和右表<right_table>執(zhí)行笛卡兒積驻粟,產(chǎn)生虛擬表VT1;
(2) ON: 對虛擬表VT1進行ON篩選根悼,只有那些符合<join_condition>的行才被插入虛擬表VT2;
(3) JOIN: 如果指定了OUTER JOIN(如LEFT OUTER JOIN、RIGHT OUTER JOIN)蜀撑,那么保留表中未匹配的行作為外部行添加到虛擬表VT2挤巡,產(chǎn)生虛擬表VT3。如果FROM子句包含兩個以上的表酷麦,則對上一個連接生成的結(jié)果表VT3和下一個表重復(fù)執(zhí)行步驟1~步驟3矿卑,直到處理完所有的表;
(4) WHERE: 對虛擬表VT3應(yīng)用WHERE過濾條件,只有符合<where_condition>的記錄才會被插入虛擬表VT4;
(5) GROUP By: 根據(jù)GROUP BY子句中的列沃饶,對VT4中的記錄進行分組操作母廷,產(chǎn)生VT5;
(6) CUBE|ROllUP: 對VT5進行CUBE或ROLLUP操作,產(chǎn)生表VT6;
(7) HAVING: 對虛擬表VT6應(yīng)用HAVING過濾器糊肤,只有符合<having_condition>的記錄才會被插入到VT7;
(8) SELECT: 第二次執(zhí)行SELECT操作琴昆,選擇指定的列,插入到虛擬表VT8中;
(9) DISTINCT: 去除重復(fù)馆揉,產(chǎn)生虛擬表VT9;
(10) ORDER BY: 將虛擬表VT9中的記錄按照<order_by_list>進行排序操作业舍,產(chǎn)生虛擬表VT10;
(11) LIMIT: 取出指定街行的記錄,產(chǎn)生虛擬表VT11升酣,并返回給查詢用戶