一文详解HiveSQL执行计划

2021-06-21 10:43

案例三：哪条sql执行效率高呢？

观察两条sql语句

SELECT
a．id，
b．user＿name
FROM
test1 a
JOIN test2 b ON a．id ＝ b．id
WHERE
a．id ＞ 2；
SELECT
a．id，
b．user＿name
FROM
（SELECT ＊ FROM test1 WHERE id ＞ 2） a
JOIN test2 b ON a．id ＝ b．id；

这两条sql语句输出的结果是一样的，但是哪条sql执行效率高呢？

有人说第一条sql执行效率高，因为第二条sql有子查询，子查询会影响性能；

有人说第二条sql执行效率高，因为先过滤之后，在进行join时的条数减少了，所以执行效率就高了。

到底哪条sql效率高呢，我们直接在sql语句前面加上 explain，看下执行计划不就知道了嘛！

在第一条sql语句前加上 explain，得到如下结果

hive （default）＞ explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id where a．id ＞2；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：a
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：a
TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．apache．hadoop．mapred．SequenceFileInputFormat
output format： org．apache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．apache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink