一文详解HiveSQL执行计划

2021-06-21 10:43

在第二条sql语句前加上 explain，得到如下结果

hive （default）＞ explain select a．id，b．user＿name from（select ＊ from test1 where id＞2 ） a join test2 b on a．id＝b．id；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：test1
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：test1
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．apache．hadoop．mapred．SequenceFileInputFormat
output format： org．apache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．apache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

大家有什么发现，除了表别名不一样，其他的执行计划完全一样，都是先进行 where 条件过滤，在进行 join 条件关联。说明 hive 底层会自动帮我们进行优化，所以这两条sql语句执行效率是一样的。

以上仅列举了3个我们生产中既熟悉又有点迷糊的例子，explain 还有很多其他的用途，如查看stage的依赖情况、排查数据倾斜、hive 调优等，小伙伴们可以自行尝试。

3． explain dependency的用法

explain dependency用于描述一段SQL需要的数据来源，输出是一个json格式的数据，里面包含以下两个部分的内容：

input＿partitions：描述一段SQL依赖的数据来源表分区，里面存储的是分区名的列表，如果整段SQL包含的所有表都是非分区表，则显示为空。

input＿tables：描述一段SQL依赖的数据来源表，里面存储的是Hive表名的列表。

使用explain dependency查看SQL查询非分区普通表，在 hive cli 中输入以下命令：

explain dependency select s＿age，count（1） num from student＿orc；

得到结果：

｛＂input＿partitions＂：［］，＂input＿tables＂：［｛＂tablename＂：＂default＠student＿tb ＿orc＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

使用explain dependency查看SQL查询分区表，在 hive cli 中输入以下命令：

explain dependency select s＿age，count（1） num from student＿orc＿partition；

得到结果：

｛＂input＿partitions＂：［｛＂partitionName＂：＂default＠student＿orc＿partition＠ part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝3＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝4＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝5＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝6＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝7＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝8＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］

explain dependency的使用场景有两个：

场景一：快速排除。快速排除因为读取不到相应分区的数据而导致任务数据输出异常。例如，在一个以天分区的任务中，上游任务因为生产过程不可控因素出现异常或者空跑，导致下游任务引发异常。通过这种方式，可以快速查看SQL读取的分区是否出现异常。

场景二：理清表的输入，帮助理解程序的运行，特别是有助于理解有多重子查询，多表连接的依赖输入。

下面通过两个案例来看explain dependency的实际运用：

案例一：识别看似等价的代码

对于刚接触SQL的程序员，很容易将

select ＊ from a inner join b on a．no＝b．no and a．f＞1 and a．f＜3；

等价于

select ＊ from a inner join b on a．no＝b．no where a．f＞1 and a．f＜3；

我们可以通过案例来查看下它们的区别：

代码1：

select
a．s＿no
from student＿orc＿partition a
inner join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and a．part＞＝1 and a．part＜＝2；

代码2：

select
a．s＿no
from student＿orc＿partition a
inner join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part
where a．part＞＝1 and a．part＜＝2；

我们看下上述两段代码explain dependency的输出结果：

代码1的explain dependency结果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

代码2的explain dependency结果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

通过上面的输出结果可以看到，其实上述的两个SQL并不等价，代码1在内连接（inner join）中的连接条件（on）中加入非等值的过滤条件后，并没有将内连接的左右两个表按照过滤条件进行过滤，内连接在执行时会多读取part＝0的分区数据。而在代码2中，会过滤掉不符合条件的分区。

案例二：识别SQL读取数据范围的差别

代码1：

explain dependency
select
a．s＿no
from student＿orc＿partition a
left join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and b．part＞＝1 and b．part＜＝2；

代码2：

explain dependency
select
a．s＿no
from student＿orc＿partition a
left join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and a．part＞＝1 and a．part＜＝2；

以上两个代码的数据读取范围是一样的吗？答案是不一样，我们通过explain dependency来看下：

代码1的explain dependency结果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝， …中间省略7个分区
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

代码2的explain dependency结果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝， …中间省略7个分区
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝， …中间省略7个分区
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝9＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

可以看到，对左外连接在连接条件中加入非等值过滤的条件，如果过滤条件是作用于右表（b表）有起到过滤的效果，则右表只要扫描两个分区即可，但是左表（a表）会进行全表扫描。如果过滤条件是针对左表，则完全没有起到过滤的作用，那么两个表将进行全表扫描。这时的情况就如同全外连接一样都需要对两个数据进行全表扫描。

在使用过程中，容易认为代码片段2可以像代码片段1一样进行数据过滤，通过查看explain dependency的输出结果，可以知道不是如此。

4． explain authorization 的用法

通过explain authorization可以知道当前SQL访问的数据来源（INPUTS）和数据输出（OUTPUTS），以及当前Hive的访问用户（CURRENT＿USER）和操作（OPERATION）。

在 hive cli 中输入以下命令：

explain authorization
select variance（s＿score） from student＿tb＿orc；

结果如下：

INPUTS：
default＠student＿tb＿orc
OUTPUTS：
hdfs：／／node01：8020／tmp／hive／hdfs／cbf182a5－8258－4157－9194－ 90f1475a3ed5／－mr－10000
CURRENT＿USER：
hdfs
OPERATION：
QUERY
AUTHORIZATION＿FAILURES：
No privilege ＇Select＇ found for inputs ｛ database：default， table：student＿ tb＿orc， columnName：s＿score｝

从上面的信息可知：

上面案例的数据来源是defalut数据库中的 student＿tb＿orc表；

数据的输出路径是hdfs：／／node01：8020／tmp／hive／hdfs／cbf182a5－8258－4157－9194－90f1475a3ed5／－mr－10000；

当前的操作用户是hdfs，操作是查询；

观察上面的信息我们还会看到AUTHORIZATION＿FAILURES信息，提示对当前的输入没有查询权限，但如果运行上面的SQL的话也能够正常运行。为什么会出现这种情况？Hive在默认不配置权限管理的情况下不进行权限验证，所有的用户在Hive里面都是超级管理员，即使不对特定的用户进行赋权，也能够正常查询。

最后

通过上面对explain的介绍，可以发现explain中有很多值得我们去研究的内容，读懂 explain 的执行计划有利于我们优化Hive SQL，同时也能提升我们对SQL的掌控力。

<上一页 1 2 3