Hive中如何进行数据聚合操作？代码举例讲解

在Hive中,我们可以使用以下方式进行数据聚合操作:

SELECT dept_id, AVG(salary) 
FROM employees
GROUP BY dept_id; -- 按部门分组,计算每个部门的平均工资

SELECT dept_id, job_id, AVG(salary)
FROM employees
GROUP BY CUBE(dept_id, job_id);

这会先按部门和职位分组,然后对部门.职位和部门+职位这三个维度进行聚合,获得完全聚合的结果。

SELECT dept_id, job_id, AVG(salary)
FROM employees 
GROUP BY ROLLUP(dept_id, job_id);

这会先按部门和职位分组,然后对部门.部门+职位这两个维度进行聚合,实现从职位级到部门级的聚合。

SELECT dept_id, salary,  
AVG(salary) OVER(PARTITION BY dept_id) AS dept_avg_salary 
FROM employees;

这会对每个部门的行窗进行聚合,计算每个部门的平均工资。

数据聚合是BI和数据分析的基石,熟练掌握Hive聚合工具可以让我们轻松实现OLAP分析,产出重要的BI指标,为数据驱动的商业决策提供支持。