Hadoop中如何进行数据的归一化和标准化？代码举例讲解

发表于2023年8月23日2023年6月11日作者 IT之美

在Hadoop中进行数据归一化和标准化的主要方式是:

1、使用Hive的UDF(User-Defined Function)实现字段转换:

编写UDF对指定的字段值进行转换或格式化。
在查询语句中调用UDF方法实现自定义逻辑。
UDF支持丰富的数据类型,可以实现各种转换与标准化需求。
底层依赖于Hive的数据读取与UDF方法的调用。

2、在MapReduce中自定义Mapper实现字段转换:

编写Mapper解析数据并对指定字段的值进行标准化或转换。
最终输出的KeyValue对已实现字段标准化与转换。
这需要编写Mapper组件并在驱动类中进行调用。

3、使用Sqoop导入数据至MySQL并在导入过程中指定列转换:

将HDFS数据导入至MySQL数据仓库。
在导入命令中通过–columns选项对列进行重命名、类型转换等。
Sqoop会自动在数据传输过程中实现列的转换与标准化。
这需要安装配置Sqoop并连接至MySQL。

4、在数据库中通过SQL实现数据更新与标准化:

将数据导入至数据库系统(MySQL、Hive等)。
使用UPDATE语句更新指定列的值至标准格式。
也可以在导入数据过程中通过SQL实现列转换。
支持的转换类型由数据库系统决定,性能会有一定损失。

5、 Hive数据标准化示例:

创建输入表table1:

CREATE TABLE table1 ( 
  col1 string, 
  col2 int   
);

编写例如LOWER UDF将col1字段转换为小写:

CREATE FUNCTION LOWER(input STRING) 
RETURNS STRING 
RETURN LOWER(input);

在查询中调用LOWER UDF标准化col1:

SELECT 
  LOWER(col1) AS col1,
  col2
FROM table1;

col1字段输出会全部转换为小写。

数据归一化和标准化的主要作用是:

1、统一数据格式,方便关联与分析。
2、减少数据冗余,降低存贮成本。
3、简化业务流程,提高开发效率。
4、提供更加规范与统一的数据环境。

来看一些简单示例:
1、 Hive使用UDF实现数据标准化:

创建输入表table1:

CREATE TABLE table1 (
  col1 string, 
  col2 int  
);

编写LOWER UDF将col1字段值转换为小写:

CREATE FUNCTION LOWER(input STRING)  
RETURNS STRING  
RETURN LOWER(input);

在查询中调用UDF标准化col1字段:

SELECT 
  LOWER(col1) AS col1, 
  col2 
FROM table1;

col1字段输出会全部转换为小写
2、自定义MapReduce作业实现数据标准化:
编写Mapper解析数据并对col1字段调用LOWER方法转换为小写:

public class NormMapper extends Mapper<LongWritable, Text, Text, IntWritable> {  
   public void map(LongWritable key, Text value, Context context)  
      throws IOException, InterruptedException {  
      String[] cols = value、toString().split("\t");  
      cols[0] = cols[0].toLowerCase();  // 将col1字段转换为小写
      context、write(new Text(cols[0]), new IntWritable(Integer、parseInt(cols[1])));
   }  
}

设置MapReduce作业使用NormMapper
最终输出的col1字段会全部转换为小写
3、使用Sqoop将数据导入MySQL并在导入过程中标准化:
准备HDFS数据与MySQL连接信息
Sqoop导入命令:

sqoop import \
--connect jdbc:mysql://localhost/db \
--username root \
--password password \
--table table1 \
--columns "col1,col2" \
--rename "col1=norm_col1"  
- --columns选项重新命名col1字段为norm_col1 
- Sqoop会自动在导入的过程中将col1字段重命名为norm_col1