1. 部署Kafka集群

按照之前的步骤部署一个Kafka集群。

2. 部署Hadoop集群

包括HDFS,YARN和MapReduce等组件。

用于从Kafka读取数据进行计算。

使用Kafka Java API实现producer,将数据写入Kafka topic。

实现自定义的KafkaInputFormat。读取Kafka topic的数据。

## www.itzhimei.com 代码段
public class KafkaInputFormat 
    extends InputFormat<WritableComparable, KafkaConsumerRecord> {

  // ...
}

使用自定义的KafkaInputFormat作为输入格式。

## www.itzhimei.com 代码段
Job job = new Job(conf);
job.setJarByClass(WordCountMRApp.class); 

job.setInputFormatClass(KafkaInputFormat.class);
// ...

提交job运行在Hadoop之上。

可以查看MapReduce 作业的运行状态和输出结果。

主要步骤就是:

通过自定义Kafka InputFormat,可以将Kafka作为Hadoop作业的输入源。这样就能实现Kafka和Hadoop的整合。