Spark可以通过Spark Streaming模块来读取Kafka中的数据,实现实时流数据处理。
以下是一个简单的示例代码,演示了如何在Spark中读取Kafka数据:
import org.apache.spark.SparkConf
import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._
val sparkConf = new SparkConf().setAppName("KafkaStreamingExample")
val ssc = new StreamingContext(sparkConf, Seconds(5))
val kafkaParams = Map("bootstrap.servers" -> "localhost:9092",
"key.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
"value.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
"group.id" -> "spark-streaming-group",
"auto.offset.reset" -> "latest",
"enable.auto.commit" -> (false: java.lang.Boolean))
val topics = Set("topic1", "topic2")
val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
kafkaStream.foreachRDD { rdd =>
rdd.foreach { record =>
println(record._2)
}
}
ssc.start()
ssc.awaitTermination()
在上面的示例中,首先创建了一个StreamingContext对象,指定了Spark的配置和批处理间隔为5秒。然后设置了Kafka的参数,包括bootstrap.servers、key/value的反序列化器、消费者组ID等。接着指定要读取的Kafka主题,然后通过KafkaUtils.createDirectStream方法创建一个DStream对象,该对象代表了从Kafka中读取的数据流。
最后通过foreachRDD方法对每个批处理的RDD进行处理,可以在其中访问每个记录,并进行相应的处理。最后启动StreamingContext并等待其终止。
需要注意的是,上面的示例中使用的是Direct方式从Kafka中读取数据,还有另外一种方式是Receiver方式,具体选择哪种方式取决于需求和场景。
辰迅云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
推荐阅读: Spark计算框架如何应对数据倾斜