spark怎么写入hdfs文件

825
2024/4/16 14:59:05
栏目: 大数据
开发者测试专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

要将数据写入HDFS文件系统,可以使用Apache Spark中的saveAsTextFile()或saveAsObjectFile()方法。以下是一个示例:

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object WriteToHDFS {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WriteToHDFS").setMaster("local")
    val sc = new SparkContext(conf)

    val data = List(1, 2, 3, 4, 5)
    val rdd = sc.parallelize(data)

    // 将RDD写入HDFS文件
    rdd.saveAsTextFile("hdfs://<HDFS_URI>/path/to/file")

    // 可以使用saveAsObjectFile()方法将RDD保存为对象文件
    // rdd.saveAsObjectFile("hdfs://<HDFS_URI>/path/to/file")

    sc.stop()
  }
}

请确保替换<HDFS_URI>/path/to/file为实际的HDFS文件系统URI和路径。同时,确保您的Spark应用程序有权限访问HDFS文件系统。

辰迅云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

推荐阅读: Spark中的Shuffle有什么作用