RDD RDD详解 RDD定义 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,Spark中最基本的数据抽象,代表一个不可变,可分区,里面元素可并行计算的集合。 Dataset:用于存放数据的数据集合。比如List,Dict Distributed:Rdd中的数据是 2024-10-08 67 0
1.Spark基础概念 Spark基础概念 Spark核心是用Scala语言开发的,Scala语言编译后会生成Java字节码,是一种运行在JVM上的语言。 无论是用Scala开发的Spark核心还是用其他语言(如Java或Python)编写的Spark应用,最终都依赖于JVM来执行。 Java和Scala可以直接运行在JV 2024-10-05 35 0