网站Logo chenxin-blog
首页
分类
哲理的小句
相册
视频
文档
关于
登录

DataFrame

DataFrame的组成 结构层面 StructType对象:描述整个DataFrame表结构 StructType对象:描述一个列信息 数据层面 Row对象:记录一行对象 Column对象:记录一个列的数据以及列信息 DataFrame的创建 基于RDD创建 方式 1:基于 RDD 直接创建 #

2024-11-04
16
0

SparkSql

SparkSql概述 SparkSql是Spark的一个模块,用于处理海量结构化数据。 SparkSql的特点 融合性: Spark SQL 无缝集成代码,支持编程语言与 SQL 查询的结合。 统一数据访问: 提供标准 API,统一处理不同数据源。 Hive 支持: 可运行 Hive 查询,生成报表

2024-11-04
5
0

Spark内核调度

title: Spark内核调度 id: 5bd794b9-a8da-496c-9c1e-e44a2dd4a777 date: 2024-10-30 17:12:47 auther: chenxin cover: excerpt: DAG DAG概念 DAG:有向无环图 有向:有方向 无环:没有闭环

2024-10-30
22
0

共享变量

广播变量 概念 个人理解 分区的任务是以线程的方式处理的,若一个Executor上有多个分区,且每一个分区都要对Driver上的List对象进行操作, 由于Executor是一个进程,进程中的线程共享资源,若Dirver把本地List对象向每一个分区线程都发送一份,那么不仅网络IO操作增加,并且还会

2024-10-30
11
0

Pyspark介绍

PySpark介绍 框架VS类库 类库:别人写好的代码,可以直接导入使用。如Pandas和PySpark 框架:可以独立运行,并提供编程结构的一种软件产品,Spark就是一个独立的框架。 Pandas处理小规模数据集,Spark处理大规模数据集。 无论大小数据集,都有合适的技术栈去处理才能称为合格的

2024-10-10
10
0

Spark Local运行模式原理

基本原理 本质:local模式可以限制模拟Spark集群环境的线程数量,即local[N]或local[*]; N 代表可以使用的 CPU 核心数,每个核心可以运行一个任务。如果不指定 N,则默认使用 1 个核心。通常,设置核心数与 CPU 的物理核心数相同,以便最大化计算能力。 local[*]

2024-10-10
27
0

jupyter notebook使用pyspark

在使用jupython notebook编写pyspark程序的时候,总是报我少模块,我重装了多次,仍然是报缺少模块。 后面才发现,我安装了多个python解释器,虽然我重新使用anaconda使用新的环境,但jupyter notebook的内核依然是旧的内核(运行环境)。 当我切换内核之后,就可

2024-10-08
30
0

RDD

RDD详解 RDD定义 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,Spark中最基本的数据抽象,代表一个不可变,可分区,里面元素可并行计算的集合。 Dataset:用于存放数据的数据集合。比如List,Dict Distributed:Rdd中的数据是

2024-10-08
67
0

1.Spark基础概念

Spark基础概念 Spark核心是用Scala语言开发的,Scala语言编译后会生成Java字节码,是一种运行在JVM上的语言。 无论是用Scala开发的Spark核心还是用其他语言(如Java或Python)编写的Spark应用,最终都依赖于JVM来执行。 Java和Scala可以直接运行在JV

2024-10-05
35
0