Hbase过滤器 HBase 提供了多种过滤器,允许基于行键、列族、列名或列值来过滤数据。 RowFilter(行键过滤器) 根据行键进行过滤,可以指定条件(如大于、小于等)。 示例:查询所有键值对大于 1002 的数据。 scan 'student', {FILTER => "RowFilter(>, 'binar 2024-11-05 13 0
DataFrame DataFrame的组成 结构层面 StructType对象:描述整个DataFrame表结构 StructType对象:描述一个列信息 数据层面 Row对象:记录一行对象 Column对象:记录一个列的数据以及列信息 DataFrame的创建 基于RDD创建 方式 1:基于 RDD 直接创建 # 2024-11-04 16 0
SparkSql SparkSql概述 SparkSql是Spark的一个模块,用于处理海量结构化数据。 SparkSql的特点 融合性: Spark SQL 无缝集成代码,支持编程语言与 SQL 查询的结合。 统一数据访问: 提供标准 API,统一处理不同数据源。 Hive 支持: 可运行 Hive 查询,生成报表 2024-11-04 5 0
Spark内核调度 title: Spark内核调度 id: 5bd794b9-a8da-496c-9c1e-e44a2dd4a777 date: 2024-10-30 17:12:47 auther: chenxin cover: excerpt: DAG DAG概念 DAG:有向无环图 有向:有方向 无环:没有闭环 2024-10-30 22 0
共享变量 广播变量 概念 个人理解 分区的任务是以线程的方式处理的,若一个Executor上有多个分区,且每一个分区都要对Driver上的List对象进行操作, 由于Executor是一个进程,进程中的线程共享资源,若Dirver把本地List对象向每一个分区线程都发送一份,那么不仅网络IO操作增加,并且还会 2024-10-30 11 0
Hbase基础Shell命令 表操作命令 创建表(create) 用于创建新表,可以指定列族及其属性。 create 'table_name','column_family1','column_family2' eg create 'student','info1','info2' 可以为列族设置版本数等属性: # 列族in 2024-10-26 8 0
Ubuntu卸载桌面环境 Ubuntu的桌面环境会占用大量运行内存,通过卸载桌面环境,Ubuntu的占用运行内存与最小化安装Centos占用运行内存相差较小。 若虚拟机安装的是Ubuntu系统并且分配的运行内存较小,可以删除桌面环境节省系统本身占用的运行内存。 Ubuntu的默认桌面环境是GNOME,下面是卸载GNOME桌面 2024-10-20 15 0
Pyspark介绍 PySpark介绍 框架VS类库 类库:别人写好的代码,可以直接导入使用。如Pandas和PySpark 框架:可以独立运行,并提供编程结构的一种软件产品,Spark就是一个独立的框架。 Pandas处理小规模数据集,Spark处理大规模数据集。 无论大小数据集,都有合适的技术栈去处理才能称为合格的 2024-10-10 10 0
Spark Local运行模式原理 基本原理 本质:local模式可以限制模拟Spark集群环境的线程数量,即local[N]或local[*]; N 代表可以使用的 CPU 核心数,每个核心可以运行一个任务。如果不指定 N,则默认使用 1 个核心。通常,设置核心数与 CPU 的物理核心数相同,以便最大化计算能力。 local[*] 2024-10-10 27 0
jupyter notebook使用pyspark 在使用jupython notebook编写pyspark程序的时候,总是报我少模块,我重装了多次,仍然是报缺少模块。 后面才发现,我安装了多个python解释器,虽然我重新使用anaconda使用新的环境,但jupyter notebook的内核依然是旧的内核(运行环境)。 当我切换内核之后,就可 2024-10-08 30 0