chenxin-blog

Hbase过滤器

HBase 提供了多种过滤器，允许基于行键、列族、列名或列值来过滤数据。 RowFilter（行键过滤器）根据行键进行过滤，可以指定条件（如大于、小于等）。示例：查询所有键值对大于 1002 的数据。 scan 'student', {FILTER => "RowFilter(>, 'binar

2024-11-05

13

0

DataFrame

DataFrame的组成结构层面 StructType对象:描述整个DataFrame表结构 StructType对象:描述一个列信息数据层面 Row对象:记录一行对象 Column对象:记录一个列的数据以及列信息 DataFrame的创建基于RDD创建方式 1：基于 RDD 直接创建 #

2024-11-04

16

0

SparkSql

SparkSql概述 SparkSql是Spark的一个模块，用于处理海量结构化数据。 SparkSql的特点融合性: Spark SQL 无缝集成代码，支持编程语言与 SQL 查询的结合。统一数据访问: 提供标准 API，统一处理不同数据源。 Hive 支持: 可运行 Hive 查询，生成报表

2024-11-04

5

0

Spark内核调度

title: Spark内核调度 id: 5bd794b9-a8da-496c-9c1e-e44a2dd4a777 date: 2024-10-30 17:12:47 auther: chenxin cover: excerpt: DAG DAG概念 DAG：有向无环图有向：有方向无环：没有闭环

2024-10-30

22

0

共享变量

广播变量概念个人理解分区的任务是以线程的方式处理的，若一个Executor上有多个分区，且每一个分区都要对Driver上的List对象进行操作，由于Executor是一个进程，进程中的线程共享资源，若Dirver把本地List对象向每一个分区线程都发送一份，那么不仅网络IO操作增加，并且还会

2024-10-30

11

0

Hbase基础Shell命令

表操作命令创建表(create) 用于创建新表，可以指定列族及其属性。 create 'table_name','column_family1','column_family2' eg create 'student','info1','info2' 可以为列族设置版本数等属性： # 列族in

2024-10-26

8

0

Ubuntu卸载桌面环境

Ubuntu的桌面环境会占用大量运行内存，通过卸载桌面环境,Ubuntu的占用运行内存与最小化安装Centos占用运行内存相差较小。若虚拟机安装的是Ubuntu系统并且分配的运行内存较小，可以删除桌面环境节省系统本身占用的运行内存。 Ubuntu的默认桌面环境是GNOME,下面是卸载GNOME桌面

2024-10-20

15

0

Pyspark介绍

PySpark介绍框架VS类库类库:别人写好的代码，可以直接导入使用。如Pandas和PySpark 框架:可以独立运行,并提供编程结构的一种软件产品，Spark就是一个独立的框架。 Pandas处理小规模数据集，Spark处理大规模数据集。无论大小数据集，都有合适的技术栈去处理才能称为合格的

2024-10-10

10

0

Spark Local运行模式原理

基本原理本质：local模式可以限制模拟Spark集群环境的线程数量，即local[N]或local[*]; N 代表可以使用的 CPU 核心数，每个核心可以运行一个任务。如果不指定 N，则默认使用 1 个核心。通常，设置核心数与 CPU 的物理核心数相同，以便最大化计算能力。 local[*]

2024-10-10

27

0

jupyter notebook使用pyspark

在使用jupython notebook编写pyspark程序的时候，总是报我少模块，我重装了多次，仍然是报缺少模块。后面才发现，我安装了多个python解释器，虽然我重新使用anaconda使用新的环境，但jupyter notebook的内核依然是旧的内核（运行环境）。当我切换内核之后，就可

2024-10-08

30

0