spark - 程序员宅基地

Spark、Python spark、Hadoop简介

Spark、Python spark、Hadoop简介 Spark简介 1、Spark简介及功能模块 Spark是一个弹性的分布式运算框架，作为一个用途广泛的大数据运算平台，Spark允许用户将数据加载到cluster集群的内存中储存，并多次重复...

（一）spark是什么？

标签： spark big data 大数据

1.spark是什么？ spark是一个用来实现快速，通用的集群计算平台 spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，...

04 Spark SQL

标签： spark sql 大数据

从 Hive/Spark SQL 等最原始、最普及的 SQL 查询引擎，到 Kylin/ClickHouse 等 OLAP 引擎，再到流式的 Flink SQL/Kafka SQL，大数据的各条技术栈，都在或多或少地往 SQL 方向靠拢。缺乏对 SQL 的支持会让自身的技术...

【云原生 30】Docker运行大数据处理框架Spark_docker spark

标签：云原生 docker spark

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，基于Scala开发。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和...

spark 安装详细步骤

标签： spark 大数据 scala

3、在目录/home/hadoop/software下解压：tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz。4、进入conf目录,复制文件cp spark-env.sh.template spark-env.sh。6、cd 切换到sbin目录下使用 ./start-all.sh 命令。5、vim ...

Spark on YARN

Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是...

【笔记】RDD笔记（Spark基础知识）

标签：笔记 spark 大数据

Spark基础知识、RDD操作笔记

Spark技术03直播笔记

标签： spark 笔记大数据

cluster的不太好看 succeeded表示成功了，然后点击ID那个点击进去会有一个logs(日志),在日志里面就可以查看对应的结果了它这个是根据你电脑性能来执行的，执行多次结果都是不会重复的。

spark sql和spark core之间的关系

标签： python scala

这几天一直在学spark模块之间的关系，但是一直不清楚dataframe、RDD、dataset这几种数据结构之间的关系，也不清楚要写代码的话从哪里找文档，后面接触了spark sql之后一下子就明白了。本来以为Spark SQL只是用来写...

一百零六、Hive312的计算引擎由MapReduce(默认)改为Spark（亲测有效）

标签：大数据 hive spark

Hive312的计算引擎由MapReduce(默认)改为Spark

Spark-机器学习（8）分类学习之随机森林

标签：学习随机森林算法

随机森林（Random Forest）是一种基于决策树的集成学习算法，由多棵决策树组成，且每棵树的建立都依赖于一个独立抽取的样本集。在分类问题中，随机森林通过集成学习的思想将多棵树（决策树）的预测结果进行汇总，...

java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

标签： java提交spark任务到ya

java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

Ubuntu下安装Spark3.2.0教程

标签： ubuntu spark hadoop

文章目录前言一、安装Spark1. 下载压缩包并解压2. 安装Spark3. 配置环境变量4. 修改配置文件二、验证Spark安装及错误处理1. 运行Spark实例2. 启动Spark shell三、总结前言 Spark 的安装需要建立在 Hadoop 的之上...

Spark入门- Spark运行Local本地模式

标签：大数据 spark

一、Spark单机模式部署 Spark版本： spark-2.4.7-bin-hadoop2.7 1、安装配置JDK环境 2、下载Spark 官网下载http://spark.apache.org/ 然后上传到LInux服务器上 3、解压 tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz ...

头歌：Spark任务提交

标签： spark 大数据分布式

这段脚本首先将 project.jar 复制到 /root 目录下，然后切换到 /opt/spark/dist/bin 目录。在 begin 和 end 之间，使用 spark-submit 命令提交 Spark 程序，其中 --master local 指定了本地模式，--class Student ...

Spark local运行模式日志配置

标签： spark 大数据分布式

2) history-server配置，查看历史任务。打开http://spark服务器:18080。Spark版本：3.3.5。

spark 运行自带样例SparkPi、spark-examples报错

标签：大数据 hadoop spark

./spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-3.10.1.jar 10 scala> spark-submit --class org.apache.spark.examples.SparkPi --...

Spark自带example

标签： spark

Spark自带examples案例 1.SparkPi 在SPARK_HOME目录下运行如下命令： bin/run-example org.apache.spark.examples.SparkPi 结果如下图所示：到此，案例成功运行，运行结果为：Pi is roughly 3.1402157010785055 2...

Spark面试重点

标签： spark 面试大数据

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient：RDD中的数据可以存储在内存中或者磁盘中。

Spark Streaming 简介与实战

标签： spark 大数据分布式

知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...

CentOS 搭建Spark完全分布式环境

标签： spark 分布式 centos

文章目录一、安装 Spark1. 解压安装包2. 配置环境变量二、配置 spark1. 修改 spark-env.sh 文件2. 修改 slaves 文件2. 修改 spark-defaults.conf 文件三、节点配置 spark1. 传输文件2. 修改 spark-env.sh 文件四、...

spark操作Redis

标签： redis spark 数据库

需求：需要通过spark对redis里面的数据进行实时读写实现方案：通过建立连接池，在每台机器上单独建立连接，进行操作 1、利用lazy val的方式进行包装 class RedisSink(makeJedisPool: () => JedisPool) ...

Spark3.2教程（一）Windows10搭建Spark3.2.0

标签： spark scala big data

目前Spark官方提供的最新版本3.2.0，是2021年10月份发布，但是该版本搭建Windows下环境，在使用spark-shell时，会报以下错误，尚无解决方案。退而求其次，使用Spark3.1.2，则完全正常。本次搭建环境，所使用到的...

Spark性能优化之SparkUI

SparkUI其实信息量非常大，而且是需要不断去加深理解Spark内容才能理解内容的，涉及到作业优化，找原因才是最关键，而对于Spark作业来说读懂Sparkui的信息，更加是关键中的关键。

部署：hive on spark报错Failed to execute spark task(Failed to submit Spark work, please retry later)...

标签： hive spark 大数据

hive on spark

Springboot+Spark(http请求调用spark api，并以集群模式运行)

标签： spark spring boot

Springboot+Spark

Spark 参数设置

标签： spark

Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备。从业务应用平台（Spark）、存储（HDFS）、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具，我们可以...

Spark大数据分析与实战：基于Spark框架实现TopN

标签：分布式计算 spark 大数据

Spark大数据分析与实战：基于Spark框架实现TopN 基于Spark框架实现TopN 一、实验背景：基于Spark框架实现TopN 二、实验目的：获取蜀国武将中武力值最高的5位，即通过分布式计算框架实现从原始数据查询出武力最高...

2015 Spark技术峰会-Spark优化及实践经验分享-黄洁

标签： Spark 内存管理 IO提升计算优化机器学习

英特尔大数据技术中心研发经理黄洁在OpenCloud 2015大会Spark专场的演讲PPT：Spark优化及实践经验分享，就Spark的内存管理、IO提升和计算优化3个方面进行了详细讲解。对于Spark，黄洁表示，它将成为大数据的一个重要...

Spark创建临时视图

标签： spark 临时视图全局视图

查看Spark Dataset的API发现，官网给了四种方法来创建临时视图，它们分别是： def createGlobalTempView(viewName: String): Unit // Creates a global temporary view using the given name. def ...

”spark“ 的搜索结果

Spark、Python spark、Hadoop简介

（一）spark是什么？

04 Spark SQL

【云原生 30】Docker运行大数据处理框架Spark_docker spark

spark 安装详细步骤

Spark on YARN

【笔记】RDD笔记（Spark基础知识）

Spark技术03直播笔记

spark sql和spark core之间的关系

一百零六、Hive312的计算引擎由MapReduce(默认)改为Spark（亲测有效）

Spark-机器学习（8）分类学习之随机森林

java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

Ubuntu下安装Spark3.2.0教程

Spark入门- Spark运行Local本地模式

头歌：Spark任务提交

Spark local运行模式日志配置

spark 运行自带样例SparkPi、spark-examples报错

Spark自带example

Spark面试重点

Spark Streaming 简介与实战

CentOS 搭建Spark完全分布式环境

spark操作Redis

Spark3.2教程（一）Windows10搭建Spark3.2.0

Spark性能优化之SparkUI

部署：hive on spark报错Failed to execute spark task(Failed to submit Spark work, please retry later)...

Springboot+Spark(http请求调用spark api，并以集群模式运行)

Spark 参数设置

Spark大数据分析与实战：基于Spark框架实现TopN

2015 Spark技术峰会-Spark优化及实践经验分享-黄洁

Spark创建临时视图

推荐文章