Spark - 程序员宅基地

spark学习之执行计划explain

本文主要介绍了spark的执行计划explain的使用方法，以及对逻辑执行计划和物理执行计划进行了说明，让大家更加了解spark的运行原理。

16 | Spark Streaming：Spark的实时流计算API

文章总结：Spark Streaming是Spark的实时流计算API，将连续的流数据按时间间隔划分为数据块，每个块是一个RDD，具备RDD的优点，如快速处理和数据容错性。然而，实时延迟较高，不支持小批处理时间间隔。Spark ...

spark on hive 和 hive on spark 的区别：

spark on hive : hive只作为存储角色，spark 负责sql解析优化，底层运行的还是sparkRDD 具体可以理解为spark通过sparkSQL使用hive语句操作hive表，底层运行的还是sparkRDD，步骤如下： 1.通过sparkSQL，加载...

spark on k8s

标签： spark big data 大数据

spark从2.3之后开始在包里面有docker 镜像脚本。本文主要介绍2.x的镜像打包已经在k8s中怎么去部署spark，3.x的目前自己还没有测试成功，目前3.0自己遇到的问题是在k8s启动后，会提示没有权限创建logs目录。 1.到...

IDEA中Spark配置

标签： spark intellij-idea scala

Spark快速配置

搞懂spark-submit参数及应用程序提交（详细）

标签： spark cluster client

Spark独立集群管理器，一种简单的Spark集群管理器，很容易建立集群，基于Spark自己的Master-Worker集群 Apache Mesos，一种能够运行Haoop MapReduce和服务应用的集群管理器 Hadoop YARN，Spark可以和...

Spark中的DataFrame是什么？以及如何构建DataFrame？（附案例）

标签： spark big data hdfs

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，是一种特殊的RDD，是一个分布式的表，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame 所表示...

Spark的四种运行模式详解

标签：分布式大数据 spark

当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、Spark on YARN模式或者Spark on mesos模式。Spark的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同，但...

通过MAVEN安装Spark、&& EclipseIDE

标签： spark maven ide

Spark Installation with Maven & Eclipse IDE 文章目录Spark Installation with Maven & Eclipse IDE安装说明Maven & Eclipse IDE说明参考网站安装过程JDK安装Eclipse IDE安装Maven安装Spark安装新建...

退出 spark-shell 命令行

标签： spark spark-shell

:quit

实验7 Spark初级编程实践

标签： spark scala 大数据

（1）掌握使用Spark访问本地文件和HDFS文件的方法（2）掌握Spark应用程序的编写、编译和运行方法 2.实验平台（1）操作系统：Ubuntu18.04（或Ubuntu16.04）；（2）Spark版本：2.4.0；（3）Hadoop版本：3.1.3...

spark为什么比hadoop快

标签： hadoop spark 大数据

spark为什么快

Spark 任务常见错误以及解决方案

标签： spark 大数据

Table or view not found: aaa.bbb The column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:...

Spark和Flink的对比，谁才是大数据计算引擎王者?

标签：大数据

Spark的历史比较悠久,已经发展了很长时间,目前在大数据领域也有了一定的地位.Spark是Apache的一个顶级项目。它是一种快速的、轻量级、基于内存、分布式迭代计算的大数据处理框架。,Spark最初由美国加州伯克利大学...

Spark集群环境搭建

标签： spark hadoop 大数据

本实验环境中已经配置好Hadoop集群环境和spark on yarn的运行环境，只需要在主服务器(namenode)上执行hdfs namenode -format 格式化命令后启动Hadoop集群。本次搭建的Spark将使用Hadoop YARN作为集群的资源管理器...

Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)

标签：大数据 spark hadoop

解压tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/moudel/官网地址：https://archive.apache.org/dist/spark/重命名mv spark-2.4.8-bin-hadoop2.7 spark-2.4.8。进入/usr/local/spark-2.4.8-bin-hadoop2.7/conf...

Hive_引擎MR、Tez、Spark

标签： hive mapreduce spark

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，...

Spark命令详解

标签： Spark hadoop 云计算/大数据

        本篇博客，Alice为大家带来关于Spark命令的详解。 ...之前我们使用提交任务都是使用spark-shell提交，spark-shell是Spark自带的交互式Shell程...

Spark实践 | Spark 大数据处理最佳实践

标签： spark 大数据 flink

开源大数据社区 & 阿里云 EMR 系列直播十一期主题：Spark 大数据处理最佳实践讲师：简锋，阿里云 EMR 数据开发平台负责人内容框架：大数据概览如何摆脱技术小白Spar...

spark词频统计

标签： python spark

spark词频统计 **最开始进入spark文件目录bin下输入“./pyspark”,就进入python交互式命令行，如果出现下图，表示成功，会显示spark的图表和版本号，我的版本是3.1.2 ** 第一步、在尖括号右侧写代码sc是一种抽象...

spark启动不成功

标签： hadoop spark

spark在同一节点启动多个spark master（worker）

[spark] dataframe的数据导入Mysql5.6

标签： spark 大数据分布式

这样，你就可以在 Spark 项目中使用 Scala 连接 MySQL 5.6 并进行数据的读取和写入。在 Spark 项目中，你需要在项目的构建工具中添加 MySQL 连接驱动的依赖。将 DataFrame 中的数据保存到 MySQL。在 Spark 项目中...

六十三、Spark-读取数据并写入数据库

标签： spark big data 运维

需求说明：使用Spark流式计算将数据写入MySQL，并读取数据库信息进行打印

Spark常见故障诊断（一）

标签： Spark 2.3.0 故障

本人维护的Spark主要运行在三个Hadoop集群上，此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题，...

Spark、Python spark、Hadoop简介

标签： Spark Python Hadoop Spark

Spark、Python spark、Hadoop简介 Spark简介 1、Spark简介及功能模块 Spark是一个弹性的分布式运算框架，作为一个用途广泛的大数据运算平台，Spark允许用户将数据加载到cluster集群的内存中储存，并多次重复...

（一）spark是什么？

标签： spark big data 大数据

1.spark是什么？ spark是一个用来实现快速，通用的集群计算平台 spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，...

spark 安装详细步骤

标签： spark 大数据 scala

3、在目录/home/hadoop/software下解压：tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz。4、进入conf目录,复制文件cp spark-env.sh.template spark-env.sh。6、cd 切换到sbin目录下使用 ./start-all.sh 命令。5、vim ...

Spark on YARN

Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是...

spark sql和spark core之间的关系

标签： python scala

这几天一直在学spark模块之间的关系，但是一直不清楚dataframe、RDD、dataset这几种数据结构之间的关系，也不清楚要写代码的话从哪里找文档，后面接触了spark sql之后一下子就明白了。本来以为Spark SQL只是用来写...

Spark入门- Spark运行Local本地模式

标签：大数据 spark

一、Spark单机模式部署 Spark版本： spark-2.4.7-bin-hadoop2.7 1、安装配置JDK环境 2、下载Spark 官网下载http://spark.apache.org/ 然后上传到LInux服务器上 3、解压 tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz ...

”Spark“ 的搜索结果