Spark核心概念

Spark核心概念

12.Spark核心概念一、Executor与Core​ Spark Executor 是集群中运行在工作节点(Worker)中的一个 JVM 进程,是整个集群中 的专门用于计算的节点。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资 源。这里的资源一般指的是工作节点 Executor 的内存大小和使用的虚拟 CPU 核(Core)数量。应用程序相关启动参数如下:名称说明--num-executors配置 Executor 的数量--executor-memory配置每个 Executor 的内存大小--executor-cores配置每个 Executor 的虚拟 CP...

大数据 2021-03-07 AM 118℃ 0条
Spark运行架构

Spark运行架构

11.Spark运行架构一、运行架构Spark框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master,负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责实际执行任务。二、核心组件由上图可以看出,对于 Spark 框架有两个核心组件:2.1 DriverSpark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。 Driver 在 Spark 作业执行时主要负责:将用户程序转化为作业(job)...

大数据 2021-03-07 AM 133℃ 0条
Spark Standalone模式搭建

Spark Standalone模式搭建

10.Spark Standalone模式搭建前言搭建 Spark 集群前,需要保证 JDK 环境、Zookeeper 集群和 Hadoop 集群已经搭建,相关步骤可以参阅:Zookeeper集群环境搭建Hadoop集群环境搭建一、集群介绍这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 M...

大数据 2021-03-06 PM 151℃ 0条
Zookeeper集群环境搭建

Zookeeper集群环境搭建

09.Zookeeper集群环境搭建前言本次安装Zookeeper集群是为Spark Standalone集群搭建做准备工作。为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里演示搭建一个三个节点的集群。这里我使用三台主机进行搭建,主机名分别为 hadoop001,hadoop002,hadoop003。一、安装步骤1. 下载下载对应版本 Zookeeper,这里我下载的版本 3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/[root@hadoop001 source]# cd /home...

大数据 2021-03-06 PM 97℃ 0条
CentOS7安装Hadoop3.2集群

CentOS7安装Hadoop3.2集群

08.CentOS7安装Hadoop3.2集群前言虚拟机网络配置通过ip addr命令未查询到虚拟机IP地址1、修改网络配置[root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736将ONBOOT=no改为ONBOOT=yesONBOOT的意思是,开机时是否启动2、重启网络服务[root@localhost ~]# service network restart3、查看IP地址[root@localhost ~]# ip addr一、Hadoop集群安装1. 系统环境本次部署一个主节点,两个从节点主机名称...

大数据 2021-03-06 PM 149℃ 0条
CentOS7 Spark Local模式搭建

CentOS7 Spark Local模式搭建

07.CentOS7 Spark Local模式搭建前言需要提前准备的环境JDK1.8Hadoop 2.8.5(小编安装的Hadoop环境)系统版本Centos7本次搭建的Spark版本为3.0.1。一、Spark Local环境搭建下载访问官网:http://spark.apache.org/ 点击Download下载最新版本。 下载spark其实是跟hadoop包对应的,但是我看官网上的都是hadoop2.7 ,而我的hadoop安装的版本是2.8.5应该也不影响。将下载好的文件上传到服务器上并解压[root@localhost local]# tar -zxvf /home/...

大数据 2021-02-21 PM 121℃ 0条
【转载】Spark部署模式介绍

【转载】Spark部署模式介绍

【转载】06.Spark部署模式介绍前言目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配)。本文将介绍这三种部署方式,并比较其优缺点。一、Standalone模式​ ...

大数据 2021-02-21 PM 89℃ 0条
Spark入门程序WordCount

Spark入门程序WordCount

05.Spark入门程序WordCount一、问题描述描述:编写一个Spark应用程序,对1.txt和2.txt文件中的单词进行词频统计通过Spark core进行实现二、方法一1. 思路整行读取1.txt和2.txt文件中所有内容将整行数据拆分,形成一个个单词根据单词进行分组,将相同的单词放在一组当中,方便统计对分组后的数据进行转换将转换结果输出2. 代码实现流程建立和Spark框架的连接执行业务操作关闭连接3. 代码实现package com.llc.spark.code.wc import org.apache.spark.rdd.RDD import org.apache.sp...

大数据 2021-02-21 PM 126℃ 0条
基于IDEA构建spark开发环境

基于IDEA构建spark开发环境

04.基于IDEA构建spark开发环境前言开发环境:1.IDEA版本2018.3.42.JDK版本1.83.Scala版本2.12.11一、IDEA安装Scala插件(1)点击右下角configuration,选择plugins(2)选择Browse repositories(3)输入Scala后搜索,然后安装,安装需要一些时间如果通过install自动下载插件失败,可以选择手动下载scala插件,然后通过步骤2中【install plugin from disk】选项,选择手动下载zip包的方式安装插件二、创建Maven项目点击File-->New-->ProjectMa...

大数据 2021-02-21 PM 96℃ 0条
windows10 scala安装

windows10 scala安装

03.windows10 scala安装前言已经安装成功JDK1.8,本次安装的scala版本为2.12.11一、下载下载地址:https://www.scala-lang.org/download/all.html2.下载windows安装版的scala二、scala安装1. 接受协议,下一步2. 选择安装的路径3.进行安装即可三、环境变量配置1、此电脑-->右击选择属性进行环境变量配置2、新建系统变量在系统变量中点击新建变量名:SCALA_HOME变量值:D:Toolsscala-2.12.11变量值选择自己scala安装路径3、编辑Path选择系统变量中的Path点击新建,加...

大数据 2021-02-15 AM 127℃ 0条