06.HDFS之DataNode介绍

06.HDFS之DataNode介绍

[TOC]一、DataNode工作机制说明(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。DN向NN汇报当前解读信息的时间间隔,默认6小时;<property> <name>dfs.blockreport.intervalMsec</name> <value>21600000</value> &...

大数据 2021-09-18 PM 11℃ 0条
05.HDFS之NameNode和SecondaryNameNode

05.HDFS之NameNode和SecondaryNameNode

[TOC]一、NameNode元数据存储位置​ 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。​ 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元...

大数据 2021-09-17 PM 13℃ 0条
04.HDFS之API操作

04.HDFS之API操作

[TOC]前言本次操作使用过的版本是hadoop-client 3.1.3,在进行操作之前,需要创建好一个Maven项目,在进行后续的操作。一、概念Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。二、实操2.1 引入Maven依赖<dependency> <groupId>org.apache.hadoop</groupId>...

大数据 2021-09-16 PM 18℃ 0条
03.HDFS读写流程

03.HDFS读写流程

03.HDFS读写流程一、HDFS写数据流程说明(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。(6)dn1、dn2、dn3逐级应答客户端。(...

大数据 2021-09-15 AM 15℃ 0条
02.HDFS常用命令

02.HDFS常用命令

02.HDFS常用命令前言在通过hdfs命令行操作时,我们通常会用到hadoop fs、hadoop dfs、或者是hdfs dfs,但是很少在意三者的区别。hadoop fs:该命令可以用于其他文件系统,不止是hdfs文件系统内,使用范围更加广泛hadoop dfs:专门针对hdfs分布式文件系统hdfs dfs:和上方命令作用相同,当使用hadoop dfs时内部会被转为hdfs dfs命令总结:单从操作HDFS来说,使用上面三种的命令作用都相同。本篇使用的是hadoop fs来完成命令行操作一、HDFS命令实操1.1 上传(1)-moveFromLocal:从本地剪切粘贴到HDFS...

大数据 2021-09-14 PM 20℃ 0条
01.HDFS概述

01.HDFS概述

01.HDFS概述一、HDFS产生背景及定义1.1 HDFS产生背景​ 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。一个文...

大数据 2021-09-13 PM 19℃ 0条
Ubuntu VMware Tools安装教程

Ubuntu VMware Tools安装教程

[TOC]一、VMware Tools简介VMware Tools 中包含一系列服务和模块,可在 VMware 产品中实现多种功能,从而使用户能够更好地管理客户机操作系统,以及与客户机系统进行无缝交互。功能:将消息从主机操作系统传递到客户机操作系统。将客户机操作系统作为 vCenter Server 及其他 VMware 产品的组成部分进行自定义。运行有助于实现客户机操作系统自动化运行的脚本。这些脚本在虚拟机的电源状态改变时运行。在客户机操作系统与主机操作系统之间同步时间。二、安装步骤2.1 VMware工具选择【虚拟机】-->点击【安装VMware Tools】2.2 在Ubun...

工具 2021-09-12 PM 21℃ 0条
VMware16安装Ubuntu16.04教程

VMware16安装Ubuntu16.04教程

[TOC]前言需提前安装好VMware,本次安装使用的是VMware16.0,大家可以使用其他版本,安装过程没有太大差别本次安装的是Ubuntu16.04桌面版。一、下载Ubuntu镜像文件下载地址:http://mirrors.aliyun.com/ubuntu-releases/16.04/ 下载ubuntu-16.04.7-desktop-amd64.iso 镜像文件二、配置VMware2.1 打开VMware,选择创建新的虚拟机2.2 选择自定义安装,再点击下一步2.3 默认,点击下一步2.4 选择稍后安装操作系统,再点击下一步2.5 客户机操作系统选择Linux,版本选择Ubu...

工具 2021-09-12 PM 22℃ 0条
09.Yarn配置多队列的公平调度器

09.Yarn配置多队列的公平调度器

09.Yarn配置多队列的公平调度器一、配置(1)修改yarn-site.xml文件,加入以下参数<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value> <description>配置使用公平调度器</description> </p...

大数据 2021-09-11 PM 30℃ 0条
08.Yarn容量调度器多队列配置案例

08.Yarn容量调度器多队列配置案例

08.Yarn容量调度器多队列配置案例前言一般我们刚部署好的环境,只有一个默认default队列,但往往我们需要多个队列来一起分配资源,本篇将详细介绍如何在Yarn集群中对容量调度器进行多队列配置。一、案例分析1.1 生产环境如何划分队列(1)调度器默认就 1 个 default 队列,不能满足生产要求。(2)按照框架:hive /spark/ flink 每个框架的任务放入指定的队列(企业用的不是特别 多)(3)按照业务模块:登录注册、购物车、下单、业务部门 1、业务部门 21.2 创建多队列的好处(1)因为担心员工不小心,写递归死循环代码,把所有资源全部耗尽。(2)实现任务的降级使用...

大数据 2021-09-11 PM 29℃ 0条