08.HDFS文件目录介绍

08.HDFS文件目录介绍

[TOC]前言HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。一、NameNode1.1 NameNode目录结构进入到hadoop-2.8.5/tmp/dfs目录下执行如下命令可查看NameNode目录结构[root@hadoopserver dfs]# pwd /usr/local/hadoop...

大数据 2021-09-19 PM 77次 0条
07.HDFS之Fsimage和Edits详解

07.HDFS之Fsimage和Edits详解

[TOC]前言之前在文章HDFS之NameNode和SecondaryNameNode中简单介绍过Fsimage和EditLog,但是总结的还是有很多漏洞,小编又查阅一些资料在此进行一下补充。一、NameNode元数据1.1 概述NameNode 的所有操作及整个集群的状态都存储在metadata(元数据)中,metadata通过 Fsimage 和 Eidts 文件保存。metadata作...

大数据 2021-09-19 PM 70次 0条
06.HDFS之DataNode介绍

06.HDFS之DataNode介绍

[TOC]一、DataNode工作机制说明(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。DN向NN汇报当前解读信息的时间间隔,默认6小时;<property> ...

大数据 2021-09-18 PM 70次 0条
05.HDFS之NameNode和SecondaryNameNode

05.HDFS之NameNode和SecondaryNameNode

[TOC]一、NameNode元数据存储位置​ 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。​ 这样又会带来新的问题,当在内存中的元数据更新时,如果同时...

大数据 2021-09-17 PM 69次 0条
04.HDFS之API操作

04.HDFS之API操作

[TOC]前言本次操作使用过的版本是hadoop-client 3.1.3,在进行操作之前,需要创建好一个Maven项目,在进行后续的操作。一、概念Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来...

大数据 2021-09-16 PM 80次 0条
03.HDFS读写流程

03.HDFS读写流程

03.HDFS读写流程一、HDFS写数据流程说明(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。...

大数据 2021-09-15 AM 76次 0条
02.HDFS常用命令

02.HDFS常用命令

02.HDFS常用命令前言在通过hdfs命令行操作时,我们通常会用到hadoop fs、hadoop dfs、或者是hdfs dfs,但是很少在意三者的区别。hadoop fs:该命令可以用于其他文件系统,不止是hdfs文件系统内,使用范围更加广泛hadoop dfs:专门针对hdfs分布式文件系统hdfs dfs:和上方命令作用相同,当使用hadoop dfs时内部会被转为hdfs dfs...

大数据 2021-09-14 PM 68次 0条
01.HDFS概述

01.HDFS概述

01.HDFS概述一、HDFS产生背景及定义1.1 HDFS产生背景​ 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distributed File Syst...

大数据 2021-09-13 PM 67次 0条
09.Yarn配置多队列的公平调度器

09.Yarn配置多队列的公平调度器

09.Yarn配置多队列的公平调度器一、配置(1)修改yarn-site.xml文件,加入以下参数<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.sc...

大数据 2021-09-11 PM 126次 0条
08.Yarn容量调度器多队列配置案例

08.Yarn容量调度器多队列配置案例

08.Yarn容量调度器多队列配置案例前言一般我们刚部署好的环境,只有一个默认default队列,但往往我们需要多个队列来一起分配资源,本篇将详细介绍如何在Yarn集群中对容量调度器进行多队列配置。一、案例分析1.1 生产环境如何划分队列(1)调度器默认就 1 个 default 队列,不能满足生产要求。(2)按照框架:hive /spark/ flink 每个框架的任务放入指定的队列(企业...

大数据 2021-09-11 PM 77次 0条