08.HDFS文件目录介绍

[TOC]前言HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。一、NameNode1.1 NameNode目录结构进入到hadoop-2.8.5/tmp/dfs目录下执行如下命令可查看NameNode目录结构[root@hadoopserver dfs]# pwd /usr/local/hadoop...

大数据 2021-09-19 PM 2205次 0条

07.HDFS之Fsimage和Edits详解

[TOC]前言之前在文章HDFS之NameNode和SecondaryNameNode中简单介绍过Fsimage和EditLog,但是总结的还是有很多漏洞,小编又查阅一些资料在此进行一下补充。一、NameNode元数据1.1 概述NameNode 的所有操作及整个集群的状态都存储在metadata(元数据)中,metadata通过 Fsimage 和 Eidts 文件保存。metadata作...

大数据 2021-09-19 PM 2625次 0条

06.HDFS之DataNode介绍

[TOC]一、DataNode工作机制说明(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。DN向NN汇报当前解读信息的时间间隔,默认6小时;<property> ...

大数据 2021-09-18 PM 1269次 0条

05.HDFS之NameNode和SecondaryNameNode

[TOC]一、NameNode元数据存储位置​ 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。​ 这样又会带来新的问题,当在内存中的元数据更新时,如果同时...

大数据 2021-09-17 PM 1605次 0条

04.HDFS之API操作

[TOC]前言本次操作使用过的版本是hadoop-client 3.1.3,在进行操作之前,需要创建好一个Maven项目,在进行后续的操作。一、概念Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来...

大数据 2021-09-16 PM 1338次 0条

03.HDFS读写流程

03.HDFS读写流程一、HDFS写数据流程说明(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。...

大数据 2021-09-15 AM 1542次 0条

02.HDFS常用命令

02.HDFS常用命令前言在通过hdfs命令行操作时,我们通常会用到hadoop fs、hadoop dfs、或者是hdfs dfs,但是很少在意三者的区别。hadoop fs:该命令可以用于其他文件系统,不止是hdfs文件系统内,使用范围更加广泛hadoop dfs:专门针对hdfs分布式文件系统hdfs dfs:和上方命令作用相同,当使用hadoop dfs时内部会被转为hdfs dfs...

大数据 2021-09-14 PM 1709次 0条

01.HDFS概述

01.HDFS概述一、HDFS产生背景及定义1.1 HDFS产生背景​ 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distributed File Syst...

大数据 2021-09-13 PM 1472次 0条