Hadoop 基础知识
Hadoop 基础知识
1. Hadoop 核心组件
HDFS: Hadoop 应用程序使用的主要分布式存储。HDFS 集团主要由管理文件系统元数据NameNode 与存储实际的DateNode 组成。
NameNode 是master 节点。管理数据块映射;处理客户端读写请求,配置副本策略,管理HDFS的名称与空间
SecondryNameNode: 分担namenode 的工作量;是NameNode 的冷备份,合并fsimage和fsedits 然后在再发给namenode。
DataNode: Slave节点。负责存储client 发来的数据块block;执行数据块的读写操作
MapReduce: 并行计算框架
YARN: 运算资源调度系统
1.1 HDFS 基础知识
HDFS: 为以流式数据访问模式存储超大文件而设计的文件系统。
超大文件: 指的是几百MB 几百GB 几百TB 甚至几百PB
流式数据访问: HDFS建立的思想是:一次写入、多次读取模式是最高效的
商用硬件: hadoop不需要运行在昂贵并且高可靠的硬件上
HDFS 的基本单元
储存基本单元: Block(块) HDFS的基本储存单元,是个逻辑单元,和os 中的页类似
一个文件有可能包含多个块,一个块有可以包含多个文件,由文件的大小和块大小的参数决定
dfs.block.size 参数。 默认64MB 主流配置128MB
1.2 Mapper