Hadoop Distributed Filesystem

管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem)。Hadoop有一个称为HDFS的分布式系统,即Hadoop Distributed Filesystem

HDFS的设计

HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。

  • 超大文件
  • 流式数据访问 HDFS的构建思路是这样的:一次写入、多次读取是最高效的访问模式。
  • 商用硬件
  • 低时间延迟的数据访问
  • 大量的小文件
  • 多用户写入,任意修改文件

HDFS的概念

More than your eyes can see