摘要:
HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已...