开源分布式文件系统GlusterFS 3.3 发布
Gluster团队在2012年5月31日发布了 GlusterFS 3.3。GlusterFS的上一个稳定版本号是3.2.6,虽然从版本号上看貌似改进并不大,如果你仔细阅读了3.3的新特性列表之后,也许会觉得GlusterFS社区的版本号取得太保守了。
作为Gluster项目的一部分,GlusterFS项目在2005伊始。2007年他们发布了第一个稳定的版本——1.2.3。2011年10月4日,RedHat收购了Gluster并开始着手开发3.3.0版本。同时RedHat还宣布了其RedHat Storage 2.0产品,其基础就是GlusterFS。
GlusterFS是一个开源的(基于GNU GPLv3协议)分布式文件系统,用户可以使用多台服务器,并通过以太网或者Infiniband RDMA互联从而组成一个GlusterFS的集群。GlusterFS集群对外提供NFS,CIFS和Gluster Native(通过FUSE进行挂载)的接口以便用户访问GlusterFS的存储池。 
GlusterFS统一挂载方式(摘自 http://www.gluster.org/about/)
与Hadoop HDFS不同的是:GlusterFS使用了弹性哈希算法来定位文件存储的位置。 由于使用了弹性哈希算法,GlusterFS不需要专门的Meta-Data Server来保存元数据,因此可以避免因为元数据服务器宕机导致的整个集群不可用。也正是因为不需要元数据服务器,所以GlusterFS在多个挂载点同时进行数据读写的时候,其整体性能很突出。
在GlusterFS 3.3版本中增加的新功能包括:
- 统一的文件和对象存储:GlusterFS实现了OpenStack里的对象存储API提供同步读取和写入文件或对象的数据的访问。
- HDFS兼容: 使Hadoop的管理员在GlusterFS的非结构化数据上运行MapReduce任务,并可以通过常用的工具和shell脚本访问GlusterFS上的数据。
- 主动自我修复:GlusterFS卷可以在宕机恢复之后自动从备份服务器上恢复数据。
- Granular锁:允许在对大文件的自我修复过程中访问数据,这个功能对于把GlusterFS作为虚拟机磁盘镜像存储服务器时及其重要。
- 改进的复制策略:系统在写入数据时,只有当用户指定的备份数量的写入操作都完成时才返回。该功能为用户提供了在数据安全性和性能之间做权衡的能力。
如果想了解更多更详细的信息可以去GlusterFS的官方网站: http://www.gluster.org/
感谢 郑柯对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至 [email protected]。也欢迎大家通过新浪微博( @InfoQ)或者腾讯微博( @InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。