[探讨]分布式文件系统的应用及选择

标签: 探讨 分布 文件系统 | 发表时间:2012-03-16 06:20 | 作者:iihero
出处:http://blog.csdn.net

当下,互联网行业发展非常迅猛,分布式文件系统在其中的应用也非常普遍。一些朋友问起一些相关问题,如:

1. 搜索引擎类的那些页面文本文件存储,用什么DFS比较好?
2. 海量小图片类的,如taobao里头,好多商家图片,用什么存储?
3. 视频类的,如优酷,用什么DFS
4. 海量空间地理图形信息类的?


这都是非常有意义的问题。DFS有很多,各有自己的特点。

1. 这个,HDFS似乎就可以满足。它只需要能把那些文本文件分块分散到各个节点上进行顺序存储就行了。缺点呢,就是:目前Hadoop只支持单用户写,不支持并发多用户写。可以使用Append操作在文件的末尾添加数据,但不支持在文件的任意位置进行修改。所以,它并不一定适合于一些特定的场景应用。比如,某些应用就是要求修改某个文件的局部内容,同时要求没有什么大的性能损失。

2. taobao专门为它开发一套DFS,叫TFS. 它好像是按照默认64M来全局组块的。多个小图片文件可以存到同一个块中。name server有主和备。chunk server或叫data server节点用于存储实际的数据。在单机里头,无数的小文件如果聚集到一个目录下边,访问某个小文件,效率是非常低的,将多个小文件聚成一个大文件,在这里优势就体现出来了。taotao在具体实施过程当中,还弄了个主备中心的要领,主中心可读可写,备中心是主中心的副本,只提供读,这样在主中心失败的情况下,备中心可以继续提供无损的服务。其介绍详见: http://code.taobao.org/p/tfs/wiki/index/

3. 视频类的,单个文件大小大多在几十兆或上百兆,与TAOTAO里的小图片(几K到几十K)又不一样。参照TAOBAO的文件系统,也许可以一试。GFS或者 MooseFS也可以一试。商家,国内有个公司叫龙存,不知道费用如何。使用TFS,单文件跨块存储,如果支持的话,倒不妨一试。

4. 这个问题应该分成两块,
矢量图形数据本身,应该还要借助于空间数据库(如Oracle Spatial, PostGIS, ArcSDE引擎等)进行存储,因为它还是涉及到事务处理的。对外展现的图形(影像),分级分块,可以借助于小文件聚合的思想。但是数据量,未必有前边3个那么大。普通的可随机读写的GFS是不是能满足需求?


作者:iihero 发表于2012-3-16 6:20:47 原文链接
阅读:11 评论:0 查看评论

相关 [探讨 分布 文件系统] 推荐:

[探讨]分布式文件系统的应用及选择

- - CSDN博客推荐文章
当下,互联网行业发展非常迅猛,分布式文件系统在其中的应用也非常普遍. 一些朋友问起一些相关问题,如:. 搜索引擎类的那些页面文本文件存储,用什么DFS比较好. 海量小图片类的,如taobao里头,好多商家图片,用什么存储. 视频类的,如优酷,用什么DFS. 它只需要能把那些文本文件分块分散到各个节点上进行顺序存储就行了.

分布式内存文件系统:Tachyon

- - 杨尚川的个人页面
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在Tachyon里的文件. Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等.

FastDFS分布式文件系统

- - 开源软件 - ITeye博客
       FastDFS是一个开源的轻量级 分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题. 特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务,如相册网站、视频网站等等.

FastDFS分布式文件系统架构

- - 企业架构 - ITeye博客
FastDFS分布式文件系统架构.            FastDFS是一个开源的分布式文件系统,她对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题. 特别适合以文件为载体的在线服务,如相册网站、视频网站等等. 二、 FastDFS系统架构.

开源分布式文件系统GlusterFS 3.3 发布

- - InfoQ cn
Gluster团队在2012年5月31日发布了 GlusterFS 3.3. GlusterFS的上一个稳定版本号是3.2.6,虽然从版本号上看貌似改进并不大,如果你仔细阅读了3.3的新特性列表之后,也许会觉得GlusterFS社区的版本号取得太保守了. 作为Gluster项目的一部分,GlusterFS项目在2005伊始.

FastDFS+Nginx轻量级分布式文件系统安装使用

- - Linux - 操作系统 - ITeye博客
FastDFS的安装使用. FastDFS是一个开源的轻量级 分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题. 特别适合以文件为载体的在线服务,如相册网站、视频网站等等. FastDFS服务端有两个角色:跟踪器(tracker)和存储 节点(storage).

分布式文件系统FastDFS设计原理及技术架构

- - mysqlops
FastDFS是一个开源的轻量级分布式文件系统,由跟踪服务器(tracker server)、存储服务器(storage server)和客户端(client)三个部分组成,主要解决了海量数据存储问题,特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务. Storage server(后简称storage)以组(卷,group或volume)为单位组织,一个group内包含多台storage机器,数据互为备份,存 储空间以group内容量最小的storage为准,所以建议group内的多个storage尽量配置相同,以免造成存储空间的浪费.

Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?

- - ITeye博客
HDFS使用 集中式单一节点架构(NameNode)来维护文件系统元数据,而在Swift中,元数据 分布在整个集群中并拥有多个副本. 注意:集中式元数据存储使HDFS存在单点故障和扩展性问题,因此规模越大就性能越低,就越难扩展甚至不能扩展,所幸的是HDFS2使用NameNode HA和HDFS Federation解决了这两个问题.

Ext文件系统

- Haides - 博客园-首页原创精华区
  虽然从Ext2到Ext4,找数据的方式发生了变化,但是,磁盘的布局还是非常相似的. 其实这个东西也不需要变化,因为现在也没什么特别巧妙的方式,而且磁盘的吞吐量、效率的瓶颈也不在这里. 当然,这里排除那些根据自身文件特点设计的数据库,毕竟还是为了支持通用文件.   Boot在第一个块,放的应该是引导程序,超级块就放在了第二个块上,如果不是可以在mount的时候通过参数sb来设置.

你的下一个文件系统——Btrfs

- frocket - K.I.S.S. - 简单哲学
提起 Btrfs ,相信广大折腾帝们都不会陌生,被誉为“下一代 Linux 文件系统”的它,具有扩展性好、支持数据校验、支持多设备管理等等强大特性,使得 Ext4 也只能成为悲剧的过渡产品,还不赶快找一个 Ubuntu 10.10、Fedora 15、Meego 什么的试一下. 支持什么多设备、什么数据校验跟你有一毛钱关系啊.