听水车们讲大数据在国内的发展

标签: data | 发表时间:2013-04-11 11:45 | 作者:
出处:http://blog.est.im/

发信人: Nineteen (..), 信区: Database 标 题: Re: cassandra集群的去中心拓扑真是帅啊 发信站: 水木社区 (Sat Mar 9 10:03:09 2013), 站内

就像@immars提到的,开源项目们在一两年后开发出来的东西比论文原型在性能上差了一个层次,其实不仅仅是性能,其他方面差得会更多。

然后其他公司一看,不错,有东西能应付应付需求,接着就开始大用特用,坚持个一两年,东西尽管被改个面目全非,但仅限于补丁摞补丁,在外围小刀,想深入大改?门都没有,老板们会说了,先满足业务需求。最常听到的说法是:tmd我们都要死了,你丫还想花那么长时间大改?

团队规模在“快死了”的状态中不断成长,成长的另一个原因是层出不穷的运维事件和用户“永远都没办法满足的需求”,话语权也变得越来越重。

集群规模越来越大,最后发现确实搞不定了,一边开始上各种歪招,比如云梯居然在优化jvm;另一方面开始组织力量研发自己的系统,后者三大互联网公司貌似都尝试过,百度的yangzhengkun,腾讯的zhuhuican和阿里的wangjian。

但是遇到阻力很大,阻力的一部分就来自于前面提到的“团队”,抢饭碗吗?另一部分则是互联网公司缺乏大型平台的研发经验,各种没耐心,各种弯路,各种交学费。腾讯和百度是属于交了学费退学那种。

阿里还在向前走,远没走到头,这也是为什么阿里云梯系统还在的原因,它不仅得在,还得加强,因为淘宝业务增长太快。

可以看看论文出来到现在多长时间了,如果有渠道,可以去了解了解google技术进步的速度,它跑得越来越快,差距越来越大,这不是成功打击了对手是什么

从另一个方面也容易理解,开源出来自己的系统加强竞争对手的技术基础设施吗?还没到共产主义社会。至于傍了大腿的项目们,人开源出来的从来不是它生产环境使用的现网系统,或者过时或者阉割。

至于有人说“这么说开源项目都是坏的了?”,不是这样,开源的螺丝钉、离合器、甚至发动机都不差,但是指望开源的空间站、宇宙飞船没有问题…还是算了吧,凑合用用就好,真有心,还是自己造。

发信人: penny1983 (一只熊猫,两种表述||熊猫永不受伤), 信区: Database 标 题: Re: cassandra集群的去中心拓扑真是帅啊 发信站: 水木社区 (Wed Apr 10 10:31:16 2013), 站内

开源实现没有靠谱的啊。

Paxos 算法和满足实际需求的系统之间还存在大量的鸿沟, fault-tolerant sytem 即 使写伪代码都不容易写对,Google开发chubby时候专门写了一个state machine 语言和相应的编译器,把用state machine 表示的算法转为c++,而且在chubby一致性检 验和容错方面投入了巨大的精力。

Google的chubby一开始也是基于第三方商业数据库,但是由于商业库的replication问 题(bug,无法证明replica算法正确),google不得不自己实现kv db 用于实现multi- paxos。这一过程也是一把辛酸啊,参加google的论文 Paxos made live-An Engineering View。

相关 [水车 大数据 国内] 推荐:

听水车们讲大数据在国内的发展

- - est's blog
发信人: Nineteen (..), 信区: Database 标 题: Re: cassandra集群的去中心拓扑真是帅啊 发信站: 水木社区 (Sat Mar 9 10:03:09 2013), 站内. 就像@immars提到的,开源项目们在一两年后开发出来的东西比论文原型在性能上差了一个层次,其实不仅仅是性能,其他方面差得会更多.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.

大数据Lambda架构

- - CSDN博客云计算推荐文章
1 Lambda架构介绍.          Lambda架构划分为三层,分别是批处理层,服务层,和加速层. 最终实现的效果,可以使用下面的表达式来说明. 1.1 批处理层(Batch Layer, Apache Hadoop).          批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.

大数据公司Amazon

- - 36氪 | 关注互联网创业
说到 Amazon,它通常给人的印象是一家典型的电商公司——创办于1995年,靠在线书籍销售业务起家,发展至今也已颇具规模. 近日,TechCrunch作者Alex Williams撰文称,Amazon其实并非一家贸易公司,而是一家大数据公司. 联想到Amazon CEO Jeff Bezos曾说过的一句话:“企业家应该愿意在很长一段时间内承受误解的目光.