盘点最受欢迎的十个开源大数据技术

- - IT瘾-geek

大数据已然成为当今最热门的技术之一，正呈爆炸式增长. 每天来自全球的新项目如雨后春笋般涌现. 幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术. Hadoop——高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序.

Impala：新一代开源大数据分析引擎

- - Parallel Labs

原文发表在《程序员》杂志2013年第8期，略有删改. 大数据处理是云计算中非常重要的问题，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐. 以Hadoop为基础，之后的HBase，Hive，Pig等系统如雨后春笋般的加入了Hadoop的生态系统中.

2015 Bossie评选：最佳开源大数据工具

- - 199IT互联网数据中心

nfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者，下面我们来简单介绍下这些获奖的技术工具. 在Apache的大数据 [注]项目中，Spark是最火的一个，特别是像IBM这样的重量级贡献者的深入参与，使得Spark的发展和进步速度飞快.

雅虎BigML团队开源大数据分布式深度学习框架TensorFlowOnSpark

- - IT瘾-tuicool

雅虎 Big ML 团队今日宣布开源 TensorFlowOnSpark，用于在大数据集群上进行分布式深度学习. 下面是该团队官方发布的开源说明. 近几年，深度学习发展的非常迅速. 在雅虎，我们发现，为了从海量数据中获得洞察力，需要部署分布式深度学习. 现有的深度学习框架常常要求为深度学习单独设定集群，迫使我们要为一个机器学习流程（见下图 1）创建多个程序.

盘点互联网巨头奉献的十大开源安全工具

- - ITeye资讯频道

Facebook等大型互联网公司推动的服务器与数据中心、大数据工具的开源化项目类似，当大型互联网公司们在超大规模基础设施运营方面面临的挑战超出技术厂商的能力时，这些巨头就选择反客为主，成为创新技术的推动者和提供者. 同样的情况也在信息安全领域中发生着. 不少大型互联网公司经常会将自己开发的顶级安全工具开源，推动整个互联网的安全发展.

谈大数据(2)

- - 人月神话的BLOG

对于大数据，后面会作为一个系列来谈，大数据涉及的方面特别多，包括主数据，数据中心和ODS，SOA，云计算，业务BI等很多方面的内容. 前面看到一个提法，即大数据会让我们更加关注业务方面的内容，而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了，再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析

算起来，接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受，和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据，应该是近几年IT炒的最热的两个话题了. 在我看来，这两者之间的不同就是：云是做新的瓶，装旧的酒；大数据是找合适的瓶，酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析

这个时代，你在外面混，无论是技术还是产品还是运营还是商务，如果嘴里说不出“大数据”“云存储”“云计算”，真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实，大数据在我的眼里，不是一门技术，而是一种技能，从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时，正好一个妹子推门而入，听到这句话，微微一怔，低头坐下.

交通大数据

- - 人月神话的BLOG

本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景，传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到，对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据，包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技

原文： Fiorenttini 译者： julie20098. [非商业性转载必须注明译者julie20098和相关链接. ，否则视为侵权，追究转载责任. 世界气候数据中心：气候全球数据中心， 220TB 的网络数据， 6PB 的其它数据. 国家能源研究科学计算中心，有 2.8PB 容量.

盘点最受欢迎的十个开源大数据技术

相关 [盘点开源大数据] 推荐：