VMware已发布Spring Hadoop
VMware最近宣布,他们已经开始提供Spring Hadoop,这个项目整合了Spring框架和Apache Hadoop平台。该项目提供了一种方便的机制,让我们可以通过Spring容器来配置、创建和执行各种各样的服务和工具,像 MapReduce、 Hive、 Pig和 Cascading作业等。此外,该项目还通过JVM脚本语言——像Groovy、JRuby、Jython和Rhino——提供了对 HDFS数据访问的支持,为 HBase提供了声明式配置的支持,以及对Hadop工具(包括 FS Shell和 DistCp)提供了声明和编程的支持。
可能更有意义的是,工具还为基于Spring的应用程序提供了一种便利方式,可以使用Hadoop作为数据分析工具,而这些数据可能来自多个源,像Spring Integration和Spring Batch,以及传统的关系型数据库等等。“例如,你可以让Hadoop作业成为Spring Batch环境中的tasklet,从而我们可以开始对其进行调整,并在作业完成时拥有触发器,”SpringSource的CTO,Adrian Colyer告诉InfoQ。
或者我们可能让Spring Integration来监控目录中是否有文件进入,然后使用它作为触发器来初始化Hadoop作业。你可以开始真正把这集成到Spring中,并使用所有其它组件把Hadoop以及各种数据处理工具连接到标准的企业工具集中。
这个项目和Spring Data项目最初的适用范围更普遍,这反映出在企业应用程序中NoSQL和大数据越来越重要。Colyer解释说:
在很长一段时间之后,可能是十年之后,当来自于企业应用程序的数据想要知道,“我如何与关系型数据库对话?”,而解决方案很显而易见,企业数据现在看起来已经很不一样了。我们已经看到有不同的存储和方法,并且越来越明显,企业数据的一种非常重要并且不断成长的方式就是大数据和批量数据处理。
这样,和新发布的Hadoop项目一样,它更广泛的目标是为各种不同样式的SQL和NoSQL数据库——关系型数据库、图型数据库、文档数据库、键值数据库等等——提供一等支持,并显式地支持某些那种更流行的产品类型。当前这包括对JPA的支持,还有 MongoDB、 Redis和 Neo4J,并且 Cassandra方面也在进行中。Colyer认为这个列表反映出当前SpringSource的企业用户中处于领先地位的产品,但是需要强调的是,在大多数大型企业中,对NoSQL数据库的使用还处于初级阶段。
VMware会在加利福尼亚的Santa Clara举办的 O'Reilly Strata大会上做演讲,介绍Spring Hadoop项目。
查看英文原文: VMware Introduces Spring Hadoop译者 侯伯薇 是InfoQ中文站架构社区编辑,有多年对日和国内项目开发经验,目前关注企业中技术与实际业务之间的融合和协作。