文章: 从关系数据库向NoSQL迁移:采访Couchbase的产品管理主管Dipti Borkar

标签: 文章 关系 数据库 | 发表时间:2012-11-28 22:31 | 作者:
出处:http://pipes.yahoo.com/pipes/pipe.info?_id=10560380f804c7341f042a2b8a03e117

尽管关系数据库用于存储数据已经有几十年的历史,而且对很多用例而言,这仍然代表着一类可行的方案,但NoSQL正在成为人们当前的选择,尤其是考虑可伸缩性和性能的时候。本文是对Couchbase的产品管理主管Dipti Borkar的采访,主要谈到了从关系数据库向NoSQL迁移的挑战、收益和过程。

InfoQ:何时才是放弃SQL转而寻求NoSQL解决方案的时机呢?

Dipti Borkar:这个问题可能有些尖锐——事实上,大多数情况下并不是放弃SQL转而寻求NoSQL解决方案,而是为了让应用和用例满足需求的变化,从一种方案转向另一种方案。一般而言,在构建现代Web和移动应用时,不管是伸缩模型还是数据模型,对灵活性都有特定的需求,而这种需求正式从SQL向NoSQL迁移的推动因素。

典型的Web应用程序是采用三层架构构建的。应用程序要向外扩展时,一般是简单地在负载均衡器之后添加更多的商品化Web服务器来支持更多用户。而对于越来越重要的云计算模型而言,向外扩展能力是其核心原则。在云计算模型中,虚拟机实例很容易根据需求进行相应地添加或删除。

然而,当涉及到数据层时,关系数据库(RDBMS)不但无法向外扩展,也没有提供灵活的数据模型,这方面有很多挑战。要处理更多的用户,这意味着要加入一台更为大型的服务器,而大型的服务器复杂度很高,一般是专有的而且非常昂贵,不像基于Web或云的架构中所使用的商品化硬件那样廉价。因此,当公司开始发现现有应用或新应用所用的关系数据库存在性能问题时,特别是这一切与用户数目的增长有关时,他们意识到需要一个更快的、有弹性的数据库层。现在是时候评估NoSQL技术并将其作为交互式Web应用的数据库层了。

InfoQ:在从SQL向NoSQL迁移时,需要哪些主要步骤?

Dipti Borkar:在使用NoSQL数据库时,不同的组织或项目追求的目标是五花八门的。所以很多迁移还是取决于具体的使用情况。下面是迁移时的一些通用指导原则:

#1 理解应用的关键需求:

某些与NoSQL匹配的需求如下:

  • 快速应用开发
    — 变化的市场需求
    — 变化的数据需求
  • 可伸缩性
    – 未知的用户需求
    – 访问、添加和更新数据使吞吐量持续增长而带来的需求
  • 一致的性能
    – 低响应时间,以便支持更好地用户体验
    – 高吞吐量,以便处理快速地增长
  • 运行可靠性
    – 高可用性,能够优雅地处理失效并尽量减小对应用的影响
    – 内置监控API,便于运行时维护

#2理解NoSQL产品的不同类型:

有一个常见的误区,就是认为所有的NoSQL数据库都是等同的。比如,Cassandra的列存储数据模型可能适用于分析类应用,而图形数据库Neo4j则适用于需要访问实体间关系的应用。

我们会特别关注分布式的、面向文档的NoSQL技术,Couchbase和MongoDB 就是两个最常见的、应用最广泛的例子。

#3 证明理念的可行性

一旦将潜在的选择缩小到数据库层,在集成应用程序的关键特性时,要计划好如何证明相关理念的可行性。可以看一下响应时间、吞吐性能和易扩展能力。

#4 文档建模与开发

对于文档数据库,数据模型会从固定的表格模式转为灵活的文档对象,因此需要在数据建模上花些时间。

#5 分阶段向产品部署

对交互式Web应用程序而言,运行的稳定性是非常重要的。当推出Web应用程序时,应该像对待采用传统关系数据库系统的应用程序一样进行测试和和阶段部署。请确保所选的数据库支持跨集群监控,并且能够方便地在线伸缩以支持按需扩容,还需要支持其他数据库管理工具。

#6 跟上最新的趋势

在美国有很多高质量、免费的实践式NoSQL培训课程。要确保成功实现NoSQL方案,最好是有一支受过培训的开发团队,而且该团队应该了解最新的服务器发型版本和供应商的产品。

下面是几个最大的培训机构的链接:

- CouchConf

- NoSQL Now

InfoQ:从SQL向NoSQL迁移时,有哪些主要的困难?

Dipti Borkar:主要困难基本上可以归结为理解传统的关系数据库系统和文档数据库的差异。最重要的区别是数据模型:

如上图所示,关系数据库中的每条记录都要符合某一模式——字段(列)数是固定的,而且每个字段都应该有一个明确的目的和数据类型。每条记录都有一样的模式。多个表之间的数据是规范化的。优点是数据库中的数据很少出现冗余。缺点是模式的改变需要执行一些代价很高的“alter table”语句,因为要避免数据库出现不一致状态,这种操作需要同时锁住很多表。

而使用文档数据库时,每个文档的结构可以与其他文档完全不同。数据库不需要额外管理文档模式的改变。

InfoQ:NoSQL文档数据库有什么优点?

Dipti Borkar:文档数据库的主要优点包括以下几个方面:

  • 灵活的数据模型
    数据不需要明确的模式就能插入,而且插入数据的格式可以随时变化——这为应用带来了极大的灵活性,最终会带来实际的业务敏捷性。
  • 容易扩展
    有些NoSQL数据库不需要应用参与就能自动跨服务器传播数据。通过数据与I/O的跨服务器传播,可以在不停掉应用的情况下添加和删除服务器。
  • 一致性和高性能
    先进的NoSQL数据库技术能够在系统内存中缓存数据,这对开发者和运维团队是完全透明的。

InfoQ:如果告诉开发者采用了NoSQL,他们会作何反应?

Dipti Borkar:对于NoSQL技术,开发者会感到非常激动,尤其是因为某些数据库所带来的开发的简洁性。文档数据库有极为灵活的模式,而且易于使用。

因为不需要修改底层数据库的模式,对于应用的变更,开发者可以进行更为快速地迭代。如果开发者构建应用程序时所用的数据为稀疏数据,或者是不断变化的数据,或者是他们无法掌控的来自第三方的数据,文档数据库尤为有用。

InfoQ:与现有的开发人员一起工作并让他们学习新技术,这是否可行?还是需要寻找新的掌握NoSQL技术的开发人员?

Dipti Borkar:应用开发者会发现某些NoSQL技术是非常容易使用的,特别是那些支持JSON文档格式的技术。越来越多的开发者在应用中使用JSON为对象建模。因此,将数据直接以JSON格式保存在数据库中能够减少跨栈的阻抗失配。

严重依赖SQL的开发者可能需要适应并学习文档建模方法。重点是,他们需要反思如何使用文档来对数据进行逻辑组织,而不是将数据规范化为固定的数据库模式。

InfoQ:你是否有过或者听过向NoSQL迁移时的失败案例?如果有的话,错在什么地方?

Dipti Borkar:架构师和开发者应该确保所选的方案或数据库能够满足他们的关键需求。例如,如果所选的数据库更适合于分析类应用,那么这种数据库可能无法满足交互式应用的延迟和吞吐量需求。如果没有研究所有需求就匆忙地做出选择,这样的项目可能会因数据访问的响应时间过长而导致用户体验很差。对于可伸缩性,用户提前应该有所计划。还有一个问题更为严重的例子,在某些情况下,应用规模已经疯长了,但所选的数据库却跟不上这种规模,无法向外扩展。

同时,对于更适合于OLTP风格应用的数据库,如果将其应用于高级数据分析或复杂处理,效果可能也不好。大数据方案估计是更好的选择。

InfoQ:向NoSQL迁移时,有哪些主要的教训?

Dipti Borkar:向NoSQL迁移时,开发者会受益良多。数据模型更为灵活并且不需要僵硬的模式,这就是一个很大的优点。你可能也会看到性能的明显提升以及数据层水平向外扩展的能力。 但是大多数NoSQL产品仍处于产品周期的前期阶段。虽然像复杂连接或多文档事物等功能可以在应用中模拟,但这时开发者使用传统的关系数据库可能更舒服。对某些项目而言,混合方法或许是最好的选择。

关于被采访人

Dipti Borkar 是Couchbase的产品管理主管,她负责Couchbase服务器(一种NoSQL数据库)的产品路线图,并与客户和用户一起工作来理解对低延迟、可伸缩数据存储方案的新兴需求。在数据库方面,Dipti拥有深厚的技术经验,她曾经在IBM担任过软件工程师,还曾是DB2服务器团队的项目经理,后来在MarkLogic担任过高级产品经理。Dipti从加州大学圣地亚哥分校获得了计算机科学硕士学位,她的主攻方向就是数据库。她还获得了加州大学伯克利分校哈斯商学院的MBA学位。
 

 

查看英文原文Transitioning from RDBMS to NoSQL. Interview with Couchbase’s Dipti Borkar


给InfoQ中文站投稿或者参与内容翻译工作,请邮件至 [email protected]。也欢迎大家通过新浪微博( @InfoQ)或者腾讯微博( @InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

您可能也会喜欢

相关 [文章 关系 数据库] 推荐:

文章: 从关系数据库向NoSQL迁移:采访Couchbase的产品管理主管Dipti Borkar

- - InfoQ cn
尽管关系数据库用于存储数据已经有几十年的历史,而且对很多用例而言,这仍然代表着一类可行的方案,但NoSQL正在成为人们当前的选择,尤其是考虑可伸缩性和性能的时候. 本文是对Couchbase的产品管理主管Dipti Borkar的采访,主要谈到了从关系数据库向NoSQL迁移的挑战、收益和过程. QCon北京2013,架构设计,大数据云计算等十八项专题,1月6日前报名7折.

NoSQL数据库探讨 -- 非关系型数据库

- - ITeye博客
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域, 非关系数据库产品的发展非常迅速. 而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不 从心,暴露了很多难以克服的问题,例如:. 1、High performance - 对数据库高并发读写的需求.

Clustrix Sierra关系数据库集群

- 2sin18 - 风轻扬
Clustrix的Sierra数据库集群引擎是一个share-nothing架构的可伸缩关系数据库集群. 官方宣传的非常诱人,说是功能像集中式关系数据库一样强大,可伸缩性超强,不需要规划什么数据分区,可用性也非常高. 简直是集SQL和NoSQL的优点于一身. 据说最近阿里云的RDS服务很可能是基于这个,因此仔细去了解了一下,发现架构上属于软硬一体化的路子,感觉架构上还是有些问题,对硬件的要求也不低.

Sqoop导入关系数据库到Hive

- - 开源软件 - ITeye博客
文章来自:http://blog.javachen.com/2014/08/04/import-data-to-hive-with-sqoop/. Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具. 本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive.

文章: 大数据分析与列数据库

- - InfoQ cn
百度技术沙龙第三十四期:机器学习之多媒体方向的思考(2013年1月12日 周六). 百度技术沙龙特约观察员火热招募中,2013,因为有你更精彩. 性能测试专家,7dtest.com创始人高楼(Zee)主持出品2013北京QCon“优秀测试实践分析”专场. InfoQ《深入浅出Node.js》专栏作者,CNode社区朴灵确认主持并参与分享QCon Node.js专题.

写给开发者看的关系型数据库设计

- - 博客 - 伯乐在线
数据库设计,一个软件项目成功的基石. 很多从业人员都认为,数据库设计其实不那么重要. 现实中的情景也相当雷同,开发人员的数量是数据库设计人员的数倍. 多数人使用数据库中的一部分,所以也会把数据库设计想的如此简单. 其实不然,数据库设计也是门学问. 从笔者的经历看来,笔者更赞成在项目早期由开发者进行数据库设计(后期调优需要DBA).

James Phillips谈从关系型数据库转到NoSQL

- - InfoQ cn
James Phillips, Couchbase的创始人之一. 他最近的一场 演讲谈到分布式面向文档的数据库和关系型数据库模型之间的差别,以及从关系型数据库转到NoSQL时数据库开发者需掌握的知识. InfoQ就面向文档的NoSQL的优缺点采访了James. InfoQ:在谈及数据持久和数据管理时,您提到了“大数据(Big Data)”和“大用户(Big User)”,可否解释这两个概念之间的区别以及如何在二者之间做选择.

非关系型数据库 NoSQL 的崛起

- - ITeye资讯频道
《连线》杂志网络版近日刊载文章,对NoSQL(非关系型数据库)的来源与历史进行了追溯. 文章主要介绍了最古老的NoSQL数据库之一CouchDB,这种数据库的创造者达米安•卡茨受到了在线协作平台Lotus Notes的启发,他的故事有助于帮助解释NoSQL运动的兴起,及为何这种数据库与以往的数据库存在如此巨大的差异.

Sqoop实现关系型数据库到hive的数据传输

- - CSDN博客互联网推荐文章
Sqoop实现关系型数据库到hive的数据传输. 作者:zyuc_wangxw 发表于2013-8-9 17:21:20 原文链接. 阅读:118 评论:0 查看评论.

非关系性分布式数据库:HBase

- - 标点符
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”. 就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力.