为什么说很多NoSQL的Benchmark是扯淡?

标签: NoSQL杂谈 benchmark nosql 性能 性能测试 | 发表时间:2011-09-19 21:57 | 作者:nosqlfan 三十不归
出处:http://blog.nosqlfan.com

正如原作者所言,本文有标题党之嫌,但确实道出了一个众所周知的问题。就是很多NoSQL产品的官方 benchmark 过高。虽然本人并不完全同意作者的观点,但是其不盲从轻信较劲的态度还是值得学习。

抱歉我用了这么一个标题党的题目做为标题。

写这篇文章只是想引起大家的注意:在选择NoSQL产品时,达到标称性能,需要诸多限制条件,例如本文主要讨论的磁盘I/O。

现在NoSQL的产品已经很多了,很多都宣称“我们的QPS可以达到十万,甚至百万”,但是当我们在生产环境中使用的时候,却明显的感觉到,随着数据文件不断增大,NoSQL的性能却指数下降,问题处在哪里了?

这些NOSQL的Benchmark的量都有一个前提“你得内存足够放下你的全部数据文件”

Case1:有人说,我内存16GB,那只能说明你得数据规模还不够大……我已经经历被无数上百GB的数据库折磨过了。此外,你可能需要在1GB内存的虚拟机上支撑数10GB的数据,比如我现在的情况。

继续讨论,一旦内存放不下全部的数据,会怎么办呢?
有很多策略,但无非都是访问磁盘,将数据Cache到内存中。

我们先讨论最坏的情况,假定每条记录的偏移是放在内存中,但所有数据都放在磁盘,我们使用fseek等操作来查询磁盘。

来看下面的测试代码。

#相关代码, [四号程序员] http://www.coder4.com
void test_fseek_set()
{
    long offset;
    FILE*fp = NULL;
    long i;

    fp = fopen(FILE_NAME, "r");
    if(!fp)
    {
        printf("Open file fail.\n");
        printf("%s\n",strerror(errno));
        exit(-1);
    }   

    for(i=0; i<TIMES; i++)
    {
        //Because random max is 1<<30 - 1
        offset = random() * 10 % MAX_FILE;
        if(fseek(fp, offset, SEEK_SET))
        {
            printf("fseek error.\n");
            printf("%ld",offset);
            printf("%s\n",strerror(errno));
        }
    }   

    fclose(fp);
}

好了,你猜猜上述随机fseek的程序在一个7200转的硬盘上,针对一个4GB的文件随机访问,能跑多块?

答案是QPS<=80。

有人说你骗人,我跑的能到1XXX,那么请你执行下述命令清空你内存中的磁盘缓存。

#相关代码, [四号程序员] http://www.coder4.com
sync; echo 3 > /proc/sys/vm/drop_caches

很多时候,之所以我们能在小数据时达到NoSQL官方标称的QPS,而大数据量却指数下降,都是这些缓存在作怪。说白了,我们很Happy的Benchmark半天,实际是在玩系统的缓存,当然快了。

一旦你的数据文件大于内存磁盘缓存,那么速度会马上像我列举的这样,不会多余80QPS,在一个4GB的文件上。

有人说mmap,我曾经也是这样YY的,但根据我的测试,事情不是这样。
我有一个120GB的Tokyo Cabinet数据文件,把内存开满,它默认会用mmap,然后你会发现top中“VIRT”一列,会显示为120GB+(换算后),而我得机器内存却只有32GB。这时,当你访问恰好不在内存中的那部分数据时,操作系统会进行非常耗时的换入换出操作(首先就需要fseek等)。在这台24核、32GB的机器上,QPS勉强能达到3000(这已经远远低于标称的QPS),而一旦清空缓存,QPS会迅速跌落到70左右……

可能还会有人说:我没事闲的为啥要自己清空缓存?

机器不是给你一个NoSQL进程服务的,很多系统其他服务都需要访问磁盘,读取文件,渐渐的就会把你Cache起来的内存全部换掉,根据实际测试的情况,一台完全闲置的机器,开TT能达到3000, 闲置放置48小时(不开其他服务), 性能就会骤降到1000左右,再放置72小时左右,就回归到70的qps了,此时Cache已经基本完全换出。

综上,mmap不是神,因为你的内存不够,而其他进程也会争夺内存来做自己的Cache。

如果你想充分发挥NoSQL的性能,建议用支持集群的NoSQL产品,尽量将全部数据放入内存中。

或者你没钱购置很多Moster内存的服务器,像我一样,就不要期望NoSQL能有很惊人的性能了。此时,NoSQL所能带来的提升,只是关系数据库所剪掉的那部分开销,如果你基本没有什么join,那么可能还会不如关系数据库。

分析性能,我们不能仅仅看官方的数据比较,要考虑机器的实际情况和自己的数据规模,最终才能分析出瓶颈出在哪里。

对于原作者的观点,本人提出两点看法:

  • 1.要充分发挥NoSQL性能,并不是一定要尽量把所有数据放到内存,实际上只要保证了热数据都能装在内存中就够了。
  • 2.作者举例中的程序,主要用了磁盘seek,磁盘的seek速度慢,原本就是磁盘物理结构的硬伤,所以许多NoSQL存储采用了变随机写为顺序写的方式,减少磁盘seek操作,也是提升IO性能的良方。

来源:www.coder4.com

相关文章:
Redis并发性能测试benchmark
MongoDB1.6版本与最新1.8版本性能测试——写入篇
来自Riak的LevelDB与InnoDB的性能测试
性能测试,你真的懂吗?
LevelDB、TreeDB、SQLite3性能对比测试
无觅

相关 [nosql benchmark] 推荐:

为什么说很多NoSQL的Benchmark是扯淡?

- 三十不归 - NoSQLFan
正如原作者所言,本文有标题党之嫌,但确实道出了一个众所周知的问题. 就是很多NoSQL产品的官方 benchmark 过高. 虽然本人并不完全同意作者的观点,但是其不盲从轻信较劲的态度还是值得学习. 抱歉我用了这么一个标题党的题目做为标题. 写这篇文章只是想引起大家的注意:在选择NoSQL产品时,达到标称性能,需要诸多限制条件,例如本文主要讨论的磁盘I/O.

压力测试工具Benchmark

- - 企业架构 - ITeye博客
已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

Oracle MySQL Or NoSQL续

- - Sky.Jian 朝阳的天空
接前面一篇,这里再将之前在“中国系统架构师大会”5周年的时候发布的纪念册“IT架构实录”上的一篇文章发出来,也算是前面博文中PPT的一个文字版解读吧. Oracle,MySQL 还是 NoSQL. 随着阿里系的“去IOE”运动在社区的宣传声越来越大,国内正在掀起一股“去xxx”的技术潮. 不仅仅是互联网企业,包括运营商以及金融机构都已经开始加入到这个潮流之中.

NoSQL开篇——为什么要使用NoSQL

- Foxiang - 博客园新闻频道
  NoSQL在2010年风生水起,大大小小的Web站点在追求高性能高可靠性方面,不由自主都选择了NoSQL技术作为优先考虑的方面. 今年伊始,InfoQ中文站有幸邀请到凤凰网的孙立先生,为大家分享他之于NoSQL方面的经验和体会.   非常荣幸能受邀在InfoQ开辟这样一个关于NoSQL的专栏,InfoQ是我非常尊重的一家技术媒体,同时我也希望借助InfoQ,在国内推动NoSQL的发展,希望跟我一样有兴趣的朋友加入进来.

8种nosql对比

- - 谁主沉浮
虽然SQL数据库是非常有用的工具,但经历了15年的一支独秀之后垄断即将被打破. 这只是时间问题:被迫使用关系数据库,但最终发现不能适应需求的情况不胜枚举. 但是 NoSQL数据库之间的不同,远超过两 SQL数据库之间的差别. 这意味着软件架构师更应该在项目开始时就选择好一个适合的 NoSQL数据库.

HTC Jetstream 默默在 AT&T 上架 ,Benchmark 结果出炉!

- vic - Engadget 中国版
考虑来块 HTC Jetstream 平板吗. 就在你考虑的同时,它已于周末悄悄溜进 AT&T 的在线商店了,且绑约两年还要花费约 US$700(约 4469 元人民币). 所以我们诚心建议在您准备下手这台号称「提供消费者前所未有高价新体验」的平板产品前,可以先看看一些关于此机型的 Benchmark 比较表后再入手也不迟.

Go 生态圈的 K/V 数据库 benchmark

- - 鸟窝
Go生态圈有好几个K/V数据库,我们经常用它来做我们的存储引擎,但是这些数据库引擎的性能如何呢. 本文试图用性能而不是功能的数据考察这些数据库,我测试了几种场景: 并发写、并发读、单一写并发读、并发删除,得出了一些有趣的数据. 测试在两台机器上测试的,一台机械硬盘,一台固态硬盘,使用256字节作为value值的大小,9个字节作为key的大小,测试简单的读写删除操作,并没有测试批量读写操作.

Oracle 发布 NoSQL 数据库

- 冷月 - 博客园新闻频道
  Oracle 作为全球最大的关系型数据库提供商,在其产品链条中,也加入了 NoSQL 数据库这一环,而且这个新的数据库名字很霸气,就叫 NoSQL Database,想起了当年新浪微博更换 weibo.com 域名之时的一个笑话:. 原来有三家人做面包,张三家的面包叫三张牌面包,李四家的牌子叫李四牌面包,王五家出品的是王五牌面包,而突然有一天,张三家的面包改名了,叫面包牌面包.

NoSQL 数据建模技术

- - 博客 - 伯乐在线
全文译自墙外文章“ NoSQL Data Modeling Techniques”,译得不好,还请见谅. 这篇文章看完之后,你可能会对NoSQL的数据结构会有些感觉. 我的感觉是,关系型数据库想把一致性,完整性,索引,CRUD都干好,NoSQL只干某一种事,但是牺牲了很多别的东西. 总体来说,我觉得NoSQL更适合做Cache.

Nosql Redis ttserver Flare memcache比较

- - 小彰
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速. 而传统的关系数据库在应付 web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:. 1、High performance - 对数据库高并发读写的需求.