新鲜出炉，PCIE卡SQLServer和SSD Mongodb集群4千万数据insert测试

标签：新鲜 pcie sqlserver | 发表时间：2015-03-30 09:30 | 作者：snoopyxdy

出处：http://snoopyxdy.blog.163.com

最近公司需要测试1亿条数据10分钟插入数据库，主要是为了数据推送留存用。

最终我们讨论给出了2套方案

1、单台sqlserver 配合PCIE卡

2、Mongodb分片集群

因为目前数据量是4千万，所以我分别对4千万数据和1亿数据进行了写入测试。

被测试机器都是24CPU,64G内存的独立服务器

测试代码运行服务器也是24CPU，64G内存的独立服务器

网络环境是内网1G带宽。

1、单台sqlserver 配合PCIE卡

新鲜出炉，PCIE卡SQLServer和SSD Mongodb集群4千万数据insert测试 - snoopyxdy - snoopyxdy的博客

性能测试总结：

使用新配置的720 PCI-E硬盘机器和SQLServer2014，性能非常强劲，单机可达3万条/秒的写入，由于前几次测试本机压测本机，对cpu有抢占情况，所以性能并没完全发挥出来。

2、mongodb测试结果

性能测试总结：

尽管Mongodb单机性能不如带PCIE卡的SQLServer，但是一旦分片，性能将提升几倍

在分4片的情况下，写入可达60000条/s

在分5片的情况下，写入可达80000条/s

另外值得一提的是，由于分片不均匀，导致90%的数据仅使用了60%的时间，剩下10%的数据仅在单点插入，所以性能下降的很厉害，如果分片足够多，我们的片键足够散列，让每片存储平均，性能还能有进一步提升。

3、汇总总结：

想要达到1亿条数据10分钟插入，必须达到插入速度在16万/秒，所以如果我们将分片达到10片，理论上就可以达到1亿条数据10分钟的插入了，由于机器有限无法完成测试，不过最终20分钟的插入速度也让人满意了。

4、最后附上py测试脚本

sqlserver测试脚本：

    
    # -*- coding: utf-8 -*-
    import _mssql
    import pymssql
    import datetime,time
    from multiprocessing import Process
         
    def getTimestampFromDatetime(d=None):
        if d is None:
            d = datetime.datetime.now()
        return time.mktime(d.timetuple())
         
         
    def task(key):
         
        server = 'localhost:2433'
        user = 'testwzh'
        password = '123456'
        dbname = 'TCMobileNotification'
        str = u'来的真巧！这么好的东西只为你准备，你忍心让给别人吗？'
         
        all_data = (0,1,'d0118d2cffaf8000d0118d2cffaf8000',0,1,'2015-03-20 10:01:50.990',\
            str,'http://t.cn/RZsNwgG',71,\
            6, 9,'2015-03-27 10:01:50.990',0)
        listData = []
        for i in range(10000):
            listData.append(all_data)
        
         
        tableName = 'PushMessageSystem_{0}'.format(key)
        conn = pymssql.connect(server=server, user=user, password=password, database=dbname)
        cursor = conn.cursor()
        for i in range(0, 250000):
            cursor.executemany(
             "INSERT INTO "+tableName+" VALUES (%d,%d,%s,%d,%d,%s,%s,%s,%d,%d,%d,%s,%d)",
                listData)
            conn.commit()
        conn.close()
         
         
    if __name__ == '__main__':
        proc_record = []
        keyList = [0,1,2,3,4,5,6,7,8,9,'a','b','c','d','e','f',]
        for i in range(0,16):
            p = Process(target = task, args=(keyList[i],))
            p.start()
            proc_record.append(p)
         
         
         
        start = getTimestampFromDatetime()
         
        for p in proc_record:
            p.join()
         
        end = getTimestampFromDatetime()
        print('time: {0}s'.format(end-start))

mongodb集群测试脚本：

     
           # -*- coding: utf-8 -*-
      import pymongo
      import json
      import datetime,time
      import sys
      import copy
      import sys, os
      from multiprocessing import Process
      from hashlib import md5
             
             
             
      def getTimestampFromDatetime(d=None):
          if d is None:
              d = datetime.datetime.now()
          return time.mktime(d.timetuple())
             
      def md5Hash(str):
          m = md5()
          m.update(str)
          return m.hexdigest().upper()
             
      def task(key):
             
          mongoUri = 'mongodb://root:[email protected]:10000/admin'
          str = u'来的真巧！这么好的东西只为你准备，你忍心让给别人吗？'
             
          all_data = {
              'PMSID':1,
              'PMSPushTaskID':0,
              'PMSPlatform':1,
              'PMSDeviceID':md5Hash(key),
              'PMSReadCount':0,
              'PMSVisible':1,
              'PMSCreateTime':'2014-06-24 16:40:00.000',
              'PMSContent':str,
              'PMSUrl':'http://t.cn/RZsNwgG',
              'PMSTaskSN':71,
              'PMSPushType':6,
              'PMSProductType':3,
              'PMSExpiredTime':'2015-03-27 10:01:50.990',
              'PMSContentType':0,
          }
             
          tableName = 'PushMessageSystem_{0}'.format(0)
             
          client = pymongo.MongoClient(mongoUri, max_pool_size=100)
          db = client.TCMobileNotification
             
          for i in range(0, 125):
              listData = []
              for i in range(10000):
                  listData.append(copy.copy(all_data))
              db[tableName].insert(listData)
             
             
             
      if __name__ == '__main__':
          proc_record = []
          keyList = [0,1,2,3,4,5,6,7,8,9,'a','b','c','d','e','f',0,1,2,3,4,5,6,7,8,9,'a','b','c','d','e','f']
          for i in range(0,32):
              p = Process(target = task, args=(str(keyList[i]),))
              p.start()
              proc_record.append(p)
             
          start = getTimestampFromDatetime()
             
          for p in proc_record:
              p.join()
             
          end = getTimestampFromDatetime()
          print('time: {0}s'.format(end-start))

新鲜出炉，PCIE卡SQLServer和SSD Mongodb集群4千万数据insert测试

- - snoopyxdy的博客

最近公司需要测试1亿条数据10分钟插入数据库，主要是为了数据推送留存用. 最终我们讨论给出了2套方案. 1、单台sqlserver 配合PCIE卡. 2、Mongodb分片集群. 因为目前数据量是4千万，所以我分别对4千万数据和1亿数据进行了写入测试. 被测试机器都是24CPU,64G内存的独立服务器.

oracle、mysql和sqlserver分页

- - Oracle - 数据库 - ITeye博客

sql server row number分页：. mysql limit分页：. 已有 0 人发表留言，猛击->> 这里<<-参与讨论. —软件人才免语言低担保赴美带薪读研.

PCIe-SSD卡下的xfs vs ext4对比fileio及TpmC测试

- - iMySQL

此前听说过某公司把xfs都替换成了ext4，感觉有些诧异，才有了本次测试. 此次测试本意是想对比下xfs和ext4的差异，看看xfs是否还一如既往的靠谱. 在测试的过程中，我还顺带测试了下MySQL 5.7.7和Percona-5.6.23的对比. 1、可以继续放心大胆的采用xfs文件系统；. 2、使用xfs文件系统时，无需刻意加一些优化参数，默认的（defaults,noatime,nodiratime,nobarrier）就够了；.

SQLServer 镜像功能完全实现

- Bloger - 博客园-首页原创精华区

折腾SQLServer 镜像搞了一天，终于有点成果，现在分享出来，之前按网上做的出了很多问题. 现在尽量把所遇到的问题都分享出来. 在域环境下我没配置成果，也许是域用户的原因，因为我在生产环境下搞的，更改域用户需要重启SQLServer ，所以这个方法放弃了，只能用证书形式. 主机:192.168.10.2 (代号A).

SQLServer索引的四个高级特性

- - CSDN博客数据库推荐文章

SQLServer索引的四个高级特性. 一、Index Building Filter(索引创建时过滤). 有一些索引非常低效的，比如经常查询状态为进行中的订单，订单有99%的状态是完成，1%是进行中，因此我们在订单状态字段上建了一个索引，性能是提高了，但是感觉索引中保存了99%的完成状态数据是永远不会查询到的，很浪费空间.

Oracle、Db2、SqlServer、MySQL 数据库插入当前系统时间

- - CSDN博客推荐文章

例如有表table,table 中有两个字段：name 、makedate. 插入系统时间应为sysdate:. insert into table (name,makedate) values('测试',sysdate);. 插入系统时间应为current timestamp并且makedate数据类型为timestamp.

sqlserver数据库大型应用解决方案总结

- - 博客园_首页

随着互联网应用的广泛普及，海量数据的存储和访问成为了系统设计的瓶颈问题. 对于一个大型的互联网应用，每天百万级甚至上亿的PV无疑对数据库造成了相当高的负载. 对于系统的稳定性和扩展性造成了极大的问题. 负载均衡集群是由一组相互独立的计算机系统构成，通过常规网络或专用网络进行连接，由路由器衔接在一起，各节点相互协作、共同负载、均衡压力，对客户端来说，整个群集可以视为一台具有超高性能的独立服务器.

SqlServer索引的原理与应用 - 张龙豪

- - 博客园_首页

索引的用途：我们对数据查询及处理速度已成为衡量应用系统成败的标准，而采用索引来加快数据处理速度通常是最普遍采用的优化方法. 索引是什么：数据库中的索引类似于一本书的目录，在一本书中使用目录可以快速找到你想要的信息，而不需要读完全书. 在数据库中，数据库程序使用索引可以重啊到表中的数据，而不必扫描整个表.

B-Tree索引在sqlserver和mysql中的应用

- - CSDN博客数据库推荐文章

在谈论数据库性能优化的时候，通常都会提到“索引”，但很多人其实没有真正理解索引，并没有搞清楚索引为什么能加快检索速度，以至于在实践中并不能很好的应用索引. 事实上，索引可以说是最廉价而且十分有效一种优化手段，一般而言，设计优良的索引对查询性能优化确实能起到立竿见影的效果. 相信很多读者，都了解和使用过索引，可能也看过或者听过”新华字典“、”图书馆“之类比较通俗描述，但是对索引的存储结构和本质任然还比较迷茫.

sqlserver定位消耗资源比较高的sql

- - CSDN博客数据库推荐文章

sqlserver查看消耗资源的sql ,具体如下：. 可以使用SQL 快速定位数据库里CPU,IO 消耗比较高的SQL：. 定位消耗cpu,io 最高的进程信息. 定位该进程执行的 SQL 语句. 到查到的 db 里执行：. 也可以从事件探查器查看sql的执行计划. 作者：lihaiwenshu 发表于2014-10-21 17:06:52 原文链接.

新鲜出炉，PCIE卡SQLServer和SSD Mongodb集群4千万数据insert测试

相关 [新鲜 pcie sqlserver] 推荐：

新鲜出炉，PCIE卡SQLServer和SSD Mongodb集群4千万数据insert测试

oracle、mysql和sqlserver分页

PCIe-SSD卡下的xfs vs ext4对比fileio及TpmC测试

SQLServer 镜像功能完全实现

SQLServer索引的四个高级特性

Oracle、Db2、SqlServer、MySQL 数据库插入当前系统时间

sqlserver数据库大型应用解决方案总结

SqlServer索引的原理与应用 - 张龙豪

B-Tree索引在sqlserver和mysql中的应用

sqlserver定位消耗资源比较高的sql

相关文章

订阅