x86服务器新主流:Intel Xeon E5-2600系列架构与性能详解
PS:从2012年年中开始,Intel Xeon E5-2600系列的新型CPU已经逐渐在各种主流的x86服务器上成标配了,如Dell R720、Dell R620、IBM x3650 M4等,发现很多搞系统运维的兄弟对这些服务器硬件配置了解不多,一知半解。还是有必要深入了解,转载一篇对理解这方面很有用的文章:
E5-2600系列概览
2012年英特尔发布了业界期待已久的Intel Sandy Bridge架构至强E5-2600系列处理器。该系列处理器采用 Intel Sandy Bridge微架构和32nm工艺,与前一代的至强5600系列相比,具有更多的内核、更大的缓存、更多的内存通道,并直接集成了PCI Express 3.0连接,以及第二代Turbo Boost2.0睿频加速技术、AVX高级矢量扩展指令集等新特性,将成为至强处理器家族的新一代主流产品。ZDNet有幸提前拿到了至强E5-2600系列的顶级产品E5-2690,同步为您送上评测报告。
至强E5-2690是E5-2600系列的旗舰产品,主频2.9GHz,八核,20MB缓存
此次发布的E5-2600系列处理器共有17款,规格型号产品如下图所示:
E5-2600系列处理器列表
发布的17款E5-2600系列均为双路处理器,根据处理器核心划分可分为四类: 一款双核,三款四核,五款六核,八款八核。
至强E5-2600系列处理器分为三档,基本版提供10MB三级缓存和6.4GT/s的QPI(快速互联通道),支持DDR3-1066;标准版提供15MB三级缓存和8.0GT/s的QPI,内存频率提高到DDR3-1333,增加了Turbo Boost 2.0第二代睿频加速技术(最多可跳5级,500MHz)和超线程技术;高级版三级缓存提升到20MB,支持的内存频率进一步提高到DDR3-1600,Turbo Boost最多可跳8级(E5-2690单核状态下可跳9级,从2.9GHz跃升至3.8GHz)。
上图是E5-2600系列睿频加速技术对照表,可见除E5-2603和E5-2609外都支持该技术。第二代睿频技术能够通过分析当前处理器的负载情况,智能地完全关闭一些用不到的核心,把能耗空间留给正在使用的核心。这样,在不影响处理器功耗的情况下,可以把工作频率调得更恰当,同时还加入了新的电源平衡算法,进一步降低功耗,更好的智能节约并最大限度合理利用能源。
至强E5-2600新在何处
E5-2600采用环形总线(Ring Bus)连接各个CPU核心和LLC缓存(L3缓存),双处理器间使用两条最高速率8.0GT/s的QPI互联。内存通道为四通道,最高频率DDR3-1600,最大内存容量可达768GB。E5-2600还集成了PCI-E3.0支持,改善了对外的数据I/O能力。
至强E5-2600系列采用了新的环形总线连接各个CPU核心、LLC缓存(L3缓存)、及System Agent等部分。在处理器核心数量日益增多的时代,相互交换数据若出现较大延迟反而会影响整体效率,进而对系统造成瓶颈,而环形总线则能够让各个核心以及CPU可以完美共享L3缓存并且降低延迟,因此在相同条件下会较上代产品有大幅度的效率提升。大大减少了访问周期,全面提升访问速度,性能也有了很大提升。据Intel官方资料显示,缓存的延迟也得到了降低,大约由原来的36-40个时钟周期减少到26-31个时钟周期。
内存通道由至强5600系列的三通道增加为四通道,最大内存支持增加到768GB。QPI仍然是两条,但速率从6.4GT/s提升到8.0GT/s,而且都用于处理器之间的互联,这也得益于处理器集成了PCI-E 3.0支持,不需要用一条QPI去连接5520 IOH。
两条8.0GT/s的QPI高速互联,支持同步多线程总线的连接,效率更高
E5-2600系列是首款在芯片内整合PCI-E 3.0的处理器
PCI Express 3.0的传输率高达8GT/s,实际带宽是PCI-E 2.0的两倍。加之集成在处理器内部,具有更短的延迟,可以实现更高效的数据传输。
至强E5-2600系列配套的C600芯片组,集成了3Gb/s SAS
AVX即Advanced Vector Extensions高级矢量扩展,AVX是继SSE4指令集后最新指令集,融合了乘法的双指令支持。从而可以更加容易地实现512位和1024位的扩展。Sandy Bridge允许256位AVX指令借用128位的整数SIMD数据路径,在最小的核心面积上可以实现双倍的浮点吞吐量。
E5-2690测试平台简介
为了系统的测试至强E5-2600系列处理器,我们从英特尔公司拿到了一台配置E5-2690 的Intel Server System R2000服务器,主要配置如下:
Intel Server System R2000是一台2U服务器,前面有8个2.5英寸驱动器槽位
导流罩上固定着作为系统盘的Intel SSD 710
Intel SSD 710固态硬盘,200G,3Gb/s SATA接口
拆下导流罩,可以看到2个E5-2690处理器,和24个DIMM槽
拿下散热器后呈现在眼前的是至强E5-2690 CPU及LGA 2011固定架
LGA 2011插座
至强E5-2690与i5-760对比图
封装接口也由原来的至强 X5690 LGA 1366转为新的LGA 2011
Intel S2600GZ主板结构图可以看到该款主板提供24条内存的支持,最大频率1600MHz,支持两个扩展卡
至强E5-2690处理器在主板上的位置,E5-2690和至强 X5690分别支持四通道和三通道DDR3,E5-2690支持24根内存插槽,最高支持768G,至强 X5690内存最高支持288 G,是上代产品的2.6倍,处理器核心和内存的提升可以提供更多的虚拟化支持。
我们测试用的是16根DDR3 共128G内存做测试:
内存型号为8GB 2Rx4 PC3-12800R
支持两个标准750W电源模块
新老旗舰的较量:E5-2690对决X5690
我们用我们拿到的E5-2690同上代至强X5600系列旗舰处理器Intel Xeon X5690和做一下对比,相比上代同级别处理器,E5-2690将Westmere 架构彻底抛弃采用新的Sandy Bridge架构32nm工艺,核心也从6核心增加到8核心,核心的提升可以在很大程度上并且在功耗相同的条件下比Xeon X5690更有效的处理更多和更快的数据,处理器性能的提升不仅提升了整体系统的效率而且还降低了企业成本,E5-2690同样支持双线程,主频为2.9GHz,开启Turbo Boost智能加速技术后多线程下可达3.3GHz,单线程模式下可自动加速到3.8GHz,Xeon X5690最高达3.73GHz,Turbo Boost智能加速通过分析系统的负载情况智能的关闭和合理调用处理器资源,可以把处理器工作频率调为最佳状态,三级缓存由X5690的12M扩展到现在的20M,使之数据间的交换更畅通无阻。
我们先来看下Intel E5-2600系列针对上代产品X5600系列的提升
我们来细看至强E5-2600系列针对至强X5600系列不同平台方面的提升,基本版在热设计功耗不变的情况下主频、内存和缓存的支持都有提升,标准版在增加核心后还提高了更高的内存、缓存、和I/O带宽,高级版电压相差无几而核心得以提升这样在相同的能耗下可以进行更多数据处理,支持四通道内存最高20MB缓存。
来自Intel 的报告显示新发布的至强E5-2600系列比上代产品至强X5600系列同级别服务器各方面性能都有明显提升。
SPEC CPU 2006处理器子系统性能测试
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2006和CFP2006两个子项目,分别用于测量整数性能和浮点性能,单个项目又分多线程和单线程测试,测试的结果包括base基准测试结果和peak峰值结果,“Base”规则要求必须在编译套件中的全部测试项目时使用通用的设置进行优化(简单调优),而“Peak”允许在编译每一个benchmark时使用专门针对该项测试的个别优化,也就是说Peak结果留给运行测试的厂商/评估者更多的调优余地以获得更好的成绩。每个测试结果会给出base 和peak 的均值,测试过程中处理器、内存、操作系统和编译器都会影响最终的测试性能,而硬盘、网络对测试性能的影响比较小。
SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,以此为参考,其他测试系统与之相比即可得出相对性能指数。Sun的这套系统使用了一颗296MHz的UltraSPARC II处理器。
整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
多线程整型测试结果
根据上面的图表,我们可以看到至强E5-2690处理器多线程整数Benchmark总得分为689(最大调优)/ 660(基本调优),下面将列出每个单项测试的得分。
多线程整形Base和Peak得分与均值
单线程整形测试结果
单线程测试只使用到一个CPU核心,所以得分结果没有上次那么高,根据图表所示,至强E5-2690处理器单线程整数Benchmark总得分为56.3(最大调优)/ 52(基本调优),下面还将列出每个单项测试的得分。
单线程整形Base和Peak得分与均值
浮点运算包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
多线程浮点型测试结果
如上面测试结果图表所示,至强E5-2690处理器多线程浮点Benchmark总得分为502(最大调优)/ 487(基本调优),下面将列出了每个单项测试的得分。
多线程浮点型Base和Peak得分与均值
单线程浮点型测试结果
根据上面的图表所示,至强E5-2690处理器单线程浮点Benchmark总得分为88.5(最大调优)/ 83.3(基本调优),下面将列出了每个单项测试的得分。
单线程浮点形Base和Peak得分与均值
我们根据自己的实测结果和戴尔在SPEC网站公布的Power Edge R710实测结果做了下对比,DELL R710采用了至强X5690处理器这款服务器具体配置如下:
E5-2690和X5690软硬件环境配置对比图:
Dell R710这款服务器的和我们评测的E5-2690软硬件配置极为相近,所以我们拿它来做下性能对比
上图是SPEC 2006对至强E5-2690整形和浮点测试结果,通过对比可见至强E5-2690各项性能均高出至强X5690处理器
根据我们对至强E5-2690的测试结果和DELL R710 Xeon 5690 SPEC公布的测试结果可以看到E5-2690在处理器核心数提升了33.33%,多线程整型基本调优Base领先X5690 58.65%,多线程整形最大调优Peak领先X5690 59.49%,单线程整形Base领先10.17%,Peak领先12.38%,多线程浮点型Base领先82.39%,多线程浮点型Peak领先83.21%,单线程浮点Base领先32.64%,单线程Peak领先35.94%。
CineBench测试
CineBench 是一款测试处理器性能很好的工具,CineBench R11.5为目前最新版的Cinebench系列测试软件,它采用了3D设计软件CINEMA 4D的3D引擎,支持多线程同时运算,Maxon公司表示,相对于之前的r10版,R11版更能榨干系统的最后一点潜能,准确体现系统性能指标。 测试包括两项,分别针对处理器和显卡的性能指标。我们可以用它来评测至强E5-2690这款多核处理器的效能。我们采用的是64位版。
上图显示CineBench R11.5单核测试结果,至强E5-2690测试得分1.53,远远超过其它对比的平台Intel Xeon W5590、Intel core i7 860、Intel Xeon X5570、Intel Core i7 960、AMD Opteron 2435。
MP Ratio测试中E5-2690和其它测试平台对比,比测试平台最高的AMD Opteron2435高出5,很显然E5-2690的性能完全胜出。
转自:http://server.zdnet.com.cn/files/all-2082224.htm