正睿服务器  >  新闻中心  >  评测室
新闻中心

4路32核64线程 顶级Nehalem-EX平台评测(中篇)

间隙填充
正睿科技  发布时间:2010-07-28 13:35:34  浏览数:6195

    在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Stard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxSSE4.2编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT/QxSSE3编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。

  • SiSoftware Sra v2010

  SiSoftware Sra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。

  • WebBench v5.0

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS组件,以提供测试所需的Web服务。在测试中我们使用了网络实验室中的60台客户端,配置了120个测试引擎,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。

  • Benchmark Factory for Databases 5.7.1g

  我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。

  我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。

  BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。

  •  CineBench R11.5 

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL,不过我们不测试其显示子系统。

  此外还有使用了一些比较小型的测试软件。

 

 Nehalem-EX座驾:Boxboro芯片组
测试平台的结构就是Intel文档的标准结构

  对比平台比较多,包括Nehalem-EP、Westmere-EP、Dunnington和Nehalem-EX,为了发挥Intel处理器的Turbo Boost能力,我们将Windows Server 2008 R2的电源计划设置为“高性能”;默认设置将不使用Turbo Mode。

  注:DELL PowerEdge M910是个比较特别的平台,基于其FlexMem Bridge技术,内存方面受到一些影响:

 Intel Nehalem-EX官方平台:软件截图
64个逻辑处理器、256GB内存

 Intel Nehalem-EX官方平台:软件截图
一定要安装驱动程序……因为会协助认出很多硬件

 Intel Nehalem-EX官方平台:软件截图
处理器的组织方式也和通常机器不同,每一个处理器在一个ACPI Module Device类下面,包含了16个逻辑处理器

 Intel Nehalem-EX官方平台:软件截图
其中一个Boxboro(7500) IOH芯片上的设备

 Intel Nehalem-EX官方平台:软件截图
ICH10R连接在这个IOH上

 Intel Nehalem-EX官方平台:软件截图
另一个IOH上则没有什么设备,机器背板右方的扩展口就连接到这个IOH上 

 Intel Nehalem-EX官方平台:软件截图
这个PCI bus下面的一堆设备其实是CPU1上的东西,如Caching Agent、QPI Home Agent、QPI Port、SMI Port、Memory Controller等

 Intel Nehalem-EX官方平台:软件截图
非常复杂

 Intel Nehalem-EX官方平台:软件截图
这么复杂的意义就是为了容错,每一个CPU模块乃至IOH芯片上的一些设备都可以进行热添加/删除

 Intel Nehalem-EX官方平台:CPU-Z截图
默认频率1.066GHz,在EIST的作用下

 Intel Nehalem-EX官方平台:CPU-Z截图
正常工作频率是2.27GHz

 Intel Nehalem-EX官方平台:CPU-Z截图
Turbo Boost之后可以达到最高的2.67GHz

 Intel Nehalem-EX官方平台:CPU-Z截图
QSSC-S4R主板

 Intel Nehalem-EX官方平台:CPU-Z截图
256GB内存,参数一概认不出来

 Intel Nehalem-EX官方平台:CPU-Z截图
SPD读不出来

 Intel Nehalem-EX官方平台:CPU-Z截图
默认显示器……如非必要笔者一般是不会装上显卡驱动的

  SiSoftware Sra是一款可运行在32bit和64bit Windows操作系统的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sra所有的基准测试都针对SMP和SMT进行了优化。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

    四路32核心64线程果然不同凡响,451.7GOPS(整数518.5GIPS浮点385GFLOPS)比最高端的双路X5680高了81%(整数78%浮点86%),不过,Nehalem-EX在加密测试上敌不过具有AES增强指令集的Westmere-EP。

 SiSoftware Sra 2010处理器性能
和若干平台的对比图

  SiSoftware Sra的处理器测试还算比较快捷的,不过内存缓存测试方面就极耗费时间了。

SiSoftware Sra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
2.93GHz
双路Intel Westmere-EP
Xeon X5670
2.93GHz
双路Intel Westmere-EP
Xeon X5680
3.33GHz
Dawning I840-H
四路Intel Dunnington
Xeon X7460
2.66GHz
@Sra 2009
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Memory Bwidth Benchmark
内存带宽测试
Aggregate Memory Performance
38GB/s 35GB/s 35.2GB/s   33.86GB/s 65.76GB/s
Int Buffd iSSE2 Memory Bwidth
38GB/s 35GB/s 35.2GB/s 3.49GB/s 33.86GB/s 65.76GB/s
Float Buffd iSSE2 Memory Bwidth
38GB/s 35GB/s 35.18GB/s 3.49GB/s 33.85GB/s 65.77GB/s
Memory Latency Benchmark(Rom)
内存延迟测试(随机)
Memory(Rom Access) Latency
(越小越好)
80ns 83ns 82ns   192ns 149ns(min)
Speed Factor
(越小越好)
55.50 57.00 64.60   98.10 94.50
Internal Data Cache
4clocks 4clocks 4clocks   4clocks 3~4clocks
L2 On-board Cache
11clocks 10clocks 10clocks   10clocks 9~10clocks
L3 On-board Cache
49clocks 57clocks 60clocks   84clocks 66~70clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns 7ns 7ns   41ns 36ns(min)
Speed Factor
(越小越好)
4.80 5.10 5.50   20.70 20.20
Internal Data Cache
4clocks 4clocks 4clocks   4clocks 3~4clocks
L2 On-board Cache
10clocks 11clocks 11clocks   10clocks 9~10clocks
L3 On-board Cache
13clocks 13clocks 13clocks   34clocks 27~28clocks
Cache Memory Benchmark
缓存及内存测试
Cache/Memory Bwidth
142GB/s 183.26GB/s 195.6GB/s   315GB/s 510.58GB/s
Speed Factor
(越小越好)
21.20 31.00 35.20   34.80 26.90
Internal Data Cache
471GB/s 663.51GB/s 744.49GB/s   919.66GB/s 1.3TB/s
L2 On-board Cache
295.4GB/s 537.88GB/s 611GB/s   749GB/s 909.27GB/s
L3 On-board Cache
112GB/s 146.33GB/s 159GB/s   336.6GB/s 571.35GB/s

  很明显,同样为Nehalem-EX,官方平台比M910对比平台的内存带宽高了一倍达到了65.76GB/s,是上一代Dunnington的18.8倍,是顶级双路X5680的1.87倍。M910在四路配置下每个处理器仅使用了两个内存控制器的其中一个,从结果来看影响巨大。

  测试样机使用了两个内存控制器??通常的Nehalem-EX机器都应该这样,这样不仅内存带宽翻倍,连内存延迟也有所下降,幅度大约在20%左右,当然,还是要比双路产品线要明显高不少。L1/L2/L3延迟的略为降低应该是跟处理器主频相关,和内存控制器关系不大。

  最后,Nehalem-EX的L3总带宽达到了571.35GB/s,双路Westmere-EP Xeon X5680则是159GB/s,增强的带宽和Nehalem-EX的CPU总数以及每CPU的核心数量有关,此外,我们也可以看到环形总线的威力。

 SiSoftware Sra 2010缓存内存性能

 SiSoftware Sra 2010缓存内存性能

 SiSoftware Sra 2010缓存内存性能

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数性能测试

  462.libquantum 物理:量子计算的得分很惊人:1550,它导致了其它得分条的整体缩短……已经知道,这个测试和内存延迟、内存带宽很有关系,因此M910表现不佳,其他的双路Xeon得分差不多。

快速导航

4路32核64线程 顶级Nehalem-EX平台评测(上篇)
4路32核64线程 顶级Nehalem-EX平台评测(中篇)
4路32核64线程 顶级Nehalem-EX平台评测(下篇)

   

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号