正睿服务器  >  新闻中心  >  评测室
新闻中心

4路32核64线程 顶级Nehalem-EX平台评测(下篇)

间隙填充
正睿科技  发布时间:2010-07-28 13:39:54  浏览数:12075

  整体来看,四路八核心Xeon X7560平台的整数吞吐量比最高的双路六核心Xeon X5680平台高83.2%,比仅使用了单个内存控制器的四路六核心Xeon E7540高79.8%,比四路六核心Xeon X7460(上一代四路)高241.9%,在所有项目中都很突出,只有在403.gcc C编译器项目中和各个平台表现差不多。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

 SPEC CPU 2006浮点性能测试

  有两个测试项目很特别:433.milc 量子力学和465.tonto 量子化学,其他的项目X7560平台都很明显占优。整体来看,四路八核心Xeon X7560平台的浮点吞吐量比最高的双路六核心Xeon X5680平台高90.5%,比四路六核心Xeon E7540高130.4%,比四路六核心Xeon X7460(上一代四路)高241.1%,整个测试表明更高的内存带宽在浮点运算中是较有优势的。

  CineBench R11.5是最新的版本,上一个CineBench R10最多支持16个逻辑处理器,在很多测试中受到了明显的限制,幸好R11.5升级到最多支持64个逻辑处理器,不过,需要手动进行设置一个参数。仍然不是很方便。

 CineBench R11.5性能测试
R11.5默认只使用32个测试线程

 CineBench R11.5性能测试
手动配置后得以以64线程运行

 CineBench R11.5性能测试
不过仍然显示为32线程

CineBench R11.5 64bit
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
显卡 - - - - -
CPU Benchmark
Rendering (1 CPU) 1.02 pts 1.02 pts 1.16 pts 0.78 pts 0.92 pts
Rendering (x CPU) 9.92 pts 14.58 pts 16.40 pts 19.26 pts 27.08 pts
Threads 16 24 24 48 64
Multiprocessor Speedup 9.68x 14.33x 14.18x 24.65x 29.43x

   幸运的是,测试样机的逻辑处理器刚好达到CineBench R11.5的支持上限。从总分上看,它是顶级双路的1.65倍。单核心渲染能力上则是顶级双路的80%

MMM - Matrix-Matrix Multiplicaion Benchmark
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
单位 GFLOPS GFLOPS GFLOPS GFLOPS GFLOPS
Threads 1
5000 step 7.821975 7.842319 8.877563 5.867645 7.036748
10000 step 7.890761 7.840417 8.883291 5.865347 7.034792
15000 step 7.888751 7.845479 8.881528 5.826604 6.960592
Threads 2
5000 step 15.59136 15.62796 17.5891 11.570261 13.979099
10000 step 15.7544 15.66469 17.73566 11.689317 14.032266
15000 step 15.7445 15.64657 17.67208 11.602247 13.89951
Threads 4
5000 step 30.69218 29.99696 34.85343 21.788607 27.555005
10000 step 31.02227 29.75883 34.90105 22.21115 27.685804
15000 step 31.04954 30.55926 34.92557 22.073702 27.297404
Threads 8
5000 step 36.2252 49.03697 45.99856 41.228878 49.518835
10000 step 38.21083 50.30305 45.99856 43.472432 49.767277
15000 step 40.71236 56.00031 47.74417 43.37777 49.750117
Threads 16
5000 step 59.38371 64.04222 66.10022 73.379889 47.855051
10000 step 61.44583 62.42291 72.38159 78.596851 48.320744
15000 step 61.83442 64.3761 73.2495 79.099092 48.421492
Threads 24
5000 step 54.82514 84.13599 66.10022 94.000418 70.233111
10000 step 54.82514 88.58685 72.38159 124.028823 71.502532
15000 step 59.18915 90.12297 73.2495 124.574801 71.685326
Threads 32
5000 step         96.076302
10000 step         97.64478
15000 step         98.195937
Threads 48
5000 step       97.335138 136.623189
10000 step       119.780984 142.50301
15000 step       121.637469 145.534244
Threads 64
5000 step         137.141474
10000 step         182.49902
15000 step         185.098571

   MMM是一个类似矩阵乘法基准测试软件,得到的结果单位是GFLOPS,也就是说它是一个浮点测试。可以看到,X7560平台最终展示了185.1GFLOPS的计算能力。MMM和Linpack一样,都能充分地利用CPU运算核心的能力,因此它实际上建议关闭超线程来测试。

SunGard Adaptiv Analytics Benchmark v4.0
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
Threads 16 24 24 48 64
Time
(lower is better)
138.076s 110.331s 94.911s 139.512s 104.925s

  对于SunGard风险分析管理套件基准测试程序来说,多线程有其优势,不过高频率带来的好处也不少,X7560平台的表现不错。

black_scholes
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
Threads 16 24 24 48 64
Time
(lower is better)
9.17s 6.16s 5.51s 4.40s 2.78s

   black_scholes是对布莱克-肖尔斯期权定价模型进行计算,布莱克-肖尔斯期权定价模型是由1997诺贝尔经济学奖的两个获得者创立和发展的模型。看起来这个测试对多线程的支持不错,X7560平台成绩是2.78秒。

   EVEREST主要是一个系统信息查看工具,它也具有一些性能测试项目,可以用来参考,不过我们发现它对四路Nehalem-EX这样有些复杂的拓扑结构的多路产品的测试不太好用:

EVEREST Ultimate Edition 5.50.2100
Benchmark Module 2.5.292.0
测试对象
双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
@16x LCPU
四路Intel Nehalem-EX
Xeon X7560
@16x LCPU
内存读取
14279 MB/s 13293 MB/s 13689 MB/s 3568 MB/s 5912 MB/s
内存写入
8865 MB/s 7526 MB/s 8324 MB/s 2143 MB/s 3382 MB/s
内存复制
11878 MB/s 10430 MB/s 10616 MB/s 2753 MB/s 4531 MB/s
内存潜伏
64.5 ns 68.7 ns 67.0 ns 16.6 ns 21.2 ns
CPU Queen
46138 46082 52461 32185 73861
CPU PhotoWorxx
58330 73372 73828 58556 113653
CPU ZLib
193850 KB/s 282989 KB/s 319463 KB/s 236148 KB/s 296569 KB/s
CPU AES
46774 849298 844363 32098 74727
FPU Julia
22410 32730 37178 0 0
FPU Mel
12096 16349 18583 0 0
FPU SinJulia
10978 16429 18706 0 0

  仅用来参考参考

  解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术,4P24C48T指的是4处理器(Processors)、24核心(Cores)、48线程(Threads)。依此类推。GbE是Gigabit Ethernet(千兆以太网),4 GbE Ports表示使用了4个千兆端口。

 SQL2005数据库测试

   30万的TPS并不高……感觉并没有充分发挥出来,瓶颈在网络子系统上……不过这个问题比较复杂,使用一个工作在1G速率的10G以太网卡也能达到26万的成绩,只是这个网卡具有比通常网卡具有更多地TX/RX/RSS队列。要完全表明其性能,还是需要升级到全万兆网络。当然,如果将X7560平台分成多个独立的数据库服务器,总吞吐量应该还可以提升。

  笔者还进行了开关超线程的测试,以对比在Nehalem-EX平台上超线程起到的影响力度:

SiSoftware Sra Pro Business 2010
测试对象
双路Intel Westmere-EP
Xeon X5680
3.33GHz
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz

四路Intel Nehalem-EX
Xeon X7560
2.27GHz
超线程关闭

四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Processor Arithmetic Benchmark
处理器算术性能测试
Aggregate Arithmetic Performance
249.2GOPS 298.6GOPS 337.12GOPS 451.7GOPS
Dhrystone iSSE4.2
291.36GIPS 350.47GIPS 440GIPS 518.5GIPS
Whetstone iSSE3
207GFLOPS 246.73GFLOPS 234.22GFLOPS 385GFLOPS
Processor Multi-Media Benchmark
处理器多媒体性能测试
Aggregate Multi-Media Performance
465.8MPixel/s 562.11MPixel/s 752.77MPixel/s 852.7MPixel/s
Multi-Media Int x16 iSSE4.1
534.13MPixel/s 646.86MPixel/s 860.65MPixel/s 979.21MPixel/s
Multi-Media Float x8 iSSE2
397.47MPixel/s 477.37MPixel/s 644.9MPixel/s 726.17MPixel/s
Multi-Media Double x4 iSSE2
216.17MPixel/s 260MPixel/s 324.72MPixel/s 394.66MPixel/s
Multi-Core Efficiency Benchmark
多核效率测试
Inter-Core Bwidth
84GB/s   126.76GB/s  
Inter-Core Latency
(越小越好)
16ns   76ns  
Cryptography Benchmark
加密解密性能测试
Cryptographic Bwidth
11.72GB/s 3GB/s 4.46GB/s 4.51GB/s
AES128-ECB iAES
Cryptographic Bwidth
21GB/s 2.88GB/s 4GB/s 4.36GB/s
SHA256 iSSE4 Hashing Bwidth
2.52GB/s 3GB/s 4.88GB/s 4.66GB/s
.NET Arithmetic Benchmark
.NET算术性能测试
Aggregate .NET Performance
80.22GOPS 89.47GOPS 128.11GOPS 134.76GOPS
Dhrystone .NET
37GIPS 31.67GIPS 101.25GIPS 49.18GIPS
Whetstone .NET
123.43GFLOPS 147.26GFLOPS 155GFLOPS 220.35GFLOPS
.NET Multi-Media Benchmark
.NET多媒体性能测试
Aggregate .NET Multi-Media Performance
71.4MPixel/s 90MPixel/s 107.7MPixel/s 136.17MPixel/s
Multi-Media Int x1 .NET
100.36MPixel/s 127.38MPixel/s 167.4MPixel/s 191.7MPixel/s
Multi-Media Float x1 .NET
42.42MPixel/s 52.7MPixel/s 48MPixel/s 80.64MPixel/s
Multi-Media Double x1 .NET
78.48MPixel/s 102.48MPixel/s 89.36MPixel/s 156.37MPixel/s

  总运算性能明显地下降了,不过多核效率测试神奇地可以运行了。少数测试在关闭超线程状态下运行得更好:SHA256 iSSE4 Hashing Bwidth和Dhrystone .NET Arithmetic Benchmark。

SiSoftware Sra Pro Business 2010
测试对象
双路Intel Westmere-EP
Xeon X5680
3.33GHz
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Memory Bwidth Benchmark
内存带宽测试
Aggregate Memory Performance
35.2GB/s 33.86GB/s 57.84GB/s 65.76GB/s
Int Buffd iSSE2 Memory Bwidth
35.2GB/s 33.86GB/s 57.87GB/s 65.76GB/s
Float Buffd iSSE2 Memory Bwidth
35.18GB/s 33.85GB/s 57.81GB/s 65.77GB/s
Memory Latency Benchmark(Rom)
内存延迟测试(随机)
Memory(Rom Access) Latency
(越小越好)
82ns 192ns 148ns(min) 149ns(min)
Speed Factor
(越小越好)
64.60 98.10 96.40 94.50
Internal Data Cache
4clocks 4clocks 3clocks 3~4clocks
L2 On-board Cache
10clocks 10clocks 9clocks 9~10clocks
L3 On-board Cache
60clocks 84clocks 56~57clocks 66~70clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns 41ns 40ns(min) 36ns(min)
Speed Factor
(越小越好)
5.50 20.70 19.50 20.20
Internal Data Cache
4clocks 4clocks 3clocks 3~4clocks
L2 On-board Cache
11clocks 10clocks 9clocks 9~10clocks
L3 On-board Cache
13clocks 34clocks 27~28clocks 27~28clocks
Cache Memory Benchmark
缓存及内存测试
Cache/Memory Bwidth
195.6GB/s 315GB/s 410.41GB/s 510.58GB/s
Speed Factor
(越小越好)
35.20 34.80 23.60 26.90
Internal Data Cache
744.49GB/s 919.66GB/s 973.74TB/s 1.3TB/s
L2 On-board Cache
611GB/s 749GB/s 1.32TB/s 909.27GB/s
L3 On-board Cache
159GB/s 336.6GB/s - 571.35GB/s

  总带宽有所下降,延迟也有所下降~随机缓存延迟甚至降到了Westmere-EP的水平,不过线性访问延迟变化不大。

 线程:SPEC CPU 2006整数性能

  关闭超线程之后,整数运算吞吐量下降了15.6%,缓过来是打开超线程提升了18.5%,有一个项目是关闭超线程运行性能较高的:429.mcf  组合优化。

 线程:SPEC CPU 2006浮点性能

  超线程对浮点的影响较小,这一点和其他Nehalem是一样的,这是因为这些程序能较高效率地利用运算单元。关闭超线程后吞吐量下降了9.1%,换过来是打开超线程提升10%。不少项目是关闭超线程比较好,不过差别也不大,一般选打开就可以了。

CineBench R11.5 64bit
处理器 双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
显卡 - - - -
CPU Benchmark
Rendering (1 CPU) 1.16 pts 0.78 pts 0.92 pts 0.92 pts
Rendering (x CPU) 16.40 pts 19.26 pts 15.70 pts 27.08 pts
Threads 24 48 32 64
Multiprocessor Speedup 14.18x 24.65x 17.14x 29.43x

  CineBench受超线程影响很大,降低了42%的性能。

MMM - Matrix-Matrix Multiplicaion Benchmark
处理器 双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
单位 GFLOPS GFLOPS GFLOPS GFLOPS
Threads 1
5000 step 8.877563 5.867645 6.965506 7.036748
10000 step 8.883291 5.865347 6.974666 7.034792
15000 step 8.881528 5.826604 6.935187 6.960592
Threads 2
5000 step 17.5891 11.570261 13.944669 13.979099
10000 step 17.73566 11.689317 13.984364 14.032266
15000 step 17.67208 11.602247 13.920488 13.89951
Threads 4
5000 step 34.85343 21.788607 27.715225 27.555005
10000 step 34.90105 22.21115 27.846714 27.685804
15000 step 34.92557 22.073702 27.702342 27.297404
Threads 8
5000 step 45.99856 41.228878 49.714209 49.518835
10000 step 45.99856 43.472432 50.227199 49.767277
15000 step 47.74417 43.37777 50.514463 49.750117
Threads 16
5000 step 66.10022 73.379889 96.880558 47.855051
10000 step 72.38159 78.596851 99.776303 48.320744
15000 step 73.2495 79.099092 99.385572 48.421492
Threads 24
5000 step 66.10022 94.000418 138.717733 70.233111
10000 step 72.38159 124.028823 148.818098 71.502532
15000 step 73.2495 124.574801 148.054922 71.685326
Threads 32
5000 step     151.664487 96.076302
10000 step     184.741778 97.64478
15000 step     183.894563 98.195937
Threads 48
5000 step   97.335138   136.623189
10000 step   119.780984   142.50301
15000 step   121.637469   145.534244
Threads 64
5000 step       137.141474
10000 step       182.49902
15000 step       185.098571

  打开关闭的峰值计算性能都差不多,表明了这些程序对运算单元的利用率高,超线程起到的作用不太大。

SunGard Adaptiv Analytics Benchmark v4.0
处理器 双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
Threads 24 48 32 64
Time
(lower is better)
94.911s 139.512s 66.986s 104.925s

   这个程序本身就推荐关闭超线程运行。

black_scholes
处理器 双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
Threads 24 48 32 64
Time
(lower is better)
5.51s 4.40s 3.21s 2.78s

  这个程序可以有效地利用多线程。

   关闭超线程也能达到分峰值26万的TPS,大约是打开超线程的86.8%,降低了13.2%,总的来说,四路系统下,超线程的影响低于笔者在二路系统中看到的幅度,部分地是由于线程数量已经多到了一定的程度,要使用8路Nehalem-EX系统时,一共达到64个核心128个线程,这时对操作系统、驱动、应用软件都有一定的考验。

  我们利用Aitek AWE2101数字功率计和配套的软件测试了整个服务器平台在几种不同的状态下的功耗,AWE2101是一个高精度的数字功耗测试仪:


5位数字精度


输出到计算机上

  测试使用了常用的烤机Prime95软件,也测定了数据库基准测试下的功耗: 

功耗(W)
项目 关机 IDLE Prime95 64bit
SmallFFTs
Prime95 64bit
In-place large FFTs
SQL2005测试
1500虚拟用户数量
HTToff 30 756 1161 1350 -
HTTon 30 756 1201 1370 1080


之前的Dunnington测试,测试方法不同,仅供参考

   关机时也有一定的功耗,这是因为四个冗余电源仍有一些电路在工作,不过,买来这么贵的服务器天天不开机就是暴殄天物。机器闲置时功耗756W,用Prime95时最大功耗可以达到1370W,在数据库测试时在1080W左右。

启动计时
按下开关到引导OS 3:30
OS启动 0:50
合计 4:20

   高配置的服务器启动都比较慢,例如,这台机器启动就花了4分20秒。启动过程包含了内存的检测和阵列卡的启动(已经关闭网络启动)。

  Nehalem-EX(至强7500和6500系列)是Intel年初推出的面向可扩展系统(2路到128路)的处理器平台,它的特点就是可扩展、高可靠性(众多的RAS特性),接手的是Xeon 7400系列的多路服务器平台产品线。为了符合Nehalem-EX最多8个核心的设计,Intel为其开发了环形的内部互联总线,外围电路也和普通的Nehalem很不相同。


Nehalem-EX:至强7500系列和6500系列

  在可扩展和高可靠性这两点上,Nehalem-EX都比上一代的Dunnington(就是至强7400系列)有了非常大的进步,并且,Nehalem架构对性能的巨大影响也非常重要,特别是考虑到竞争对手在四路市场的影响力的时候。相信Nehalem-EX不仅仅是对X86的竞争对手,对RISC界的竞争对手也造成了很大的压力。因为Intel的Converged Core(融合核心)策略,现在Intel的几乎所有的产品线都采用了Nehalem架构,应用可以跑在所有的平台上,可以享用通用的软件优化。这增强了Nehalem-EX在四路市场上的竞争力。


45nm八核心:Nehalem-EX晶圆图


Nehalem-EX架构图(附带内存子系统)

  测试上,顶级配置的Nehalem-EX比顶级配置的Westmere-EP和Dunnington提升了80%左右的理论计算能力,以及241%的SPEC CPU 2006得分,后者可以代表着大量的实际应用。实际应用性能的数倍提升,依赖于核心的增加,以及直联架构(IMC和QPI)带来的改变,因为Dunnington受到了FSB总线和内存带宽的巨大限制。


Intel Nehalem-EX官方测试样机:外表不凡,内里更是不凡!

  虽然实际表现很不错,然而就笔者来看,Nehalem-EX还不足够完美。不过Nehalem架构的引入已经奠定了基础,下一代的Westmere-EX将更接近完美:达到10个核心20个线程、更接近常用平台的运行频率以及更快的内存,总的来说,Nehalem-EX让Intel的多路产品线焕然一新。

快速导航

4路32核64线程 顶级Nehalem-EX平台评测(上篇)
4路32核64线程 顶级Nehalem-EX平台评测(中篇)
4路32核64线程 顶级Nehalem-EX平台评测(下篇)

   

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号