“Tick”??全新32nm Westmere处理器
为拉开与对手之间的技术距离, 2006年下半年Intel宣布推出全新“ Tick-Tock”制程与微架构发展战略,于每年推出新处理器技术时,都具备改良微架构的全新制程,全新或大幅改良的微架构设计,以迎合未来十年甚至更远的处理器市场。每个“Tick”代表推出具有增强微架构的新一代制程技术,与相对的“Tock”代表推出全新微架构,而每个“Tick-Tock”周期大约为2年。
按照“Tick-Tock”既定规划,Intel在去年第四季发布了代号为“Nehalem”全新微架构处理器,这名字来自美国俄勒冈州波特兰市的一个小小的卫星城,它是基于“Core”微架构作出大幅改良,加入了更多有关提高性能,节能控制,多处理器扩展能力以及效能均衡的设计,主要分为运算内核及非运算内核部份:
运算内核改动方面:
1. 再次加入Hyper-Threading技术,第三代超线程技术,可让四核心多达8个线程。
2. 支持VT-D虚拟化技术,增加虚拟化输入及输出设备,并提高虚拟主机的性能及效率。
3. 加入Turbo Mode,在相同的TDP下,动态提升在较简单线任务的执行效率。
4. 新增Intel SSE 4.2指令集,提升XML、字符串及文本处理能力。
非运算核心改动方面:
1. 采用了三级Cache设计,L2采用了超低延迟的设计,L3 Cache则采用共享设计。
2. 内建内存控制器,3 Channel设计并支持DDR3模块,带宽提升最高达3倍。
3. 全新QuickPath Interconnect取代传统的FSB,最高可达25.6GB/s带宽。
4. 模块化设计,可按需要新增及减少核心组件,以迎合不同市场。
“Nehalem”微架构是最近的一次“Tock”,接着即将登场的是下一代“Tick”,具备改良的备改良微架构的全新制程,代号为“Westmere”的32nm处理器,基本上它的微架构沿自“Nehalem”处理器并加入了7条全新的指令,但改用了入第二代high-k配搭金属闸极晶体管、代号为P1268的32nm制程,采用193浸没式微影技术(immersion lithography)于重要的金属层并配搭193奈米或248奈米干式微影技术(dry lithography)于非重要的金属层,处理器采用9层Copper layers及low-k内部连结层(interconnect layers),并采用无铅和无卤素封装,而芯片尺寸将约为45nm产品的70%。
据Intel CEO Paul Otellini指出,全新32nm不仅有效低降所需功耗,同时也能提升核心频率,而且还可以缩小处理器核心面积,令处理器能内建更多的运算核心或内建绘图核心、PCI-E接口及内存控制器,芯片组简化为单芯片,可进一步缩小P体积,可切换绘图支持功能,能在内建绘图核心及独立绘图卡之间作出实时切换,达至节能省电效果。
为配合32nm制程的来临,Intel将会把美国境内制造设施升级,采用新一代32奈米芯片制程技术,2009至2010年间,将投入约70亿美元于32nm制程技术上,总计美国境内32nm之投资总金额,在该期间内将达到约80亿美元,可提供 7000个工作机会。现时位于Oregon的Fab D1D已经在试产32nm处理器,同样位于Oregon的Fab D1C将会于2009年第四季正式投产32nm制程,紧接位于Arizona的Fab 32及New Maxcico的Fab 11X,将会于2010年完成32nm制造设施升级,预计将会于2010年下半年进行制程世代交换。
根据Intel处理器最新规划,32nm Westmere处理器将会于2009年第四季开始量产,核心代号为Clarkdale的32奈米入门至主流级DT处理器,将会于2010年第1季初出货,紧接2010年第二季中推出代号为Gulftown的32nm高阶六核心DT处理器,2010年第四季将会再推出全新微架构的32nm处理器代号Sy Bridge,延续Tick-Tock硅与微架构发展战略。
第二代High-K+Metal Gate晶体管
2007年Intel首次在代号为P1266的45nm制程中使用上High-K物料配搭Metal Gate晶体管技术,令晶体管漏电情况大幅降低,因此Intel 45nm处理器在功耗及热量表现上,均拥有高水平表现,而直至目前为止,也只有Intel把45nm High-K+Metal Gate晶体管技术于量产之中。由于High-K物料配搭Metal Gate晶体管技术带来优秀表现,Intel 45nm研发至量产是Intel历史中最快完成的,所需的研发时间仅为65nm的一半。
代号为P1268的全新Intel 32nm制程,主要基于现有的45nm High-K + Meta Gate晶体管技术,并作出了大幅度的改良,包括High-K dielectric( 高介电系数介电材料 )的等效氧化层厚度,由45nm制程的1nm降低至32nm制程只有0.9nm ,并且Gate length( 闸极长度 )缩少至只有30nm,Transistor Gate Pitch(闸极距离)继续以每两年缩少0.7x的目标发展中,Intel的32nm是现时所有相同制程中其Gate Pitch最窄小的。
透过了降低High-K dielectric的等效氧化层厚度及Gate length,Intel 32nm的NMOS及PMOS晶体管效能相较上45nm 提升14%及22%,Leakage Current(漏电)比较上代制程,NMOS晶体管减少漏电超过5x,PMOS晶体管减少漏电超过10x ,以上的改善令处理器工程师在电路设计时规限大幅减少,而且Die Size可以更细少,当然处理器核心频率及功耗表现亦能大幅减善。
Intel 32nm制程同时改用了第四代Strained Silicon(应变硅)技术,用SiGe(硅锗)、Dual-Stress Strained Silicon(双应力应变硅)以及先进的应变记忆技术,能够有效提高晶体管的开关速度和电源效率,此一改变将可在运作频率及功耗表现在获益重大改善。
针对加密及解密运算 全新Intel AES指令集
Intel Westmere处理器是“Tick-Tock”硅与微架构发展战略的“Tock”,代表推出具有增强微架构的新一代硅制程技术,因此技术改良主要集中于硅制程上,而微架构设计完全则基于Nehalem微架构,如今在微架构改良仅加入了六组针对加密及解密运算,全名为“Intels Advanced Encryption Stard (AES) Instructions Set”。
Intel AES指令集提供了快速及保密的数据加密及解密运算功能,其运算标准是根据FIPS Publication number 197 制定的AES(Advanced Encryption Stard)规格,AES是block cipher(块密码)运算的最主流规格,因此全新Intel AES指令集能应用十分广泛并能为不少应用程序进行加速。
Intel AES指令集共有六组指令提供硬件AES运算加速,包括四组AES加密及解密(AESENC、AESENCLAST、AESDEC、AESDECLAST),另外两组为AES密钥产生(AESIMC、AESKEYGENASSIST),相较单纯以软件运算效能可高出4倍以上。此外,Intel AES指令集不仅支持3种AES官方规格密钥长度(ASE128、ASE192、ASE256)及所有AES官方规格运算模式,并支持数种AES非官方定义规格。
32nm产品布局 2010年第1季上阵
根据intel原定规划,内建绘图核心的45nm Havendale DT处理器及Auburndale NB处理处理器应于今年年底量产,但由于32nm第二代Hi-K制程已十分成熟的关系,最终决定取消量产Havendale DT处理器及Auburndale NB处理处理器,直接由32nm版本Clarkdale DT处理器及Arrale NB处理器取代,量产与上市计划将会不变,绘图核心部份仍会是 45nm生产,但功耗表现将可进一步改善,预计于2010年第一季初上市。
代号为Clarkdale桌面处理器及代号为Arrale行动平台处理器,两者均为双核心设计并内建绘图核心,主要针对入门至主流级市场。值得注意的是,Intel并不打算为32nm Westmere处理器推出完整的产品线,而是与45nm Nehalem 处理器并存于市场上,直至再下一代Sy Bridge微架构才会全线导入32nm制程。
因此Intel 32nm Westmere将不会有四核心NB/DT处理器,代号为Lynnfield桌面处理器及Clarksfield行动平台处理器将继续留守市场,直至下代Sy Bridge微架构产品才会退场。
此外,得益于全新32nm制程的优秀功耗表现,Intel将会于2010年第二季推出首款六核心桌面处理器,代号为Gulftown,主要针对高端市场。
低阶市场方面将由45nm Penryn微架构产品把控,直至下一代Sy Bridge微架构产品推出后,Clarkdale及Arrale处理器将向下移至低端市场,因此Socket 775在2010年仍不会退场。
6核心、12线程Gulftown样本曝光
图为Intel 32nm Westmere六核心处理器工程样本,核心代号为Gulftown,采用32nm无铅、无卤制程,LGA 1366封装,可兼容当前的Intel X58主板,但需要更新主板BIOS。尽管Intel还未决定Gulftown出货核心频率及Turbo Boost频率,但FMB将会采用08规格及最高TDP为130W,与45nm四核心Bloomfield相同。
Intel Gulftown六核心支持Hyper-Threading技术,该技术可在1个执行内核中同时处理2条线程,透过4-Wide执行引擎,多核处理器中的同步多线程能力可将同时运行于所有内核的整体线程的潜在数量提高1倍,也就是说Gulftown核处理器可同时执行12条线程。
根据Intel所提供的数据指出,Hyper-Threading出色的能耗表现显著提升了处理器的性能,处理器只需消耗极低的电量,便可将应用性能提升20 ~ 30%,在能源日渐短缺的今日,Hyper-Threading提供了高效能又节能的处理器表现。
Intel Gulftown处理器支持Quick Path Inteconnect技术,最高连接速度仍为6.4GT/s per Link,总带宽高达25.6GB/s,每颗核心内建32KB 4-Way Instruction L1 Cache、32KB 8-Way Data L1 Cache及256KB 8-Way L2 Cache ,L3 Shared Cache则按照核心数目的提升,由上代Bloomfield的8MB增加至12MB,但仍保持16-Ways设计。
与Bloomfield四核心一样,Gulftown六核心内建3 Channel DDR3内存控制器,每Channel可支持2 DIMMs,最高可支持 48GB容量,不过令人失望的是,Gultown六核心仍然官方支持DDR3-1066内存规格,最高带宽为25.6GB/s。
Gulftown六核心将支持Intel VT-x、Intel VT-d、Intel 64技术及Intel EIST技术,但不会支持Intel TXT技术。此外,尽管32nm Westmere核心支持新一代Intel AES指令集,但Intel暂定不会在最高端的Gulftown六核心中开放AES 功能,但我们手上的工程样本中仍能使用AES指令。
根据Intel向主板业者透露,Intel Gulftown六核心最终命名,很大机会不会采用Core i9家族,而是Core i7-1000家族,因为Gulftown并没有微架构上的改动,仅有核心数目的增长,不足以构成全新品牌。
六核心 vs 四核心 系统性能测试
测试平台:
尽管Gulftown处理器相较Bloomfield处理器多出两组核心,但却没有在PC Mark测试中反着效能增长,主要原因在于 PC Mark大部份测试均只需要同时处理四组运算,从Task Manager的CPU Usage中可以看到,大部份情况下Gulftown 的负载率仅有34%-50%,并无法完全反映出六核心优势。
以上测试意味着,如果使用者并不需要同时执行很多应用软件,或是所执行的软件并没有为多核心进行优化,没有支持超过四组以上线程的话,Gulftown六核心根本毫无用武之地。
Cine Bench R10是著名的OpenGL运算测试软件,并可支持多线程运算,Cine Bench R10执行Rendering多核心测试,可把Gulftown六核心及12个执行线程能力完全发挥,效能大幅超越Bloomfield四核心。
Cine Bench R10 :
ra 2009主要是测试处理器的运算最大吞吐量,因此得出的结果都是最大理论值,而效能得贴近理论值所得出的差距,则要视乎软件对多线程的优化功力。
ra 2009:
笔者采用Sra 2009测试软件,除了要证实这颗Gulftown六核心真的是所有核心均正常运作外,更重要的是测试 Intel AES指令集的威力,从Cryptographic Bwidth、AES256 Bwidth及SHA256 CPU Hashing Bwitdh测试中可以看到,新一代32nm Westmere在AES运算效能有着明显的突破。
ScienceMark 2.0 :
ScienceMark 2.0虽然能认出Gulftown六核心支持12个线程,但事实常ScienceMark 2.0并无法完全运用这颗六核心的线程,证明软件设计将左右多核心的效能提升幅度。
Microsoft Excel 2007 :
Microsoft曾经表示Excel 2007针对多核心运算作出了完全优化,因此我们采用了两个用于金融业的算式,计算美国国库债卷现价及计算期权现价的程序作测试,可以看到Gulftown六核心大幅超频Blommfield四核心。
Microsoft Office 2007 :
同样是Microsoft Office的一员,但笔者采用两个50MB的Word文件进行Word Merge,然后把一个304MB的PowePoint 档案打印成向量的XPS档案,但多核心的优势并未为Gulftown带来漂亮的成绩单。
我们找来 Microsoft Windows Vista内建的2款软件、Adobe Photoshop CS4的两个插件及Mainconcept H.264 Encoder作测试,看来并不是所有软件均能为六核心带来领先优势,所以消费者在选择处理器时,如果要求提升执行单一软件效能,则较高频率的四核心的增益很大机会较六核心更明显。
游戏测试
在3D游戏测试方面,由于要降低显卡瓶颈以达至处理器效能差别最大化,我们采用了现时最强的GeForce GTX 295,并把分辨率设定于1024 x 768及Detail设定为Low,测试核心数目对游戏FPS的增益。结果是大部份3D游戏均未有对六核心进行优化,处理器核心数目的提升并没有为FPS带来明显增益。
处理器功耗及温度测试:
* 整机功耗,换上功耗较低的GeForce G210
** 室温为 26.5c ,散热器及Core i7-965原装风扇,Fan Speed Max
功耗及温度测试方面,采用32nm制程的Intel Gulftown六核心表现令人惊喜,虽然核心数目相较45nm的Bloomfield 四核心多出两组,但闲置及完全负载的功耗及温度表现均低于Bloomfield四核心,证明新一代32nm制程已经十分成熟。
编辑评论:Intel Westmere处理器如期现身,每年推出具备改良微架构的全新制程,全新或大幅改良的微架构设计的承诺顺利完成,虽然Westmere在微架构上改动不大,但制程技术提升后不仅功耗、温度下降,更为Intel带来更大的频率提升空间及核心数目提升空间,而且Die Size进一步缩少令成本更低,竞争力进一步提升。
笔者手上的Intel Gulftown DT六核心,针对最高阶的玩家市场,一般用家均不会入手,不过,就算是高阶玩家,由于大部份DT应用软件及3D游戏仍未有对六核心作出优化,根本难以体现六核心的真正威力,只有用于工作站或服务器环境才有实际意义。除非得到软件厂商的配合,针对六核心作出优化,否则Intel Gulftown六核心就像一台F1赛车在一般路面上,完全浪费了应有的运算能力。