引入SSE4指令集英特尔45纳米Penryn测试

正睿科技发布时间：2007-09-14 15:47:21 浏览数：4726

　Penryn?新增47条SSE4 指令

　　自 Intel Pentium MMX 处理器开始，处理器新增SIMD(Single Instruction Multiple Data)多媒体指令集，可把多个批次性的指令组变成单一指令，以提升数据处理能力，后来Intel基于MMX指令发展出SSE(Streaming SIMD Extensions)指令集，直至Penryn处理器已发展至SSE4指令集。

　　MMX?1997年发布，全名为 MultiMedia eXtension，首颗支持MMX产品为 Pentium MMX 处理器，主要用作提升多媒体数据的处理能力，共有57条指令。

　　SSE?1999 年发布，全名为 Streaming SIMD Extensions，首颗支持SSE产品为 Pentium III处理器，除新增70条指令，进一步提升多媒体数据的处理能力，最重要的是解决了MMX指令与浮点指令不能同时处理的问题。

　　SSE2? 2001年发布，全名为Streaming SIMD Extensions 2，首颗支持SSE2产品为Pentium 4处理器，新增指令共144条，主要加入 64 位双精度浮点数及整型运算指令，以及加入处理器对Cache的控制指令以减低延迟，更重要的是完全解决SSE集指令需要占用浮点数据缓存器问题。

　　SSE3?2004年发布，全名为Streaming SIMD Extensions 3，首颗支持的处理器为 Prescott核心的Pentium 4处理器，新增指令仅13条，主要特点是加入水平式缓存器整数运算，可对多笔数值同时进行加法或减法运算，令处理器能大量执行 DSP及3D性质的运算。浮点数数值转换成整数数值而不需要进行运算模式切换，避免模式切换时导致其它执行绪被延误，减损系统运算效能。

　　此外， SSE3 更针对多执行绪的应用程序进行执行最佳化，使处理器原有的 Hyper-Theading 功能获得更佳的发挥。

　　SSSE3? SSSE3?SSE3指令集的补充版本，全名为 Supplemental Streaming SIMD Extension 3，首颗支持Intel Core微架构处理器，新增指令共16条，进一步增强 CPU在多媒体、图形图像和Internet等方面的处理能力，该16条指令原收录为 SSE4指令集中，之后决定提早加入至Core微架构产品中。

　　SSE4?全名为Streaming SIMD Extension 4，被视为继2001年以来最重要的媒体指令集架构的改进，除扩展Intel 64指令集架构外，还加入有关图形、视频编码及处理、三维成像及游戏应用等指令，令涉及音频、图像和数据压缩算法的应用程序大幅受益。

　　据了解，SSE4将分为4.1版本及4.2版本，4.1版本将会首次出现于Penryn处理器中，共新增47条指令，主要针对向量绘图运算、3D游戏加速、视像编码加速及协同处理加速动作，包括：

Penryn SSE4 Instruction summary
Instruction Category	Instructions	Benefits
Packed DWORD Multiplies	PMULLD, PMULDQ	提升??器矢量?算效能
Floating Point Dot Product	DPPS, DPPD	3D立?制作及??，支援CG及HLSL等?言
Multi-packed sum of absolute diffs& min pos	MPSADBW, PHMINPOSUW	?????理
Streaming Load	MOVNTDQA	?????理、??及GPU??分享
Floating Point Round	ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD	?????理、??、影音?理、2D/3D?用、多媒?及??等
Packed Blending	BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW	??器矢量?算及影音?理、多媒?、??等?用
Packed Integer Min and Max	PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD
Register Insertion/Extraction	INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ
Packed Format Conversion	PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ
Packed Test & Set	PTEST
Packed Compare for Equal	PCMPEQQ
Pack DWORD to Unsigned WORD	PACKUSDW

　　SSE4 ?向量、浮点运算专门化加入串流式负载指令

　　据Intel指出，在应用SSE4指令集后，Penryn增加了2个不同的32Bit向量整数乘法运算支持，引入了8 位无符号 (Unsigned)最小值及最大值运算，以及16Bit 及32Bit 有符号 (Signed) 及无符号运算，并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时，SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作，令向量运算进一步专门化。

　　SSE4加入了6条浮点型点积运算指令，支持单精度、双精度浮点运算及浮点产生操作，且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式，大大减少延误，这些改变将对游戏及 3D 内容制作应用有重要意义。

　　此外，SSE4加入串流式负载指令，可提高以图形帧缓冲区的读取数据频宽，理论上可获取完整的快取缓存行，即每次读取64Bit而非8Bit，并可保持在临时缓冲区内，让指令最多可带来8倍的读取频宽效能提升，对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用，有着明显的效能提升。

据Intel资深工程师兼 Penryn 微架构主管 Stephen Fischer 表示，全新 DivX Alaph 内部测试版本已完全支持SSE4指令集， 1颗 3.33G Hz 的Yorkfield的运算效能，相比上代Intel Core 2 Duo QX6800快约105% ，其中约7成的增益来自SSE4指令集，效果令人满意。

Penryn?基于Core微架构再作改良

　　除了采用更先进的45纳米制程及加入全新 SSE4 指令集外，Penryn 亦基于Intel Core微架构设计作出多项改良，称为「Enhanced Intel Core Microarchitecture」，并加入了?

Fast Radix-16 Divider( 快速 Radix-16 除法器 )
Super Shuffle Engine( 超级洗牌引擎 )
Split Load Cache Enhancement( 增强型缓存拆分负载 )
Improved Store Forwarding( 存储转发 )
Faster OS Primitive Support( 高速操作系统同步原始支持 )
Virtualization Performance Improvements ( 增强的 Intel 虚拟化技术 )
Deep Power Down Technology( 深度节能技术 )
Enhanced Dynamic Acceleration Technology( 增强型动态加速技术 )

　　据Intel资深工程师兼Penryn微架构主管Stephen Fischer表示，与上代处理器产品相比，Penryn处理器在绘图效能约超过15%、视讯编码平均可提高20%、3D内容制作可提高逾30%，3D游戏效能更可高达40%，视乎软件设计而定。

　　Enhanced Core MA ? Fast Radix-16 Divider

　　Intel在Core微架构中支持每个周期可处理多达4个指令(对比旧有处理器最多只能同时处理3个指令)，且重新采用较高效率的14层Pipeline Stages，为提升分支预测的能力及准确性，Branch Predictor的Bandwitdh提升至20Byte (K8、Banias 为16B，Netburst为4B)，令指令执行效率大大提高。

　　此外，Core微架构更加入Macro-Fusion技术，可把部份指令组合成单一Micro-Op 指令，令特定情况下每个周期可执行5个指令，更保留Micro-op Fusion技术，把相同的Macro-ops混合成单一个Micro-ops 透过Out-of-order逻辑可减少10% 的Micro-op指令执行数，除提升核心的执行效率，同时也保持高能源效益

　　Penryn处理器除沿袭Core微架构的优点外，并进一步改良除法器的设计，在科学计算、三维坐标转换和其它数学运算密集型功能中，其带来约2倍的除法器速度，所包含的新一代的快速除法技术称为 Radix-16，可加速浮点和整数的除法运算速度。

　　据了解，基数为4的算法会在每次迭代运算中计算其2位的商值，当提高到基数为16的算法时，则允许在每次迭代中计算4位的商值，进而使延迟缩减一半。

　　Enhanced Core MA ? Super Shuffle Engine

　　Intel在 Core微架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时，需要把指令分拆为2个64Bit指令，在2个频率周期完成，但Core微架构则只需要1个频率周期便能完成，执行效率提升达1倍，现时SSE指令集已普遍使用于主流软件中，包括绘图、影像、音效、加密、数学运算等用途，单周期128Bit处理器能力利用频率以外的方法提升效能。

　　另一方面，Penryn处理器也有显著改良，其加入全新Super Shuffle Engine，令SSE 指令运算更具效率，以往处理Unpacking、Packing、Align Concatenated SourCES、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时，均无法在单一周期内完成，但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令，在1个周期内便可完成，减低延迟及吞吐量外，更不用在软件端中作出改良即可实现。

Enhanced Core MA?Split Load Cache Enhancement

　　Intel Core微架构明显强化处理器的Cache架构，传统的双核心设计中，每个独立的核心都有自己的L2 Cache，但Intel Core微架构则是透过核心内部的Shared Bus Router共享相同的L2 Cache，当CPU 1运算完毕后把结果存在L2 Cache时， CPU 0便可透过Shared Bus Router读取CPU 1放在共享L2 Cache上的数据，大幅减低读取上的延迟并减少使用 FSB 频宽。同时加入L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器，大幅增加Cach 的命中率。

　　Shared Bus Router 除更有效处理L2 Cache读取外，亦为双核心使用FSB传输进行排程，新加入的Bandwidth Adaptation机制改善了双核心共享FSB时的效率，减少不必要的延迟。

　　Penryn处理器的L2 Cach 容量增加了50%，双核心产品L2 Cach 容量最大可达至6MB、四核心更可高达12MB，并提升至24路联合(24-way set Associative) ，令L2 Cache命中率进一步提升，并大幅度提升使用率。

　　此外，亦加入全新增强高速缓存行拆分负载功能(Split Load Cache Enhancement)，当读取数值时，若数据位于2个不同的高速缓存中，则会对负载行进行拆分。即便单个高速缓存行中的数据未经过适当调整，而自单个高速缓存行中读取数据，亦较自2个高速缓存行中读取数据快上数倍。

　　Enhanced Core MA ? Improved Store Forwarding

　　据了解，Penryn能在通过其它负载或存储之前作出推测，并快速分派两部份拆分负载，大大提高读取性能，可拉升执行数据扫描的应用程序的效率，例如视讯动态评估等工作。

　　Intel Core微架构加入了Memory Disambiguation设计，透过Out of Order过程分析内存读取次序，分析数据是否独立读取执行，如果与前面的数据存取动作并无关系，可令其提早执行，降低处理器的等候时间，减少闲置及延迟值。

　　另外，也进一步改内存系统效能，加速超过8bit的地址边界、令处于管线中的杂乱存储结果的读取速度，可立即向负载中的数据转发存储结果，且毋须等待存储完成再写入内存内。

　　Enhanced Core MA ? Faster OS Primitive Support

　　在启动某一个关键代码段、并要以独占的方式访问某一个资源时(例如系列内的 I/O设备) ，某些操作系统会临时阻止或屏敝中断，因此Penryn加入高速操作系统同步原始支持(Faster OS Primitive Support)，能更快速清除中断、设置中断功能 (CLI/STI)，迅速进入及退出此一模式，进而显著提高执行此类代码段的性能。

　　Penryn处理器可以更快速地执行锁定的指令，例如XCHG、ADD/XADD/NEG/BTS/AND及CMPXCHG，且可更快速访问时间戳数器 (RDTSC)，以上这些功能常用于数据库或事务处理的服务器。

　　Enhanced Core MA ? Virtualization Performance Improvements

　　Penryn处理器在VT (Virtualization Technology)技术上进行显著改良，其支持EPT 延伸分页，并改良VT-x指令对虚拟主机转换、进入及退出的速度，平均可提升25%至75%，且只需要通过微架构上的改良，不用更改任何虚拟主机软件设计。

　　45纳米Penryn双核:Wolfdale 2.33GHz工程样品

　　图为Intel下一代45纳米Penryn家族桌面双核心处理器，处理器序号为80570PJ0536M，其中80570代表核心为Wolfdale、P为桌面级主流级至效能级产品、J是1333MHz FSB、053代表频率为2.33GHz、6M则代表L2 Cache 容量为6MB。

　　其支持MX、SSE、SSE2、SSE3及SSE4.1指令集、Intel Virtualization Technology、Enhanced Intel SpeedStep、Intel 64Bit支持、Execute Bit技术及Intel Trust Execution Technology(TXT)。

　　Wolfdate核心内建4.1亿个晶体管，相比上代Conroe核心多出1.19亿个，主要原因为L2 Cache容量提升50%，约占9.6千万个晶体管，余下部份则为SSE4指令运算单元及微架构的改良部份。

虽然内建晶体管数目上升约40%，但由于改采45nm制程，芯片大小由上代的143平方毫米，减至只有103平方毫米，有助成本进一步下降。

　　Wolfdale处理器采用全新45纳米High-K金属闸极技术，VTT电压由上代1.2V减至1.1V，同时单晶粒功耗亦降低约15%，因此能耗表现十分出色。

　　此外，Intel上代65纳米产品最高频率约为3GHz，频率超过3GHz后，功耗将会出现明显增长，而45纳米产品最高可达约4GHz，意味着Intel新一代45纳米将有一定的频率提升空间。

　　由于新一代45纳米产品在CPU GTLREF Ratio设定上有所变更，因此旧有主机板可能需要更新BIOS才能正常启动。

　　值得注意的是，尽管Intel一直强调只有3系列芯片组才能支持45纳米，但有主机板业者指出，其实965芯片组也能透过BIOS更新作出支持，不过VTT电压将会被设定至1.2V，处理器功耗会随之提高，减低产品寿命，965芯片组方案虽然可行，但并不建议采用。

左为45纳米Wolfdate核心、右为65纳米Conroe核心

效能测试?45nm V.S 65nm @ Dual Core

<TD

关于正睿

正睿合作伙伴

成为合作伙伴
成为经销商
合作伙伴产品库

法律

社区

社区
阅读我们的博客
技术支持论坛
授权证书查询

渝公网安备 50010702500475号

	Intel Core 2 Duo E6550 (2.33GHz/ 4MB L2/1333MHz FSB)	Intel "Wolfdate" ES Sample(2.33GHz/ 6MB L2/1333MHz FSB)	Performance Boost up %
PC Mark 05
Overall	6922	7305	+5.53%
CPU	5995	6029	+0.78%
Memory	5401	5613	+3.94%
Graphics	13627	14062	+3.19%
CineBench 9.5
Single-Core/CPU	390	430	+10.26%
Multi-Core/CPU	742	798	+7.55%
C4D Shading	462	503	+8.87%
OpenGL Software	1458	1738	+19.20%
C4D Shading	2683	2435	+9.24%
SicenceMark 2.0
Overall	1378.07	1463.85	+6.22%
Molecular Dynamics	1127.43	1276.33	+13.21%
Primordia	1255.55	1325.30	+7.14%
Cryptography	1057.07	1069.19	+1.15%
STREAM	1647.49	1768.80	+6.72%
Memory	1642.07	1758.84	+7.11%
BLAS/FLOPs	1800.54	1864.61	+3.56%
SiSoftware Sandra 2007
ALU	21323	21671	+1.63%
SSE3	14829	17076	+15.15%
Int	129258	129539	+0.22%
Float	69658	69987	+0.47%
RAM Bandwidth Int	6318	6919	+9.51%
RAM Bandwidth Float	6285	6891	+9.64%
Divx 6.6 Alpha w/SSE4
1080p Mpeg2 to Mpeg4	69s	32s	+115.63%
Mainconcept H.264 Encoder
1080p Mpeg2 to H.264	204.78s	179.20s	+12.49%
Windows Movie Maker
Publishing Movie	158.45s	153.41s	+3.19%
Windows Photo Gallery
Print to XPS	34.86s	33.25s	+4.62%
Send to Mail	34.89s	33.43s	+4.17%
Adobe Photo Elements 5.0.2
SmartFix	177.91s	163.99s	+7.82%
Album Creation	38.92s	36.52s	+6.17%
Microsoft Office 2007
Word - Merge	50.33s	38.1s	+6.30%
PowerPoint - Print to XPS	75s	69s	+8.00%
Excel - Big Number Crunch	13.64s	12.97s	+4.85%
Excel - Option Pricing	49.53	45.32	+8.51%
3DMark 05
Default	14055	15316	+8.97%
CPU	12403	12891	+3.96%
CPU Test 1	7.1	7.6	+6.58%
CPU Test 2	9.0	9.2	+2.22%
3DMark 06

联系我们

4000 555 018

(7×24)

引入SSE4指令集英特尔45纳米Penryn测试

联系我们

4000 555 018

(7×24)

引入SSE4指令集 英特尔45纳米Penryn测试

引入SSE4指令集英特尔45纳米Penryn测试