Penryn?新增47条SSE4 指令
自 Intel Pentium MMX 处理器开始,
MMX?1997年发布,全名为 MultiMedia eXtension,首颗
SSE?1999 年发布,全名为 Streaming SIMD Extensions,首颗支持SSE产品为 Pentium III处理器,除新增70条指令,进一步提升多媒体数据的处理能力,最重要的是解决了MMX指令与浮点指令不能同时处理的
SSE2? 2001年发布,全名为Streaming SIMD Extensions 2,首颗支持SSE2产品为Pentium 4处理器,新增指令共144条,主要加入 64 位双精度浮点数及整型运算指令,以及加入处理器对Cache的控制指令以减低延迟,更重要的是完全解决SSE集指令需要占用浮点
SSE3?2004年发布,全名为Streaming SIMD Extensions 3,首颗支持的处理器为 Prescott核心的Pentium 4处理器,新增指令仅13条,主要特点是加入水平式缓存器整数运算,可对多笔数值同时进行加法或减法运算,令处理器能大量执行 DSP及3D性质的运算。浮点数数值转换成整数数值而不需要进行运算模式切换,避免模式切换时导致其它执行绪被延误,减损系统运算效能。
此外, SSE3 更针对多执行绪的
SSSE3? SSSE3?SSE3指令集的补充版本,全名为 Supplemental Streaming SIMD Extension 3,首颗支持Intel Core微架构处理器,新增指令共16条,进一步增强 CPU在多媒体、图形图像和Internet等方面的处理能力,该16条指令原收录为 SSE4指令集中,之后
SSE4?全名为Streaming SIMD Extension 4,被视为继2001年以来最重要的媒体指令集架构的改进,除扩展Intel 64指令集架构外,还加入有关图形、视频编码及处理、三维成像及
据了解,SSE4将分为4.1版本及4.2版本,4.1版本将会首次出现于Penryn处理器中,共新增47条指令,主要针对向量绘图运算、3D游戏加速、视像编码加速及协同处理加速
Penryn SSE4 Instruction summary | ||
Instruction Category | Instructions | Benefits |
Packed DWORD Multiplies | PMULLD, PMULDQ |
提升??器矢量?算效能 |
Floating Point Dot Product | DPPS, DPPD |
3D立?制作及??,支援CG及HLSL等?言 |
Multi-packed sum of absolute diffs& min pos | MPSADBW, PHMINPOSUW | ?????理 |
Streaming Load | MOVNTDQA | ?????理、??及GPU??分享 |
Floating Point Round |
ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD | ?????理 、??、影音?理、2D/3D?用、多媒?及??等 |
Packed Blending | BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW | ??器矢量?算及影音?理、多媒?、??等?用 |
Packed Integer Min and Max | PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD | |
Register Insertion/Extraction | INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ | |
Packed Format Conversion | PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ | |
Packed Test & Set | PTEST | |
Packed Compare for Equal | PCMPEQQ | |
Pack DWORD to Unsigned WORD | PACKUSDW |
SSE4 ?向量、浮点运算专门化 加入串流式负载指令
据Intel指出,在应用SSE4指令集后,Penryn增加了2个不同的32Bit向量整数乘法运算支持,引入了8 位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
SSE4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式,大大减少延误,这些改变将对游戏及 3D 内容制作应用有重要意义。
此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,
Penryn?基于Core微架构再作改良
除了采用更先进的45纳米制程及加入全新 SSE4 指令集外,Penryn 亦基于Intel Core微架构
Fast Radix-16 Divider( 快速 Radix-16 除法器 )
Super Shuffle Engine( 超级洗牌引擎 )
Split Load Cache Enhancement( 增强型缓存拆分负载 )
Improved Store Forwarding( 存储转发 )
Faster OS Primitive Support( 高速操作系统同步原始支持 )
Virtualization Performance Improvements ( 增强的 Intel 虚拟化
Deep Power Down Technology( 深度节能技术 )
Enhanced Dynamic Acceleration Technology( 增强型动态加速技术 )
据Intel资深工程师兼Penryn微架构主管Stephen Fischer表示,与上代处理器产品相比,Penryn
Enhanced Core MA ? Fast Radix-16 Divider
Intel在Core微架构中支持每个周期可处理多达4个指令(对比旧有处理器最多只能同时处理3个指令),且重新采用较高
此外,Core微架构更加入Macro-Fusion技术,可把部份指令组合成单一Micro-Op 指令,令特定情况下每个周期可执行5个指令,更保留Micro-op Fusion技术,把相同的Macro-ops混合成单一个Micro-ops 透过Out-of-order
Penryn处理器除沿袭Core微架构的优点外,并进一步改良除法器的设计,在科学计算、三维坐标转换和其它数学运算密集型
据了解,基数为4的算法会在每次迭代运算中计算其2位的商值,当提高到基数为16的算法时,则允许在每次迭代中计算4位的商值,进而使延迟缩减一半。
Enhanced Core MA ? Super Shuffle Engine
Intel在 Core微架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,在2个频率周期完成,但Core微架构则只需要1个频率周期便能完成,执行效率提升达1倍,现时SSE指令集已普遍使用于
另一方面,Penryn处理器也有显著改良,其加入全新Super Shuffle Engine,令SSE 指令运算更具效率,以往处理Unpacking、Packing、Align Concatenated SourCES、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时,均无法在单一周期内完成,但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外,更不用在软件端中作出改良即可实现。
Enhanced Core MA?Split Load Cache Enhancement
Intel Core微架构明显强化
Shared Bus Router 除更有效处理L2 Cache读取外,亦为双核心使用FSB传输进行排程,新加入的Bandwidth Adaptation机制改善了双核心共享FSB时的
Penryn处理器的L2 Cach 容量增加了50%,双核心产品L2 Cach 容量最大可达至6MB、四核心更可高达12MB,并提升至24路联合(24-way set Associative) ,令L2 Cache命中率进一步提升,并大幅度提升使用率。
此外,亦加入全新增强高速缓存行拆分负载功能(Split Load Cache Enhancement),当读取数值时,若数据位于2个不同的高速缓存中,则会对负载行进行拆分。即便单个高速缓存行中的数据未经过适当调整,而自单个高速缓存行中读取数据,亦较自2个高速缓存行中读取数据快上数倍。
Enhanced Core MA ? Improved Store Forwarding
据了解,Penryn能在通过其它负载或存储之前作出推测,并快速分派两部份拆分负载,大大提高读取性能,可拉升执行数据扫描的
Intel Core微架构加入了Memory Disambiguation设计,透过Out of Order过程分析内存读取次序,分析数据是否独立读取执行,如果与前面的数据存取
另外,也进一步改
Enhanced Core MA ? Faster OS Primitive Support
在启动某一个关键代码段、并要以独占的方式访问某一个资源时(例如系列内的 I/O
Penryn处理器可以更快速地执行锁定的指令,例如XCHG、ADD/XADD/NEG/BTS/AND及CMPXCHG,且可更快速访问时间戳数器 (RDTSC),以上这些功能常用于
Enhanced Core MA ? Virtualization Performance Improvements
Penryn处理器在VT (Virtualization Technology)
45纳米Penryn双核:Wolfdale 2.33GHz工程样品
图为Intel下一代45纳米Penryn家族桌面双核心处理器,
其
Wolfdate核心内建4.1亿个晶体管,相比上代Conroe核心多出1.19亿个,主要原因为L2 Cache
虽然内建晶体管数目上升约40%,但由于改采45nm制程,芯片大小由上代的143平方毫米,减至只有103平方毫米,有助
Wolfdale处理器采用全新45纳米High-K金属闸极技术,VTT
此外,Intel上代65纳米产品最高频率约为3GHz,频率超过3GHz后,功耗将会出现明显增长,而45纳米产品最高可达约4GHz,意味着Intel新一代45纳米将有一定的频率提升
由于新一代45纳米产品在CPU GTLREF Ratio设定上有所变更,因此旧有
值得注意的是,尽管Intel一直强调只有3系列芯片组才能支持45纳米,但有主机板业者指出,其实965芯片组也能透过BIOS更新作出支持,不过VTT电压将会被设定至1.2V,处理器功耗会随之
效能
Intel Core 2 Duo E6550 (2.33GHz/ 4MB L2/1333MHz FSB) |
Intel "Wolfdate" ES Sample(2.33GHz/ 6MB L2/1333MHz FSB) |
Performance Boost up % | |
PC Mark 05 | |||
Overall | 6922 | 7305 | +5.53% |
CPU | 5995 | 6029 | +0.78% |
Memory | 5401 | 5613 | +3.94% |
Graphics | 13627 | 14062 | +3.19% |
CineBench 9.5 | |||
Single-Core/CPU | 390 | 430 | +10.26% |
Multi-Core/CPU | 742 | 798 | +7.55% |
C4D Shading | 462 | 503 | +8.87% |
OpenGL Software | 1458 | 1738 | +19.20% |
C4D Shading | 2683 | 2435 | +9.24% |
SicenceMark 2.0 | |||
Overall | 1378.07 | 1463.85 | +6.22% |
Molecular Dynamics | 1127.43 | 1276.33 | +13.21% |
Primordia | 1255.55 | 1325.30 | +7.14% |
Cryptography | 1057.07 | 1069.19 | +1.15% |
STREAM | 1647.49 | 1768.80 | +6.72% |
Memory | 1642.07 | 1758.84 | +7.11% |
BLAS/FLOPs | 1800.54 | 1864.61 | +3.56% |
SiSoftware Sandra 2007 | |||
ALU | 21323 | 21671 | +1.63% |
SSE3 | 14829 | 17076 | +15.15% |
Int | 129258 | 129539 | +0.22% |
Float | 69658 | 69987 | +0.47% |
RAM Bandwidth Int | 6318 | 6919 | +9.51% |
RAM Bandwidth Float | 6285 | 6891 | +9.64% |
Divx 6.6 Alpha w/SSE4 | |||
1080p Mpeg2 to Mpeg4 | 69s | 32s | +115.63% |
Mainconcept H.264 Encoder | |||
1080p Mpeg2 to H.264 | 204.78s | 179.20s | +12.49% |
Windows Movie Maker | |||
Publishing Movie | 158.45s | 153.41s | +3.19% |
Windows Photo Gallery | |||
Print to XPS | 34.86s | 33.25s | +4.62% |
Send to Mail | 34.89s | 33.43s | +4.17% |
Adobe Photo Elements 5.0.2 | |||
SmartFix | 177.91s | 163.99s | +7.82% |
Album Creation | 38.92s | 36.52s | +6.17% |
Microsoft Office 2007 | |||
Word - Merge | 50.33s | 38.1s | +6.30% |
PowerPoint - Print to XPS | 75s | 69s | +8.00% |
Excel - Big Number Crunch | 13.64s | 12.97s | +4.85% |
Excel - Option Pricing | 49.53 | 45.32 | +8.51% |
3DMark 05 | |||
Default | 14055 | 15316 | +8.97% |
CPU | 12403 | 12891 | +3.96% |
CPU Test 1 | 7.1 | 7.6 | +6.58% |
CPU Test 2 | 9.0 | 9.2 | +2.22% |
3DMark 06 | <TD