Nehalem微架构SSE4.2全新指令集

正睿科技发布时间：2009-07-19 12:42:32 浏览数：3858

　　SSE是英特尔提出的即MMX之后新一代（当然是几年前了）CPU指令集，最早应用在PIII系列CPU上。现在已经得到了Intel PIII、P4、Celeon、Xeon、AMD Athlon、duron等系列CPU的支持。而更新的SSE2指令集仅得到了P4系列CPU的支持，这也是为什么这篇文章是讲SSE而不是SSE2的原因之一。另一个原因就是SSE和SSE2的指令系统是非常相似的，SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。

　　SSE为什么会比传统的浮点运算更快呢？因为它使用了128位的存储单元，这对于32位的浮点数来讲，是可以存下4个的，也就是说，SSE中的所有计算都是一次性针对4个浮点数来完成的，这种批处理当然就会带来效率的提升。我们再来回顾一下SSE的全称：Stream SIMD Extentions（流SIMD扩展）。SIMD就是single instruction multiple data，连起来就是“数据流单指令多数据扩展”，从名字我们就可以更好的理解SSE是如何工作的了。

　　提升的SSE4.2 SSE4指令集被认为是2001年以来Intel最重要的指令集扩展，包含54条指令。 Intel在Penryn处理器中加入了对SSE4.1的支持，共增加了47条新指令，提升了处理器在图形、3D图像与游戏、视频编码与影音处理等方面的性能表现。本次在Nehalem处理器中，进一步支持了SSE4.2指令集。SSE4.2完整的实现了SSE4指令集，相对于SSE4.1加入了7条新指令。

　　SSE4.2新加入的几条新指令有两类。第一类是字符串与文本新指令STTNI，STTNI包含了四条具体的指令。STTNI指令可以对两个16位的数据进行匹配操作，以加速在XML分析方面的性能。据Intel表示，新指令可以在XML分析方面取得3.8倍的性能提升。第二类指令是面向应用的加速指令ATA。ATA包括冗余校验的CRC32指令、计算源操作数中非0位个数的POPCNT指令，以及对于打包的64位算术运算的SIMD指令。CRC32指令可以取代上层数据协议中经常用到的循环冗余校验，据Intel表示其加速比可以达到6.5~18.6倍；POPCNT用于提高在DNA基因配对、声音识别等包含大数据集中进行模式识别和搜索等操作的应用程序性能。 Intel也公布了支持新指令集的开发工具。这些工具涵盖了主流的编译开发环境。目前已明确支持SSE4.2的开发环境包括：Intel C++ Compiler 10.X、微软的Visual Studio 2008 VC++、GCC 4.3.1、Sun Studio Express等。程序员可以直接使用高级编程语言编程，编译器会自动生成优化结果。当然程序员也可以用内嵌汇编的方式来达到目的。

　　虽然SSE从理论上来讲要比传统的浮点运算会快，但是他所受的限制也很多，首先，虽然他执行一次相当于四次，会比传统的浮点运算执行4次的速度要快，但是他执行一次的速度却并没有想象中的那么快，所以要体现SSE的速度，必须有Stream做前提，就是大量的流数据，这样才能发挥SIMD的强大作用。其次，SSE支持的数据类型是4个32位（共计128位）浮点数集合，就是C、C++语言中的float[4]，并且必须是以16位字节边界对齐的（稍后会以代码来进行阐释，关于边界对齐的概念，读者可以参考论坛上的其它文章，都会有很详细的解答，我这里就恕不赘述了）。因此这也给输入和输出带来了不少的麻烦，实际上主要影响SSE发挥性能的就是不停的对数据进行复制以适用应它的数据格式。

VC++.net为我们提供了很方便的指令C函数级的封装和C格式数据类型，我们只需像平时写C++代码一样定义变量、调用函数就可以很好的应用SSE指令了。

当然了，我们需要包含一个头文件，这里面包括了我们需要的数据类型和函数的声明：

#include <xmmintrin.h>

SSE运算的标准数据类型只有一个，就是：

__m128，它是这样定义的：

typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 {

float m128_f32[4];

} __m128;

简化一下，就是：

struct __m128

{

float m128_f32[4];

};

比如要定义一个__m128变量，并为它赋四个float整数，可以这样写：

__m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };

要改变其中第2个（基数为0）元素时可以这样写：

S1.m128_f32[2] = 6.0f;

令外我们还会用到几个赋值的指令，它可以让我们更方便的使用这个数据结构：

S1 = _mm_set_ps1( 2.0f );

它会让S1.m128_f32中的四个元素全部赋予2.0f，这样会比你一个一个赋值要快的多。

S1 = _mm_setzero_ps();

这会让S1中的所有4个浮点数都置零。

还有一些其它的赋值指令，但执行起来还没有自己逐个赋值来的快，只做为一些特殊用途，如果你想了解更多的信息，可以参考MSDN -> VisualC++参考 -> C/C++Language -> C++Language Reference -> Compiler Intrinsics -> MMX, SSE, SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章节。

一般来讲，所有SSE指令函数都有3个部分组成，中间用下划线隔开：

_mm_set_ps1

mm表示多媒体扩展指令集

set表示此函数的含义缩写

ps1表示该函数对结果变量的影响，由两个字母组成，第一个字母表示对结果变量的影响方式，p表示把结果做为指向一组数据的指针，每一个元素都将参与运算，S表示只将结果变量中的第一个元素参与运算；第二个字母表示参与运算的数据类型。s表示32位浮点数，d表示64位浮点数，i32表示32位定点数，i64表示64位定点数，由于SSE只支持32位浮点数的运算，所以你可能会在这些指令封装函数中找不到包含非s修饰符的，但你可以在MMX和SSE2的指令集中去认识它们。

接下来我举一个例子来说明SSE的指令函数是如何使用的，必须要说明的是我以下的代码都是在VC7.1的平台上写的，不保证对其它如Dev-C++、Borl C++等开发平台的完全兼容。

为了方便对比速度，我会用常归方法和SSE优化两种写法写出，并会用一个测试速度的类CTimer来进行计时。

这个算法是对一组float值进行放大，函数ScaleValue1是使用SSE指令优化的，函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法，每个算法运算10000遍，下面是测试程序和结果：

#include <xmmintrin.h>

#include <windows.h>

class CTimer

{

public:

__forceinline CTimer( void )

{

QueryPerformanceFrequency( &m_Frequency );

QueryPerformanceCounter( &m_StartCount );

}

__forceinline void Reset( void )

{

QueryPerformanceCounter( &m_StartCount );

}

__forceinline double End( void )

{

static __int64 nCurCount;

QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount );

return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency );

}

private:

LARGE_INTEGER m_Frequency;

LARGE_INTEGER m_StartCount;

};

void ScaleValue1( float *pArray, DWORD dwCount, float fScale )

{

DWORD dwGroupCount = dwCount / 4;

__m128 e_Scale = _mm_set_ps1( fScale );

for ( DWORD i = 0; i < dwGroupCount; i++ )

{

*(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale );

}

void ScaleValue2( float *pArray, DWORD dwCount, float fScale )

{

for ( DWORD i = 0; i < dwCount; i++ )

{

pArray[i] *= fScale;

}

#define ARRAYCOUNT 10000

int __cdecl main()

{

float __declspec(align(16)) Array[ARRAYCOUNT];

memset( Array, 0, sizeof(float) * ARRAYCOUNT );

CTimer t;

double dTime;

t.Reset();

for ( int i = 0; i < 100000; i++ )

{

ScaleValue1( Array, ARRAYCOUNT, 1000.0f );

}

dTime = t.End();

cout << "Use SSE：" << dTime << "秒" << endl;

t.Reset();

for ( int i = 0; i < 100000; i++ )

{

ScaleValue2( Array, ARRAYCOUNT, 1000.0f );

}

dTime = t.End();

cout << "Not Use SSE：" << dTime << "秒" << endl;

system( "pause" );

return 0;

}

Use SSE：0.997817

Not Use SSE：2.84963

　　这里要注意一下，我使用了__declspec(align(16))做为数组定义的修释符，这表示该数组且?6字节为边界对齐的，因为SSE指令只能支持这种格式的内存数据。

联系我们

4000 555 018

(7×24)

Nehalem微架构SSE4.2全新指令集