今年年是至强系列的关键一年。
至强® 6700E系列于6月正式发布,采用了全新的命名方式:至强® 6能效核,首度实现144核规格,使英特尔在核心数量上领先。值得注意的是,至强6仍有更强版本,即6900P系列。
9月26日,至强® 6900P系列正式发布,规格震撼,展现出强大的竞争力,即便面对其他厂商晚于其发布的同级别CPU。
英特尔的Birch Stream平台将分批发布至强6处理器。6700E系列于6月发布,采用能效核(Sierra Forest),而6900P系列近日发布,属于性能核(Granite Rapids)。年底和明年初还将推出6900E、6700P及6500/6300系列。
至强6900P专为计算密集型工作负载设计,提供72到128核,TDP为400W和500W,公开5种型号,显示出显著的技术进步,内核数量相比前两代翻倍,体现英特尔的“厚积薄发”理念。
至强6900P是业内首款性能核数量超过100的处理器,其他同级产品最多96核,追平英特尔需等到下季度。
6900P的L3缓存达到504MB,内存带宽支持12通道DDR5 6400,并引入MR DIMM,数据率提升至8800MT/s,内存带宽是第五代可扩展处理器的2.3倍。此外,支持CXL 2.0可扩展内存容量和带宽。
UPI2.0链路速率提升至24GT/s,数量增加至6条,双路互联效率显著提高。6900P在数据库、科学计算等关键应用中表现为上一代的2.31倍-2.5倍,AI性能为1.83倍-2.4倍,展现出其作为高算力、高存力平台的优势。
至强6的扩展能力显著提升。6900系列单插座提供96通道PCIe 5.0,双路则为192通道。未来的6700系列单路型号将提供136通道,双/多路型号可提供88通道。而第四、五代至强可扩展处理器的PCIe 5.0通道数量为80。此外,6900和6700系列均支持64通道CXL 2.0。
至强6引入了LGA 4710和LGA 7529两种插座接口,以支持更多内核、内存和PCIe通道。6900系列采用更大的LGA 7529插座,提供优越的内存带宽和扩展能力,适合高性能、高密度服务器。6700及未来的6500/6300系列则使用LGA 4710,尺寸与LGA 4677相似,便于主流服务器的布局延续。
至强系列核心规模的提升得益于EUV光刻技术的应用。2023年发布的酷睿Ultra已率先采用EUV的Intel 4制造工艺,而2024年发布的至强6则基于进一步改良的Intel 3工艺。
英特尔CEO帕特?基尔辛格于2021年公布了“四年五个制程节点”的工艺路线图,Intel 3预计于2023年底量产,进度符合计划。酷睿Ultra的市场表现显示,EUV技术显著提升了英特尔处理器的竞争力。相比Intel 4,Intel 3能支持更多金属层和细分版本。
Intel 3采用更多EUV光刻步骤,提供更密集的设计库和更高的晶体管驱动电流。该工艺有三种变体:3-T、3-E和3-PT,其中3-T为基本工艺,主要用于CPU,3-E则用于功能扩展,三者均支持TSV。与Intel 4相比,这三种变体的性能功耗比提升18%。3-PT进一步增强混合键合支持,提供更高性能和易用性。
所有四种变体均支持240 nm高性能和210 nm高密度库,而Intel 4仅支持240 nm高性能库。针对高性能运算,Intel 3优化了低电压(<0.65V)和高压(>1.3V)运行,在各电压下频率均高于Intel 4。
至强6900P采用的性能核微架构代号为Redwood Cove,是英特尔近年来的重要迭代,推动了服务器和消费类产品线的新命名序列。
回顾前代,Golden Cove显著提升了前端性能:指令TLB翻倍至256条,指令提取带宽从16字节提升至32字节,解码器扩展至6路,微操作缓存增加到4096条,其他如L1和L2 BTB也有提升。后端如重排序缓冲区和分支目标缓冲区提升约30%,但相对前端变化较小。
Raptor Cove在微架构上与Golden Cove相似,主要在于缓存提升,第13代酷睿的每核心L2缓存从1.25MB增至2MB,Emerald Rapids的L3缓存从1.875MB增加至5MB。
Redwood Cove的关键变化包括:指令缓存从32KB增至64KB,微操作队列从144条目增至192,指令执行延迟降低,更智能的预取和改进的BPU,以及L2缓存带宽提升。此外,AMX新增FP16支持。
Redwood Cove的一个显著优势是EUV制造工艺,尽管内核规模未过度扩张,每个P核仍配备2MB L2缓存和4MB共享L3缓存。尽管单核缓存不比Emerald Rapids多,但因总核数翻倍,至强6的共享L3缓存总容量达到504MB,远超前代的320MB和112.5MB。
至强6的能效核微架构为Crestmont,亦用于酷睿Ultra的能效核。Crestmont以2或4个内核共享4MB L2缓存(酷睿Ultra为2MB)。每个模块中的内核共享频率和电压域,同时对应的网格还拥有3MB的共享L3缓存。因此,尽管至强6能效核的核数更多,但网格规模相较于性能核更小。
能效核与性能核的指令缓存均为64KB,但数据缓存分别为32KB和48KB。指令解码器的宽度也不同,能效核为6宽,性能核为8宽。指令乱序执行引擎方面,能效核支持256条,而性能核则为512条。能效核不支持性能核的AVX-512和AMX,减少了晶体管占用,但导致单精度浮点运算能力下降。尽管如此,能效核改进了AVX2,增加了VNNI的INT8和BF16/FP16快速转换,提升了AI应用性能。同时,其256位加密和1024/2048密钥支持确保了至强6平台的安全性。
缓存规模、前端宽度及矢量单元的差异,使至强6的性能核和能效核定位不同。早前发布的能效核更适合微服务等轻负载任务,强调高能效和机架利用率。现在发布的性能核则针对大数据、建模仿真和人工智能等计算密集型任务,优化高性能,单颗处理器功耗可达500W。尽管能耗较高,但相比同期的Gaudi AI加速器,提升性能上限才是关键。
MR(Multiplexed Rank)DIMM为DDR内存性能提升开辟了新方向。DRAM通常由1到2个Rank组成,每个Rank位宽为64位。消费类内存(UDIMM)可能仅有1个Rank,而服务器内存(RDIMM)一般至少有2个Rank。传统内存模式一次只读取一个Rank,另一Rank则进行刷新,导致带宽受限。
MRDIMM设计了数据缓冲区,将两个Rank的数据读入该缓冲区,再一次性传输到CPU内存控制器,从而实现带宽翻倍。第一代DDR5 MRDIMM目标速率为8800 MT/s,相当于每个Rank 4400 MT/s。随着DDR5 6400的普及,MRDIMM的第二阶段目标是达到12800 MT/s,预计2030年代第三代将提升至17600 MT/s。
3.CXL内存扩展:第四代至强可扩展处理器引入CXL 1.1支持,但未公开支持Type 3设备(CXL内存)。第五代开始正式支持CXL 2.0,包括Type 3,帮助扩展内存容量和带宽。至强6将更普及CXL设备,预计CXL 2.0和向后兼容的CXL 1.1设备将陆续出现。
CXL内存的优势在于支持链路分叉,使一个主机端口可连接多个设备,并增强内存分层支持,实现容量和带宽扩展。至强6支持三种CXL内存扩展模式:CXL Numa Node、CXL Hetero Interleaved和Flat Memory。
在CXL Numa Node模式下,标准内存和CXL扩展内存被视为独立的Numa节点,各自拥有内存地址空间,系统可优化任务分配,适合需要精细内存管理的应用。
Hetero Interleaved(异构交织)模式将标准内存与CXL内存混合为一个统一的Numa节点,交替存储数据以均衡内存带宽和减少延迟,适合对内存带宽要求高的应用。此模式仅在性能核的至强6700P和6900P上支持,若满载64通道CXL,可额外增加256GB/s内存带宽,实现TB级带宽。
Flat Memory(平面内存)模式下,CXL内存和标准内存视为单一内存层,操作系统可直接访问统一地址空间。此模式利用硬件分层管理,优化数据存储,适用于所有至强6处理器,无需软件修改。但需标准内存与CXL内存1:1配置,限制了硬件灵活性。整体而言,平面内存模式是易用且直观的扩展方案,可能成为CXL内存扩展的主要模式。
至强6首次将计算和IO芯片独立,并通过Chiplet形式封装,充分发挥了高级封装的优势。
第四代至强可扩展处理器是英特尔首个Chiplet设计,其XCC版本由四颗芯片通过10组EMIB连接,每颗芯片提供15个内核、2通道内存控制器和多个UPI、PCIe PHY,支持4颗HBM封装。
第五代处理器则采用两颗芯片封装,减少了EMIB数量,虽然内核略增,但UPI和PCIe数量减少,无法再搭配HBM。
随着制造工艺的演进,计算性能和IO控制器的制造要求产生差异,典型Chiplet设计将两者分离,英特尔在14代酷睿中已采用此方法,包括Compute Tile、SoC Tile、IO Tile和Graphic Tile。代号Ponte Vecchio的Data Center GPU Max通过Foveros和EMIB技术,将47个小芯片封装在一起。
至强6也分为计算单元(Compute Tile)和IO单元(IO Tile),分别采用Intel 3和Intel 7工艺制造。
目前,能效核仅有一种计算单元设计,最多提供144个内核和4组内存控制器(共八通道)。性能核则有三种设计,支持高、中、低核数规格。
至强6900P采用三个计算单元,每个单元43个内核和两个内存控制器,合计129个内核(实际使用128个)和12个内存通道。这种单元称为单元A,三个单元A构成的处理器称为UCC。
未来发布的6700P将有广泛的核数选择:单路型号为16至80核,多路型号为8至86核。单元A提供4个内存通道,组合后可达86核,最低不低于48核,称为XCC;48核以下的中等核数称为HCC,使用单元B(每个提供48个内核和4个内存控制器),下限预计24核。8和16核的6700P称为LCC,需用单元C,配置16个内核和4个内存控制器。
通过三种计算单元组合,至强6性能核可实现8至128核的多样化规格。尽管设计三种芯片可能成本更高,但这是英特尔对性能的优先考虑。首先,内存控制器集成在计算单元中,降低了延迟,尽管牺牲了一定的组合灵活性。其次,不同规模的内核采用不同的网格设计,有助于降低核间延迟,LCC可能针对低核数采用环形总线。因此,至强6在内存和缓存延迟方面可能优于同类产品。
至强6900和6700系列均使用两个相同的IO芯片。每个IO芯片包括2个IO模块、4个UIO模块和2个加速器模块,配备IO网络接口。每个IO模块提供x16 PCIe或CXL连接;UIO模块提供x24 UPI2.0,或复用为x16的PCIe/CXL;加速器模块各包含DSA、IAA、QAT和DLB。
以至强6900P为例,两个IO单元提供8个UIO和4个IO模块,支持6组UPI互连及96通道PCIe 5.0。双路6900P的UPI速率达到24GT/s,比前代提升显著,连接数量增加50%。
至强6700系列预计会使用较小插座,最多提供4组UPI,PCIe通道数相应减少。然而,单路6700型号配置所有UIO为PCIe后,仍可提供最多136个PCIe通道或64通道CXL。结合半宽主板构建双节点服务器时,其PCIe/CXL扩展能力(272/128)将显著超过现有双路服务器,可能成为新型池化架构,支持更高密度的NVMe存储、CXL内存和加速器。
英特尔在14nm到10nm制造工艺的迭代中遇到挑战,导致此前几代至强平台在核数竞争中略显被动。然而,至强6有望扭转这一局面。改良后的EUV制造工艺未能束缚其潜力,核心数量、缓存容量和内存带宽等关键指标全面提升,算力和存力表现均达到新高。至强6900P系列在测试中展现出代际性能的倍增,奠定了其在科学计算、大数据和AI领域的竞争力。
此外,至强6实现了计算与IO的解耦,充分发挥了Chiplet的优势。这一设计不仅降低了成本,还提高了灵活性和复用性。英特尔长期以来注重细分市场,正确运用Chiplet将有助于更高效的产品开发。
如需了解更多关于至强6系列的产品与解决方案,欢迎访问我们的官网 zrway.com或咨询正睿科技。我们将竭诚为您提供专业的选购支持与可靠的产品。
在售后服务方面,我们有三年质保、全国联保的强有力的支持承诺。购买本产品的用户在全国范围内,只要有授权的服务网点,都可以享受原厂级别的保修支持,确保服务器在整个质保期内得到专业及时的维护保障。此外,正睿还为有需求的客户提供增值延保服务选项,让设备在过保后依然能获得专业的延续保障,延长服务器的生命周期,最大程度地降低用户的运维成本和风险。
与此同时,正睿还建立了全天候的一对一技术支持体系,无论是前期的产品咨询、中期的安装调试还是后期的运维服务,客户均可随时联系获取专业的7x24小时在线技术支持和指导,确保在使用过程中的任何疑问和问题都能得到及时有效的解答与解决。一系列完善的售后保障措施,都将为您提供无忧的使用体验,使本产品在性价比、性能表现和用户体验上达到了一个新的高度。
文章来源:狒话多