在近年的服务器处理器竞赛中,Intel的Ice Lake与Sapphire Rapids系列似乎步入了守势,特别是面对高核数需求时略显力不从心。这直接映射在其数据中心业务的业绩上,虽仍稳坐市场份额头把交椅,但AMD及Arm的双重夹击不容小觑。
当初Intel揭晓至强处理器的未来蓝图,众人寄望于采用Intel 3工艺的Sierra Forest和Granite Rapids能够成为翻盘的关键。这一预期不仅基于工艺制程的及时跟进,更在于P-core与E-core分立设计策略精准锚定了市场细分需求,预示着性能与能效的显著跃升。
自去年Intel Innovation大会起,关于新一代至强处理器的讯息便如涓涓细流,不断汇入公众视野。及至今年4月的Intel Vision活动,至强系列第六代产品的宣布更是激起波澜。而今,随着至强6处理器的正式登场,更多关乎其技术细节与创新特性的面纱已被揭开,业界关注再度聚焦。
第五代至强处理器Emerald Rapids紧随酷睿Ultra系列的Meteor Lake脚步,于去年12月亮相。时间飞逝,仅半年之余,我们已站在第六代至强处理器(Xeon 6)及其后续的酷睿Ultra系列Lunar Lake的发布门槛上。Intel在个人电脑与服务器领域的反击步伐显然加速。
本文旨在深入探讨被视为市场新拐点的至强6处理器的实质内涵及其诞生背景,以便我们更透彻地洞察数据中心处理器行业的动态。
至强6双轨并进策略
Intel早先透露,第六代至强将分为两大系列,专注不同核心架构——E-core驱动的Sierra Forest与P-core主打的Granite Rapids,精准适配多元化的市场需求。外界观察多将Sierra Forest视为Intel针对Arm竞争者,如Ampere Computing及亚马逊Graviton等高核数产品的直接回应。
但实际上,至强6的布局构思更为深邃。梁雅莉,英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理,在新品发布会中的阐述为此提供了洞见:
“云原生及微服务导向的分布式通用计算任务,正是能效核(E-core)大展身手的舞台;而对于人工智能、高性能计算等严苛计算挑战,则由性能核(P-core)担纲主角。”
单一架构难以包揽所有客户需求或无缝覆盖各类业务场景,成为了行业共识。面对摩尔定律放缓的步伐,依据具体应用场景定制芯片设计的策略,正顺应了技术发展的时代脉搏。因此,“针对业务负载优化”的架构理念,无疑是与时代并行的明智之举。
此趋势不仅限于CPU架构的多样化,还涵盖了GPU、ASIC、FPGA等加速器技术的广泛应用,共同推动计算领域向着更高效率与环境友好方向发展。从这一视角审视,至强6处理器推出的双核系版本,可视作Intel XPU策略在CPU产品线上的实践案例,紧密贴合了追求“绿色高效”计算的全球趋势。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立指出,数据中心市场的近期需求热点集中于AI与微服务。AI应用尤为注重核心性能、内存带宽及低延迟;而云环境下的微服务对单核性能要求相对宽松,却高度依赖核心数量及密度,确保能有效应对大规模服务部署,正如AWS在Graviton处理器上的应用实例所示。
鉴此,Intel为至强6精心规划了双轨产品体系,旨在通过共通的基础平台与软件生态,灵活满足不同工作负载在性能与能效上的特定要求。至于P-core与E-core各如何精确匹配上述负载需求,详情可参考下方图表。
在科技融合的趋势下,部分用户倾向于双线并进,选择同时采纳两种解决方案,而另一些则深耕特定领域,追求极致专精。Intel针对这两大需求群体,推出了两款核心的至强6系列处理器,相较于前代二代至强产品,在多样化的负载场景中实现了显著的性能飞跃及每瓦效能提升。如下图:
P-core型号在AI推理任务上展现出3.7倍的显著优势,而E-core型号则在媒体转码领域实现了每瓦性能1.3倍的提升。尽管这些数据点不够全面,它们无疑是重要的风向标,标志着至强系列在连续两代产品中的不利态势得以逆转,特别是在能效和特定工作负载性能上。
E-core首次应用于服务器CPU:性能表现如何?
此前,E-core多用于边缘计算和嵌入式系统,如Snow Ridge和Parker Ridge。此次发布的6700E标志着E-core在服务器领域的首次亮相。据悉,未来还将有更多新型号加入,包括预计下个季度发布的至强6900P(基于P-core),以及2025年第一季度的6900E、6700P/6500P/6 SoC/6300P等。
从数字型号来看,6700和6900是Intel的两个主要平台。在6700系列中,E-core版本最多拥有144个核心,而P-core版本则最多86个核心。对于6900系列,E-core版本的核心数高达288个,P-core版本则为128个。
这一核心数配置使至强处理器在主流市场中的地位显著提升,尤其是在Sierra Forest方面。即便是采用P-core的至强,86个核心的数量也比第五代至强多出30%,更不用说即将推出的128核版本。
关于插槽支持、TDP、内存通道、PCIe/CXL、UPI互联等具体配置信息,请参考下图。
6700系列处理器的单CPU TDP为350W,而6900系列则高达500W。值得注意的是,至强6平台支持MCR技术,可进一步提升内存频率。具体而言,6700系列能将内存频率提高至8000MT/s,6900系列则可达8800MT/s,使得内存总带宽达到上代的2.36倍。此外,6700P系列在插槽方面支持1路、2路、4路、8路扩展。
在产品层面,本次发布的仅为至强6700E系列。不同SKU型号的产品已列出,从64核的6710E到最高端的144核6780E。该系列处理器的TDP功耗范围从205W至330W。不同核心版本的划分不仅依赖于工艺筛选,封装架构部分将对此进行详细讨论。
云原生分布式应用倾向于采用微服务、多线程、分布式和横向扩展的方式,以优化CPU计算资源的利用,而非依赖向上扩展的服务器硬件架构。梁雅莉指出,平衡的高性能正是英特尔至强6 E-core处理器的主要特点。
具体数据显示,与第二代至强处理器相比,采用E-core的至强6处理器在媒体转码负载方面的性能提升了4.2倍,每瓦性能(能效)提高了2.6倍。
从宏观角度看,至强6处理器在能耗和核心密度方面相较于第二代至强有显著提升。以15kW/机架的标准配置为例,第二代至强需要200个机架才能达到的性能,采用至强6700E仅需66个机架,实现3:1的机架整合率。据称,后续采用P-core的至强6可进一步提升至6:1。
尽管Intel未提供直观的TCO(总体拥有成本)对比数据,但基于系统减少、数据中心空间节约以及能源和散热开销的变化,加上算力密度提升对业务的助力,TCO在一定区间内应有显著降低。
具体数据显示,在四年的使用周期内,后者可节省80k MWh(兆瓦时)的能耗,减少3.4万吨二氧化碳排放。
在与上一代(第五代至强CPU,Emerald Rapids)的比较中,至强6700E展现出了更为详实的性能优势数据。
鉴于Crestmont核心(至强6的E-core)与Raptor Cove核心(第五代至强的P-core)在规模上的差异,这一对比结果颇令人意外。柱状图中,实心柱子代表性能,点状柱子代表每瓦性能。在绝对性能有所提升的同时,主要体现了至强6700E在不同类型负载中的效率显著提升。
通过绘制基于服务器资源利用率的能耗曲线,可以发现,在服务器利用率40-60%的区间内,至强6700E(双路配置)相比第五代至强功耗降低了近40%。Intel指出,大多数客户的数据中心日常负载利用率正处于这一范围,因此该图表充分反映了实际效率的提升水平。
最后,我们留下一个有趣的思考题:Redwood Cove性能核(至强6的P-core)依然支持超线程,因此采用P-core的至强6也支持超线程;而E-core则不支持超线程,每个核心对应一个线程。与此同时,Arm近年来在推广Neoverse时也对超线程技术提出了质疑。
浪潮信息服务器产品线总经理刘涛表示,在云计算环境中,超线程技术在预测性能需求和应对动态变化时面临挑战。例如,当负载超过一半时,物理核被占满;继续增加负载,超线程开始发挥作用,但性能提升不再呈线性,线程与实际性能的关系曲线趋于平缓;甚至在负载较高时,轻微增加负载就可能耗尽可用资源。
相比之下,不带超线程的E-core相对简单且可预测。它减少了资源争抢和性能波动,确保业务负载具有确定性的线性预期。同时,采用E-core的至强6本身拥有足够多的核心资源,以满足大规模分布式总并发需求。
这可能与P-core和E-core各自擅长的负载类型有关。然而,最新一代的P-core,即Lion Cove,已经不支持超线程。虽然基于Intel目前的设计方法,为Lion Cove添加超线程功能并非难事,但下一代至强P-core是否还会以超线程的形式出现呢?这值得我们关注。
封装与核心架构:最多288个核心
在前文中,我们已经多次提及P-core和E-core。那么,它们具体的核心架构是怎样的呢?至强6的P-core基于Redwood Cove设计,而E-core则源于Crestmont。这两款核心架构同样应用于酷睿Ultra 1代(Meteor Lake)处理器。在半导体行业中,不同平台共享主要核心架构设计是一种普遍做法。
上图展示了这两种核心的部分配置信息。对于了解Meteor Lake的读者来说,这些细节应该并不陌生,包括指令支持、缓存大小、解码宽度和乱序度等。需要注意的是,两种核心的指令支持并不完全相同,这使得在同构核心的情况下能够各取所需。
值得一提的是,Crestmont在AVX2和矢量操作方面的强化表明,使用E-core版至强6进行更传统的机器学习和深度学习AI加速也是可行的。然而,与PC处理器上的配置相比,仍存在一些差异。例如,Crestmont能效核同样是每4个核心共享L2缓存,但L2缓存容量扩大到了4MB(Meteor Lake上的Crestmont为2MB L2缓存)。根据对Meteor Lake的了解,我们可以推测采用E-core的至强6在芯片尺寸上会比采用P-core的至强6小很多。
在封装层面,至强6700的外观如下所示——左侧为本次发布的基于E-core的至强6700,右侧为将于第三季度发布、采用P-core且核心数不同的至强6700。
中间的芯片是计算die,而左右两边的则是I/O die。这种基于chiplet方案的I/O die采用了高度可复用的设计。I/O die采用Intel 7工艺制造,而计算die则基于Intel 3工艺制造。芯片间的连接主要通过EMIB硅桥实现,粗粒度数据传输速度在芯片间达到了1TB/s。
根据常规的基于先进封装和chiplet的堆核方式,我们可以推断出后续采用P-core的至强6700系列中,16核和48核版本都将是单颗计算die,而86核版本则需要堆叠两片计算die。在这个过程中,两侧的I/O die保持不变。
尚未发布的6900系列也遵循相同的逻辑。采用E-core的至强6900系列最多包含288个核心,需要两片计算die;而采用P-core的至强6900系列要堆叠128个核心,则需要三片计算die。因此,与以往的至强处理器相比,至强6系列展现了更好的灵活性。
Intel表示,实现这种灵活性的三大要素包括:Fabric技术、多die架构和多die互联。Fabric技术将计算die与I/O die有机结合,使得每个芯片内部拥有纵横交错的通路网络。当这些芯片通过集成多个die架构相互连接时,它们的通路得以延续并相互融合,构建起规模更大、更为强大的通路系统。多die架构和多die互联(如至强处理器采用的EMIB硅桥)则进一步支持了这一灵活性和扩展性。这种2.5D先进封装方案我们之前已经多次介绍过。
计算die内除了包含核心(core)和缓存(cache)之外,还集成了CHA(cache home agent)、LLC(last-level cache)以及负责核心间互联的mesh fabric。CHA负责管理一个LLC切片,并与内存控制器进行通信。此外,每颗计算die的左右两侧都配备了DDR5/MCR内存控制器。
这种设计旨在实现较低的内存访问延迟和更高的设计灵活性。一位技术专家表示:“无论多少个核心组成一个虚拟机,整体性能的可扩展性和一致性都非常出色。”即使对于采用三片计算die的方案,位于中间、距离I/O die较远的计算die的I/O性能也不会受到太大影响。
I/O die的内部架构如上图所示,与计算die之间通过I/O Fabric相连,物理上则借助EMIB实现连接。I/O接口支持多种协议,包括PCIe、CXL和UPI。此外,I/O die还包含QAT(Quick Assist Technology Accelerator)、DSA(Data Streaming Accelerator)等加速单元,以及其他功能如RDT(Resource Director Technology)资源调度等。
值得一提的是,CXL 2.0的支持在此值得一提。CXL作为一种为高性能数据中心设计的高速CPU-to-device和CPU-to-memory连接的开放标准,由Intel发起。在至强6处理器中,引入了CXL 2.0的功能。
CXL 2.0定义了三种类型的设备。在此次发布的至强6中,Intel主要强调了Type 3 Devices,即内存扩展——位于主内存之外的CXL内存。CXL内存扩展有三种不同的模式(如下图所示),其中Intel特别提到了flat memory mode模式,这是一种将CXL内存视为DRAM下一级存储的机制。另外,P-core版至强6似乎还支持CXL Interleaved交织模式。
通过让CXL和原生DRAM共同实现硬件辅助分层(HW-assisted tiering),在1:1的比例下(CXL与DRAM的near/far memory ratio),系统会尽量将CXL中的常用数据放置在DRAM中。尽管部分数据存储在CXL中,但由于硬件分层管理的存在,其性能表现非常接近完全使用DRAM的情况。
通常情况下,约八成的负载在使用flat memory mode时,性能损失不会超过5%。然而,在跨租户访问方式发生冲突时,内存敏感型负载的性能降级可能会较为严重。尽管如此,Intel针对CXL 2.0在这种模式下的实现进行了数据库业务吞吐性能(IOPS)的对比测试,结果显示DRAM+CXL内存的组合相较仅使用DRAM的方案,性能损失较小。具体数据不再展示。重要的是,基于CXL标准对现有DDR4内存进行复用,不仅扩大了内存容量,还进一步降低了总体拥有成本(TCO)。
探索更多,携手共赢
如有任何问题、反馈或合作意向,请直接点击下方按钮。我们期待与您建立联系,共创美好未来。
相关资讯