英特尔未来至强GraniteRapids-SP、GraniteRapids-AP、BirchStream平台的SierraForestCPU详解1
英特尔发布了更多关于其SapphireRapidsXeonCPU与AMDEPYCGenoa产品的“真实世界”基准测试。这些基准测试是在AMD盛大的数据中心活动前一天发布的,该公司将在该活动中发布其全新产品并讨论下一步计划。
在其新闻稿中,英特尔使用其32核SapphireRapidsXeon芯片与32核AMDEPYCGenoa芯片进行对比,以展示其在主流服务器平台上的性能。Chipzilla还展示了其旗舰XeonMax56核芯片与AMD顶级96核芯片之间的CPU性能比较。用于比较的“真实世界”基准专注于主流计算、HPC和AI工作负载。
从AI性能基准测试开始,英特尔宣称IntelXeon8462Y(SapphireRapids)CPU与AMDEPYC9354(热那亚)相比性能提高了7.11倍。所有基准测试均表明IntelSapphireRapids不仅在整体性能上领先,在每瓦性能指标上也领先。这些工作负载利用SapphireRapidsCPU上的IntelAMX(高级矩阵指令),可提升分类、自然语言处理、推荐器和检测等AI特定任务。
转移到更广泛的工作负载集,从SPECint到MySQLCasandra、MongoDB,还包括使用英特尔加速器引擎(如MicrosoftSQL、GROMACS、LAMMPS、NAMD、MonteCarlo等)的工作负载,我们看到了高达2.52倍的改进与AMD的第4代EPYCGenoa芯片相比,整体性能和每瓦性能提高2.51倍。在存储和特定于HPC的基准测试中可以看到最大的性能提升。通用工作负载(平均)提高了1倍以下,而微服务和数据服务提高了20%到30%。
总结TCO成本,英特尔表示,获得基于其SapphireRapids系列的英特尔至强CPU最多可节省8%的数据库(PostGreSQL)、35%的数据库(MicrosoftSQL2022+QAT备份)、38%的节省在HPC(BlackScholes)中,AI(DLRM)节省61%,AI自然语言(BertLarge)节省高达79%。
在主流计算中,更快地获得洞察力和访问数据
市场上最常部署的解决方案是基于中等核心数提供的,在这个细分市场中,每核心性能、功率和吞吐量是关键的关键性能指标。知道这一点后,英特尔将32核第4代Xeon与竞争对手最好的主流32核部分进行了比较。
像SPECCPU这样的通用基准测试很重要,但并不能为工作负载需求不断发展的客户讲述整个性能故事。现实情况是,在数据库、网络和存储等对客户最重要的工作负载上,至强通过提供更高的CPU性能、更高的每瓦性能和更低的总体拥有成本(TCO)轻松击败竞争对手。此外,客户还看到了以减少服务器数量、车队用电量和CO2排放量形式出现的重要的可持续发展优势。
Xeon专为人工智能而设计,英特尔在软件方面的投资支持并优化了所有主要框架、库和模型类型的人工智能。英特尔的测试表明其利用其先进的硬件加速技术英特尔®高级矩阵扩展(英特尔®AMX)在AI工作负载上继续保持CPU领先地位。
更多内核并不总是实现最佳性能的答案。英特尔®AMX允许第4代Xeon以令人难以置信的速度扩展,这超出了单靠内核数量所能达到的水平。这个领先的英特尔AI引擎内置于每个至强内核中,这是竞争对手所没有的,其客户也无法从中受益。
采用英特尔®AVX-512的处理器与竞争对手的顶级96核产品相抗衡。通过将最佳计算与高内存带宽和英特尔HPC引擎相结合,XeonMaxCPU在许多现实世界的HPC工作负载(例如地球系统建模、能源和制造)中比竞争对手具有40%的性能优势。
通过英特尔
英特尔还将其旗舰XeonMax9480CPU与AMD最快的EPYC965496核CPU进行了比较,该CPU配备封装HBM内存和多达56个内核。使用了纯HPC工作负载,比较表明XeonMax芯片的性能是Genoa芯片的2倍以上。
考虑到英特尔强调其XeonMaxCPU上的多余内存可以抵消与核心数量相关的一些性能变量,这绝对是一个有趣的比较,但另一方面,AMD最近才推出其EPYC芯片并且有从这些高核数的Zen4零件中肯定还有很多空间可以提取。
AMD对XeonMax的回应将与即将推出的Genoa-X芯片一起到来,该芯片预计将于明天与128核EPYCBergamo部件一起推出。可以在此处找到这些英特尔真实世界基准测试的完整脚注。