share_log

这一新型内存技术,优势显著

半导体行业观察 ·  Oct 5 19:37

如果您希望可以时常见面,欢迎标星 收藏哦~

来源:内容编译自nextplatform ,谢谢。

根据英特尔内部分析,英特尔最近展示了一种称为多路复用器组合列 (MCR)(也称为 MRDIMM)的新型 DIMM 内存技术,与第五代英特尔至强处理器相比,该技术可为 HPC 工作负载提供高达 2.3 倍的性能提升,为 AI 推理工作负载提供高达 2 倍的性能提升。

英特尔副总裁兼 Xeon 6 产品总经理Matt Langman最近介绍了运行HPC工作负载 Nemo(欧洲海洋建模核心)的新技术。Nemo是一种模拟工作负载,用于模拟海洋温度、海平面变化、盐度和其他热力学和生物地球化学指标。英特尔两周前推出的带有 P 核的 Xeon 6 CPU(俗称“Granite Rapids” )与MCR内存相结合,与采用传统DDR内存的第五代英特尔“Sapphire Rapids”Xeon SP相比,运行速度提高2.3倍。基于英特尔内存控制器的创新以及更多内核和内存通道,高带宽MRDIMM技术可显著提升性能。

英特尔战略规划师 Nate Mather 解释了这种更快内存技术对许多客户的价值主张,他指出:“与 DDR5 RDIMM 相比,MRDIMM 可提供更大的带宽提升,为客户提供一个有趣的新选择点。在现有平台上,性能大幅提升 30% 到 40%,让客户能够灵活地选择他们的 AI 和 HPC 工作负载。”

l 绩效预测与验证

截至 5 月份的英特尔性能预测表明,12 个通道的 MRDIMM 内存与架构增强相结合意味着最新的英特尔至强处理器(代号 Granite Rapids)将为 HPC 和 AI 工作负载提供整体性能提升。

这已被实践所证明。

在德国汉堡举行的 2024 年国际超级计算大会 (ISC) 上,英特尔发布了多项公告,包括报告早期性能结果,结果表明,与上一代系统相比,MRDIMM 配置系统可为 NEMO 等实际 HPC 应用程序提供高达 2.3 倍的性能提升。这表明,新技术为 HPC 解决方案的首选主机 CPU 奠定了坚实的基础。

美光科技证实,其最近发布的 64 GB、96 GB 和 128 GB 容量的 MRDIMM 模块与 RDIMM 相比,平均带宽增幅达到或超过了 1.3 倍。

l 平台兼容——无需更改软件

在两排 DDR5 内存之间添加数据缓冲区(如下所示)意味着可以封装和访问 MR 内存技术,从而与 DDR5 RDIMM 完全平台兼容,同时还具有一系列新处理器功能:

ž 对于当前系统,MRDIMM 模块能够同时访问单个内存芯片,正如英特尔在英特尔 Hot Chips 2023 演示文稿第 9 张幻灯片中指出的那样。这些 MRDIMM可以比 6400 个 RDIMM 实现多 37% 以上的带宽。

ž 当 MRDIMM 同时操作两排 DDR5 内存并向 CPU 提供 128 个字节(每排 64 个字节)时,其带宽魔力便会显现出来。这意味着 CPU 可以以高于传统 DDR5 RDIMM 的速率执行突发操作,在双插槽系统中实现超过 1.5 TB/秒的内存带宽能力。通过以 2 倍 DRAM 速度操作 CPU 到 MRDIMM 接口来实现更高的带宽,每个 DRAM 排都能够在每个周期发送或接收数据。此外,它还为 CPU 提供了多达 12 个内存通道和一系列 Intel Xeon 架构改进(其中许多改进提供了更多未完成的内存请求和预取功能),从而提高了性能。

ž 最新的英特尔至强处理器(代号为 Granite Rapids)将支持非常高的核心数,新技术可提供 1S-8S 的可扩展性以及每个通道最多 2 个 RDIMMS 或 MRDIMM。

l DDR5 外形兼容性

英特尔数据中心和 AI 部门 Xeon 产品经理 Bhanu Jaiswal 表示:“MRDIMM 在外形尺寸上与当今的 DDR5 RDIMM 兼容。您无需重新设计系统板或牺牲任何 DDR5 可靠性、可用性和可维护性 (RAS) 功能。无需对软件进行任何更改。简而言之,在相同的系统设计中提供更多带宽。”当然, DDR5 RAS 功能在现代服务器中是绝对必要的。

Jaiswal 表示,HPC 的优势在于支持 MRDIMM 的 Intel Xeon 新内存技术将使大多数内存带宽受限的工作负载受益。对于 HPC 工作负载,这一点在许多技术文章中都有体现。

更高的内存带宽意味着处理器可以让更多内核保持活跃,以完成更多有用的工作(例如,更好的性能)。带宽的提升对于满足现代 CPU 快速增长的内核数量以及确保内核得到有效利用至关重要。内存带宽的增加还有利于英特尔为支持各种 AI、HPC 和数据中心工作负载而开发的其他性能特性。

英特尔即将推出的 AVX10 融合矢量 ISA包含针对深度学习和 HPC 工作负载的改进,这些工作负载受益于矢量处理,例如科学模拟和数据分析。较大的寄存器大小意味着 CPU 内核可以在一个时钟周期内对多个数据执行相同的操作,而不必对较小的数据执行多个周期。MRDIMMS 将在提供数据以保持此矢量 ISA 繁忙方面非常有用。AVX10 版本 1 将仅在 Granite Rapids Xeon 6 CPU 中推出,完整版本将在后续几代中得到支持。

因此,当您查看服务器时,请记住,内存带宽是许多工作负载(包括 AI 和 HPC 领域中的工作负载)的首要性能限制因素,但仅靠内存带宽不足以满足许多客户工作负载的需求。这就是 Xeon 6 处理器内部采用片上增强型模块化网格和优化内核的原因,与上一代 Xeon 处理器相比,预计其性能将提高 2 到 3 倍。更妙的是,增加的内存带宽有助于释放在越来越多的 CPU 内核数量下运行这些关键工作负载所需的性能。

Disclaimer: This content is for informational and educational purposes only and does not constitute a recommendation or endorsement of any specific investment or investment strategy. Read more
    Write a comment