AMD宣布,对ROCm软件栈进行了更新,推出了新的迭代版本ROCm 7.0,这也是迄今为止最大规模的更新之一。这一新版本里,AMD引入了增强的框架和新算法,旨在打造可替代英伟达CUDA的计算生态系统。
AMD表示,人工智能创新正以前所未有的速度加速,模型扩展到数千亿个参数,推理需求不断增长,企业需要平衡成本和性能的可扩展高效解决方案。开发人员面临着越来越大的压力,既要跟上这些要求,又要确保灵活性、可移植性和未来准备。ROCm 7.0的发布,使得开发人员和企业能够更快地行动、更智能地扩展并部署AI。
ROCm 7.0主要特性:
支持Instinct MI350系列GPU,突破性AI训练和AI推理性能。
跨集群的无缝分布式推理,支持领先的框架。
HIP 7.0增强了代码可移植性,简化了跨硬件生态系统的开发和迁移。
以企业为中心的新工具,可简化AI基础设施管理和部署。
采用AMD Quark量化技术,实现了流行的MXFP4和FP8格式大型模型。
在今月的AMD Advancing AI 2025上,AMD发布了基于CDNA 4架构的Instinct MI350系列计算卡。其基于迭代升级后的芯片堆叠封装工艺打造,采用N3P工艺的加速器复合核心(XCD)通过COWOS-S封装技术堆叠在采用N6工艺的I/O核心(IOD)之上,3D混合架构为带来了高性能密度和高能效比,IOD-IOD互连以及HBM3E显存的集成则给𱅒.5D架构打造。
AMD Instinct MI350系列GPU包含个XCD模块,每个XCD模组计算单元,共组,1024个矩阵核心,每个XCD配MB L2缓存;IOD基𱆎个N6工艺核心构成,提供通道HBM3E显存接口MB容量的AMD Infinity缓存;2个HBM3E显存采堆栈结构,每个堆栈层堆叠GB,数据频率𰹌Gbps,可提𱰖TB/s的显存带宽;内部所用的Infinity Fabric AP互联带宽达.5TB/s,外部连接则基GB/s带宽的第四代Infinity Fabric总线GB/s带宽的PCIe 5.0接口。