挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
最新 11 月 25 日消息,AMD 公司昨日(11 月 24 日)发布公告,宣布携手 IBM 和 AI 初创公司 Zyphra,历时 1 年多时间,成功使用 AMD 硬件训练出首个大型混合专家(MoE)基础模型 ZAYA1。
最新援引博文介绍,该模型是首个完全基于 AMD 硬件生态系统构建的大型混合专家(MoE)模型,其训练过程完全在 IBM 云上进行,使用了 AMD Instinct MI300X GPU、Pensando 网络技术和 ROCm 软件平台,其详细技术报告已在 arXiv 上发布。

三方为训练 ZAYA1 模型,共同搭建了一个大规模、高可靠性的专用训练集群。该集群由 128 个节点组成,每个节点配备 8 块 AMD MI300X GPU,总计 1024 块 GPU,通过 AMD InfinityFabric 高速互联。

整个集群的实际训练性能超过 750 PFLOPs(每秒 75 亿亿次浮点运算),同时 Zyphra 为确保了训练过程的稳定与高效,还开发了一套针对 AMD 平台高度优化的训练框架。
ZAYA1 基础模型在预训练阶段使用了高达 14 万亿(14T)tokens 的数据,并采用了分阶段的课程学习策略:从初期的非结构化网络数据,逐步过渡到结构更清晰、信息密度更高的数学、代码和推理数据。

基准测试结果显示,ZAYA1 的综合性能与业界领先的 Qwen3 系列模型不相上下,同时优于 SmolLM3、Phi4 等主流开源模型。特别是在未经特定指令微调的情况下,其推理版本在数学和 STEM 等复杂推理任务上已接近 Qwen3 的专业版本。


ZAYA1 的优异性能还得益于其在模型架构上的两项关键创新。首先,它采用了新颖的 CCA 注意力机制(Compressive Convolutional Attention),通过在注意力模块内部引入卷积操作,显著降低了计算量和显存占用。
其次,该模型改进了混合专家模型(MoE)中常用的线性路由(linear router),设计了新的路由结构,提升了模型的表达能力和专家模块的专业化程度。这些创新共同解决了 Transformer 架构中的计算与内存瓶颈。
Zyphra 表示,ZAYA1 的成功发布只是第一步。目前公布的仅为基础模型预览,未来团队将发布经过完整后训练(post-trained)的模型版本,并提供更详尽的性能评测和训练经验分享。

《挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
韩国将试点用 AI 治理交叉路口堵车:可警告红灯亮起后仍滞留路口的车辆
该系统将对在绿灯亮起时进入交叉路口,但红灯亮起后仍滞留在路口、阻碍交通的车辆发出警告,因交通事故或车辆故障等不可避免的紧急情况而被迫停留的车辆除外。... -
1 米 3 宇树 G1 完美上篮,港科大解锁全球首个真实篮球机器人 Demo
虽然团队还没公开完整的技术细节,但结合他们此前让机器人“打篮球”的工作,这次很可能是在之前研究的基础上,进一步改良而来。... -
Anthropic 重磅警告:教 AI 作弊,它会学会背叛和破坏
Anthropic 的对齐团队于 11 月 21 日发布突破性研究,首次证实了现实的 AI 训练过程可能无意中催生出具有“目标错位”(misalignment)的 AI 模型。... -
Nano Banana 新玩法可生成无限套娃图,“GPT-5 都不会处理这种级别的递归”
Nano Banana 画图,看起来是在用同样的元素套娃,但其实看起来相同的部分是分别随机噪声生成的。... -
马斯克开始用 Grok 替代员工了!最惨部门裁员 90%
据 The Information 消息,上个月有两位知情人士向他们透露,马斯克解雇了 X 公司里负责打击垃圾邮件、影响力行动、非法内容以及其他信任与安全问题的工程团队的一半成员。...

















