10 月 17 日消息,EXO Labs 昨日展示了其“分布式推理”新成果,解决了被部分网友戏称为“世纪难题”的选择问题 —— 买 AI 小主机究竟是买苹果 Mac Studio 还是买英伟达 DGX Spark?
如图所示,EXO Labs 同时使用了两台 NVIDIA DGX Spark 与一台搭载 M3 Ultra 芯片的 Mac Studio,在 AI 大语言模型推理测试中取得 2.8 倍性能提升。
该成果基于 EXO Labs 的开源项目 EXO,该框架旨在让大语言模型(LLM)能够高效运行于不同硬件的混合环境中。
与传统仅依赖单一 GPU 或加速器的推理方式不同,EXO 可将工作负载自动分配到多种设备上,使台式机、笔记本、服务器甚至平板电脑与智能手机组成类似 WiFi Mesh 网络的“AI Mesh”。
DGX Spark 与 M3 Ultra 的互补组合
正如 EXO 所述,3999 美元(IT之家注:现汇率约合 28505 元人民币)的 DGX Spark 侧重计算性能,而 5599 美元(现汇率约合 39910 元人民币) Mac Studio 则在数据带宽上更具优势。在这里,EXO 直接将两台 DGX Spark 与一台 Mac Studio 组合成统一的 AI 系统。
大型语言模型的推理过程通常分为两个阶段:
预填充(prefill)阶段:模型读取和处理输入提示,这一阶段主要受计算性能限制;
解码(decode)阶段:模型逐个生成新词元(token),此过程更依赖内存带宽。
EXO 的方案是将两阶段分配给不同设备执行:
DGX Spark 负责计算密集的预填充任务,而 M3 Ultra 负责带宽敏感的解码任务。系统通过逐层传输模型的内部数据(称为 KV 缓存),实现两台设备的同时工作,而非依次等待。
在使用 Meta Llama-3.1 8B 模型进行的基准测试中,该混合架构相较单独使用 Mac Studio,推理性能提升 2.8 倍。测试中 DGX Spark 的预填充速度比 Mac Studio 快 3.8 倍,而 Mac Studio 的生成速度又比 DGX Spark 快 3.4 倍,实现了性能互补。