英特尔升级多显卡 AI 推理，Battlematrix 整体性能最高提升 80%

作者

2025-08-14

20次阅读

人工智能

英特尔为其 Battlematrix 项目发布了首个重磅软件更新 LLM Scaler v1.0，重点优化了其锐炫 Pro 系列 GPU 的 AI 推理能力。* 背景：Battlematrix 是英特尔推出的推理工作站平台，支持最多 8 张锐炫 Pro 显卡，能运行高达 150B 参数的中等规模 AI 模型。* 核心更新：LLM Scaler v1.0 是基于 vLLM 框架开发的 AI 大模型推理容器，通过优化 vLLM 推理框架，使 70B KPI 模型的性能提升高达 4.2 倍，并将 8B 至 32B 规模模型的输出吞吐量提升约 10%。* 技术亮点： * 引入分层在线量化技术，有效降低显存占用。 * 支持管道并行、数据并行及多模态模型，提升了模型的适应性与扩展性。 * 集成了 XPU Manager 工具，支持 GPU 电源管理、固件升级等企业级运维功能。* 性能成果：新容器利用多 GPU 扩展和 PCIe 点对点数据传输，实现了最高 80% 的整体性能提升。* 未来规划：英特尔计划在今年第四季度实现 Battlematrix 项目的全功能版本落地。