VLLM

4月13日 · 2026年

2026 最新实战：在单卡 48GB GPU 上部署 Qwen3.5-35B-A3B MoE 模型（vLLM + Open WebUI 完整指南）

6 0 0

一、为什么选择 Qwen3.5-35B-A3B？ Qwen3.5-35B-A3B 是阿里通义千问团队于 2026 年初发布的混合专家（MoE）模型，具备以下优势：小体积，大能力：总参数量 35B，但每次推理仅激活约 3B 参数，显存占用远低于同级别 Dense 模型。超长上下...