2026 最新实战：在单卡 48GB GPU 上部署 Qwen3.5-35B-A3B MoE 模型（vLLM + Open WebUI 完整指南）

为什么选择 Qwen3.5-35B-A3B？

Qwen3.5-35B-A3B 是阿里通义千问团队于 2026 年初发布的混合专家（MoE）模型，具备以下优势：

小体积，大能力：总参数量 35B，但每次推理仅激活约 3B 参数，显存占用远低于同级别 Dense 模型。
超长上下文：原生支持 262,144 tokens，轻松处理长文档、代码库。
开源免费：采用 Apache 2.0 协议，可商用，权重已在 ModelScope 魔搭社区公开。
性能卓越：在多项基准测试中超越前代 Qwen3-235B-A22B，推理成本更低。

对于拥有单张 48GB GPU（如 A6000、RTX 6000 Ada）的用户，它是目前能本地部署的最强 MoE 模型。

环境配置（无需虚拟环境，全局安装即可）

[tip type=”info” display=”custom-class”]重要提示：经大量用户反馈，VLLM 与 Open WebUI 必须在同一 Python 环境中运行，否则会出现模块缺失或 API 不兼容问题。因此，直接使用全局环境是最简单可靠的方案。[/tip]

# 升级 pip（避免旧版 pip 的编译问题）
pip install --upgrade pip

#安装魔塔社区的包
pip install modelscope

# 安装 vLLM（自动匹配 CUDA 版本）
pip install vllm

# 安装 FlashAttention（加速注意力计算）
pip install flash-attn --no-build-isolation

# 安装webui聊天界面
pip install open-webui

单卡部署：Qwen3.5-35B-A3B 快速启动

下载模型（以 Qwen3.5-35B-A3B 为例）

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen3.5-35B-A3B',cache_dir='./')

单卡部署：启动 vLLM 服务

vllm serve ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --max_model_len 262144 \
  --gpu_memory_utilization 0.85

参数详解（针对 MoE 模型优化）：

参数	推荐值	说明
`--dtype`	`bfloat16`	MoE 模型必须用 `bfloat16`，`auto` 可能导致精度下降
`--port`	`5000`	API 服务端口（可自定义）
`--max_model_len`	`262144`	启用模型最大上下文长度（爆显存时可降至 131072）
`--gpu_memory_utilization`	`0.85`	48GB 显存安全值（若爆显存，逐步降至 0.8 → 0.75）

[tip type=”info” display=”custom-class”] 显存占用参考（48GB GPU）：
上下文 262K：~41GB
上下文 131K：~38GB
上下文 65K：~35GB[/tip]

集成 Open WebUI（图形化聊天界面）

# 启用网络加速（AutoDL 用户必备）
source /etc/network_turbo

# 设置环境变量（关键！）
export HF_ENDPOINT=https://hf-mirror.com          # Hugging Face 镜像加速
export ENABLE_OLLAMA_API=False                    # 禁用 Ollama 兼容层
export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1  # 指向 vLLM API
export DEFAULT_MODELS="Qwen3.5-35B-A3B"           # 必须与模型文件夹名一致

# 启动 WebUI（默认端口 8080，此处改为 6006）
open-webui serve --port 6006

访问界面

浏览器打开：
👉 http://你的服务器IP:6006

多卡部署（扩展参考）

[tip type=”worning” display=”custom-class”]注意：Qwen3.5-35B-A3B 仅支持张量并行（Tensor Parallelism），不支持流水线并行。[/tip]

# 2 卡示例（如 2×A6000）
vllm serve ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --tensor-parallel-size 2 \
  --gpu_memory_utilization 0.8 \
  --max_model_len 262144

并行策略：

–tensor-parallel-size N：必须等于 GPU 数量（如 2 卡设为 2）。
不要设置 –pipeline-parallel-size：MoE 模型不兼容。

OpenAI 格式 API 调用

启动兼容 API 服务（等效于 vllm serve）

python -m vllm.entrypoints.openai.api_server \
  --served-model-name Qwen3.5-35B-A3B \
  --model ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --max_model_len 262144 \
  --gpu_memory_utilization 0.85

Python 调用示例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:5000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=[{"role": "user", "content": "请用 262K 上下文分析以下代码库..."}],
    max_tokens=500
)
print(response.choices[0].message.content)