AI/系统运维

2026 最新实战:在单卡 48GB GPU 上部署 Qwen3.5-35B-A3B MoE 模型(vLLM + Open WebUI 完整指南)

daimafengzi · 4月13日 · 2026年 · · · · 本文共2420个字 · 预计阅读9分钟 4次已读

为什么选择 Qwen3.5-35B-A3B?

Qwen3.5-35B-A3B 是阿里通义千问团队于 2026 年初发布的 混合专家(MoE)模型,具备以下优势:

  • 小体积,大能力:总参数量 35B,但每次推理仅激活约 3B 参数,显存占用远低于同级别 Dense 模型。
  • 超长上下文:原生支持 262,144 tokens,轻松处理长文档、代码库。
  • 开源免费:采用 Apache 2.0 协议,可商用,权重已在 ModelScope 魔搭社区 公开。
  • 性能卓越:在多项基准测试中超越前代 Qwen3-235B-A22B,推理成本更低。

对于拥有 单张 48GB GPU(如 A6000、RTX 6000 Ada)的用户,它是目前能本地部署的 最强 MoE 模型。

环境配置(无需虚拟环境,全局安装即可)

[tip type=”info” display=”custom-class”]重要提示:经大量用户反馈,VLLM 与 Open WebUI 必须在同一 Python 环境中运行,否则会出现模块缺失或 API 不兼容问题。因此,直接使用全局环境是最简单可靠的方案。[/tip]

# 升级 pip(避免旧版 pip 的编译问题)
pip install --upgrade pip

#安装魔塔社区的包
pip install modelscope

# 安装 vLLM(自动匹配 CUDA 版本)
pip install vllm

# 安装 FlashAttention(加速注意力计算)
pip install flash-attn --no-build-isolation

# 安装webui聊天界面
pip install open-webui

单卡部署:Qwen3.5-35B-A3B 快速启动

下载模型(以 Qwen3.5-35B-A3B 为例)

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen3.5-35B-A3B',cache_dir='./')

单卡部署:启动 vLLM 服务

vllm serve ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --max_model_len 262144 \
  --gpu_memory_utilization 0.85

参数详解(针对 MoE 模型优化):

参数 推荐值 说明
--dtype bfloat16 MoE 模型必须用 bfloat16auto 可能导致精度下降
--port 5000 API 服务端口(可自定义)
--max_model_len 262144 启用模型最大上下文长度(爆显存时可降至 131072)
--gpu_memory_utilization 0.85 48GB 显存安全值(若爆显存,逐步降至 0.8 → 0.75)

[tip type=”info” display=”custom-class”] 显存占用参考(48GB GPU):
上下文 262K:~41GB
上下文 131K:~38GB
上下文 65K:~35GB[/tip]

集成 Open WebUI(图形化聊天界面)

# 启用网络加速(AutoDL 用户必备)
source /etc/network_turbo

# 设置环境变量(关键!)
export HF_ENDPOINT=https://hf-mirror.com          # Hugging Face 镜像加速
export ENABLE_OLLAMA_API=False                    # 禁用 Ollama 兼容层
export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1  # 指向 vLLM API
export DEFAULT_MODELS="Qwen3.5-35B-A3B"           # 必须与模型文件夹名一致

# 启动 WebUI(默认端口 8080,此处改为 6006)
open-webui serve --port 6006

访问界面

浏览器打开:
👉 http://你的服务器IP:6006

多卡部署(扩展参考)

[tip type=”worning” display=”custom-class”]注意:Qwen3.5-35B-A3B 仅支持张量并行(Tensor Parallelism),不支持流水线并行。[/tip]

# 2 卡示例(如 2×A6000)
vllm serve ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --tensor-parallel-size 2 \
  --gpu_memory_utilization 0.8 \
  --max_model_len 262144

并行策略:

  • –tensor-parallel-size N:必须等于 GPU 数量(如 2 卡设为 2)。
  • 不要设置 –pipeline-parallel-size:MoE 模型不兼容。

OpenAI 格式 API 调用

启动兼容 API 服务(等效于 vllm serve)

python -m vllm.entrypoints.openai.api_server \
  --served-model-name Qwen3.5-35B-A3B \
  --model ./Qwen3.5-35B-A3B \
  --dtype bfloat16 \
  --port 5000 \
  --max_model_len 262144 \
  --gpu_memory_utilization 0.85

Python 调用示例

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:5000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=[{"role": "user", "content": "请用 262K 上下文分析以下代码库..."}],
    max_tokens=500
)
print(response.choices[0].message.content)
0 条回应