为什么选择 Qwen3.5-35B-A3B?
Qwen3.5-35B-A3B 是阿里通义千问团队于 2026 年初发布的 混合专家(MoE)模型,具备以下优势:
- 小体积,大能力:总参数量 35B,但每次推理仅激活约 3B 参数,显存占用远低于同级别 Dense 模型。
- 超长上下文:原生支持 262,144 tokens,轻松处理长文档、代码库。
- 开源免费:采用 Apache 2.0 协议,可商用,权重已在 ModelScope 魔搭社区 公开。
- 性能卓越:在多项基准测试中超越前代 Qwen3-235B-A22B,推理成本更低。
对于拥有 单张 48GB GPU(如 A6000、RTX 6000 Ada)的用户,它是目前能本地部署的 最强 MoE 模型。
环境配置(无需虚拟环境,全局安装即可)
[tip type=”info” display=”custom-class”]重要提示:经大量用户反馈,VLLM 与 Open WebUI 必须在同一 Python 环境中运行,否则会出现模块缺失或 API 不兼容问题。因此,直接使用全局环境是最简单可靠的方案。[/tip]
# 升级 pip(避免旧版 pip 的编译问题) pip install --upgrade pip #安装魔塔社区的包 pip install modelscope # 安装 vLLM(自动匹配 CUDA 版本) pip install vllm # 安装 FlashAttention(加速注意力计算) pip install flash-attn --no-build-isolation # 安装webui聊天界面 pip install open-webui
单卡部署:Qwen3.5-35B-A3B 快速启动
下载模型(以 Qwen3.5-35B-A3B 为例)
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen3.5-35B-A3B',cache_dir='./')
单卡部署:启动 vLLM 服务
vllm serve ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --max_model_len 262144 \ --gpu_memory_utilization 0.85
参数详解(针对 MoE 模型优化):
| 参数 | 推荐值 | 说明 |
|---|---|---|
--dtype |
bfloat16 |
MoE 模型必须用 bfloat16,auto 可能导致精度下降 |
--port |
5000 |
API 服务端口(可自定义) |
--max_model_len |
262144 |
启用模型最大上下文长度(爆显存时可降至 131072) |
--gpu_memory_utilization |
0.85 |
48GB 显存安全值(若爆显存,逐步降至 0.8 → 0.75) |
[tip type=”info” display=”custom-class”] 显存占用参考(48GB GPU):
上下文 262K:~41GB
上下文 131K:~38GB
上下文 65K:~35GB[/tip]
集成 Open WebUI(图形化聊天界面)
# 启用网络加速(AutoDL 用户必备) source /etc/network_turbo # 设置环境变量(关键!) export HF_ENDPOINT=https://hf-mirror.com # Hugging Face 镜像加速 export ENABLE_OLLAMA_API=False # 禁用 Ollama 兼容层 export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1 # 指向 vLLM API export DEFAULT_MODELS="Qwen3.5-35B-A3B" # 必须与模型文件夹名一致 # 启动 WebUI(默认端口 8080,此处改为 6006) open-webui serve --port 6006
访问界面
浏览器打开:
👉 http://你的服务器IP:6006
多卡部署(扩展参考)
[tip type=”worning” display=”custom-class”]注意:Qwen3.5-35B-A3B 仅支持张量并行(Tensor Parallelism),不支持流水线并行。[/tip]
# 2 卡示例(如 2×A6000) vllm serve ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --tensor-parallel-size 2 \ --gpu_memory_utilization 0.8 \ --max_model_len 262144
并行策略:
- –tensor-parallel-size N:必须等于 GPU 数量(如 2 卡设为 2)。
- 不要设置 –pipeline-parallel-size:MoE 模型不兼容。
OpenAI 格式 API 调用
启动兼容 API 服务(等效于 vllm serve)
python -m vllm.entrypoints.openai.api_server \ --served-model-name Qwen3.5-35B-A3B \ --model ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --max_model_len 262144 \ --gpu_memory_utilization 0.85
Python 调用示例
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:5000/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="Qwen3.5-35B-A3B",
messages=[{"role": "user", "content": "请用 262K 上下文分析以下代码库..."}],
max_tokens=500
)
print(response.choices[0].message.content)
