分类 AI 下的文章 - 洛维花 – LuoWeiHua – 生命不息，折腾不止！

标签搜索

DaiMaFengZi

累计撰写 588 篇文章
累计收到 9 条评论

搜索到 1 篇与的结果

2026-04-13
2026 最新实战：在单卡 48GB GPU 上部署 Qwen3.5-35B-A3B MoE 模型（vLLM + Open WebUI 完整指南）一、为什么选择 Qwen3.5-35B-A3B？Qwen3.5-35B-A3B 是阿里通义千问团队于 2026 年初发布的混合专家（MoE）模型，具备以下优势：小体积，大能力：总参数量 35B，但每次推理仅激活约 3B 参数，显存占用远低于同级别 Dense 模型。超长上下文：原生支持 262,144 tokens，轻松处理长文档、代码库。开源免费：采用 Apache 2.0 协议，可商用，权重已在 ModelScope 魔搭社区公开。性能卓越：在多项基准测试中超越前代 Qwen3-235B-A22B，推理成本更低。对于拥有单张 48GB GPU（如 A6000、RTX 6000 Ada）的用户，它是目前能本地部署的最强 MoE 模型。二、环境配置（无需虚拟环境，全局安装即可）重要提示：经大量用户反馈，vLLM 与 Open WebUI 必须在同一 Python 环境中运行，否则会出现模块缺失或 API 不兼容问题。因此，直接使用全局环境是最简单可靠的方案。# 升级 pip（避免旧版 pip 的编译问题） pip install --upgrade pip #安装魔塔社区的包 pip install modelscope # 安装 vLLM（自动匹配 CUDA 版本） pip install vllm # 安装 FlashAttention（加速注意力计算） pip install flash-attn --no-build-isolation # 安装webui聊天界面 pip install open-webui三、单卡部署：Qwen3.5-35B-A3B 快速启动1. 下载模型（以 Qwen3.5-35B-A3B 为例）#模型下载 from modelscope import snapshot_download model_dir = snapshot_download('Qwen3.5-35B-A3B',cache_dir='./')四、单卡部署：启动 vLLM 服务vllm serve ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --max_model_len 262144 \ --gpu_memory_utilization 0.85参数详解（针对 MoE 模型优化）：参数推荐值说明--dtypebfloat16MoE 模型必须用 bfloat16，auto 可能导致精度下降--port5000API 服务端口（可自定义）--max_model_len262144启用模型最大上下文长度（爆显存时可降至 131072）--gpu_memory_utilization0.8548GB 显存安全值（若爆显存，逐步降至 0.8 → 0.75）显存占用参考（48GB GPU）：上下文 262K：~41GB上下文 131K：~38GB上下文 65K：~35GB五、集成 Open WebUI（图形化聊天界面）# 启用网络加速（AutoDL 用户必备） source /etc/network_turbo # 设置环境变量（关键！） export HF_ENDPOINT=https://hf-mirror.com # Hugging Face 镜像加速 export ENABLE_OLLAMA_API=False # 禁用 Ollama 兼容层 export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1 # 指向 vLLM API export DEFAULT_MODELS="Qwen3.5-35B-A3B" # 必须与模型文件夹名一致 # 启动 WebUI（默认端口 8080，此处改为 6006） open-webui serve --port 6006访问界面浏览器打开：👉 http://你的服务器IP:6006六、多卡部署（扩展参考）注意：Qwen3.5-35B-A3B 仅支持张量并行（Tensor Parallelism），不支持流水线并行。# 2 卡示例（如 2×A6000） vllm serve ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --tensor-parallel-size 2 \ --gpu_memory_utilization 0.8 \ --max_model_len 262144并行策略：--tensor-parallel-size N：必须等于 GPU 数量（如 2 卡设为 2）。不要设置 --pipeline-parallel-size：MoE 模型不兼容。七、OpenAI 格式 API 调用启动兼容 API 服务（等效于 vllm serve）python -m vllm.entrypoints.openai.api_server \ --served-model-name Qwen3.5-35B-A3B \ --model ./Qwen3.5-35B-A3B \ --dtype bfloat16 \ --port 5000 \ --max_model_len 262144 \ --gpu_memory_utilization 0.85Python 调用示例from openai import OpenAI client = OpenAI( base_url="http://localhost:5000/v1", api_key="not-needed" ) response = client.chat.completions.create( model="Qwen3.5-35B-A3B", messages=[{"role": "user", "content": "请用 262K 上下文分析以下代码库..."}], max_tokens=500 ) print(response.choices[0].message.content)
- 2026年04月13日
- 4 阅读
- 0 评论
- 0 点赞