简介
在本地运行大型语言模型可以让您完全控制数据、消除 API 成本并实现无限的实验。 在本指南中,我们将使用 vLLM 部署 Meta 的 Llama 4 Maverick (70B),vLLM** 是一种高吞吐量推理引擎,使本地 LLM 部署实用且高性能。
在本教程结束时,您将拥有一个与 OpenAI API 格式兼容的功能齐全的本地 LLM API 端点。
先决条件
开始之前,请确保您拥有:
- GPU:具有至少 48GB VRAM 的 NVIDIA GPU(推荐 A100 80GB,或 2x RTX 4090)
- 系统 RAM:推荐 64GB+
- 存储:150GB+ 模型权重可用空间
- 操作系统:Linux(推荐 Ubuntu 22.04+)或 Windows 上的 WSL2
- Python:3.10 或 3.11
- CUDA:12.1 或更高版本
## 步骤 1:设置环境
创建一个干净的Python环境:
__代码_块_0__
## 步骤 2:安装 vLLM
安装 vLLM 及其所有依赖项:
__代码_块_1__
验证安装:
__代码_块_2__
## 步骤 3:下载 Llama 4 模型
首先,在 Hugging Face 上请求访问 Llama 4,然后下载模型:
__代码_块_3__
此下载将需要 30-60 分钟,具体取决于您的互联网速度(型号约为 140GB)。
步骤 4:启动 vLLM 服务器
启动 vLLM OpenAI 兼容服务器:
__代码_块_4__
关键参数: - --tensor-parallel-size 2:跨 2 个 GPU 拆分模型 - --max-model-len 32768:最大上下文长度 - --gpu-memory-utilization 0.90:使用 90% 的可用 VRAM
## 步骤 5:测试 API
服务器运行后,使用curl对其进行测试:
__代码_块_5__
或者使用 OpenAI Python 客户端:
__代码_块_6__
## 步骤 6:优化性能
### 启用量化(对于较低的 VRAM)
如果您的 VRAM 有限,请使用 AWQ 量化:
__代码_块_7__
这将 VRAM 要求减少到大约 40GB,同时保持模型的大部分质量。
性能调整
__代码_块_8__
## 故障排除
### 常见问题
内存不足错误: - 将 --max-model-len 减少到 8192 或 4096 - 如果您有更多 GPU,则增加 --tensor-parallel-size - 使用量化模型变体
慢速生成: - 确保 CUDA 已正确安装:nvidia-smi 应显示您的 GPU - 在推理过程中检查 GPU 利用率 - 为长输入启用 --enable-chunked-prefill
模型加载失败: - 验证您有足够的磁盘空间 - 检查拥抱脸访问权限 - 尝试使用 --resume-download 标志下载
## 结论
现在,您已拥有一个功能齐全的 Llama 4 部署,并使用与 OpenAI 兼容的 API 在本地运行。 此设置适用于开发、测试甚至轻型生产工作负载。 对于生产部署,请考虑添加反向代理、身份验证和监控。
建议的后续步骤
- 探索使用 LoRA 针对您的特定用例进行微调
- 设置 Kubernetes 集群以进行可扩展的 GPU 推理
- 实施 RAG 以使用您自己的数据增强 Llama 4