如何在 30 分钟内使用 vLLM 在本地部署 Llama 4

简介

在本地运行大型语言模型可以让您完全控制数据、消除 API 成本并实现无限的实验。在本指南中，我们将使用 vLLM 部署 Meta 的 Llama 4 Maverick (70B)，vLLM** 是一种高吞吐量推理引擎，使本地 LLM 部署实用且高性能。

在本教程结束时，您将拥有一个与 OpenAI API 格式兼容的功能齐全的本地 LLM API 端点。

先决条件

开始之前，请确保您拥有：

GPU：具有至少 48GB VRAM 的 NVIDIA GPU（推荐 A100 80GB，或 2x RTX 4090）
系统 RAM：推荐 64GB+
存储：150GB+ 模型权重可用空间
操作系统：Linux（推荐 Ubuntu 22.04+）或 Windows 上的 WSL2
Python：3.10 或 3.11
CUDA：12.1 或更高版本

## 步骤 1：设置环境

创建一个干净的Python环境：

__代码_块_0__

## 步骤 2：安装 vLLM

安装 vLLM 及其所有依赖项：

__代码_块_1__

验证安装：

__代码_块_2__

## 步骤 3：下载 Llama 4 模型

首先，在 Hugging Face 上请求访问 Llama 4，然后下载模型：

__代码_块_3__

此下载将需要 30-60 分钟，具体取决于您的互联网速度（型号约为 140GB）。

步骤 4：启动 vLLM 服务器

启动 vLLM OpenAI 兼容服务器：

__代码_块_4__

关键参数： - --tensor-parallel-size 2：跨 2 个 GPU 拆分模型 - --max-model-len 32768：最大上下文长度 - --gpu-memory-utilization 0.90：使用 90% 的可用 VRAM

## 步骤 5：测试 API

服务器运行后，使用curl对其进行测试：

__代码_块_5__

或者使用 OpenAI Python 客户端：

__代码_块_6__

## 步骤 6：优化性能

### 启用量化（对于较低的 VRAM）

如果您的 VRAM 有限，请使用 AWQ 量化：

__代码_块_7__

这将 VRAM 要求减少到大约 40GB，同时保持模型的大部分质量。

性能调整

__代码_块_8__

## 故障排除

### 常见问题

内存不足错误： - 将 --max-model-len 减少到 8192 或 4096 - 如果您有更多 GPU，则增加 --tensor-parallel-size - 使用量化模型变体

慢速生成： - 确保 CUDA 已正确安装：nvidia-smi 应显示您的 GPU - 在推理过程中检查 GPU 利用率 - 为长输入启用 --enable-chunked-prefill

模型加载失败： - 验证您有足够的磁盘空间 - 检查拥抱脸访问权限 - 尝试使用 --resume-download 标志下载

## 结论

现在，您已拥有一个功能齐全的 Llama 4 部署，并使用与 OpenAI 兼容的 API 在本地运行。此设置适用于开发、测试甚至轻型生产工作负载。对于生产部署，请考虑添加反向代理、身份验证和监控。

建议的后续步骤

探索使用 LoRA 针对您的特定用例进行微调
设置 Kubernetes 集群以进行可扩展的 GPU 推理
实施 RAG 以使用您自己的数据增强 Llama 4

如何在 30 分钟内使用 vLLM 在本地部署 Llama 4

简介

先决条件

步骤 4：启动 vLLM 服务器

性能调整

建议的后续步骤

相关文章

Meta 开源 Llama 4 — 适合所有人的 400B 参数模型

使用 LoRA 微调任何法学硕士：实用指南

为 AI 模型服务设置 Kubernetes GPU 集群

掌握AI前沿动态