如何在 30 分鐘內使用 vLLM 在本地部署 Llama 4

簡介

在本地執行大型語言模型可以讓您完全控制資料、消除 API 成本並實現無限的實驗。在本指南中，我們將使用 vLLM 部署 Meta 的 Llama 4 Maverick (70B)，vLLM** 是一種高吞吐量推理引擎，使本地 LLM 部署實用且高效能。

在本教程結束時，您將擁有一個與 OpenAI API 格式相容的功能齊全的本地 LLM API 端點。

先決條件

開始之前，請確保您擁有：

GPU：具有至少 48GB VRAM 的 NVIDIA GPU（推薦 A100 80GB，或 2x RTX 4090）
系統 RAM：推薦 64GB+
儲存：150GB+ 模型權重可用空間
作業系統：Linux（推薦 Ubuntu 22.04+）或 Windows 上的 WSL2
Python：3.10 或 3.11
CUDA：12.1 或更高版本

## 步驟 1：設定環境

建立一個乾淨的Python環境：

__程式碼_塊_0__

## 步驟 2：安裝 vLLM

安裝 vLLM 及其所有依賴項：

__程式碼_塊_1__

驗證安裝：

__程式碼_塊_2__

## 步驟 3：下載 Llama 4 模型

首先，在 Hugging Face 上請求訪問 Llama 4，然後下載模型：

__程式碼_塊_3__

此下載將需要 30-60 分鐘，具體取決於您的網際網路速度（型號約為 140GB）。

步驟 4：啟動 vLLM 伺服器

啟動 vLLM OpenAI 相容伺服器：

__程式碼_塊_4__

關鍵引數： - --tensor-parallel-size 2：跨 2 個 GPU 拆分模型 - --max-model-len 32768：最大上下文長度 - --gpu-memory-utilization 0.90：使用 90% 的可用 VRAM

## 步驟 5：測試 API

伺服器執行後，使用curl對其進行測試：

__程式碼_塊_5__

或者使用 OpenAI Python 客戶端：

__程式碼_塊_6__

## 步驟 6：最佳化效能

### 啟用量化（對於較低的 VRAM）

如果您的 VRAM 有限，請使用 AWQ 量化：

__程式碼_塊_7__

這將 VRAM 要求減少到大約 40GB，同時保持模型的大部分質量。

效能調整

__程式碼_塊_8__

## 故障排除

### 常見問題

記憶體不足錯誤： - 將 --max-model-len 減少到 8192 或 4096 - 如果您有更多 GPU，則增加 --tensor-parallel-size - 使用量化模型變體

慢速生成： - 確保 CUDA 已正確安裝：nvidia-smi 應顯示您的 GPU - 在推理過程中檢查 GPU 利用率 - 為長輸入啟用 --enable-chunked-prefill

模型載入失敗： - 驗證您有足夠的磁碟空間 - 檢查擁抱臉訪問許可權 - 嘗試使用 --resume-download 標誌下載

## 結論

現在，您已擁有一個功能齊全的 Llama 4 部署，並使用與 OpenAI 相容的 API 在本地執行。此設定適用於開發、測試甚至輕型生產工作負載。對於生產部署，請考慮新增反向代理、身份驗證和監控。

建議的後續步驟

探索使用 LoRA 針對您的特定用例進行微調
設定 Kubernetes 叢集以進行可擴充套件的 GPU 推理
實施 RAG 以使用您自己的資料增強 Llama 4

如何在 30 分鐘內使用 vLLM 在本地部署 Llama 4

簡介

先決條件

步驟 4：啟動 vLLM 伺服器

效能調整

建議的後續步驟

相關文章

Meta 開源 Llama 4 — 適合所有人的 400B 引數模型

使用 LoRA 微調任何法學碩士：實用指南

為 AI 模型服務設定 Kubernetes GPU 叢集

掌握AI前沿動態