LLMs auf Proxmox selbst hosten: Der vollständige Praxis-Guide
Von der GPU-Passthrough-Konfiguration bis zum fertigen API-Endpunkt: Wie du lokale KI-Modelle auf Proxmox VE mit Ollama oder vLLM produktionsreif betreibst.
Self-Hosting von LLMs ist 2026 einfacher denn je — zumindest in der Theorie. In der Praxis lauern zwischen „ich hab eine GPU” und „mein Agent nutzt ein lokales Modell” einige Fallstricke. Dieser Guide führt durch den kompletten Weg: von der Proxmox-Konfiguration über GPU-Passthrough bis zum fertigen API-Endpunkt, den OpenClaw (oder jedes andere Framework) direkt ansprechen kann.
Warum Proxmox?
Proxmox VE (Virtual Environment) ist ein Open-Source-Hypervisor auf Debian-Basis. Er kombiniert KVM-Virtualisierung mit LXC-Containern und bietet eine Web-Oberfläche, die Proxmox zum De-facto-Standard für Homelab-Server gemacht hat.
Für LLM-Hosting ist Proxmox ideal, weil:
- GPU-Passthrough (PCI/VFIO) stabil funktioniert
- Isolation: Das LLM läuft in einer VM, getrennt von anderen Diensten
- Snapshots: Vor riskanten Änderungen einfach snapshotten
- Templates: Eine funktionierende VM als Template speichern und bei Bedarf klonen
- Kostenlos: Die Community Edition reicht für alles, was wir hier machen
Hardware-Anforderungen
Minimum (7B-Modelle, z.B. Llama 3.1 7B, Qwen 2.5 7B)
- NVIDIA GPU mit 8 GB VRAM (RTX 3060, RTX 4060)
- 32 GB RAM (System)
- 4+ CPU-Kerne für die VM
- 100 GB SSD-Speicher für Modelle
Empfohlen (13B–34B-Modelle)
- NVIDIA GPU mit 16–24 GB VRAM (RTX 3090, RTX 4090, A5000)
- 64 GB RAM
- 8+ CPU-Kerne
- 500 GB NVMe SSD
High-End (70B+ Modelle)
- 2× NVIDIA GPUs mit 24+ GB VRAM oder 1× A100/H100
- 128 GB RAM
- 500 GB+ NVMe
Wichtig: AMD-GPUs funktionieren mit ROCm, aber die Ecosystem-Unterstützung ist bei NVIDIA (CUDA) deutlich besser. Für ein Homelab: kaufe NVIDIA.
Schritt 1: GPU-Passthrough konfigurieren
GPU-Passthrough bedeutet: Die physische GPU wird direkt an eine VM durchgereicht. Die VM sieht die GPU als native Hardware — kein Software-Rendering, kein Performance-Verlust.
BIOS/UEFI
Zuerst im BIOS:
- IOMMU aktivieren (Intel: VT-d, AMD: AMD-Vi)
- SR-IOV aktivieren (falls vorhanden)
- Above 4G Decoding aktivieren
- Resizable BAR aktivieren (optional, hilft bei Performance)
Proxmox Host konfigurieren
Kernel-Parameter setzen in /etc/default/grub:
# Intel
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt"
# AMD
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"
Dann:
update-grub
VFIO-Module laden — in /etc/modules:
vfio
vfio_iommu_type1
vfio_pci
vfio_virqfd
GPU für VFIO reservieren. Erst die PCI-IDs der GPU finden:
lspci -nn | grep -i nvidia
# Ausgabe z.B.: 01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GA102 [GeForce RTX 3090] [10de:2204]
# Die IDs sind: 10de:2204 (GPU) und 10de:1aef (Audio)
In /etc/modprobe.d/vfio.conf:
options vfio-pci ids=10de:2204,10de:1aef
NVIDIA-Treiber blacklisten in /etc/modprobe.d/blacklist.conf:
blacklist nouveau
blacklist nvidia
blacklist nvidiafb
update-initramfs -u
reboot
VM erstellen
In der Proxmox Web-UI:
- Neue VM erstellen (Ubuntu 22.04 oder 24.04 LTS)
- Machine Type: q35
- BIOS: OVMF (UEFI)
- CPU:
host(wichtig für AVX-Support) - RAM: 32+ GB
- PCI Device hinzufügen: Die NVIDIA GPU auswählen, „All Functions” und „PCI-Express” aktivieren
Schritt 2: NVIDIA-Treiber in der VM
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential linux-headers-$(uname -r)
# NVIDIA-Treiber installieren
sudo apt install -y nvidia-driver-550 nvidia-utils-550
# CUDA Toolkit (für vLLM)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-6
# Verifizieren
nvidia-smi
Du solltest jetzt deine GPU mit Temperatur, VRAM und Treiber-Version sehen.
Schritt 3a: Ollama (der einfache Weg)
Ollama ist der schnellste Weg zu einem lokalen LLM. Installation:
curl -fsSL https://ollama.com/install.sh | sh
Modell herunterladen und starten:
ollama pull llama3.1:8b
ollama serve
Ollama startet einen API-Server auf Port 11434. Die API ist OpenAI-kompatibel:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hallo!"}]}'
Vorteile: Einfach, automatisches Quantisieren, gute CLI-Tools. Nachteile: Langsamer als vLLM bei hohem Durchsatz, weniger Konfigurationsoptionen.
Schritt 3b: vLLM (der performante Weg)
vLLM ist optimiert für hohen Durchsatz und niedrige Latenz. Es nutzt PagedAttention für effizienteres Memory-Management.
pip install vllm
# Server starten
vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 32768
vLLM bietet eine vollständig OpenAI-kompatible API auf Port 8000.
Vorteile: Höherer Durchsatz, Batching, besser für Produktion. Nachteile: Mehr Setup, braucht volle GPU (kein automatisches Quantisieren wie Ollama).
Schritt 4: In OpenClaw einbinden
Sobald der API-Server läuft, kann OpenClaw ihn als Custom-Provider nutzen. In der OpenClaw-Konfiguration:
{
"providers": {
"local-llm": {
"type": "openai-compatible",
"baseUrl": "http://192.168.1.100:8000/v1",
"models": ["meta-llama/Meta-Llama-3.1-8B-Instruct"]
}
}
}
Jetzt kannst du das lokale Modell als Default für Recherche-Tasks setzen — die Token kosten dann exakt $0.00.
Performance-Tipps
- NVMe statt SATA: Modelle laden von NVMe ist 5-10× schneller
- Quantisierung: GGUF Q4_K_M bietet 95% der Qualität bei 50% des VRAM-Bedarfs
- KV-Cache: Bei vLLM
--kv-cache-dtype fp8setzen für mehr gleichzeitige Requests - Monitoring:
nvidia-smi dmonfür Echtzeit-GPU-Monitoring - Hugepages: Für große Modelle Hugepages in Proxmox konfigurieren
Wann lohnt sich Self-Hosting?
Ehrliche Antwort: Für die meisten Nutzer lohnt es sich noch nicht. Die API-Preise von DeepSeek ($0.28/M Input) sind so niedrig, dass sich eine eigene GPU erst bei konstantem, hohem Durchsatz rechnet.
Self-Hosting lohnt sich wenn:
- Du bereits GPU-Hardware hast (Gaming-PC, Workstation)
- Datenschutz kritisch ist (medizinische, juristische Daten)
- Du experimentieren willst (Fine-Tuning, Custom-Modelle)
- Du kein Internet hast (Edge-Deployment, Offline-Szenarien)
Für alle anderen: Nutzt die APIs und investiert die gesparte Zeit in bessere Prompts und Agent-Architektur.
Fazit
Proxmox + GPU-Passthrough + Ollama/vLLM ist ein solides Setup für lokales LLM-Hosting. Die Einrichtung dauert einen Nachmittag, und das Ergebnis ist ein OpenAI-kompatibler API-Endpunkt, den jedes Framework nutzen kann.
Aber vergesst nicht: Das beste Modell ist das, das eure Aufgabe löst — egal ob es in eurem Keller läuft oder in einem Rechenzentrum in Utah. Self-Hosting ist kein Selbstzweck. Es ist ein Werkzeug. Und manchmal ist das bessere Werkzeug eine API für $0.28 pro Million Tokens.