deep-dives

LLMs auf Proxmox selbst hosten: Der vollständige Praxis-Guide

Von der GPU-Passthrough-Konfiguration bis zum fertigen API-Endpunkt: Wie du lokale KI-Modelle auf Proxmox VE mit Ollama oder vLLM produktionsreif betreibst.

Proxmox vLLM Ollama Self-Hosting GPU-Passthrough KI-Infrastruktur

Self-Hosting von LLMs ist 2026 einfacher denn je — zumindest in der Theorie. In der Praxis lauern zwischen „ich hab eine GPU” und „mein Agent nutzt ein lokales Modell” einige Fallstricke. Dieser Guide führt durch den kompletten Weg: von der Proxmox-Konfiguration über GPU-Passthrough bis zum fertigen API-Endpunkt, den OpenClaw (oder jedes andere Framework) direkt ansprechen kann.

Warum Proxmox?

Proxmox VE (Virtual Environment) ist ein Open-Source-Hypervisor auf Debian-Basis. Er kombiniert KVM-Virtualisierung mit LXC-Containern und bietet eine Web-Oberfläche, die Proxmox zum De-facto-Standard für Homelab-Server gemacht hat.

Für LLM-Hosting ist Proxmox ideal, weil:

Hardware-Anforderungen

Minimum (7B-Modelle, z.B. Llama 3.1 7B, Qwen 2.5 7B)

Empfohlen (13B–34B-Modelle)

High-End (70B+ Modelle)

Wichtig: AMD-GPUs funktionieren mit ROCm, aber die Ecosystem-Unterstützung ist bei NVIDIA (CUDA) deutlich besser. Für ein Homelab: kaufe NVIDIA.

Schritt 1: GPU-Passthrough konfigurieren

GPU-Passthrough bedeutet: Die physische GPU wird direkt an eine VM durchgereicht. Die VM sieht die GPU als native Hardware — kein Software-Rendering, kein Performance-Verlust.

BIOS/UEFI

Zuerst im BIOS:

Proxmox Host konfigurieren

Kernel-Parameter setzen in /etc/default/grub:

# Intel
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt"

# AMD
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"

Dann:

update-grub

VFIO-Module laden — in /etc/modules:

vfio
vfio_iommu_type1
vfio_pci
vfio_virqfd

GPU für VFIO reservieren. Erst die PCI-IDs der GPU finden:

lspci -nn | grep -i nvidia
# Ausgabe z.B.: 01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GA102 [GeForce RTX 3090] [10de:2204]
# Die IDs sind: 10de:2204 (GPU) und 10de:1aef (Audio)

In /etc/modprobe.d/vfio.conf:

options vfio-pci ids=10de:2204,10de:1aef

NVIDIA-Treiber blacklisten in /etc/modprobe.d/blacklist.conf:

blacklist nouveau
blacklist nvidia
blacklist nvidiafb
update-initramfs -u
reboot

VM erstellen

In der Proxmox Web-UI:

  1. Neue VM erstellen (Ubuntu 22.04 oder 24.04 LTS)
  2. Machine Type: q35
  3. BIOS: OVMF (UEFI)
  4. CPU: host (wichtig für AVX-Support)
  5. RAM: 32+ GB
  6. PCI Device hinzufügen: Die NVIDIA GPU auswählen, „All Functions” und „PCI-Express” aktivieren

Schritt 2: NVIDIA-Treiber in der VM

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential linux-headers-$(uname -r)

# NVIDIA-Treiber installieren
sudo apt install -y nvidia-driver-550 nvidia-utils-550

# CUDA Toolkit (für vLLM)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-6

# Verifizieren
nvidia-smi

Du solltest jetzt deine GPU mit Temperatur, VRAM und Treiber-Version sehen.

Schritt 3a: Ollama (der einfache Weg)

Ollama ist der schnellste Weg zu einem lokalen LLM. Installation:

curl -fsSL https://ollama.com/install.sh | sh

Modell herunterladen und starten:

ollama pull llama3.1:8b
ollama serve

Ollama startet einen API-Server auf Port 11434. Die API ist OpenAI-kompatibel:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hallo!"}]}'

Vorteile: Einfach, automatisches Quantisieren, gute CLI-Tools. Nachteile: Langsamer als vLLM bei hohem Durchsatz, weniger Konfigurationsoptionen.

Schritt 3b: vLLM (der performante Weg)

vLLM ist optimiert für hohen Durchsatz und niedrige Latenz. Es nutzt PagedAttention für effizienteres Memory-Management.

pip install vllm

# Server starten
vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 32768

vLLM bietet eine vollständig OpenAI-kompatible API auf Port 8000.

Vorteile: Höherer Durchsatz, Batching, besser für Produktion. Nachteile: Mehr Setup, braucht volle GPU (kein automatisches Quantisieren wie Ollama).

Schritt 4: In OpenClaw einbinden

Sobald der API-Server läuft, kann OpenClaw ihn als Custom-Provider nutzen. In der OpenClaw-Konfiguration:

{
  "providers": {
    "local-llm": {
      "type": "openai-compatible",
      "baseUrl": "http://192.168.1.100:8000/v1",
      "models": ["meta-llama/Meta-Llama-3.1-8B-Instruct"]
    }
  }
}

Jetzt kannst du das lokale Modell als Default für Recherche-Tasks setzen — die Token kosten dann exakt $0.00.

Performance-Tipps

  1. NVMe statt SATA: Modelle laden von NVMe ist 5-10× schneller
  2. Quantisierung: GGUF Q4_K_M bietet 95% der Qualität bei 50% des VRAM-Bedarfs
  3. KV-Cache: Bei vLLM --kv-cache-dtype fp8 setzen für mehr gleichzeitige Requests
  4. Monitoring: nvidia-smi dmon für Echtzeit-GPU-Monitoring
  5. Hugepages: Für große Modelle Hugepages in Proxmox konfigurieren

Wann lohnt sich Self-Hosting?

Ehrliche Antwort: Für die meisten Nutzer lohnt es sich noch nicht. Die API-Preise von DeepSeek ($0.28/M Input) sind so niedrig, dass sich eine eigene GPU erst bei konstantem, hohem Durchsatz rechnet.

Self-Hosting lohnt sich wenn:

Für alle anderen: Nutzt die APIs und investiert die gesparte Zeit in bessere Prompts und Agent-Architektur.

Fazit

Proxmox + GPU-Passthrough + Ollama/vLLM ist ein solides Setup für lokales LLM-Hosting. Die Einrichtung dauert einen Nachmittag, und das Ergebnis ist ein OpenAI-kompatibler API-Endpunkt, den jedes Framework nutzen kann.

Aber vergesst nicht: Das beste Modell ist das, das eure Aufgabe löst — egal ob es in eurem Keller läuft oder in einem Rechenzentrum in Utah. Self-Hosting ist kein Selbstzweck. Es ist ein Werkzeug. Und manchmal ist das bessere Werkzeug eine API für $0.28 pro Million Tokens.

Quellen

Alle Beiträge