OpenClaw + Kostenlose LLM Setup-Anleitung 2026: Was wirklich funktioniert

Klingt großartig. Ich habe einen Headless-Server. Ich habe Ollama. Ich habe Träume.

So hat die Realität sie zerschmettert — und wie ich am Ende doch gewonnen habe.

⚡ Update (20. Feb 2026): Die kostenlose LLM-Landschaft hat sich seit Januar rasant entwickelt. Drei Dinge haben sich geändert:

1. Anthropic hat Claude Max-Token in OpenClaw verboten. Falls du mit deinem Max-Abo gelaufen bist, ist das vorbei. Ich habe meins für 15€/Monat mit Kimi K2.5 + MiniMax M2.5 Fallback neu aufgebaut.

2. Neue Modelle sind in den Ring gestiegen. Qwen 3.5 (Alibaba) — native agentische Fähigkeiten, 0,40€/M Input-Token. DeepSeek V3.2 "Speciale" — 88,7% auf LiveCodeBench, MIT-Lizenz, 0,28€/M Input. Beide OpenRouter-kompatibel, direkt in OpenClaw einstöpselbar.

3. NVIDIA hat eine offizielle Anleitung für lokales OpenClaw auf RTX-GPUs mit Ollama veröffentlicht. Falls du eine RTX-Karte hast: LM Studio + 7B-Modell = wirklich 0€.

Meine aktuelle Wahl: Kimi K2.5 über OpenRouter für Claude-ähnliche Qualität für Centbeträge. Ollama + Qwen 3.5 lokal für 0€.

Openclaw LLM-Setup mit Ollama und Qwen-Modell auf lokalem Server — Mein Server beim Versuch, Qwen zu verstehen: Existenzkrise inklusive.

Akt 1: Die Konfigurations-Wildnis

Die offizielle Doku sagte:

{
"api": "openai"
}

Mein Server sagte:

Invalid input

Die tatsächlichen Zauberworte sind:

{
"api": "openai-completions"
}

Ein Bindestrich. Drei Stunden meines Lebens.

Akt 2: Das Modell, das (nicht) konnte

Erster Versuch: qwen2.5:7b — respektable 7 Milliarden Parameter.

Zeit für die Antwort auf "Sag OK": 7 Minuten.

Mein chinesischer Reiskocher aus der Massenproduktion hat bessere Inferenz-Geschwindigkeit.

Akt 3: Der Kontext-Fenster-Verrat

"Gut," sagte ich. "Ich nehme TinyLlama. Es ist winzig. Es ist ein Lama. Was kann schon schiefgehen?"

FailoverError: Model context window too small (2048 tokens). Minimum is 16000.

Clawdbot braucht eine Aufmerksamkeitsspanne auf Doktor-Niveau. TinyLlama hat das Gedächtnis eines Goldfischs.

Akt 4: Das Goldlöckchen-Modell

Endlich: qwen2.5:1.5b

Größe: 986 MB (nicht zu groß)
Kontext: 32k Token (nicht zu klein)
Geschwindigkeit: Antwortet tatsächlich, bevor mein Kaffee kalt wird
Qualität: Halluziniert etwas, aber wer tut das nicht?

Die funktionierende Konfiguration

{
"models": {
"mode": "merge",
"providers": {
"ollama": {
"baseUrl": "http://127.0.0.1:11434/v1",
"apiKey": "ollama-local",
"api": "openai-completions",
"models": [{
"id": "qwen2.5:1.5b",
"name": "Qwen 2.5 1.5B",
"reasoning": false,
"input": ["text"],
"contextWindow": 32768,
"maxTokens": 8192,
"cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 }
}]
}
}
},
"agents": {
"defaults": {
"model": { "primary": "ollama/qwen2.5:1.5b" }
}
}
}

Speichern unter: ~/.clawdbot/clawdbot.json UND ~/.clawdbot/agents/main/agent/models.json

Ja, beide. Frag nicht.

Die Befehle, die tatsächlich funktionieren

# Modell installieren
ollama pull qwen2.5:1.5b

# Direkt testen (Gateway-Komplexität umgehen)
clawdbot agent --agent main --local --message "Hallo"

# Oder mit Gateway
clawdbot gateway &
clawdbot agent --agent main --message "Hallo"

# Interaktive TUI
clawdbot tui

Die ehrliche Wahrheit

Was sie versprochen haben vs. was du bekommst:

"Kostenlose KI" → Kostenlos, wenn deine Zeit wertlos ist
"Lokale Privatsphäre" → Tatsächlich wahr ✓
"Schnelle Antworten" → Hängt von deiner Definition von "schnell" ab
"Einfache Einrichtung" → api: "openai-completions" (nicht "openai")

Solltest du das machen?

Ja, wenn:

Du eine GPU hast (auch eine bescheidene)
Du gerne um 2 Uhr nachts Configs debuggst
Du Privatsphäre über Geschwindigkeit stellst
Du KI-Preise von Konzernen als Frechheit empfindest

Nein, wenn:

Du nur einen CPU-Kartoffel-Server hast
Du ChatGPT-Level-Antworten erwartest
Du deine geistige Gesundheit schätzt

Die echten Mindestanforderungen

RAM: 8 GB minimum, 16 GB empfohlen
Modell: qwen2.5:1.5b minimum, qwen2.5:7b + GPU empfohlen
Kontext-Fenster: 16k+ erforderlich
Geduld: Unendlich

Brauchst du einen VPS, der das tatsächlich schafft?

Falls du es satt hast, KI auf einer Kartoffel laufen zu lassen — ein ordentlicher VPS macht den ganzen Unterschied. Ich empfehle mindestens 8GB RAM und anständige CPU-Kerne.

👉 Hol dir einen VPS mit extra Bonus hier

Geschrieben von jemandem, der Configs so lange durchprobiert hat, bis etwas funktionierte. Gern geschehen.

Von Konfigurations-Wildnis bis zum Goldlöckchen-Modell: Meine wöchentlichen Einblicke in die Realität von KI-Agenten in der Produktion.

→ Newsletter-Willkommenspaket sichern