Ich habe Openclaw (ehemals Clawdbot) mit einem kostenlosen LLM getestet. Das ist passiert.
Klingt großartig. Ich habe einen Headless-Server. Ich habe Ollama. Ich habe Träume.
So hat die Realität sie zerschmettert — und wie ich am Ende doch gewonnen habe.
⚡ Update (20. Feb 2026): Die kostenlose LLM-Landschaft hat sich seit Januar rasant entwickelt. Drei Dinge haben sich geändert:
1. Anthropic hat Claude Max-Token in OpenClaw verboten. Falls du mit deinem Max-Abo gelaufen bist, ist das vorbei. Ich habe meins für 15€/Monat mit Kimi K2.5 + MiniMax M2.5 Fallback neu aufgebaut.
2. Neue Modelle sind in den Ring gestiegen. Qwen 3.5 (Alibaba) — native agentische Fähigkeiten, 0,40€/M Input-Token. DeepSeek V3.2 "Speciale" — 88,7% auf LiveCodeBench, MIT-Lizenz, 0,28€/M Input. Beide OpenRouter-kompatibel, direkt in OpenClaw einstöpselbar.
3. NVIDIA hat eine offizielle Anleitung für lokales OpenClaw auf RTX-GPUs mit Ollama veröffentlicht. Falls du eine RTX-Karte hast: LM Studio + 7B-Modell = wirklich 0€.
Meine aktuelle Wahl: Kimi K2.5 über OpenRouter für Claude-ähnliche Qualität für Centbeträge. Ollama + Qwen 3.5 lokal für 0€.

Akt 1: Die Konfigurations-Wildnis
Die offizielle Doku sagte:
{
"api": "openai"
}
Mein Server sagte:
Invalid input
Die tatsächlichen Zauberworte sind:
{
"api": "openai-completions"
}
Ein Bindestrich. Drei Stunden meines Lebens.
Akt 2: Das Modell, das (nicht) konnte
Erster Versuch: qwen2.5:7b — respektable 7 Milliarden Parameter.
Zeit für die Antwort auf "Sag OK": 7 Minuten.
Mein chinesischer Reiskocher aus der Massenproduktion hat bessere Inferenz-Geschwindigkeit.
Akt 3: Der Kontext-Fenster-Verrat
"Gut," sagte ich. "Ich nehme TinyLlama. Es ist winzig. Es ist ein Lama. Was kann schon schiefgehen?"
FailoverError: Model context window too small (2048 tokens). Minimum is 16000.
Clawdbot braucht eine Aufmerksamkeitsspanne auf Doktor-Niveau. TinyLlama hat das Gedächtnis eines Goldfischs.
Akt 4: Das Goldlöckchen-Modell
Endlich: qwen2.5:1.5b
- Größe: 986 MB (nicht zu groß)
- Kontext: 32k Token (nicht zu klein)
- Geschwindigkeit: Antwortet tatsächlich, bevor mein Kaffee kalt wird
- Qualität: Halluziniert etwas, aber wer tut das nicht?
Die funktionierende Konfiguration
{
"models": {
"mode": "merge",
"providers": {
"ollama": {
"baseUrl": "http://127.0.0.1:11434/v1",
"apiKey": "ollama-local",
"api": "openai-completions",
"models": [{
"id": "qwen2.5:1.5b",
"name": "Qwen 2.5 1.5B",
"reasoning": false,
"input": ["text"],
"contextWindow": 32768,
"maxTokens": 8192,
"cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 }
}]
}
}
},
"agents": {
"defaults": {
"model": { "primary": "ollama/qwen2.5:1.5b" }
}
}
}
Speichern unter: ~/.clawdbot/clawdbot.json UND ~/.clawdbot/agents/main/agent/models.json
Ja, beide. Frag nicht.
Die Befehle, die tatsächlich funktionieren
# Modell installieren
ollama pull qwen2.5:1.5b
# Direkt testen (Gateway-Komplexität umgehen)
clawdbot agent --agent main --local --message "Hallo"
# Oder mit Gateway
clawdbot gateway &
clawdbot agent --agent main --message "Hallo"
# Interaktive TUI
clawdbot tui
Die ehrliche Wahrheit
Was sie versprochen haben vs. was du bekommst:
- "Kostenlose KI" → Kostenlos, wenn deine Zeit wertlos ist
- "Lokale Privatsphäre" → Tatsächlich wahr ✓
- "Schnelle Antworten" → Hängt von deiner Definition von "schnell" ab
- "Einfache Einrichtung" →
api: "openai-completions"(nicht"openai")
Solltest du das machen?
Ja, wenn:
- Du eine GPU hast (auch eine bescheidene)
- Du gerne um 2 Uhr nachts Configs debuggst
- Du Privatsphäre über Geschwindigkeit stellst
- Du KI-Preise von Konzernen als Frechheit empfindest
Nein, wenn:
- Du nur einen CPU-Kartoffel-Server hast
- Du ChatGPT-Level-Antworten erwartest
- Du deine geistige Gesundheit schätzt
Die echten Mindestanforderungen
- RAM: 8 GB minimum, 16 GB empfohlen
- Modell:
qwen2.5:1.5bminimum,qwen2.5:7b+ GPU empfohlen - Kontext-Fenster: 16k+ erforderlich
- Geduld: Unendlich
Brauchst du einen VPS, der das tatsächlich schafft?
Falls du es satt hast, KI auf einer Kartoffel laufen zu lassen — ein ordentlicher VPS macht den ganzen Unterschied. Ich empfehle mindestens 8GB RAM und anständige CPU-Kerne.
👉 Hol dir einen VPS mit extra Bonus hier
Geschrieben von jemandem, der Configs so lange durchprobiert hat, bis etwas funktionierte. Gern geschehen.
Von Konfigurations-Wildnis bis zum Goldlöckchen-Modell: Meine wöchentlichen Einblicke in die Realität von KI-Agenten in der Produktion.