Ich habe Openclaw (ehemals Clawdbot) mit einem kostenlosen LLM getestet. Das ist passiert.

3 min read

Klingt großartig. Ich habe einen Headless-Server. Ich habe Ollama. Ich habe Träume.

So hat die Realität sie zerschmettert — und wie ich am Ende doch gewonnen habe.

Update (20. Feb 2026): Die kostenlose LLM-Landschaft hat sich seit Januar rasant entwickelt. Drei Dinge haben sich geändert:

1. Anthropic hat Claude Max-Token in OpenClaw verboten. Falls du mit deinem Max-Abo gelaufen bist, ist das vorbei. Ich habe meins für 15€/Monat mit Kimi K2.5 + MiniMax M2.5 Fallback neu aufgebaut.

2. Neue Modelle sind in den Ring gestiegen. Qwen 3.5 (Alibaba) — native agentische Fähigkeiten, 0,40€/M Input-Token. DeepSeek V3.2 "Speciale" — 88,7% auf LiveCodeBench, MIT-Lizenz, 0,28€/M Input. Beide OpenRouter-kompatibel, direkt in OpenClaw einstöpselbar.

3. NVIDIA hat eine offizielle Anleitung für lokales OpenClaw auf RTX-GPUs mit Ollama veröffentlicht. Falls du eine RTX-Karte hast: LM Studio + 7B-Modell = wirklich 0€.

Meine aktuelle Wahl: Kimi K2.5 über OpenRouter für Claude-ähnliche Qualität für Centbeträge. Ollama + Qwen 3.5 lokal für 0€.

Openclaw LLM-Setup mit Ollama und Qwen-Modell auf lokalem Server
Mein Server beim Versuch, Qwen zu verstehen: Existenzkrise inklusive.

Akt 1: Die Konfigurations-Wildnis

Die offizielle Doku sagte:

{
"api": "openai"
}

Mein Server sagte:

Invalid input

Die tatsächlichen Zauberworte sind:

{
"api": "openai-completions"
}

Ein Bindestrich. Drei Stunden meines Lebens.


Akt 2: Das Modell, das (nicht) konnte

Erster Versuch: qwen2.5:7b — respektable 7 Milliarden Parameter.

Zeit für die Antwort auf "Sag OK": 7 Minuten.

Mein chinesischer Reiskocher aus der Massenproduktion hat bessere Inferenz-Geschwindigkeit.


Akt 3: Der Kontext-Fenster-Verrat

"Gut," sagte ich. "Ich nehme TinyLlama. Es ist winzig. Es ist ein Lama. Was kann schon schiefgehen?"

FailoverError: Model context window too small (2048 tokens). Minimum is 16000.

Clawdbot braucht eine Aufmerksamkeitsspanne auf Doktor-Niveau. TinyLlama hat das Gedächtnis eines Goldfischs.


Akt 4: Das Goldlöckchen-Modell

Endlich: qwen2.5:1.5b

  • Größe: 986 MB (nicht zu groß)
  • Kontext: 32k Token (nicht zu klein)
  • Geschwindigkeit: Antwortet tatsächlich, bevor mein Kaffee kalt wird
  • Qualität: Halluziniert etwas, aber wer tut das nicht?

Die funktionierende Konfiguration

{
"models": {
"mode": "merge",
"providers": {
"ollama": {
"baseUrl": "http://127.0.0.1:11434/v1",
"apiKey": "ollama-local",
"api": "openai-completions",
"models": [{
"id": "qwen2.5:1.5b",
"name": "Qwen 2.5 1.5B",
"reasoning": false,
"input": ["text"],
"contextWindow": 32768,
"maxTokens": 8192,
"cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 }
}]
}
}
},
"agents": {
"defaults": {
"model": { "primary": "ollama/qwen2.5:1.5b" }
}
}
}

Speichern unter: ~/.clawdbot/clawdbot.json UND ~/.clawdbot/agents/main/agent/models.json

Ja, beide. Frag nicht.


Die Befehle, die tatsächlich funktionieren

# Modell installieren
ollama pull qwen2.5:1.5b

# Direkt testen (Gateway-Komplexität umgehen)
clawdbot agent --agent main --local --message "Hallo"

# Oder mit Gateway
clawdbot gateway &
clawdbot agent --agent main --message "Hallo"

# Interaktive TUI
clawdbot tui


Die ehrliche Wahrheit

Was sie versprochen haben vs. was du bekommst:

  • "Kostenlose KI" → Kostenlos, wenn deine Zeit wertlos ist
  • "Lokale Privatsphäre" → Tatsächlich wahr ✓
  • "Schnelle Antworten" → Hängt von deiner Definition von "schnell" ab
  • "Einfache Einrichtung"api: "openai-completions" (nicht "openai")

Solltest du das machen?

Ja, wenn:

  • Du eine GPU hast (auch eine bescheidene)
  • Du gerne um 2 Uhr nachts Configs debuggst
  • Du Privatsphäre über Geschwindigkeit stellst
  • Du KI-Preise von Konzernen als Frechheit empfindest

Nein, wenn:

  • Du nur einen CPU-Kartoffel-Server hast
  • Du ChatGPT-Level-Antworten erwartest
  • Du deine geistige Gesundheit schätzt

Die echten Mindestanforderungen

  • RAM: 8 GB minimum, 16 GB empfohlen
  • Modell: qwen2.5:1.5b minimum, qwen2.5:7b + GPU empfohlen
  • Kontext-Fenster: 16k+ erforderlich
  • Geduld: Unendlich

Brauchst du einen VPS, der das tatsächlich schafft?

Falls du es satt hast, KI auf einer Kartoffel laufen zu lassen — ein ordentlicher VPS macht den ganzen Unterschied. Ich empfehle mindestens 8GB RAM und anständige CPU-Kerne.

👉 Hol dir einen VPS mit extra Bonus hier


Geschrieben von jemandem, der Configs so lange durchprobiert hat, bis etwas funktionierte. Gern geschehen.


Von Konfigurations-Wildnis bis zum Goldlöckchen-Modell: Meine wöchentlichen Einblicke in die Realität von KI-Agenten in der Produktion.

Newsletter-Willkommenspaket sichern