Chain-of-Thought erklärt – LLMs Schritt für Schritt schlussfolgern lassen

Wie Chain-of-Thought funktioniert

Bei CoT wird das Sprachmodell gezielt dazu gebracht, den Loesungsweg zu verbalisieren, anstatt sofort das Ergebnis zu liefern. Zwei Varianten dominieren in der Praxis: Bei der Few-Shot-CoT enthaelt der Prompt zwei bis fuenf Beispiele, in denen jeweils die Zwischenschritte mit ausgeschrieben sind. Bei der Zero-Shot-CoT genuegt eine Anweisung wie „Denke Schritt fuer Schritt nach“ am Ende der Frage – das Modell uebernimmt das Muster ohne explizite Beispiele. In beiden Faellen ist die Loesung am Ende des Outputs der Lohn fuer den vorher generierten Reasoning-Pfad.

Die wegweisende Google-Studie Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) zeigte erstmals systematisch, dass grosse Modelle durch CoT bei mathematischen, logischen und symbolischen Aufgaben teils zweistellige Genauigkeitszuwaechse erreichen. Der Effekt ist ausgepraegt „emergent“: Er tritt erst ab Modellgroessen im zweistelligen Milliarden-Parameter-Bereich nennenswert auf – kleinere Modelle profitieren wenig oder verschlechtern sich sogar.

Mathematische Textaufgabe: „Ein Lager hat 240 Paletten, 30 % werden verschickt, dann kommen 40 dazu – wie viele sind im Lager?“ Mit „Denke Schritt fuer Schritt nach“ rechnet das Modell sichtbar 240 - 72 + 40 = 208 – statt zu raten.
Mehrstufige Klassifikation: Vor der finalen Kategorie listet das Modell die Pruefkriterien einzeln auf („Enthaelt die Mail eine konkrete Frage? Ja. Ist sie zeitkritisch? Nein. ...“) – und kommt zu einer stabileren Einstufung.
Logisches Schlussfolgern: „Anna ist aelter als Bea, Bea ist juenger als Carla – wer ist am juengsten?“ Das Modell loest die Relationen schrittweise auf, statt eine plausible, aber falsche Antwort zu geben.

Zero-Shot-CoT, Few-Shot-CoT und Reasoning-Modelle im Vergleich

Chain-of-Thought hat sich seit 2022 zu einer eigenen Familie von Techniken weiterentwickelt. Der praktische Stufenplan: erst Zero-Shot-CoT testen, bei instabilem Ergebnis Few-Shot-CoT mit Beispiel-Reasoning ergaenzen, und bei hochkomplexen Aufgaben auf spezielle Reasoning-Modelle umsteigen.

Der Prompt Engineering Guide (DAIR.AI) ordnet die Stufen so ein: Zero-Shot-CoT nutzt nur die Trigger-Phrase, Few-Shot-CoT ergaenzt 2–5 Beispiele mit sichtbarem Loesungsweg, und moderne Reasoning-Modelle (OpenAI o1/o3, DeepSeek R1, Claude mit Extended Thinking) fuehren einen internen, oft mehrere tausend Token langen Reasoning-Pfad aus, bevor sie antworten. CoT-Prompting ist damit die schnellste Methode, Reasoning aus einem Standard-LLM herauszuholen – ohne Spezial-Modell oder hoehere Latenz pro Token.

Zero-Shot-CoT: 1 Anweisung + Trigger „Denke Schritt fuer Schritt nach“ – minimaler Prompt, oft schon spuerbarer Qualitaetssprung bei Reasoning-Aufgaben.
Few-Shot-CoT: 1 Anweisung + 2–5 Beispiele mit ausgeschriebenem Reasoning – stabileres Format und domaenenspezifische Logik, hoehere Token-Kosten pro Aufruf.
Reasoning-Modell: Eigene Modell-Klasse mit internem Reasoning-Pfad – hoechste Qualitaet bei Mathematik, Code und Wissenschaft, aber deutlich hoehere Latenz und Output-Token-Kosten.

Wann Chain-of-Thought in KI-Projekten sinnvoll ist

CoT lohnt sich immer dann, wenn die Antwort nicht aus einem direkten Lookup folgt, sondern aus mehreren Zwischenschritten zusammengesetzt werden muss. Vier typische Profile aus der Unternehmenspraxis:

Rechnen & Kalkulationen

Margen-Berechnungen, Rabattlogiken, Mehrwertsteuer-Splits, Frachtkosten: CoT laesst das Modell jeden Rechenschritt offenlegen – Fehler werden sicht- und korrigierbar statt in einer Endzahl zu verschwinden.

Mehrstufige Entscheidungen

Klassifikation mit mehreren Kriterien, Eskalations-Routing, Compliance-Pruefungen: durch sichtbare Kriterien-Liste vor der Entscheidung sinkt die Streuung zwischen Aufrufen und die Begruendung ist mitgeliefert.

Strukturanalyse

Vertrags-, Angebots- und Spezifikations-Analysen: das Modell arbeitet Abschnitt fuer Abschnitt durch, anstatt eine globale Bewertung aus dem Bauch heraus zu liefern – deutlich zuverlaessiger bei langen Dokumenten.

Auditierbare Antworten

Ueberall, wo Entscheidungen nachvollziehbar sein muessen (Kundenservice mit Eskalation, interne Freigaben), liefert CoT eine maschinell lesbare Begruendungskette – nicht nur ein Ja/Nein.

Im Prompt Engineering ist CoT damit der dritte Schritt nach Zero-Shot und Few-Shot: nicht fuer jede Aufgabe, aber unverzichtbar bei allem, was mehr ist als ein direkter Lookup oder eine simple Umformulierung.

Was Chain-of-Thought in KI-Projekten beeinflusst

CoT erhoeht die Qualitaet, aber auch die laufenden Kosten einer LLM-Anwendung. Vier Hebel, die in der Praxis ueber den Einsatz entscheiden:

Output-Token-Kosten: Das Reasoning steht im Output – und Output-Token sind je nach Anbieter zwei- bis fuenffach teurer als Input-Token. Eine sichtbare 200-Token-Reasoning-Spur ist die haeufigste Kosten-Ueberraschung beim CoT-Rollout.
Latenz: Mehr Output-Token bedeuten linear hoehere Antwortzeit – spuerbar in Chatbots, weniger relevant in Batch-Pipelines. Ein typischer CoT-Aufruf dauert 1,5–3x so lange wie die direkte Antwort.
Modellgroesse: CoT entfaltet seinen Effekt erst ab grossen Modellen. Bei kleinen Modellen kann der ausgeschriebene Reasoning-Pfad die Antwort sogar verschlechtern – weil das Modell auf seinen eigenen Fehlern weiterargumentiert.
Output-Format: Wenn nur das Endergebnis weiter verarbeitet werden soll, muss der Reasoning-Teil per Marker (z. B. JSON-Feld reasoning + Feld answer) sauber abgetrennt werden – sonst leidet die nachgelagerte Verarbeitung.

CoT ist damit kein „immer besser“ gegenueber Zero-Shot: bei einfachen Aufgaben verbrennt es Token ohne Mehrwert. Bei mehrstufigem Schlussfolgern ist es einer der staerksten verfuegbaren Prompt-Hebel.

Chain-of-Thought