Was zählt in das Kontextfenster?

Viele unterschätzen, wie schnell sich das Fenster füllt. Es umfasst nicht nur die aktuelle Frage, sondern das gesamte Material, das das Modell für seine Antwort braucht – und die Antwort selbst.

  • System Prompt: die uebergeordnete System-Anweisung mit Rolle, Regeln und Leitplanken.
  • Gesprächsverlauf: alle bisherigen Fragen und Antworten der Sitzung – wächst mit jeder Runde.
  • Nutzereingabe: der aktuelle Prompt samt angehängter Dokumente.
  • Abgerufene Inhalte: per RAG eingefügte Wissensausschnitte sowie Werkzeug-Ergebnisse bei KI-Agenten.
  • Antwortraum: die erzeugte Ausgabe belegt ebenfalls Token – sie konkurriert mit dem Input um denselben Platz.

Warum größer nicht automatisch besser ist

Aktuelle Modelle bieten 2026 sehr unterschiedliche Fenster: von rund 128.000 Token bis zu einer Million Token und mehr. Eine Million Token entsprechen grob 750.000 Wörtern – etwa zehn Romanen oder einer mittelgroßen Codebasis. Doch ein großes Fenster ist kein Selbstläufer: Je voller der Kontext, desto eher sinken Treffsicherheit und Erinnerungsvermögen – ein Effekt, der als „Context Rot“ bezeichnet wird. Wird das Limit überschritten, schneidet das Modell ältere Inhalte ab oder verweigert die Anfrage.

Mehr Kontext bedeutet zudem höhere Kosten und längere Antwortzeiten, da pro Token abgerechnet und gerechnet wird. Laut IBM ist das Kontextfenster deshalb am besten als knappe, wertvolle Ressource zu verstehen – nicht als Speicher, den man beliebig vollfüllt. Die Anthropic-Dokumentation (2026) beschreibt das Fenster entsprechend als gemeinsames Budget für Eingabe, Verlauf und Ausgabe.

Was bedeutet das für Unternehmen?

Ob ein Anwendungsfall ins Kontextfenster passt, entscheidet oft über Architektur und Kosten einer KI-Lösung. Statt einfach das größtmögliche Modell zu wählen, lohnen sich gezielte Strategien:

RAG statt Voll-Kontext

Nur die wirklich relevanten Wissensausschnitte werden eingefügt – das spart Token, Kosten und hält die Treffsicherheit hoch.

Verlauf zusammenfassen

Lange Dialoge werden periodisch verdichtet, damit das Fenster nicht mit altem Smalltalk vollläuft.

Dokumente vorab filtern

Statt ganze Handbücher zu übergeben, werden Kapitel oder Abschnitte vorselektiert – weniger Rauschen, klarere Antworten.

Modell passend wählen

Ein kleineres Fenster reicht für Standardanfragen oft völlig – große Fenster nur dort, wo der Use Case sie braucht.

Diese Abwägungen sind ein Kernthema im professionellen Prompt Engineering und bei der Auswahl eines geeigneten Foundation Models. Wer sie ignoriert, zahlt entweder zu viel oder bekommt unzuverlässige Antworten.

Verwandte Begriffe

Das richtige Modell und Kontext-Setup für Ihren Use Case?

Wir bewerten, ob RAG, ein größeres Kontextfenster oder eine schlankere Architektur passt – abgestimmt auf Ihre Daten, Kosten und Qualitätsanforderungen im Rahmen einer KI-Beratung.

Kostenlose Erstberatung vereinbaren