Tokenisierung erklärt – Wie KI-Modelle Text in Token zerlegen

Wie Tokenisierung funktioniert

Ein Modell liest keine Buchstaben, sondern Zahlen. Die Tokenisierung übersetzt deshalb jeden Text in eine Folge von Token mit eigener Zahlen-ID. Moderne Modelle nutzen dazu fast ausschließlich Subword-Verfahren – allen voran das Byte-Pair-Encoding (BPE). Laut der Dokumentation von Hugging Face baut BPE sein Vokabular auf, indem es mit einzelnen Zeichen startet und die jeweils häufigste Zeichenkombination wiederholt zu einem neuen Token zusammenfasst, bis eine feste Vokabulargröße erreicht ist.

Häufige Wörter: Begriffe wie „und“ oder „Haus“ landen als ein einziges Token im Vokabular.
Seltene Wörter: werden in bekannte Wortteile zerlegt – so bleibt jedes Wort darstellbar, auch Tippfehler.
Byte-Ebene: als letzte Reserve kann jedes Zeichen aus seinen Bytes zusammengesetzt werden – es gibt kein unbekanntes Token.

Warum Tokenisierung für deutschsprachige Unternehmen zählt

Die Vokabulare gängiger Modelle sind stark auf englischen Text optimiert. Deutsche Komposita wie „Maschinenbauunternehmen“ oder Fachbegriffe werden deshalb häufig in viele kleine Token zersplittert. Wie der Projektron-Fachblog beschreibt, ist die Tokenisierung damit kein reines Implementierungsdetail, sondern bestimmt direkt Verständnis und Effizienz eines Modells.

Konkret: Derselbe deutsche Satz erzeugt oft 20–30 % mehr Token als seine englische Übersetzung. Da pro Token abgerechnet wird und das Context Window begrenzt ist, bedeutet das höhere Kosten und weniger nutzbaren Platz pro Anfrage – ein Effekt, den Unternehmen bei Kostenschätzungen einkalkulieren müssen.

Was Tokenisierung in KI-Projekten beeinflusst

Die Art der Tokenisierung wirkt sich an mehreren Stellen einer produktiven KI-Lösung aus:

Kosten

Mehr Token pro Text bedeuten direkt höhere Abrechnung – relevant bei langen Dokumenten und hohem Anfragevolumen.

Fachsprache

Branchen- und Produktbegriffe, die das Vokabular nicht kennt, werden zersplittert – das kann die Antwortqualität mindern.

Kontextlänge

Effiziente Tokenisierung lässt mehr Inhalt ins Context Window passen – ohne Modellwechsel.

Mehrsprachigkeit

Nicht-englische und gemischtsprachige Inhalte benötigen je nach Modell deutlich unterschiedlich viele Token.

Welches Foundation Model mit seinem Tokenizer den eigenen Texten am besten passt, lässt sich messen – ein fester Bestandteil sauberer Architektur- und Prompt-Engineering-Arbeit.

Token-Kosten Ihrer KI-Anwendung realistisch einschätzen?

Wir prüfen, wie Ihre deutschsprachigen Texte tokenisiert werden, welches Modell am effizientesten arbeitet und wie sich Kosten und Qualität in Balance bringen lassen – im Rahmen einer KI-Beratung.

Kostenlose Erstberatung vereinbaren

Tokenisierung