Definition von Token (Singular und
Plural):
Token sind ein zentraler Baustein in der
Textverarbeitung von maschinellen Lernmodellen wie OpenAIs ChatGPT und
bilden die Grundlage für das Verständnis und die Interpretation von
Textdaten.
Diese Elemente, auch als Token bezeichnet, sind die
kleinsten Einheiten, die solche Modelle verarbeiten können. In der
einfachsten Form kann ein Token ein einzelnes Wort, ein Satzzeichen oder ein
Leerzeichen darstellen.
Komplexere Modelle wie ChatGPT erweitern dieses Konzept
jedoch und können Token auch als Teile eines Wortes oder sogar mehrere
Wörter definieren. Dieser Ansatz wird als
Subword-Tokenisierung bezeichnet. |
Wie Token berechnet werden:
Bei der Verarbeitung eines Textes wird dieser
zunächst in eine Reihe von Token zerlegt. Dieser Vorgang wird
Tokenisierung genannt.
Das Modell verwendet dann die repräsentativen
Zahlenwerte dieser Token zur Analyse und Vorhersage des Textes.
Ein wichtiger Aspekt dabei ist die Begrenzung der
Anzahl der Token, die ein Modell verarbeiten kann.
Bei GPT-3.5 Turbo liegt diese Grenze beispielsweise
bei 4.096 Token und bei GPT-4 bei 8.192 Token.
Diese Begrenzung betrifft sowohl die Eingabe- als auch die
Ausgabetexte und wird auch als Kontextfenster bezeichnet.
Die Anzahl der Token, die in einem Chat-Modell wie
ChatGPT zugelassen werden,
hängt nicht nur von den technischen Beschränkungen des Modells selbst
ab, sondern kann auch vom Betreiber des Chats oder der spezifischen Anwendung
festgelegt werden.
Ein Beispiel für Token
Ein Satz wie ChatGPT ist ein Sprachmodell von
OpenAI würde in einzelne Token zerlegt werden. In einer einfachen
Wort-Tokenisierung könnte dieser Satz beispielsweise in folgende
Token zerlegt werden:
Tokens (Wörter): 14 | Zeichen:
39
Token in ChatGPT online (auf Deutsch):
https://chatx.de/blog/token/ |