Generative KI ist allgegenwärtig – und die Nutzungskosten schießen in die Höhe. Token sind die gängige Methode zur Messung der KI-Nutzung. Ähnlich wie Buchstaben und Wörter zerlegen große Sprachmodelle Anfragen in diese Einheiten.
Google-CEO Sundar Pichai bezeichnet Token als "die grundlegenden Dateneinheiten, die unsere Modelle verarbeiten". Allein Google verarbeitet etwa 3,2 Billiarden Token pro Monat.
Da die Kosten stetig steigen, suchen IT-Verantwortliche nach Wegen, diese zu senken, wie die "Computerwoche" berichtet. Mehrere Ansätze versprechen Einsparungen.
Eine Möglichkeit: KI-Aufgaben auf preiswertere Modelle umleiten. Bei Google wäre das etwa Gemini 3.5 Flash, das laut Pichai Spitzenleistung zu weniger als der Hälfte der Kosten vergleichbarer Modelle bietet.
"Bei den LLMs wird manchmal mit Kanonen auf Spatzen geschossen", bestätigt Deepak Seth von Gartner. Man brauche nicht immer ein Modell, das auf Shakespeare oder Harry Potter trainiert wurde.
Dheeraj Pandey, CEO von DevRev, vergleicht die Token-Krise mit früheren IT-Umwälzungen: "Jedes Problem in IT-Systemen lässt sich durch Caching und Zwischenschichten lösen." Sein Unternehmen entwickelt eine Speicherschicht zwischen KI-Agenten und Datenquellen.
Auch die Optimierung von Prompts hilft. Die Personalberatung ManpowerGroup konnte durch effizientere Prompts die Anzahl der Folgefragen von zehn auf vier reduzieren.
Neue Hardware wie Nvidias RTX Spark Desktop-PC ermöglicht es, KI-Modelle lokal auszuführen. Microsoft-CEO Satya Nadella erklärt das Ziel: "Unbegrenzte Intelligenz in jeden Haushalt und an jeden Windows-Arbeitsplatz bringen."
Gartner-Analyst Seth ist überzeugt: Irgendwann werde sich die Token-basierte Preisgestaltung in Richtung ergebnisorientierter Modelle verschieben. Dann würden tatsächliche Geschäftsergebnisse den Wert bestimmen – nicht Wortfragmente.