Kostenrechner für LLM-API
Führung
Kostenrechner für LLM-API
Schätzen Sie, wie viel eine LLM-API-Aufruf tatsächlich kostet, bevor Sie es bereitstellen. Geben Sie die Eingabetokens, Ausgabetokens und Ihre tägliche Anfragenmenge ein, wählen Sie ein Modell und dieses Tool zeigt Ihnen die pro-Aufruf, pro-Tag, pro-Monat und pro-Jahr Ausgaben für OpenAI, Anthropic, Google und Meta-Modelle – basierend auf den aktuellen veröffentlichten Listenpreisen pro 1M Tokens. Ideal zum Überprüfen eines Angebots, Vergleich zwischen Providern oder zur Planung eines Startbudgets.
Nutzung
- Geben Sie den durchschnittlichen Wert ein Eingabetokens pro Anfrage (Ihr Prompt plus jeglicher Kontext, den Sie übergeben).
- Geben Sie den durchschnittlichen Wert ein Ausgabetokens die das Modell zurückgeben wird.
- Geben Sie die Anzahl der Aufrufe pro Tag die Sie in der Produktion erwarten.
- Wählen Sie einen Modell aus dem Dropdown-Menü (OpenAI, Anthropic, Google oder Meta / Llama).
- Wechseln Sie zwischen Echtzeitpreis und Batch-Preis um den 50%-Batch-Rabatt zu sehen, wo die Anbieter ihn unterstützen.
- Lesen Sie die Zusammenfassung der pro-Aufruf, pro-Tag, pro-Monat und pro-Jahr Kosten, dann scrollen Sie zu der Vergleichstabelle, um zu sehen, wie die gleiche Belastung auf jedem anderen Modell kostet.
Funktionen
- Multi-Provider-Preis — OpenAI, Anthropic, Google und Meta / Llama-Modelle in einer Tabelle.
- Echtzeit vs. Batch-Toggle — sehen Sie den 50%-Batch-Rabatt für OpenAI, Anthropic und Google, und eine klare „n/a“ wo ein Anbieter keine Batch-Ebene bietet.
- Pro-Aufruf, tägliche, monatliche und jährliche Prognosen — die Prognosen verwenden den durchschnittlichen Monat von 30,44 Tagen für eine realistische Auslastung.
- Seitenweise Modellvergleichstabelle — sehen Sie, wie die gleiche Belastung auf jedes unterstützte Modell kostet, wobei Ihr ausgewähltes Modell hervorgehoben ist.
- Trennung von Eingabepreis und Ausgabepreis — weil Ausgabetokens normalerweise 2x bis 5x teurer sind als Eingabetokens.
- Kein Server, keine Verfolgung — alle Preismathematik läuft clientseitig. Ihre Tokenzahlen und Volumen verlassen nie Ihren Browser.
Häufig gestellte Fragen
-
Was ist ein Token und warum werden LLMs pro Token berechnet?
Ein Token ist ein Textabschnitt, den das Modell liest und schreibt – etwa ein Wort, ein Subwort oder ein einzelner Punkt. Englische Texte haben durchschnittlich etwa vier Zeichen pro Token. LLMs berechnen pro Token, weil die Rechenkosten mit der Anzahl der verarbeiteten Tokens wachsen: Jeder Eingabetoken muss behandelt werden, und jeder Ausgabetoken wird schrittweise generiert. Die pro-Token-Berechnung liefert ein lineares, vorhersehbares Kostenmodell, das direkt auf die tatsächlich durchgeführte GPU-Arbeit abgebildet wird.
-
Warum sind Ausgabetokens normalerweise teurer als Eingabetokens?
Eingabetokens werden in einem einzigen parallelen Vortritt verarbeitet: Das Modell liest den gesamten Prompt in einem Schritt. Ausgabetokens hingegen werden autoregressiv generiert – jedes neue Token erfordert einen weiteren Vortritt über den wachsenden Kontext. Diese schrittweise Generierung ist pro Token teurer, weshalb Anbieter typischerweise Ausgabetokens 2x bis 5x teurer preisen als Eingabetokens.
-
Was ist Batch-Preis und wann macht es Sinn?
Batch-Preis ermöglicht es Ihnen, viele Anfragen zusammen zu senden und die Ergebnisse innerhalb eines von den Anbietern festgelegten Zeitraums zu erhalten – typischerweise 24 Stunden bei OpenAI, Anthropic und Google. Da diese Aufgaben auf nicht-peak-Infrastruktur geplant werden können, bieten die Anbieter einen 50%-Rabatt sowohl für Eingabeprojekte als auch für Ausgabeprojekte. Batch ist ideal für Offline-Aufgaben wie Dokumentenverfeinerung, Evaluierungsabläufe, Embedding-Backfills und Nachtberichte. Es eignet sich nicht für Dinge, die ein Benutzer erwartet, wie Chat oder interaktive Suche.
-
Warum kostet die gleiche Tokenanzahl auf größeren Modellen mehr?
Größere Modelle haben mehr Parameter, was bedeutet, dass jeder Vortritt mehr Rechenleistung und mehr Speicherbandbreite benötigt. Ein 405-Milliarden-Parameter-Modell führt einfach mehr Rechnungen pro Token aus als ein 8-Milliarden-Parameter-Modell. Die Anbieter übertragen diesen zusätzlichen Aufwand als höhere pro-Token-Preise. Das ist auch der Grund, warum ein kleinerer, schnellerer Modell oft die richtige Lösung für einfache Klassifikations- oder Extraktionsaufgaben ist – Sie zahlen weniger und erhalten eine Antwort schneller.
-
Reflektieren die Listenpreise den tatsächlichen Preis, den ich zahlen werde?
Nicht immer. Die veröffentlichten Listenpreise sind der Ausgangspunkt, aber die meisten Anbieter bieten Verpflichtungsrabatte, Enterprise-Verträge, vorbezahlt Credits und Volumenstufen an, die den effektiven pro-Token-Preis senken. Außerdem können abgespeicherte Prompts, Prompt-Kompression und Provider-spezifische Kontext-Caching die Eingabekosten erheblich senken, wenn es sich um wiederholende Aufgaben handelt. Behandeln Sie Listenpreisrechner als Obergrenze für Planungen und fügen Sie dann Ihre Vertragsrabatte hinzu.
Erweiterungen installieren
IO-Tools zu Ihrem Lieblingsbrowser hinzufügen für sofortigen Zugriff und schnellere Suche
恵 Die Anzeigetafel ist eingetroffen!
Anzeigetafel ist eine unterhaltsame Möglichkeit, Ihre Spiele zu verfolgen. Alle Daten werden in Ihrem Browser gespeichert. Weitere Funktionen folgen in Kürze!
Unverzichtbare Tools
Alle Neuheiten
AlleAktualisieren: Unser neuestes Werkzeug wurde am 28. Apr. 2026 hinzugefügt
