広告が嫌いですか? 行く広告なし今日 

LLM API コスト計算機

データ開発者数学

広告削除する？

入力

自動処理

リクエスト

入力トークン

1コールあたり送信されるトークン（プロンプト＋コンテキスト）。

出力トークン

1コールあたりモデルが返すトークン（完了部分）。

コール／日

1日あたりのリクエスト数。日間および月間の予測に使用されます。

モデルおよび価格モード

モデル

リアルタイム価格

バッチ価格（50%オフ、サポートされている場合）

出力

クライアント側

広告削除する？

ガイド

LLM API コスト計算機

LLM APIコールの実際のコストをデプロイする前に見積もります。入力トークン、出力トークン、および1日のリクエスト量を入力し、モデルを選択して、このツールはOpenAI、Anthropic、Google、およびMetaモデルでの1コール、1日、1ヶ月、1年間の支出を表示します。現在の発表価格100万トークンあたりを使用しています。クォートの確認、プロバイダーの比較、またはリリース予算の計画に非常に役立ちます。

使用方法

平均を入力してください 入力トークン 1リクエストあたり（プロンプトおよび送信するコンテキストを含む）。
平均を入力してください 出力トークン モデルが返すことを期待する出力トークン。
の数を入力 コール／日 生産環境で期待するリクエスト量。
[表示モード]を選択してください モデル ドロップダウンから選択（OpenAI、Anthropic、Google、またはMeta / Llama）。
切り替え リアルタイム価格 と バッチ価格 50%バッチ割引が提供されるプロバイダーで適用されるようにします。
1コール、1日、1ヶ月、1年間のコスト要約を読み、比較テーブルにスクロールして、同じ負荷が他のすべてのモデルでどれくらいのコストになるかを確認してください。

機能

複数プロバイダー価格 — OpenAI、Anthropic、Google、およびMeta / Llamaモデルを1つのテーブルにまとめます。
リアルタイム対バッチ切り替え — OpenAI、Anthropic、Googleでの50%バッチ割引を確認し、プロバイダーがバッチプランを提供していない場合は明確に「n/a」を表示します。
1コール、1日、1ヶ月、1年間の予測 — 予測は30.44日間の月平均を用いて、現実的な運用速度を反映しています。
並列モデル比較テーブル — 同じ負荷がすべてのサポートされているモデルでどれくらいのコストになるかを確認し、選択されたモデルを強調表示します。
入力と出力価格を分離 — 出力トークンは通常、入力トークンの2倍から5倍ほど高価であるためです。
サーバーなし、トラッキングなし — すべての価格計算はクライアントサイドで実行されます。あなたのトークン数と量はブラウザに残りません。

 よくある質問

トークンとは何ですか？そしてLLMが1トークンあたり価格を設定する理由は何ですか？

トークンはモデルが読み取りおよび書き出しを行うテキストの塊です。英語の文章では1トークンあたり約4文字です。LLMが1トークンあたり価格を設定するのは、計算コストが処理されたトークン数に比例するためです。すべての入力トークンは処理され、すべての出力トークンは1ステップずつ生成されます。1トークンあたりの価格設定は、GPUが実際に行う作業に直接対応する線形かつ予測可能なコストモデルを提供します。
出力トークンが入力トークンよりも通常高い理由は何ですか？

入力トークンは1回の並列前向きパスで処理されます：モデルはプロンプト全体を1回に読み取ります。一方、出力トークンは自動回帰的に生成されます——新しいトークンを生成するたびに、成長するコンテキストに対して別の前向きパスが必要です。このステップごとの生成は1トークンあたりのコストが高く、プロバイダーは通常、出力トークンを入力トークンの2倍から5倍ほど高く価格設定します。
バッチ価格とは何ですか？どのような場合に意味がありますか？

バッチ価格は、複数のリクエストを一度に送信し、提供者によって指定された期間（OpenAI、Anthropic、Googleでは通常24時間）内に結果を受信できるようにします。これらのジョブはオフピーク容量にスケジュールできるため、提供者は入力および出力トークンに対して50%割引を提供します。バッチ価格はドキュメントの豊富化、評価実行、埋め込みバックフィル、夜間レポートなどのオフラインワークロードに最適です。ユーザーが待っているもの（チャットやインタラクティブ検索など）には適していません。
同じトークン数が大きなモデルでより高い価格になる理由は何ですか？

大きなモデルはパラメータが多いため、1回の前向きパスに必要な計算量とメモリ帯域が増加します。4050億パラメータのモデルは80億パラメータのモデルよりも1トークンあたりに多くの算術演算を行います。提供者はそのコストを1トークンあたりの価格として反映しています。そのため、単純な分類や抽出タスクには、小さな高速モデルが適している場合があります——コストが少なく、応答が早くなります。
リスト価格は実際に支払う価格を反映していますか？

常にそうではありません。発表されたリスト価格は出発点ですが、多くの提供者はコミットド用割引、企業契約、事前購入クレジット、およびボリューム階層を提供し、効果的な1トークンあたり価格を下げます。さらに、キャッシュプロンプト、プロンプト圧縮機能、提供者固有のコンテキストキャッシュは、繰り返しのワークロードで入力コストを大幅に削減できます。リスト価格計算器は計画の上限として扱い、その後、契約割引を上乗せしてください。