LLMトークンカウント推定ツール
ガイド
LLMトークンカウント推定ツール
GPT-4o、GPT-4 Turbo、GPT-3.5、o1シリーズの推論モデル、Claude 3.x、およびGemini 1.5に対して、即座にトークン数の見積もりを表示します。このツールはブラウザ上で完全に動作し、入力文字をタイプするたびにリアルタイムで更新され、トークン数と100万トークンあたりのコスト、およびリアルタイムで表示されるコンテキストウィンドウ使用バーにより、モデルの制限にどれだけ近いかを一目で確認できます。
使用方法
- 入力エリアにテキストを貼り付けまたはタイプしてください。ボタンを押さなくても、変更が即座に処理されます。
- ドロップダウンからターゲットモデルを選択してください。デフォルトではGPT-4oが選択されています。
- 期待される出力トークン数をオプションで設定することで、コスト見積もりに生成コストを含めることができます。
- トークン見積もり、1トークンあたりの文字数比、およびコンテキストウィンドウ使用バーを確認し、送信する前にプロンプトのサイズを把握してください。
- すべてのサポートされているモデルの価格表で、入力、出力、および総金額コストを比較できます。
- トークン可視化をスキャンし、近似トークン境界の位置を確認します。隣接するトークンは色を交互に変更し、すべての単位が視覚的に明確になります。
機能
- 12のモデルを並べて表示 – GPT-4o、GPT-4o mini、GPT-4 Turbo、GPT-4、GPT-3.5 Turbo、o1、o1-mini、Claude 3.5 Sonnet、Claude 3 Opus、Claude 3 Haiku、Gemini 1.5 Pro、およびGemini 1.5 Flashが1つのテーブルで比較されています。
- コンテキストウィンドウ使用バー – 選択されたモデルのウィンドウに対するトークン数のパーセンテージを表示し、70%および90%を越えると警告および危険色が表示されます。
- 出力トークンを含むコスト見積もり – 入力および出力の100万トークンあたりの価格が、実際の入力サイズおよび設定可能な期待される応答長に適用されます。
- トークン可視化 – 交互に色を変えるブロックが、近似BPEスタイルのトークン境界の位置を示し、先頭の空白スペースは次のブロックに結合され、記号は独自の単位として保持されます。
- リアルタイム統計パネル – 予測トークン数、語数、文字数、スペースを除いた文字数、語あたりトークン数、および文字あたりトークン数を表示します。
- 完全にクライアントサイドで動作 – 何のデータもアップロードされません。あなたのプロンプトはあなたのマシンに残ります。
- コード認識ヒューリスティック – テキストがコードに見える場合、見積もり比率を下げるよう調整され、コードのBPE分割が散文よりも積極的であることを反映します。
よくある質問
-
大規模言語モデルにおけるトークンとは何ですか?
トークンはモデルが読み取りおよび生成する基本単位です。トークンはバイトペアエンコーディング(BPE)または類似のサブワードトークナイザーによって生成され、トレーニングデータにおける最も頻出な文字列を学習し、それらを共有された辞書として保存します。1つのトークンは完全な単語、一般的な前綴または後綴、まれな単語の一部、1つのエモジ、または記号を含む可能性があります。英語の散文では、1トークンは平均で約4文字または約3分の4の単語に相当します。コード、URL、JSON、および非ラテン文字は、トークナイザーの辞書に含まれる文字列が少ないため、1文字あたりのトークン数が増加します。
-
異なるモデルが同じテキストに対して異なるトークン数を報告する理由は何ですか?
各モデルファミリーは独自のトークナイザーと辞書で訓練されています。OpenAIのGPT-3.5およびGPT-4はcl100k_baseエンコーディングを使用し、GPT-4oおよびo1シリーズは新しいo200k_baseエンコーディングを使用しています。AnthropicのClaudeモデルは独自のAnthropicトークナイザーを使用し、GoogleのGeminiモデルはSentencePieceトークナイザーを使用しています。辞書が異なるため、同じ文は異なるモデルで異なるトークン数にエンコードされ、英語の散文では通常10〜20%の範囲内に収まりますが、コードや非英語テキストではそれ以上の差が生じます。
-
コンテキストウィンドウとは何ですか?なぜそれが重要ですか?
コンテキストウィンドウは、モデルが1つのリクエストで読み取りおよび生成できる最大トークン数です。これはシステムプロンプト、ユーザープロンプト、完全な会話履歴、および応答を含みます。ウィンドウを超過すると、古いコンテキストがトリムされ、モデルが必要だった指示や事実が無意識に削除される可能性があります。大きなウィンドウは長文や長会話にスペースを提供しますが、処理されるトークン数が増えるにつれて遅延とコストも増加します。そのため、200万トークンのウィンドウをもつ場合でも、プロンプトを短く保つのが通常はより安価で速いです。
-
LLM APIの価格は通常どのように計算されますか?
ほとんどの提供者は、入力と出力トークンを別々に価格設定し、100万トークンあたりの価格を提示しています。入力トークンはモデルに送信するすべての内容を含み、システムプロンプトおよび会話履歴を含みます。出力トークンはモデルが生成するすべての内容です。出力は入力よりも常に高価であることが多く、生成は計算に依存しているためです。一部の提供者は、キャッシュまたは再利用された入力トークンに対して割引を適用しています。呼び出しの総コストを推定するには、入力トークン数に入力価格を掛け、期待される出力トークン数に出力価格を掛け、それぞれを100万で割り、その2つの数値を合計します。
-
私のトークン数は正確なtiktoken数ではなく、見積もりであるのはなぜですか?
正確なBPEトークン数を生成するには、完全なトークナイザーの辞書をブラウザに送信する必要があります。これは、各エンコーディングごとに数メガバイトの重みを含む場合があります。このツールは、各モデルファミリーにカーティングされた文字数あたりのトークンヒューリスティックを使用しており、英語の散文では正確なtiktokenまたはSentencePiece数に数パーセントの誤差を許容し、コスト見積もりおよびコンテキストウィンドウ計画に十分な精度を提供しています。正確な数値が必要な場合、最終プロンプトを送信する前に、提供者の公式トークナイザーを使用して実行してください。
恵 スコアボードが到着しました!
スコアボード ゲームを追跡する楽しい方法です。すべてのデータはブラウザに保存されます。さらに多くの機能がまもなく登場します!
