Les pubs vous déplaisent ? Aller Sans pub Auj. 

Estimateur de comptage de tokens LLM

DonnéesPromoteurTexte

ANNONCE · Supprimer ?

SAISIR

Processus automatique

SORTIR

Côté client

ANNONCE · Supprimer ?

Guide

Estimateur de comptage de tokens LLM

Collez tout prompt, document ou extrait de code et voyez instantanément une estimation du nombre de tokens pour GPT-4o, GPT-4 Turbo, GPT-3.5, les modèles o1 de raisonnement, Claude 3.x, et Gemini 1.5. L'outil fonctionne entièrement dans le navigateur, met à jour en temps réel lorsque vous tapez, et associe le comptage avec des figures de coût par million de tokens et une barre de visualisation de la fenêtre de contexte afin de vous permettre de voir à l'œil nu à quel point vous êtes proche de la limite d'un modèle.

Comment utiliser

Collez ou tapez votre texte dans la zone d'entrée. L'outil traite chaque modification instantanément sans nécessiter de clique sur un bouton.
Choisissez un modèle cible depuis le menu déroulant. GPT-4o est sélectionné par défaut.
Définissez optionnellement le nombre de tokens attendus en sortie afin que l'estimateur de coût inclue le coût de génération, et non seulement le coût d'entrée.
Lisez l'estimation des tokens, le rapport de caractères par token et la barre de consommation de la fenêtre de contexte pour évaluer la taille du prompt avant de l'envoyer.
Comparez le coût d'entrée, de sortie et total pour chaque modèle pris en charge dans le tableau de tarification.
Examinez la visualisation des tokens pour voir où se situent les limites approximatives des tokens. Les tokens adjacents alternent de couleur afin que chaque unité soit visuellement distincte.

Caractéristiques

Douze modèles côte à côte – GPT-4o, GPT-4o mini, GPT-4 Turbo, GPT-4, GPT-3.5 Turbo, o1, o1-mini, Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku, Gemini 1.5 Pro et Gemini 1.5 Flash comparés dans un même tableau.
Barre d'utilisation de la fenêtre de contexte – Affiche le nombre de tokens comme pourcentage de la fenêtre du modèle sélectionné, avec des couleurs d'avertissement et de danger lorsque vous dépassez 70 % et 90 % de la fenêtre.
Estimation du coût avec tokens de sortie – Les tarifs par million de tokens d'entrée et de sortie sont appliqués à la taille réelle de votre entrée et à une longueur préconfigurée de réponse attendue.
Visualisation des tokens – Des blocs alternant de couleur montrent où se situent les limites approximatives des tokens selon un encodage BPE, avec les espaces en début de ligne collés au bloc suivant et les ponctuations conservées comme unité séparée.
Panneau de statistiques en temps réel – Nombre estimé de tokens, comptage de mots, comptage de caractères, caractères sans espaces, tokens par mot, et caractères par token.
Fonctionne entièrement côté client – Rien n'est envoyé. Votre prompt reste sur votre machine.
Heuristique sensible au code – Lorsque le texte ressemble au code, le rapport d'estimation est ajusté vers le bas afin de refléter le fait que les séquences de caractères dans le code sont plus divisées par le tokenizer que dans le texte littéraire.

 FAQ

Qu'est-ce qu'un token dans un grand modèle de langage ?

Un token est l'unité de base que le modèle lit et génère. Les tokens sont produits par un encodage en paires de caractères (BPE) ou un autre tokenizer de mots sous-étudiés, qui apprennent les séquences de caractères les plus fréquentes dans les données d'entraînement et les stockent dans un vocabulaire partagé. Un seul token peut être un mot complet, un préfixe ou suffixe courant, une partie d'un mot rare, un emoji ou un marqueur de ponctuation. Pour le texte en anglais, un token moyen correspond à environ quatre caractères ou à trois quarts d'un mot. Le code, les URLs, le JSON et les scripts non latins produisent généralement plus de tokens par caractère car leurs séquences de caractères sont moins fréquentes dans le vocabulaire du tokenizer.
Pourquoi les différents modèles rapportent-ils des comptages de tokens différents pour le même texte ?

Chaque famille de modèles est entraînée avec son propre tokenizer et son propre vocabulaire. OpenAI utilise le cl100k_base pour GPT-3.5 et GPT-4, tandis que GPT-4o et la série o1 utilisent le plus récent o200k_base. Les modèles Claude d'Anthropic utilisent un tokenizer propriétaire, et les modèles Gemini d'Google utilisent un tokenizer SentencePiece. Comme les vocabulaires diffèrent, le même texte peut être encodé avec un nombre différent de tokens sur différents modèles, généralement entre 10 et 20 % pour le texte en anglais, mais plus divergent pour le code ou les textes non anglais.
Qu'est-ce qu'une fenêtre de contexte et pourquoi cela importe-t-il ?

La fenêtre de contexte est le nombre maximal de tokens qu'un modèle peut lire et générer dans une seule requête. Elle inclut le prompt système, le prompt utilisateur, l'historique complet de la conversation et la réponse. Lorsque vous dépassez cette fenêtre, le contexte ancien est tronqué, ce qui peut silencieusement supprimer des instructions ou des faits nécessaires au modèle. Une fenêtre importante permet de traiter des documents longs et des conversations longues, mais la latence et le coût augmentent avec le nombre de tokens traités, donc même avec une fenêtre de deux millions de tokens, il est généralement plus économique et plus rapide de garder les prompts courts.
Comment est généralement calculé le tarif des API des modèles de langage ?

La plupart des fournisseurs tarifent séparément les tokens d'entrée et de sortie et indiquent le tarif par million de tokens. Les tokens d'entrée sont tout ce que vous envoyez au modèle, y compris les prompts système et l'historique de conversation. Les tokens de sortie sont tout ce que le modèle génère. La sortie est presque toujours plus coûteuse que l'entrée car la génération est limitée par le calcul. Quelques fournisseurs offrent également une réduction sur les tokens d'entrée réutilisés ou stockés. Pour estimer le coût total d'une requête, multipliez le nombre de tokens d'entrée par le taux d'entrée, le nombre de tokens de sortie attendus par le taux de sortie, divisez chaque résultat par un million, puis ajoutez les deux valeurs.
Pourquoi mon comptage de tokens est-il une estimation plutôt que le nombre exact de tiktokens ?

Produire un comptage exact de BPE nécessite d'envoyer le vocabulaire complet du tokenizer au navigateur, ce qui peut atteindre plusieurs mégaoctets par encodage. Cet outil utilise une heuristique de caractères par token calibrée pour chaque famille de modèles, ce qui donne un comptage dans les quelques pourcentages de la valeur exacte de tiktoken ou de SentencePiece pour le texte en anglais typique, et suffit pour une estimation de coût et une planification de la fenêtre de contexte. Si vous avez besoin d'un comptage exact pour la réconciliation des factures, exécutez le tokenizer officiel du fournisseur sur votre prompt final avant de l'envoyer.

Envie d'une expérience sans pub ? Passez à la version sans pub



 Installez nos extensions

Ajoutez des outils IO à votre navigateur préféré pour un accès instantané et une recherche plus rapide

Sur

恵 Le Tableau de Bord Est Arrivé !

Tableau de Bord est une façon amusante de suivre vos jeux, toutes les données sont stockées dans votre navigateur. D'autres fonctionnalités arrivent bientôt !

ANNONCE · Supprimer ?