不喜欢广告? 无广告 今天

LLM 令牌数量估算器

数据开发人员文本
广告 移除?

型号

用于输出成本估算。

标记数估算

上下文窗口使用情况

成本估算

标记可视化

广告 移除?

指导

LLM 标记数估算器

LLM 令牌数量估算器

粘贴任何提示、文档或代码片段,即可立即查看针对 GPT-4o、GPT-4 Turbo、GPT-3.5、o1 推理模型、Claude 3.x 以及 Gemini 1.5 的标记数估算。该工具完全在浏览器中运行,实时更新,随着您输入内容而变化,并结合每百万标记的成本以及实时上下文窗口使用条,让您一眼就能判断是否接近模型的限制。

如何使用

  1. 将您的文本粘贴或输入到输入区域。该工具会即时处理每次更改,无需点击按钮。
  2. 从下拉菜单中选择目标模型。默认选择 GPT-4o。
  3. 可选地设置预期输出标记数,以便成本估算器包含生成成本,而不仅仅是输入成本。
  4. 查看标记数估算、每标记字符比以及上下文窗口使用条,以在发送前评估提示的大小。
  5. 在定价表中比较每个支持模型的输入、输出和总美元成本。
  6. 扫描标记可视化,查看近似标记边界的位置。相邻标记交替颜色,使每个单位在视觉上清晰可辨。

特征

  • 十二个模型并列展示 – GPT-4o、GPT-4o mini、GPT-4 Turbo、GPT-4、GPT-3.5 Turbo、o1、o1-mini、Claude 3.5 Sonnet、Claude 3 Opus、Claude 3 Haiku、Gemini 1.5 Pro 和 Gemini 1.5 Flash 均在一个表格中进行比较。
  • 上下文窗口使用条 – 显示您的标记数占所选模型窗口的百分比,当超过 70% 和 90% 时,会显示警告和危险颜色。
  • 包含输出标记的成本估算 – 应用每百万标记的输入和输出定价到您的实际输入大小以及可配置的预期响应长度。
  • 标记可视化 – 交替颜色的块显示近似 BPE 风格标记边界,前导空白字符与后续块粘连,标点符号作为独立单位保留。
  • 实时统计面板 – 估算的标记数、词数、字符数、不含空格的字符数、每词标记数以及每字符标记数。
  • 完全在客户端运行 – 无需上传任何内容。您的提示始终保留在您的设备上。
  • 代码感知启发式方法 – 当文本看起来像代码时,估算比例会下调,以反映代码的 BPE 分割比散文更激进。

常问问题

  1. 大型语言模型中的“标记”是什么意思?

    标记是模型读取和生成的基本单位。标记由字节对编码(BPE)或类似的子词分词器生成,这些分词器学习训练数据中最常见的字符序列,并将其存储为共享词汇表。一个标记可以是一个完整单词、常见前缀或后缀、罕见单词的一部分、一个单独的表情符号或一个标点符号。对于英文散文,一个标记平均约为四个字符,相当于大约三个四分之一个单词。代码、URL、JSON 和非拉丁文字通常每字符产生更多标记,因为它们的字符序列在分词器词汇表中不常见。

  2. 为什么不同模型对同一文本报告不同的标记数?

    每个模型系列都使用自己的分词器和词汇表进行训练。OpenAI 的 GPT-3.5 和 GPT-4 使用 cl100k_base 编码,而 GPT-4o 和 o1 系列使用更先进的 o200k_base 编码。Anthropic 的 Claude 模型使用专有的 Anthropic 分词器,Google 的 Gemini 模型使用 SentencePiece 分词器。由于词汇表不同,相同的句子在不同模型上可能编码为不同的标记数,通常在英文散文中相差 10% 到 20%,但在代码或非英文文本中差异更大。

  3. 什么是上下文窗口,为什么它重要?

    上下文窗口是模型在单个请求中可以读取和生成的最大标记数。它包括系统提示、用户提示、完整的对话历史和响应。当超过窗口时,较早的上下文会被截断,这可能会无声地丢弃模型所需的指令或事实。较大的窗口为长文档和长对话提供了空间,但处理的标记数越多,延迟和成本也越高,因此即使拥有两百万标记的窗口,通常保持提示简洁也更便宜、更快。

  4. LLM API 价格通常如何计算?

    大多数提供商分别对输入和输出标记进行定价,并按每百万标记报价。输入标记是您发送给模型的一切内容,包括系统提示和对话历史。输出标记是模型生成的一切内容。输出通常比输入更昂贵,因为生成是计算密集型的。少数提供商还对缓存或重复使用的输入标记提供折扣。为了估算一次调用的总成本,将输入标记数乘以输入费率,将预期输出标记数乘以输出费率,分别除以一百万,然后将两个结果相加。

  5. 为什么我的标记数只是一个估算,而不是精确的 tiktoken 数?

    生成精确的 BPE 标记数需要将完整的分词器词汇表发送到浏览器,每个编码可能需要几兆字节的权重。该工具使用针对每个模型系列校准的每字符标记启发式方法,对于典型的英文散文,其估算值与真实的 tiktoken 或 SentencePiece 数值相差几个百分点,足以满足成本估算和上下文窗口规划的需求。如果需要用于账单核对的精确数值,请在发送提示前使用提供商的官方分词器对最终提示进行处理。

想要享受无广告的体验吗? 立即无广告

安装我们的扩展

将 IO 工具添加到您最喜欢的浏览器,以便即时访问和更快地搜索

添加 Chrome 扩展程序 添加 边缘延伸 添加 Firefox 扩展 添加 Opera 扩展

记分板已到达!

记分板 是一种有趣的跟踪您游戏的方式,所有数据都存储在您的浏览器中。更多功能即将推出!

广告 移除?
广告 移除?
广告 移除?

新闻角 包含技术亮点

参与其中

帮助我们继续提供有价值的免费工具

给我买杯咖啡
广告 移除?