Tidak suka iklan? Pergi Bebas Iklan Hari ini 

Penghitung Jumlah Token LLM

DataPengembangTeks

IKLAN · HAPUS?

MEMASUKKAN

Proses Otomatis

KELUARAN

Sisi klien

IKLAN · HAPUS?

Memandu

Penghitung Jumlah Token LLM

Tempelkan prompt, dokumen, atau potongan kode dan segera lihat jumlah token yang diestimasi untuk GPT-4o, GPT-4 Turbo, GPT-3.5, model o1 untuk pemikiran, Claude 3.x, dan Gemini 1.5. Alat ini berjalan sepenuhnya di browser, diperbarui secara real-time saat Anda mengetik, dan menyertakan angka token dengan angka biaya per juta token serta bar penggunaan jendela konteks agar Anda dapat melihat secara langsung seberapa dekat Anda dengan batas model tersebut.

Cara Penggunaan

Tempelkan atau ketik teks Anda ke area input. Alat ini memproses setiap perubahan secara instan tanpa perlu tekan tombol.
Pilih model tujuan dari dropdown. GPT-4o dipilih secara default.
Secara opsional atur jumlah token output yang diharapkan agar estimator biaya dapat mencakup biaya generasi, bukan hanya biaya input.
Baca estimasi token, rasio karakter per token, dan bar penggunaan jendela konteks untuk menilai ukuran prompt sebelum mengirimkannya.
Bandingkan biaya input, output, dan total dalam dolar di seluruh model yang didukung dalam tabel harga.
Scan visualisasi token untuk melihat di mana batas token yang diperkirakan terletak. Token yang bersebelahan berwarna berbeda sehingga setiap unit secara visual terpisah.

Fitur

Dua belas model berdampingan – GPT-4o, GPT-4o mini, GPT-4 Turbo, GPT-4, GPT-3.5 Turbo, o1, o1-mini, Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku, Gemini 1.5 Pro, dan Gemini 1.5 Flash dibandingkan dalam satu tabel.
Bar penggunaan jendela konteks – Menampilkan jumlah token Anda sebagai persentase dari jendela model yang dipilih, dengan warna peringatan dan bahaya saat Anda melebihi 70% dan 90%.
Estimasi biaya dengan token output – Harga per juta token input dan output diterapkan pada ukuran input aktual Anda ditambah panjang respons yang diatur secara konfigurasi.
Visualisasi token – Bagian berwarna bergantian menunjukkan di mana batas token yang diperkirakan terletak, dengan spasi awal yang digabungkan dengan bagian berikutnya dan tanda baca tetap sebagai unit sendiri.
Panel statistik real-time – Estimasi token, jumlah kata, jumlah karakter, jumlah karakter tanpa spasi, jumlah token per kata, dan jumlah karakter per token.
Berjalan sepenuhnya di sisi klien – Tidak ada yang diunggah. Prompt Anda tetap di komputer Anda.
Heuristik yang menyadari kode – Ketika teks terlihat seperti kode, rasio estimasi diatur lebih rendah untuk mencerminkan bahwa BPE membagi kode lebih agresif dibandingkan dengan teks prose.

 Tanya Jawab Umum

Apa itu token dalam model bahasa besar?

Token adalah unit dasar yang dibaca dan dihasilkan oleh model. Token dihasilkan oleh pengekodingan pasangan byte (BPE) atau tokenizer sub-kata serupa, yang belajar urutan karakter paling sering dalam data pelatihan dan menyimpannya sebagai kamus bersama. Satu token dapat menjadi kata lengkap, prefiks atau sufiks umum, bagian dari kata langka, satu emoji, atau tanda baca. Untuk teks bahasa Inggris, satu token rata-rata sekitar empat karakter atau sekitar tiga perempat kata. Kode, URL, JSON, dan skrip non-Latin cenderung menghasilkan lebih banyak token per karakter karena urutan karakternya kurang umum dalam kamus tokenizer.
Mengapa model yang berbeda melaporkan jumlah token yang berbeda untuk teks yang sama?

Setiap keluarga model dilatih dengan tokenizer dan kamus yang berbeda. GPT-3.5 dan GPT-4 dari OpenAI menggunakan enkoding cl100k_base, sementara GPT-4o dan seri o1 menggunakan enkoding yang lebih baru o200k_base. Model Claude dari Anthropic menggunakan tokenizer pribadi, dan model Gemini dari Google menggunakan tokenizer SentencePiece. Karena kamusnya berbeda, kalimat yang sama dapat dienkodkan ke jumlah token yang berbeda pada model yang berbeda, biasanya dalam rentang sepuluh hingga dua puluh persen untuk teks bahasa Inggris, namun lebih bervariasi untuk kode atau teks non-Inggris.
Apa itu jendela konteks dan mengapa itu penting?

Jendela konteks adalah jumlah maksimum token yang dapat dibaca dan dihasilkan oleh model dalam satu permintaan. Ini mencakup prompt sistem, prompt pengguna, sejarah percakapan lengkap, dan respons. Ketika Anda melebihi jendela, konteks yang lebih tua akan dipotong, yang dapat secara diam-diam menghilangkan instruksi atau fakta yang dibutuhkan oleh model. Jendela yang besar memberikan ruang untuk dokumen panjang dan percakapan panjang, tetapi latensi dan biaya meningkat seiring dengan jumlah token yang diproses, sehingga bahkan dengan jendela dua juta token, biasanya lebih murah dan lebih cepat untuk menjaga prompt tetap pendek.
Bagaimana harga API LLM biasanya dihitung?

Sebagian besar penyedia menetapkan harga untuk token input dan output secara terpisah dan menyebutkan tarif per juta token. Token input adalah semua yang Anda kirimkan ke model, termasuk prompt sistem dan sejarah percakapan. Token output adalah semua yang dihasilkan oleh model. Output hampir selalu lebih mahal daripada input karena proses generasi membutuhkan komputasi. Beberapa penyedia juga memberikan diskon untuk token input yang disimpan atau digunakan ulang. Untuk memperkirakan biaya total dari panggilan, kalikan jumlah token input Anda dengan tarif input dan jumlah token output yang diharapkan dengan tarif output, bagi masing-masing dengan satu juta, lalu jumlahkan dua angka tersebut.
Mengapa jumlah token saya hanya merupakan perkiraan, bukan jumlah tepat tiktoken?

Menghasilkan jumlah token BPE yang tepat membutuhkan mengirimkan kamus tokenizer penuh ke browser, yang bisa mencapai beberapa megabyte berat. Alat ini menggunakan heuristik karakter per token yang disesuaikan untuk setiap keluarga model, yang memberikan jumlah yang dalam beberapa persen dari jumlah tiktoken atau SentencePiece untuk teks bahasa Inggris yang umum dan cukup akurat untuk estimasi biaya dan perencanaan jendela konteks. Jika Anda membutuhkan jumlah yang tepat untuk penyesuaian tagihan, jalankan tokenizer resmi penyedia terhadap prompt akhir Anda sebelum mengirimkannya.