Tidak suka iklan? Pergi Bebas Iklan Hari ini 

Kalkulator Biaya API LLM

DataPengembangMatematika

IKLAN · HAPUS?

MEMASUKKAN

Proses Otomatis

Permintaan

Token Input

Token yang dikirim ke model per panggilan (prompt + konteks).

Token Output

Token yang dikembalikan oleh model per panggilan (penyelesaian).

Panggilan / Hari

Jumlah permintaan yang Anda lakukan setiap hari. Digunakan untuk proyeksi harian dan bulanan.

Model & Mode Harga

Model

Harga real-time

Harga batch (50% off, di mana didukung)

KELUARAN

Sisi klien

IKLAN · HAPUS?

Memandu

Kalkulator Biaya API LLM

Estimasi biaya panggilan API LLM sebelum Anda menerapkannya. Masukkan token input, token output, dan volume panggilan harian Anda, pilih model, dan alat ini menunjukkan pengeluaran per-panggilan, per-hari, per-bulan, dan per-tahun di OpenAI, Anthropic, Google, dan Meta model — menggunakan harga daftar yang dipublikasikan per 1 juta token. Sangat berguna untuk memeriksa kualitas tawaran, membandingkan penyedia, atau merancang anggaran peluncuran.

Cara Penggunaan

Masukkan rata-rata Token Input per permintaan (prompt Anda ditambah konteks apa pun yang Anda kirim).
Masukkan rata-rata Token Output yang Anda harapkan model akan kembalikan.
Masukkan jumlah Panggilan / Hari yang Anda harapkan akan dilakukan di produksi.
Pilih sebuah Model dari dropdown (OpenAI, Anthropic, Google, atau Meta / Llama).
Beralih antara Harga real-time dan Harga batch untuk melihat diskon batch 50% di mana penyedia mendukungnya.
Baca ringkasan biaya per-panggilan, per-hari, per-bulan, dan per-tahun, lalu gulir ke tabel perbandingan untuk melihat biaya yang sama pada setiap model lainnya.

Fitur

Harga multi-penyedia — OpenAI, Anthropic, Google, dan model Meta / Llama dalam satu tabel.
Toggle harga real-time vs batch — lihat diskon batch 50% untuk OpenAI, Anthropic, dan Google, dan label "n/a" yang jelas di mana penyedia tidak memiliki tier batch.
Proyeksi per-panggilan, per-hari, per-bulan, dan per-tahun — proyeksi menggunakan rata-rata bulanan 30,44 hari untuk laju operasional yang realistis.
Tabel perbandingan model sampingan — lihat biaya yang sama pada setiap model yang didukung, dengan model yang dipilih ditonjolkan.
Pemisahan harga input dan output — karena token output biasanya 2x hingga 5x lebih mahal daripada token input.
Tidak ada server, tidak ada pelacakan — semua perhitungan harga berjalan di sisi klien. Jumlah token dan volume Anda tidak pernah meninggalkan browser Anda.

 Tanya Jawab Umum

Apa itu token dan mengapa LLM menghitung per token?

Token adalah bagian teks yang dibaca dan ditulis oleh model — sekitar satu kata, sub-kata, atau tanda tanya tunggal. Prosa bahasa Inggris rata-rata sekitar empat karakter per token. LLM menghitung per token karena biaya komputasi berbanding lurus dengan jumlah token yang diproses: setiap token input harus diperhatikan, dan setiap token output dihasilkan satu langkah demi satu langkah. Harga per-token memberikan model biaya yang linier dan dapat diprediksi yang secara langsung mencerminkan pekerjaan yang dilakukan oleh GPU.
Mengapa token output biasanya lebih mahal daripada token input?

Token input diproses dalam satu kali perjalanan paralel: model membaca seluruh prompt dalam satu kali. Sementara itu, token output dihasilkan secara autoregressif — setiap token baru membutuhkan satu kali perjalanan ke depan atas konteks yang terus tumbuh. Proses penghasilan langkah demi langkah ini lebih mahal per token, yang merupakan alasan penyedia biasanya menetapkan harga token output 2x hingga 5x lebih tinggi daripada token input.
Apa itu harga batch dan kapan itu masuk akal?

Harga batch memungkinkan Anda mengirimkan banyak permintaan secara bersamaan dan menerima hasil dalam jangkauan yang ditentukan oleh penyedia — biasanya 24 jam di OpenAI, Anthropic, dan Google. Karena tugas-tugas ini dapat dijadwalkan pada kapasitas off-peak, penyedia menawarkan diskon 50% pada token input dan output. Batch sangat ideal untuk beban kerja offline seperti peningkatan dokumen, jalur evaluasi, pengisian embedding, dan laporan malam hari. Tidak cocok untuk hal-hal yang ditunggu oleh pengguna, seperti chat atau pencarian interaktif.
Mengapa jumlah token yang sama biaya lebih tinggi pada model yang lebih besar?

Model yang lebih besar memiliki lebih banyak parameter, yang berarti setiap perjalanan ke depan membutuhkan lebih banyak komputasi dan lebih banyak bandwidth memori. Model 405 miliar parameter melakukan lebih banyak aritmetika per token dibandingkan model 8 miliar parameter. Penyedia menyalurkan biaya ini sebagai harga per-token yang lebih tinggi. Itulah juga alasan mengapa model yang lebih kecil dan cepat sering kali merupakan jawaban yang tepat untuk tugas klasifikasi atau ekstraksi sederhana — Anda membayar lebih sedikit dan mendapatkan respons lebih cepat.
Apakah harga daftar mencerminkan apa yang akan saya bayar?

Tidak selalu. Harga daftar yang dipublikasikan adalah titik awal, tetapi kebanyakan penyedia menawarkan diskon penggunaan komitmen, kontrak perusahaan, kredit pra-bayar, dan tier volume yang mengurangi tingkat efektif per-token. Selain itu, prompt yang disimpan, fitur kompresi prompt, dan penyimpanan konteks khusus penyedia dapat secara signifikan mengurangi biaya input untuk beban kerja yang berulang. Gunakan kalkulator harga daftar sebagai batas atas untuk perencanaan, lalu tambahkan diskon kontrak Anda di atasnya.