Giá Token LLM Giải Thích: Cách Tính Toán và Cắt Giảm Chi Phí API
Nếu bạn đang xây dựng sản phẩm trên nền API của các mô hình ngôn ngữ lớn (LLM), giá token chính là khoản chi phí âm thầm ngốn ngân sách của bạn. Hiểu rõ cơ chế hoạt động — không chỉ bảng giá niêm yết, mà cả cách tính phí input/output, caching, và chiết khấu theo lô — sẽ giúp bạn kiểm soát chi tiêu hàng tháng hiệu quả hơn nhiều.
Token Là Gì?
Token là đơn vị nhỏ nhất mà mô hình xử lý. Hãy hình dung nó như một mảnh từ: không hẳn là ký tự, không hẳn là từ, mà là một đoạn do tokenizer của mô hình quyết định.
Với tiếng Anh, 1 token ≈ 4 ký tự hoặc khoảng 0.75 từ. Câu "ChatGPT is great" tốn khoảng 4 token.
Với các ngôn ngữ CJK (Trung, Nhật, Hàn), mỗi ký tự thường chiếm 1–2 token do độ phức tạp của mã hóa Unicode. Cùng một nội dung viết bằng tiếng Trung có thể tốn nhiều hơn 30%–80% token so với tiếng Anh:
- "Hello, how are you?" ≈ 6 token
- "你好,你最近怎么样?" ≈ 9–11 token
Với tiếng Việt, do sử dụng bảng chữ cái Latin có dấu, mức tiêu thụ token thường nằm giữa tiếng Anh và tiếng Trung — khoảng 10%–30% nhiều hơn tiếng Anh cho cùng nội dung. Nếu đối tượng người dùng chính của bạn không phải tiếng Anh, hãy tính toán chi phí dựa trên thực tế này ngay từ đầu.
Token Input vs. Token Output
Hóa đơn API chia thành hai phần với mức giá khác nhau:
Token input bao gồm mọi thứ bạn gửi đến mô hình — system prompt, lịch sử hội thoại, tin nhắn người dùng, ngữ cảnh bổ sung.
Token output là phần mô hình sinh ra. Vì quá trình sinh văn bản tốn nhiều tài nguyên tính toán hơn, token output thường đắt gấp 3–5 lần token input.
Bảng giá tham khảo theo triệu token:
| Hạng Mô Hình | Giá Input | Giá Output | |---|---|---| | Nhẹ (vd: Claude Haiku) | $0.25 – $0.80 | $1.00 – $4.00 | | Trung bình (vd: Claude Sonnet) | $3.00 | $15.00 | | Cao cấp (vd: Claude Opus) | $15.00 | $75.00 |
Chênh lệch giữa các hạng lên đến 60 lần. Chọn đúng hạng mô hình cho từng tác vụ là đòn bẩy chi phí lớn nhất bạn có.
Ước Tính Lượng Token Sử Dụng
Trước khi bị bất ngờ bởi hóa đơn, hãy xây dựng mô hình ước tính cho mỗi request:
Tổng token = system prompt + lịch sử hội thoại + input người dùng + output mô hình
Lấy ví dụ một chatbot hỗ trợ khách hàng:
- System prompt (định nghĩa vai trò, quy tắc trả lời): ~500 token
- Lịch sử hội thoại gần nhất (5 lượt): ~1,000 token
- Tin nhắn hiện tại của người dùng: ~100 token
- Phản hồi của mô hình: ~300 token
Tổng cộng ~1,900 token mỗi request — 1,600 input, 300 output.
Với mức giá Claude Sonnet:
Input: 1,600 / 1,000,000 × $3.00 = $0.0048
Output: 300 / 1,000,000 × $15.00 = $0.0045
Tổng mỗi request ≈ $0.0093
Nhìn thì rẻ. Nhưng với 10,000 cuộc hội thoại mỗi ngày, bạn đang chi ~$2,790/tháng. Con số tích lũy rất nhanh.
Prompt Caching: Chiết Khấu Mà Hầu Hết Team Bỏ Qua
Prompt caching là một trong những tính năng tiết kiệm chi phí hiệu quả nhất hiện nay. Ý tưởng rất đơn giản: khi các request liên tiếp có chung phần đầu (prefix) giống nhau — ví dụ system prompt — nhà cung cấp sẽ tái sử dụng kết quả tính toán trước đó thay vì xử lý lại. Token input được cache chỉ tính khoảng 10% giá gốc.
Quay lại ví dụ chatbot hỗ trợ:
- 500 token được cache (system prompt) với giá $0.30/M: $0.00015
- 1,100 token input không cache với giá $3.00/M: $0.0033
- 300 token output với giá $15.00/M: $0.0045
Chi phí mỗi request giảm xuống ~$0.0080 — giảm 14%. Đó mới chỉ là với system prompt ngắn. Nếu prefix của bạn bao gồm cả knowledge base hoặc hướng dẫn dài (2,000–5,000 token), caching có thể cắt giảm 30%–50% chi phí input.
Bí quyết để đạt tỷ lệ cache hit cao: đặt toàn bộ nội dung tĩnh ở đầu mảng message, và nội dung thay đổi (input người dùng, ngữ cảnh mới nhất) ở cuối. Thứ tự rất quan trọng.
Sáu Chiến Thuật Giảm Hóa Đơn API
1. Tinh gọn prompt
System prompt cồng kềnh là nguồn lãng phí token phổ biến nhất. Hãy rà soát lại: loại bỏ hướng dẫn trùng lặp, ví dụ thừa, và quy tắc format quá chi tiết. Một prompt 200 token được viết tốt thường hoạt động hiệu quả không kém prompt 800 token.
2. Phân luồng theo độ phức tạp
Không phải request nào cũng cần mô hình mạnh nhất. Thiết lập lớp routing:
- Phân loại, trích xuất, định dạng → hạng nhẹ
- Tóm tắt, hỏi đáp → hạng trung bình
- Suy luận phức tạp, sinh nội dung sáng tạo → hạng cao cấp
Riêng chiến thuật này có thể giảm chi phí 10–60 lần cho các request phù hợp.
3. Tối đa hóa cache hit
Cấu trúc mọi request sao cho prefix tĩnh giống hệt nhau giữa các lần gọi. Với hội thoại nhiều lượt, giữ phần đầu mảng message ổn định.
4. Dùng Batch API cho tác vụ không đồng bộ
Nếu bạn chạy dịch thuật, tóm tắt, hoặc phân tích hàng loạt, batch endpoint thường giảm ~50% chi phí. Thời gian xử lý kéo dài đến 24 giờ, nhưng với pipeline offline thì không thành vấn đề.
5. Giới hạn độ dài output
Đặt max_tokens để ngăn mô hình sinh phản hồi dài không cần thiết. Kết hợp với chỉ dẫn trong prompt như "trả lời ngắn gọn" để tiết kiệm kép token output.
6. Cân nhắc nạp tiền trước (Prepaid Credits)
Hầu hết nhà cung cấp đều có gói nạp trước với chiết khấu 5%–20%. Các nền tảng tốt không để số dư hết hạn hay reset hàng tháng — bạn sử dụng dần theo tốc độ của mình. Với team chi tiêu ổn định từ $500/tháng trở lên, nạp trước gần như luôn có lợi hơn trả theo dùng.
Ước Tính Chi Phí Thực Tế Hàng Tháng
Các con số dưới đây dựa trên mức giá Claude Sonnet với tối ưu caching.
Chatbot hỗ trợ khách hàng
- 5,000 cuộc hội thoại/ngày
- ~1,500 token input, ~300 token output mỗi cuộc
- Tỷ lệ cache hit 60%
- Ước tính hàng tháng: $950 – $1,200
Nền tảng sinh nội dung
- 1,000 tác vụ sinh nội dung/ngày
- ~800 token input, ~1,500 token output mỗi tác vụ
- Tỷ lệ cache hit 30%
- Ước tính hàng tháng: $780 – $950
Phân tích và tóm tắt tài liệu
- 200 tài liệu/ngày
- ~3,000 token input, ~500 token output mỗi tài liệu
- Batch API (giảm 50%)
- Ước tính hàng tháng: $180 – $250
Với sự kết hợp đúng đắn giữa phân luồng mô hình, caching, và xử lý theo lô, chi phí thực tế thường thấp hơn 30%–60% so với ước tính ban đầu.
Kết Luận
Giá token thưởng cho những team chú ý đến chi tiết. Bốn điều quan trọng nhất:
- Nắm rõ cơ cấu token — hiểu chi phí tập trung ở đâu.
- Chọn đúng hạng mô hình cho từng tác vụ — đừng trả giá cao cấp cho việc đơn giản.
- Tận dụng caching — biến prefix lặp lại thành gần như miễn phí.
- Dùng quy mô làm lợi thế — chiết khấu theo lô và nạp trước tích lũy theo thời gian.
Khi đánh giá nhà cung cấp API, đừng chỉ nhìn giá token niêm yết. Mức độ hoàn thiện của hệ thống caching, chiều sâu chiết khấu batch, và việc số dư nạp trước có hết hạn hay không — những chi tiết này mới quyết định chi phí thực sự dài hạn của bạn.