LLM 토큰 가격 완전 정리: API 비용 계산법과 절감 전략
LLM API 위에서 서비스를 만들고 있다면, 토큰 과금이야말로 예산을 조용히 갉아먹는 항목입니다. 헤드라인 요금표만 볼 게 아니라, 입력·출력 과금 구조, 캐싱, 대량 할인의 실제 작동 방식을 이해해야 월 비용을 제대로 통제할 수 있습니다. 전체 그림을 정리합니다.
토큰이란 정확히 무엇인가?
토큰은 모델이 처리하는 텍스트의 최소 단위입니다. 글자도 아니고 단어도 아닌, 모델의 토크나이저가 결정하는 텍스트 조각이라고 보면 됩니다.
영어 기준으로 1토큰 ≈ 4글자, 약 0.75단어입니다. "ChatGPT is great"는 대략 4토큰입니다.
한국어·중국어·일본어(CJK) 같은 언어는 유니코드 인코딩 특성상 글자 하나가 보통 1~2토큰에 매핑됩니다. 같은 의미를 한국어로 표현하면 영어 대비 30%~80% 더 많은 토큰을 소비할 수 있습니다:
- "Hello, how are you?" ≈ 6토큰
- "안녕하세요, 잘 지내셨어요?" ≈ 9~12토큰
이 차이는 무시할 수 없습니다. 한국어 사용자가 주요 고객이라면, 비용 추정 단계부터 이 점을 반영해야 합니다.
입력 토큰 vs. 출력 토큰
API 과금은 가격이 다른 두 가지 버킷으로 나뉩니다:
입력 토큰은 모델에 보내는 모든 것을 포함합니다 — 시스템 프롬프트, 대화 이력, 사용자 메시지, 주입된 컨텍스트.
출력 토큰은 모델이 생성하는 텍스트입니다. 텍스트 생성이 연산량이 더 크기 때문에, 출력 토큰은 보통 입력 토큰의 3~5배 비쌉니다.
100만 토큰당 가격 현황은 다음과 같습니다:
| 모델 등급 | 입력 가격 | 출력 가격 | |---|---|---| | 경량 (예: Claude Haiku) | $0.25 – $0.80 | $1.00 – $4.00 | | 중급 (예: Claude Sonnet) | $3.00 | $15.00 | | 플래그십 (예: Claude Opus) | $15.00 | $75.00 |
등급 간 가격 차이는 최대 60배에 달합니다. 각 작업에 맞는 등급을 선택하는 것이 비용 절감의 가장 큰 레버입니다.
토큰 사용량 추정하기
청구서에 놀라기 전에, 요청당 토큰 소비량을 대략적으로 모델링해 보세요:
총 토큰 = 시스템 프롬프트 + 대화 이력 + 사용자 입력 + 모델 출력
고객 지원 챗봇을 예로 들면:
- 시스템 프롬프트 (역할 정의, 응답 규칙): ~500토큰
- 최근 대화 이력 (5턴): ~1,000토큰
- 현재 사용자 메시지: ~100토큰
- 모델 응답: ~300토큰
요청당 약 1,900토큰 — 입력 1,600, 출력 300입니다.
Claude Sonnet 가격 기준:
입력: 1,600 / 1,000,000 × $3.00 = $0.0048
출력: 300 / 1,000,000 × $15.00 = $0.0045
요청당 합계 ≈ $0.0093
저렴해 보입니다. 하지만 하루 10,000건의 대화가 발생하면 월 ~$2,790입니다. 숫자는 빠르게 불어납니다.
프롬프트 캐싱: 대부분의 팀이 놓치는 할인
프롬프트 캐싱은 현재 사용 가능한 비용 절감 기능 중 가장 효과가 큽니다. 원리는 간단합니다: 연속된 요청이 동일한 접두사(예: 시스템 프롬프트)를 공유하면, 프로바이더가 이전 연산을 재사용합니다. 캐시된 입력 토큰은 정상 요금의 약 10%로 과금됩니다.
앞의 고객 지원 챗봇 예시에 적용하면:
- 캐시된 500토큰 (시스템 프롬프트) × $0.30/M: $0.00015
- 비캐시 입력 1,100토큰 × $3.00/M: $0.0033
- 출력 300토큰 × $15.00/M: $0.0045
요청당 비용이 ~$0.0080으로 떨어집니다 — 14% 절감. 시스템 프롬프트가 짧은 경우의 수치입니다. 지식 베이스나 긴 지시문(2,000~5,000토큰)이 접두사에 포함되면, 캐싱으로 입력 비용을 30%~50%까지 줄일 수 있습니다.
캐시 적중률을 높이는 핵심: 정적 콘텐츠는 메시지 배열 앞쪽에, 가변 콘텐츠(사용자 입력, 최신 컨텍스트)는 뒤쪽에 배치하세요. 순서가 중요합니다.
API 비용을 줄이는 6가지 전략
1. 프롬프트 다이어트
비대한 시스템 프롬프트가 토큰 낭비의 가장 흔한 원인입니다. 점검하세요. 중복 지시, 과도한 예시, 지나치게 상세한 포맷 규칙을 제거하세요. 잘 다듬은 200토큰 프롬프트가 800토큰짜리와 비슷한 성능을 내는 경우가 많습니다.
2. 작업 복잡도별 모델 라우팅
모든 요청에 최고 성능 모델이 필요한 건 아닙니다. 라우팅 레이어를 구성하세요:
- 분류, 추출, 포맷팅 → 경량 모델
- 요약, Q&A → 중급 모델
- 복잡한 추론, 창작 → 플래그십 모델
이것만으로도 해당 트래픽에서 10~60배 비용 절감이 가능합니다.
3. 캐시 적중률 극대화
모든 요청에서 정적 접두사가 동일하도록 구조화하세요. 멀티턴 대화에서는 메시지 배열의 앞부분을 안정적으로 유지하세요.
4. 비동기 작업에 Batch API 활용
대량 번역, 요약, 분석을 실행한다면 배치 엔드포인트를 사용하세요. 보통 ~50% 할인이 적용됩니다. 처리 시간이 최대 24시간으로 늘어나지만, 오프라인 파이프라인에서는 문제가 되지 않습니다.
5. 출력 길이 제한
max_tokens를 설정해서 모델이 불필요하게 긴 응답을 생성하지 않도록 하세요. "간결하게 답변하세요" 같은 프롬프트 지시와 함께 사용하면 출력 토큰 비용에 이중 효과를 줍니다.
6. 선불 크레딧 활용
대부분의 프로바이더가 5%~20% 할인이 적용되는 선불 요금제를 제공합니다. 좋은 플랫폼은 잔액이 만료되거나 매월 초기화되지 않아서, 자기 페이스대로 사용할 수 있습니다. 월 $500 이상 꾸준히 지출하는 팀이라면, 선불이 종량제보다 거의 항상 유리합니다.
실제 월간 비용 추정
아래 수치는 모두 Claude Sonnet급 가격에 캐싱 최적화를 적용한 기준입니다.
고객 지원 챗봇
- 일 5,000건 대화
- 대화당 입력 ~1,500토큰, 출력 ~300토큰
- 캐시 적중률 60%
- 월 추정: $950 – $1,200
콘텐츠 생성 플랫폼
- 일 1,000건 생성 작업
- 작업당 입력 ~800토큰, 출력 ~1,500토큰
- 캐시 적중률 30%
- 월 추정: $780 – $950
문서 분석 및 요약
- 일 200건 문서
- 문서당 입력 ~3,000토큰, 출력 ~500토큰
- Batch API (50% 할인)
- 월 추정: $180 – $250
모델 라우팅, 캐싱, 배치 처리를 적절히 조합하면, 실제 비용은 단순 추정치 대비 30%~60% 낮아지는 것이 일반적입니다.
핵심 정리
토큰 과금은 디테일에 신경 쓰는 팀에게 유리한 구조입니다. 가장 중요한 네 가지:
- 토큰 분포를 파악하세요 — 비용이 어디에 집중되는지 이해하세요.
- 작업에 맞는 모델 등급을 선택하세요 — 단순 작업에 플래그십 요금을 낼 필요 없습니다.
- 캐싱을 활용하세요 — 반복되는 접두사를 거의 무료로 만드세요.
- 볼륨을 레버리지로 쓰세요 — 배치 할인과 선불 크레딧은 시간이 갈수록 효과가 커집니다.
API 프로바이더를 평가할 때, 토큰당 단가만 보지 마세요. 캐싱 구현의 성숙도, 배치 할인의 깊이, 선불 크레딧의 만료 여부 — 이런 디테일이 장기적인 실제 비용을 결정합니다.