تسعير توكنات LLM: كيف تحسب تكاليف API وتخفّضها فعلياً
إذا كنت تبني تطبيقات تعتمد على واجهات LLM البرمجية، فإن تسعير التوكنات هو البند الذي يستنزف ميزانيتك بصمت. فهم الآلية الفعلية — ليس فقط الأسعار المعلنة، بل تفاصيل احتساب المدخلات والمخرجات، والتخزين المؤقت، وخصومات المعالجة الجماعية — يمنحك تحكّماً حقيقياً في إنفاقك الشهري. إليك الصورة الكاملة.
ما هو التوكن بالضبط؟
التوكن هو أصغر وحدة نصية يعالجها النموذج. تخيّله كجزء من كلمة: ليس حرفاً بالضبط، وليس كلمة كاملة، بل مقطع يحدّده المُرمِّز (tokenizer) الخاص بالنموذج.
في الإنجليزية، التوكن الواحد ≈ 4 أحرف أو نحو 0.75 كلمة. عبارة "ChatGPT is great" تستهلك تقريباً 4 توكنات.
في اللغات ذات الترميز المعقّد كالعربية والصينية واليابانية والكورية، كل حرف يُترجم عادةً إلى 1–2 توكن بسبب تعقيد ترميز Unicode. المعنى ذاته المكتوب بالعربية قد يستهلك 30%–80% توكنات أكثر من نظيره الإنجليزي:
- "Hello, how are you?" ≈ 6 توكنات
- "مرحباً، كيف حالك؟" ≈ 8–10 توكنات
هذا الفارق مهم. إذا كانت قاعدة مستخدميك تتحدث العربية أو لغات غير لاتينية، فعليك احتساب ذلك في توقعات التكلفة من اليوم الأول.
توكنات المدخلات مقابل توكنات المخرجات
تنقسم فاتورة API إلى قسمين بأسعار مختلفة:
توكنات المدخلات تشمل كل ما ترسله للنموذج — تعليمات النظام، سجل المحادثة، رسالة المستخدم، السياق المُضاف.
توكنات المخرجات تشمل ما يولّده النموذج. ولأن توليد النص أكثر كلفة حسابياً، فإن توكنات المخرجات تكلّف عادةً 3–5 أضعاف توكنات المدخلات.
إليك نظرة على مشهد الأسعار لكل مليون توكن:
| فئة النموذج | سعر المدخلات | سعر المخرجات | |---|---|---| | خفيف (مثل Claude Haiku) | $0.25 – $0.80 | $1.00 – $4.00 | | متوسط (مثل Claude Sonnet) | $3.00 | $15.00 | | متقدّم (مثل Claude Opus) | $15.00 | $75.00 |
الفارق بين الفئات ضخم — يصل إلى 60 ضعفاً. اختيار الفئة المناسبة لكل مهمة هو أقوى أداة تحكّم بالتكلفة لديك.
تقدير استهلاك التوكنات
قبل أن تفاجئك الفاتورة، ابنِ نموذجاً تقريبياً لاستهلاك كل طلب:
إجمالي التوكنات = تعليمات النظام + سجل المحادثة + رسالة المستخدم + ردّ النموذج
لنأخذ روبوت دعم فني كمثال:
- تعليمات النظام (تعريف الدور، قواعد الرد): ~500 توكن
- سجل المحادثة الأخيرة (5 رسائل): ~1,000 توكن
- رسالة المستخدم الحالية: ~100 توكن
- ردّ النموذج: ~300 توكن
المجموع ~1,900 توكن لكل طلب — 1,600 مدخلات و300 مخرجات.
بأسعار Claude Sonnet:
المدخلات: 1,600 / 1,000,000 × $3.00 = $0.0048
المخرجات: 300 / 1,000,000 × $15.00 = $0.0045
التكلفة لكل طلب ≈ $0.0093
يبدو رخيصاً. لكن مع 10,000 محادثة يومياً، ستصل إلى ~$2,790 شهرياً. الأرقام تتراكم بسرعة.
التخزين المؤقت للطلبات: الخصم الذي تتجاهله معظم الفرق
التخزين المؤقت (Prompt Caching) من أكثر ميزات التوفير تأثيراً. الفكرة بسيطة: عندما تتشارك طلبات متتالية نفس البادئة (كتعليمات النظام)، يُعيد المزوّد استخدام الحسابات السابقة بدلاً من إعادة معالجتها. التوكنات المخزّنة مؤقتاً تُحاسب بنحو 10% من السعر العادي.
لنعد لمثال روبوت الدعم:
- 500 توكن مخزّنة مؤقتاً (تعليمات النظام) بسعر $0.30/مليون: $0.00015
- 1,100 توكن مدخلات غير مخزّنة بسعر $3.00/مليون: $0.0033
- 300 توكن مخرجات بسعر $15.00/مليون: $0.0045
تكلفة الطلب تنخفض إلى ~$0.0080 — توفير 14%. وهذا مع تعليمات نظام قصيرة. إذا كانت البادئة تتضمن قاعدة معرفية أو تعليمات مطوّلة (2,000–5,000 توكن)، يمكن للتخزين المؤقت خفض تكاليف المدخلات بنسبة 30%–50%.
المفتاح لتحقيق نسبة إصابة عالية للتخزين المؤقت: ضع كل المحتوى الثابت في بداية مصفوفة الرسائل، وكل المحتوى المتغيّر (رسالة المستخدم، السياق الأخير) في النهاية. الترتيب مهم.
ست طرق عملية لخفض فاتورة API
1. اختصر تعليمات النظام
تعليمات النظام المتضخّمة هي أكثر مصدر شائع لهدر التوكنات. راجع تعليماتك. احذف التكرار، والأمثلة الزائدة، وقواعد التنسيق المفرطة. تعليمات محكمة من 200 توكن غالباً تؤدي نفس أداء تعليمات من 800 توكن.
2. وجّه الطلبات حسب تعقيد المهمة
ليس كل طلب يحتاج أقوى نموذج لديك. أنشئ طبقة توجيه:
- التصنيف، الاستخراج، التنسيق ← الفئة الخفيفة
- التلخيص، الأسئلة والأجوبة ← الفئة المتوسطة
- الاستدلال المعقّد، التوليد الإبداعي ← الفئة المتقدّمة
هذا وحده يمكن أن يخفّض التكاليف 10–60 ضعفاً على الطلبات المؤهلة.
3. عظّم نسبة إصابة التخزين المؤقت
صمّم كل طلب بحيث تكون البادئة الثابتة متطابقة عبر جميع الاستدعاءات. في المحادثات متعددة الأدوار، حافظ على ثبات بداية مصفوفة الرسائل.
4. استخدم واجهات المعالجة الجماعية للمهام غير الفورية
إذا كنت تنفّذ ترجمة أو تلخيصاً أو تحليلاً بالجملة، فإن نقاط نهاية المعالجة الجماعية (Batch API) تقدّم عادةً خصم ~50%. وقت التسليم يمتد إلى 24 ساعة، لكن لخطوط المعالجة غير الفورية، هذا ليس مشكلة.
5. حدّد طول المخرجات
اضبط max_tokens لمنع النموذج من توليد ردود طويلة بلا داعٍ. ادمج ذلك مع تعليمة في الطلب مثل "أجب بإيجاز" لتأثير مزدوج على إنفاق توكنات المخرجات.
6. فكّر في الرصيد المدفوع مسبقاً
معظم المزوّدين يقدّمون خطط دفع مسبق بخصومات 5%–20%. المنصات الأفضل لا تُنهي صلاحية رصيدك ولا تعيد ضبطه شهرياً — تسحب منه بالسرعة التي تناسبك. للفرق التي تنفق $500 وأكثر شهرياً بانتظام، الدفع المسبق يتفوّق دائماً تقريباً على الدفع حسب الاستخدام.
تقديرات تكلفة شهرية واقعية
جميع الأرقام أدناه تفترض أسعار فئة Claude Sonnet مع تطبيق تحسينات التخزين المؤقت.
روبوت دعم العملاء
- 5,000 محادثة يومياً
- ~1,500 توكن مدخلات، ~300 توكن مخرجات لكل محادثة
- نسبة إصابة تخزين مؤقت 60%
- التقدير الشهري: $950 – $1,200
منصة توليد محتوى
- 1,000 مهمة توليد يومياً
- ~800 توكن مدخلات، ~1,500 توكن مخرجات لكل مهمة
- نسبة إصابة تخزين مؤقت 30%
- التقدير الشهري: $780 – $950
تحليل وتلخيص المستندات
- 200 مستند يومياً
- ~3,000 توكن مدخلات، ~500 توكن مخرجات لكل مستند
- معالجة جماعية (خصم 50%)
- التقدير الشهري: $180 – $250
بالجمع الصحيح بين توجيه النماذج والتخزين المؤقت والمعالجة الجماعية، تقع التكاليف الفعلية عادةً أقل بنسبة 30%–60% من التقديرات الساذجة.
الخلاصة
تسعير التوكنات يكافئ الفرق التي تهتم بالتفاصيل. أربعة أشياء هي الأهم:
- اعرف توزيع توكناتك — افهم أين يتركّز الإنفاق.
- طابق فئة النموذج مع المهمة — لا تدفع أسعار الفئة المتقدّمة لمهام بسيطة.
- استغل التخزين المؤقت — اجعل البادئات المتكررة شبه مجانية.
- استفد من الحجم — خصومات المعالجة الجماعية والرصيد المدفوع مسبقاً تتراكم مع الوقت.
عند تقييم مزوّدي API، لا تنظر فقط لسعر التوكن المعلن. نضج آلية التخزين المؤقت، وعمق خصومات المعالجة الجماعية، وما إذا كان الرصيد المدفوع مسبقاً ينتهي صلاحيته — هذه التفاصيل هي التي تحدّد تكلفتك الحقيقية على المدى الطويل.