بوابة LLM: التوجيه والمصادقة والتحكم في التكاليف لعملاء الذكاء الاصطناعي

بوابة LLM هي وكيل عكسي HTTP موضوع بين عمليات عملاء الذكاء الاصطناعي ونقاط نهاية مزودي النماذج الأولية، وتعمل كمستوى بيانات لجميع حركة الاستدلال الصادرة. تحلّ معاملات المفاتيح المعتمة على طبقة الشبكة قبل الإعادة، وتطبق حصص التقييد لكل مستأجر باستخدام عدادات النافذة المنزلقة، وتُرسل قياسات إنفاق OpenTelemetry لكل طلب، وتفتح قواطع الدوائر عندما يتجاوز وقت الاستجابة P99 الأولي الحدود المُعيَّنة — دون الحاجة لأي تغييرات في كود تطبيق العميل. يجب على أي مجموعة تشغّل ثلاثة مستهلكين للاستدلال المتزامن أو أكثر نشر واحدة.

بوابة LLM هي وكيل عكسي HTTP يقع في مستوى البيانات بين عمليات عملاء الذكاء الاصطناعي ونقاط نهاية مزودي النماذج، يوفر حلّ المفاتيح المعتمة على طبقة الشبكة، وتطبيق حصص لكل مستأجر عبر عدادات النافذة المنزلقة، وقياسات إنفاق OpenTelemetry لكل طلب، وتحويل الفشل بقاطع الدائرة — كبدائل بنية تحتية غير مرئية لكود التطبيق.

مشكلة مستوى البيانات في الاستدلال متعدد العملاء

بدون مستوى بيانات استدلال مخصص، تدير كل عملية عميل اتصالاتها الأولية الخاصة: حلّ المفاتيح من حالة البيئة، وبدون حصة لكل عملية، وبدون قياسات لكل طلب، وبدون رؤية لما إذا كانت نقطة النهاية الأولية تعاني من تدهور. عند عميلَين، يمكن إدارة ذلك. عند عشرين، ينتج أربعة أنماط فشل متميزة.

تسرب المفاتيح عبر فحص البيئة

أي عملية عميل تحتفظ بمفتاح مزود نصي صريح في بيئتها تبعد خطوة واحدة من تعليمة معادية عن تسريبه. سطح الهجوم هو بيئة العملية نفسها: os.environ، و/proc/self/environ على أجهزة Linux، وتتبعات الأخطاء المفصلة التي تسلسل حالة العملية، وإعدادات سجل التصحيح التي تلتقط رؤوس HTTP الصادرة بما فيها حقول التفويض.

هجمات حقن التعليمات التي تجعل العملاء يعكسون حالة البيئة هي فئة هجوم موثقة ضد العملاء الذين يحتفظون بمفاتيح نصية صريحة (OWASP LLM01:2025). الإصلاح الهيكلي ليس التحقق الأفضل من المدخلات: إنه إزالة المفتاح النصي الصريح تماماً من عملية العميل. بوابة LLM التي تحلّ المعاملات المعتمة ($CRED{openai}) على طبقة الشبكة قبل كتابة رأس التفويض تعني أن عملية العميل لا تحتفظ أبداً بمادة يمكن تسريبها.

تنفذ شبكة OpenLegion الشبكية هذا على مستوى البنية التحتية: تحلّ معاملات $CRED{} على حدود مضيف الشبكة. الحاويات العميلة عاجزة هيكلياً عن الوصول إلى القيمة المحلولة — ليس لأنها مُوجَّهة لعدم ذلك، بل لأن الحلّ يحدث خارج مساحة عنوانها.

استنفاد الحصص عبر تقييد المفاتيح المشتركة

مزودو النماذج الأولية يقيّدون على مستوى مفتاح API. في مجموعة يشترك فيها عشرون عملية عميل في مفتاح واحد، يمكن لعملية واحدة ترسل طلبات بمعدل يساوي 10 أضعاف المعدل المتوقع — سواء عبر عاصفة إعادة المحاولة أو حلقة غير خاضعة للتحكم أو حمولة حقن تعليمات تسبب استدعاءات استدلال غير محدودة — أن تدفع المفتاح إلى منطقة تقييد المعدل للتسعة عشر الآخرين.

تطبق البوابة حصصاً لكل مستأجر باستخدام عداد نافذة منزلقة مفهرس على معرف العميل. عندما يبلغ عداد العميل الحد الأقصى المُعيَّن، ترد البوابة بـ HTTP 429 على مستوى البوابة: لا يُرسَل أي طلب أولي، ولا تُستهلك أي حصة مزود، ولا يتأثر العملاء الأشقاء.

حصة كل عميل هي أيضاً الإجراء التخفيفي الهيكلي لـ OWASP LLM10:2025 (الاستهلاك غير المحدود) — النمط الذي تتسبب فيه التعليمات المعادية في إصدار عميل استدعاءات استدلال غير محدودة.

غياب قابلية المراقبة الأولية

بدون مستوى بيانات استدلال، تتطلب قياسات كل طلب أدوات قياس داخل كل عملية عميل. هذا مكرر وغير متسق. تُرسل البوابة سجلات OTLP OpenTelemetry لكل طلب على طبقة الشبكة، وتلتقط: معرف العميل، نقطة النهاية الأولية، اسم النموذج، عدد رموز الإدخال، عدد رموز الإخراج، رموز الإصابة بالذاكرة المؤقتة، حالة استجابة HTTP، ومدة الطلب.

يتراكم سجل الإنفاق لكل طلب (رموز_الإدخال × سعر_كل_1k_إدخال + رموز_الإخراج × سعر_كل_1k_إخراج) في دفتر إنفاق لكل عميل. يدعم هذا الدفتر حدود الإنفاق اليومية والشهرية وتنبيهات شذوذ الإنفاق.

التدهور الأولي غير المرئي

نقاط نهاية المزودين تتدهور. يمكن أن يصل وقت استجابة الذيل P99 على GPT-4o خلال أحداث السعة إلى 12 ثانية (معيار بنية OpenLegion التحتية، يونيو 2026). بدون قاطع دائرة في مستوى البيانات، يستوعب كل عميل في المجموعة هذا التدهور مع كل طلب.

تتبع البوابة ذات قاطع الدائرة معدلات الخطأ وزمن الاستجابة P99 لكل نقطة نهاية. عندما يتجاوز حد فشل قابل للتهيئة — مثلاً خمس استجابات 5xx متتالية أو P99 يتجاوز 8 ثوانٍ في نافذة 30 ثانية — تنفتح الدائرة: تُرسَل الطلبات التالية فوراً إلى نقطة نهاية الاحتياط المُعيَّنة.

قاس معيار OpenLegion في يونيو 2026 طوبولوجيا GPT-4o الأولي ← Claude 3.5 Sonnet الاحتياطي: انخفض P99 من 12 ثانية إلى 3.1 ثانية (3.9 مرة) دون أي تعديل على كود العميل.

معمارية البوابة: مستوى البيانات مقابل مستوى التحكم

مستوى البيانات: التطبيق لكل طلب

يمر كل طلب استدلال عبر مستوى البيانات بالتسلسل:

إنهاء TLS: تتصل عملية العميل بالبوابة عبر TLS. في عمليات نشر mTLS، يقدم العميل أيضاً شهادة. يزيل mTLS الحاجة إلى رموز مصادقة لكل طلب بين العميل والبوابة.
حلّ هوية حمل العمل: تربط البوابة حمل العمل المتصل بهوية مستأجر. في عمليات نشر mTLS، يحمل SPIFFE SVID المضمن في شهادة العميل هوية حمل العمل.
حلّ المعاملة المعتمة: تفحص البوابة رأس التفويض الصادر بحثاً عن أنماط معاملات $CRED{}. تُحلّ المعاملات المطابقة مقابل مخزن الأسرار الداعم للبوابة.
فحص الحصة: تزيد البوابة عداد النافذة المنزلقة للمستأجر وتقارنه بالحد الأقصى المُعيَّن. إذا تجاوز العداد الحد، ترد البوابة بـ 429 مع رؤوس Retry-After. لا تُفتح أي اتصال أولي.
فحص قاطع الدائرة: تقيّم البوابة حالة الدائرة لنقطة النهاية المستهدفة. إذا كانت الدائرة مفتوحة، يُعاد توجيه الطلب فوراً إلى الاحتياطي.
الإرسال الأولي: تفتح البوابة اتصالاً من مجموعة اتصالاتها إلى نقطة النهاية الأولية وتدفق الاستجابة مرة أخرى.
إرسال القياسات: عند اكتمال الاستجابة، تكتب البوابة سجل OTLP إلى خط أنابيب القياس.

إجمالي الحمل الإضافي في المسار الدافئ: 0.7-2.1 ملي ثانية. في المسار البارد: 2.6-6.6 ملي ثانية. عند وقت استجابة استدلال المزود 500 ملي ثانية - 30 ثانية، الحمل الإضافي للمسار الدافئ أقل من 0.5% من إجمالي وقت الرحلة ذهاباً وإياباً.

مستوى التحكم: الإعداد والسياسة

يحكم مستوى التحكم سلوك مستوى البيانات. المسؤوليات الرئيسية:

إعداد هوية المستأجر والحصة، طوبولوجيا نقاط النهاية، نطاق إذن المعاملة: هويات حمل العمل المسموح لها بحلّ المعاملات. مستأجر بنطاق openai:read يمكنه حلّ $CRED{openai} لكن ليس $CRED{anthropic}. يمنع هذا الحركة الأفقية بين المستأجرين.

سياسة التدقيق: الحقول التي تظهر في سجلات OTLP.

لا يجب أن تكون واجهة برمجة تطبيقات مستوى التحكم قابلة للوصول من الشبكات على جانب العميل. أوضح GHSA-53mr-6c8q-9789 (LiteLLM، CVE-2026-35029، مُصحَّح في v1.83.0) ما يحدث عندما يكون مسار كتابة إعداد مستوى التحكم قابلاً للوصول عبر الشبكة بدون تفويض كافٍ.

طوبولوجيات النشر

مدخل مركزي

تعالج مجموعة بوابة واحدة جميع حركة الاستدلال الصادرة من مجموعة العملاء. مناسب للمجموعات حتى حوالي 50 عميلاً حيث تكون البساطة التشغيلية أولوية.

نمط Sidecar

تشغّل كل حاوية عميل عملية بوابة على واجهة loopback الخاصة بها. نطاق الفشل هو حاوية عميل واحدة. مناسب للمجموعات الكبيرة (50+ عميل) حيث يكون عزل الفشل لكل عميل أولوية.

وكيل Mesh الأصلي

في OpenLegion، وكيل الاستدلال هو خدمة mesh. يتعامل نموذج mesh الأصلي مع هوية حمل العمل بشكل أصلي: تتلقى كل حاوية عميل هوية صادرة عن mesh عند إنشائها.

رأي OpenLegion

مجموعة ميزات بوابة LLM — mTLS، تطبيق حصص النافذة المنزلقة، قياسات إنفاق OTLP، تحويل الفشل بقاطع الدائرة — ليست بنية تحتية اختيارية للمجموعات متعددة العملاء. إنها مستوى البيانات القابل للتطبيق بحد أدنى.

ثلاثة قياسات من اختبارات البنية التحتية لشهر يونيو 2026 في OpenLegion تُحدِّد المخاطر:

وقت الاستجابة الذيلي P99 بدون تحويل فشل: 12 ثانية على عمليات نشر GPT-4o فقط خلال أحداث سعة المزود. مع Claude 3.5 Sonnet كاحتياطي لقاطع الدائرة: 3.1 ثانية. التحسن بمقدار 3.9 مرات لم يتطلب أي تغييرات في كود تطبيق العميل.

سطح هجوم تسرب المفاتيح: في مجموعة من 20 عميلاً حيث يحتفظ جميع العملاء بمفاتيح نصية صريحة، يمكن لعميل واحد مخترق عبر حقن التعليمات (OWASP LLM01:2025) تسريب المفاتيح. في مجموعة يتوسطها بوابة مع حلّ معاملات معتمة، لا يحتفظ نفس العميل المخترق بأي مادة يمكن تسريبها.

تغطية OWASP LLM: تطبيق حصص لكل مستأجر على البوابة يعالج LLM10:2025 (الاستهلاك غير المحدود). تطبيق نطاق المعاملات يعالج LLM06:2025 (الصلاحية الزائدة).

للفرق التي تقيّم أنماط إدارة بيانات الاعتماد لعملاء الذكاء الاصطناعي، حلّ المعاملات المعتمة في البوابة هو التنفيذ على مستوى النشر لنمط وكيل vault الموضح هناك.

مقارنة بوابات LLM

القدرة	باحتضان ذاتي (LiteLLM)	OpenAI الأصلي	وكيل OpenLegion mesh
نموذج حلّ المفاتيح	مخزن مفاتيح مدعوم بـ Postgres	خدمة مُدارة	معاملة معتمة ← vault على طبقة الشبكة
هوية حمل عمل mTLS	غير مدعوم	غير مدعوم	SPIFFE SVID لكل حاوية عميل
تطبيق الحصة	قائم على الإعداد، لكل مفتاح	حدود لكل مؤسسة	عداد نافذة منزلقة، لكل مستأجر
تحويل الفشل بقاطع الدائرة	قائم على إضافة	غير متاح	أصلي، مع مسبار نصف مفتوح
قياسات إنفاق OTLP	جزئي	غير مُصدَّر	لكل طلب، جميع الحقول
عزل مستوى التحكم	يدوي؛ مكشوف افتراضياً	مُدار	الشبكة الفرعية الخاصة لـ mesh فقط
سجل CVE (2024-2026)	GHSA-53mr-6c8q-9789 + آخرون	لا يوجد عام	لا يوجد

اختيار بوابة لمجموعتك

mTLS مقابل مصادقة رمز Bearer

يصادق mTLS (mutual TLS) كلاً من العميل والخادم (البوابة) على طبقة مصافحة TLS قبل تبادل أي حمولة HTTP. تحمل شهادة العميل SPIFFE SVID — هوية حمل عمل قابلة للتحقق منها تشفيرياً. لا يُنقل رمز bearer في الرؤوس؛ لا حاجة لإصدار رموز أو توزيعها أو تدويرها.

بالنسبة لمجموعات الإنتاج متعددة العملاء، mTLS مع SVIDs الصادرة عن SPIFFE هو نموذج المصادقة الصحيح. يزيل سطح إدارة الرمز بالكامل.

عدادات حصة النافذة المنزلقة مقابل النافذة الثابتة

تُعاد ضبط عدادات النافذة الثابتة عند حدود الساعة. يمكن للعميل الاندفاع بضعف المعدل الاسمي. تحتفظ عدادات النافذة المنزلقة بعدد متدحرج عبر فترة زمنية مستمرة بدون حدود ساعة لاستغلالها. للأعباء الاستدلالية، التطبيق بالنافذة المنزلقة هو النموذج الصحيح.

متطلبات دقة القياسات

سجلات OTLP لكل طلب هي الحد الأدنى لقابلية المراقبة المفيدة للمجموعة. قيّم ما إذا كانت البوابة توفر هذه الحقول في كل سجل: agent_id، model_id، input_tokens، output_tokens، cache_tokens، upstream_latency_ms، upstream_status. البوابات التي تجمع القياسات لا تستطيع دعم الكشف عن شذوذ الإنفاق لكل عميل.

البدء

نشر مجموعات استدلال متعددة العملاء مع هوية حمل عمل mTLS، وتطبيق حصص النافذة المنزلقة، وقياسات إنفاق OTLP لكل طلب.

ابدأ على OpenLegion اقرأ التوثيق قارن LiteLLM مع OpenLegion

الأسئلة الشائعة

ما هي بوابة LLM؟

بوابة LLM هي وكيل عكسي HTTP يقع في مستوى البيانات بين عمليات عملاء الذكاء الاصطناعي ونقاط نهاية مزودي النماذج الأولية. تحلّ معاملات المفاتيح المعتمة على طبقة الشبكة (لا تحتفظ عمليات العملاء بمفاتيح نصية صريحة أبداً)، وتطبق حدود حصة النافذة المنزلقة لكل مستأجر قبل الإرسال الأولي، وترسل قياسات إنفاق OpenTelemetry لكل طلب، وتفتح قواطع الدوائر عندما تتجاوز نقاط النهاية الأولية الحدود المُعيَّنة. تعمل هذه الوظائف كبدائل بنية تحتية لا تتطلب تغييرات في كود تطبيق العميل.

هل أحتاج إلى بوابة LLM إذا كنت أستخدم مزود نموذج واحداً فقط؟

المجموعات ذات المزود الواحد تستفيد من ثلاث وظائف للبوابة: حلّ المعاملات المعتمة، تطبيق الحصة لكل مستأجر، وقياسات إنفاق OTLP لكل طلب. الحمل الإضافي للمسار الدافئ هو 0.7-2.1 ملي ثانية — ضئيل مقارنةً بوقت استجابة استدلال المزود من 500 ملي ثانية إلى 30 ثانية.

كيف يعمل تحويل الفشل بقاطع الدائرة في بوابة LLM؟

تتبع البوابة معدلات الخطأ وزمن الاستجابة P99 لكل نقطة نهاية ضمن نوافذ مراقبة متدحرجة. عندما يتجاوز حد فشل قابل للتهيئة — مثلاً خمس استجابات 5xx متتالية، أو P99 يتجاوز 8 ثوانٍ في نافذة 30 ثانية — تنفتح الدائرة: تُرسَل جميع الطلبات التالية فوراً إلى نقطة نهاية الاحتياط المُعيَّنة. بعد فترة تبريد، ترسل البوابة مسباراً نصف مفتوح إلى نقطة النهاية الأولية. يغلق المسبار الناجح الدائرة؛ يعيد المسبار الفاشل ضبط مؤقت التبريد. قاس معيار OpenLegion في يونيو 2026 انخفاض P99 من 12 ثانية إلى 3.1 ثانية على طوبولوجيا GPT-4o ← Claude 3.5 Sonnet.

ما هو mTLS ولماذا يهم لبوابات LLM؟

mTLS (mutual TLS) يصادق كلاً من عملية العميل المتصلة والبوابة على طبقة مصافحة TLS قبل تبادل أي حمولة HTTP. يقدم العميل شهادة عميل تحمل SPIFFE SVID — هوية حمل عمل قابلة للتحقق منها تشفيرياً. لا يُنقل رمز bearer في رؤوس HTTP؛ لا حاجة لإصدار أي رموز أو توزيعها أو تدويرها. تقود هوية حمل العمل المستمدة من SVID تطبيق نطاق المعاملة.

ما الفرق بين تطبيق الحصة بالنافذة المنزلقة والنافذة الثابتة؟

تُعاد ضبط عدادات النافذة الثابتة عند حدود الساعة. يمكن للعميل الاندفاع بضعف المعدل الاسمي عن طريق الطلب بأقصى سرعة في الثواني الأخيرة من نافذة والثواني الأولى من النافذة التالية. تحتفظ عدادات النافذة المنزلقة بعدد متدحرج عبر فترة زمنية مستمرة بدون حدود ساعة لاستغلالها. للأعباء الاستدلالية، التطبيق بالنافذة المنزلقة هو النموذج الصحيح.

كيف تختلف قياسات OTLP لكل طلب عن تقارير الإنفاق المجمعة؟

تلتقط سجلات OpenTelemetry OTLP لكل طلب حقولاً فردية في كل استدعاء استدلال: معرف العميل، متغير النموذج، رموز الإدخال، رموز الإخراج، رموز الإصابة بالذاكرة المؤقتة، زمن استجابة المنبع، وحالة HTTP. تتراكم هذه السجلات في دفاتر إنفاق لكل عميل تدعم حدود الميزانية اليومية والشهرية، والكشف عن شذوذ الإنفاق. تقارير الإنفاق المجمعة لا تستطيع دعم الكشف عن الشذوذ لأن الإشارة تكمن في التباين لكل طلب.

ما الذي لا يجب أن يكشفه مستوى تحكم البوابة للشبكات على جانب العميل؟

يدير مستوى التحكم إعداد الحصة، وطوبولوجيا نقاط النهاية، ونطاقات إذن المعاملة، وسياسة التدقيق. يجب نشره في شبكة فرعية خاصة بدون مسار وصول خارجي. وثّق GHSA-53mr-6c8q-9789 (LiteLLM، CVE-2026-35029، مُصحَّح في v1.83.0) التفويض غير الكافي على API الإدارة. يجب أن تصل شبكات جانب العميل إلى منفذ مستوى البيانات للبوابة فقط.

كيف أعايَر حدود قاطع الدائرة لمجموعتي؟

اجمع هيستوجرامات وقت الاستجابة P50 وP95 وP99 لكل نقطة نهاية مزود على مدى أسبوعين إلى أربعة أسابيع من حركة الإنتاج. يجب ضبط حد فتح قاطع الدائرة على قيمة P99 متدهورة بوضوح مقارنةً بـ SLA المزود العادي — عادةً 2-3 أضعاف P99 الوسيطي. يجب أن تتجاوز فترة التبريد قبل المسبار نصف المفتوح وقت الاسترداد النموذجي للمزود — 30-60 ثانية هو خط أساس معقول.