LLM गेटवे: AI एजेंट्स के लिए रूटिंग, ऑथ और लागत नियंत्रण
LLM गेटवे एक HTTP रिवर्स प्रॉक्सी है जो AI एजेंट प्रक्रियाओं और अपस्ट्रीम मॉडल प्रदाता एंडपॉइंट के बीच स्थित है, और सभी आउटबाउंड इन्फेरेंस ट्रैफिक के डेटा प्लेन के रूप में काम करता है। यह फॉरवर्डिंग से पहले वायर लेयर पर ओपेक की हैंडल को रिज़ॉल्व करता है, स्लाइडिंग-विंडो काउंटर का उपयोग करके प्रति-टेनेंट थ्रॉटल कोटा लागू करता है, प्रति-अनुरोध OpenTelemetry खर्च टेलीमेट्री उत्सर्जित करता है, और जब अपस्ट्रीम P99 लेटेंसी कॉन्फ़िगर की गई सीमाओं से अधिक हो जाती है तो सर्किट ब्रेकर खोलता है — बिना एजेंट एप्लिकेशन कोड में किसी बदलाव की जरूरत के। तीन या अधिक समवर्ती इन्फेरेंस उपभोक्ताओं वाले किसी भी फ्लीट को एक तैनात करना चाहिए।
LLM गेटवे एक HTTP रिवर्स प्रॉक्सी है जो AI एजेंट प्रक्रियाओं और मॉडल प्रदाता एंडपॉइंट के बीच डेटा प्लेन में बैठता है, जो वायर लेयर पर ओपेक की रिज़ॉल्यूशन, स्लाइडिंग-विंडो काउंटर के माध्यम से प्रति-टेनेंट कोटा प्रवर्तन, प्रति-अनुरोध OpenTelemetry खर्च टेलीमेट्री, और सर्किट-ब्रेकर फेलओवर को एप्लिकेशन कोड के लिए अदृश्य इन्फ्रास्ट्रक्चर प्रिमिटिव के रूप में प्रदान करता है।
मल्टी-एजेंट इन्फेरेंस में डेटा प्लेन की समस्या
एक समर्पित इन्फेरेंस डेटा प्लेन के बिना, प्रत्येक एजेंट प्रक्रिया अपने स्वयं के अपस्ट्रीम कनेक्शन प्रबंधित करती है: पर्यावरण स्थिति से की रिज़ॉल्यूशन, कोई प्रति-प्रक्रिया कोटा नहीं, कोई प्रति-अनुरोध टेलीमेट्री नहीं, और अपस्ट्रीम एंडपॉइंट ख़राब हो रहा है या नहीं इसकी कोई दृश्यता नहीं। दो एजेंटों के साथ यह प्रबंधनीय है। बीस के साथ, यह चार अलग विफलता मोड उत्पन्न करता है।
पर्यावरण इंट्रोस्पेक्शन के माध्यम से की एक्सफिल्ट्रेशन
कोई भी एजेंट प्रक्रिया जो अपने पर्यावरण में प्लेनटेक्स्ट प्रदाता की रखती है, एक प्रतिकूल निर्देश से उसे लीक करने से एक कदम दूर है। हमला सतह प्रक्रिया पर्यावरण ही है: os.environ, Linux होस्ट पर /proc/self/environ, विस्तृत एरर ट्रेसबैक जो प्रक्रिया स्थिति को सीरियलाइज़ करते हैं, और डीबग लॉग कॉन्फ़िगरेशन जो Authorization फ़ील्ड सहित आउटबाउंड HTTP हेडर कैप्चर करते हैं।
प्रॉम्प्ट इंजेक्शन हमले जो एजेंटों को पर्यावरण स्थिति प्रतिध्वनित करते हैं, प्लेनटेक्स्ट की रखने वाले एजेंटों के खिलाफ एक दस्तावेज़ीकृत हमले वर्ग हैं (OWASP LLM01:2025)। संरचनात्मक सुधार बेहतर इनपुट सत्यापन नहीं है: यह एजेंट प्रक्रिया से प्लेनटेक्स्ट की को पूरी तरह हटाना है। एक LLM गेटवे जो Authorization हेडर लिखे जाने से पहले वायर लेयर पर ओपेक हैंडल ($CRED{openai}) रिज़ॉल्व करता है, इसका मतलब है कि एजेंट प्रक्रिया कभी भी ऐसी सामग्री नहीं रखती जिसे एक्सफिल्ट्रेट किया जा सके।
OpenLegion का मेश इसे इन्फ्रास्ट्रक्चर स्तर पर लागू करता है: $CRED{} हैंडल मेश होस्ट सीमा पर रिज़ॉल्व होते हैं। एजेंट कंटेनर संरचनात्मक रूप से रिज़ॉल्व किए गए मूल्य तक पहुंचने में असमर्थ हैं — इसलिए नहीं कि उन्हें ऐसा न करने का निर्देश दिया गया है, बल्कि इसलिए कि रिज़ॉल्यूशन उनके एड्रेस स्पेस के बाहर होता है।
साझा की थ्रॉटलिंग द्वारा कोटा समाप्ति
अपस्ट्रीम मॉडल प्रदाता API की स्तर पर थ्रॉटल करते हैं। एक फ्लीट में जहां बीस एजेंट प्रक्रियाएं एक की साझा करती हैं, एक प्रक्रिया अपेक्षित दर से 10 गुना अनुरोध उत्सर्जित करती है — चाहे रिट्री स्टॉर्म, अनियंत्रित लूप, या असीमित इन्फेरेंस कॉल का कारण बनने वाले प्रॉम्प्ट इंजेक्शन पेलोड के माध्यम से — की को अन्य उन्नीस के लिए दर-सीमा क्षेत्र में धकेल सकती है।
गेटवे एजेंट आइडेंटिफायर पर इंडेक्स किए गए स्लाइडिंग-विंडो काउंटर का उपयोग करके प्रति-टेनेंट कोटा लागू करता है। जब एजेंट का काउंटर कॉन्फ़िगर किए गए कैप तक पहुंचता है, तो गेटवे HTTP 429 के साथ जवाब देता है: कोई अपस्ट्रीम अनुरोध डिस्पैच नहीं होता, कोई प्रदाता कोटा उपभोग नहीं होता, और सहोदर एजेंट प्रभावित नहीं होते।
प्रति-एजेंट कोटा OWASP LLM10:2025 (असीमित उपभोग) के लिए संरचनात्मक शमन उपाय भी है — वह पैटर्न जहां प्रतिकूल निर्देश एजेंट को असीमित इन्फेरेंस कॉल उत्सर्जित करने के लिए प्रेरित करते हैं।
गायब अपस्ट्रीम ऑब्जर्वेबिलिटी
इन्फेरेंस डेटा प्लेन के बिना, प्रति-अनुरोध टेलीमेट्री के लिए प्रत्येक एजेंट प्रक्रिया के भीतर इंस्ट्रूमेंटेशन की आवश्यकता होती है। यह अतिरेकी और असंगत दोनों है। गेटवे वायर लेयर पर प्रति-अनुरोध OpenTelemetry OTLP लॉग रिकॉर्ड उत्सर्जित करता है, कैप्चर करते हुए: एजेंट आइडेंटिफायर, अपस्ट्रीम एंडपॉइंट, मॉडल नाम, इनपुट टोकन काउंट, आउटपुट टोकन काउंट, कैश-हिट टोकन, HTTP रिस्पॉन्स स्टेटस, और अनुरोध अवधि।
प्रति-अनुरोध खर्च रिकॉर्ड (इनपुट_टोकन × प्रति_1k_इनपुट_मूल्य + आउटपुट_टोकन × प्रति_1k_आउटपुट_मूल्य) प्रति-एजेंट खर्च लेजर में जमा होता है। यह लेजर दैनिक और मासिक खर्च सीमाओं और खर्च विसंगति अलर्टिंग का समर्थन करता है।
अदृश्य अपस्ट्रीम डिग्रेडेशन
प्रदाता एंडपॉइंट डिग्रेड होते हैं। क्षमता घटनाओं के दौरान GPT-4o पर P99 टेल लेटेंसी 12 सेकंड तक पहुंच सकती है (OpenLegion इन्फ्रास्ट्रक्चर बेंचमार्क, जून 2026)। डेटा प्लेन में सर्किट ब्रेकर के बिना, फ्लीट में प्रत्येक एजेंट प्रत्येक अनुरोध पर इस डिग्रेडेशन को अवशोषित करता है।
सर्किट ब्रेकर वाला गेटवे प्रति-एंडपॉइंट एरर रेट और P99 लेटेंसी ट्रैक करता है। जब एक कॉन्फ़िगर करने योग्य विफलता थ्रेशोल्ड पार हो जाती है — उदाहरण के लिए पांच क्रमिक 5xx प्रतिक्रियाएं, या 30-सेकंड विंडो में P99 8 सेकंड से अधिक — सर्किट खुलता है: बाद के अनुरोध तुरंत कॉन्फ़िगर किए गए फेलओवर एंडपॉइंट को डिस्पैच होते हैं।
OpenLegion के जून 2026 बेंचमार्क ने GPT-4o प्राथमिक → Claude 3.5 Sonnet फेलओवर टोपोलॉजी को मापा: P99 12 सेकंड से 3.1 सेकंड (3.9×) तक गिर गया बिना एजेंट कोड में किसी बदलाव के।
गेटवे आर्किटेक्चर: डेटा प्लेन बनाम कंट्रोल प्लेन
डेटा प्लेन: प्रति-अनुरोध प्रवर्तन
प्रत्येक इन्फेरेंस अनुरोध क्रम में डेटा प्लेन से गुजरता है:
-
TLS टर्मिनेशन: एजेंट प्रक्रिया TLS के माध्यम से गेटवे से कनेक्ट होती है। mTLS डिप्लॉयमेंट के लिए, एजेंट एक सर्टिफिकेट भी प्रस्तुत करता है। mTLS एजेंट और गेटवे के बीच प्रति-अनुरोध ऑथेंटिकेशन टोकन की आवश्यकता को समाप्त करता है।
-
वर्कलोड आइडेंटिटी रिज़ॉल्यूशन: गेटवे कनेक्टिंग वर्कलोड को एक टेनेंट आइडेंटिटी पर मैप करता है। mTLS डिप्लॉयमेंट में, क्लाइंट सर्टिफिकेट में एम्बेड किया गया SPIFFE SVID वर्कलोड आइडेंटिटी वहन करता है।
-
ओपेक हैंडल रिज़ॉल्यूशन: गेटवे
$CRED{}हैंडल पैटर्न के लिए आउटबाउंड Authorization हेडर का निरीक्षण करता है। मिलान हैंडल को गेटवे के बैकिंग सीक्रेट स्टोर के विरुद्ध रिज़ॉल्व किया जाता है। -
कोटा चेक: गेटवे टेनेंट के स्लाइडिंग-विंडो काउंटर को इंक्रीमेंट करता है और इसे कॉन्फ़िगर की गई कैप से तुलना करता है। यदि काउंटर कैप से अधिक है, तो गेटवे
Retry-Afterहेडर के साथ 429 लौटाता है। कोई अपस्ट्रीम कनेक्शन नहीं खुलता। -
सर्किट ब्रेकर चेक: गेटवे लक्ष्य एंडपॉइंट की सर्किट स्थिति का मूल्यांकन करता है। यदि सर्किट खुला है, तो अनुरोध तुरंत फेलओवर पर रीडायरेक्ट होता है बिना प्राथमिक का प्रयास किए।
-
अपस्ट्रीम डिस्पैच: गेटवे अपने कनेक्शन पूल से अपस्ट्रीम एंडपॉइंट तक एक कनेक्शन खोलता है और प्रतिक्रिया को वापस स्ट्रीम करता है।
-
टेलीमेट्री उत्सर्जन: प्रतिक्रिया पूर्णता पर, गेटवे टेलीमेट्री पाइपलाइन में एक OTLP लॉग रिकॉर्ड लिखता है।
वार्म पाथ पर कुल ओवरहेड: 0.7–2.1 ms। कोल्ड पाथ पर (कैश मिस): 2.6–6.6 ms। 500 ms–30 सेकंड की प्रदाता इन्फेरेंस लेटेंसी पर, वार्म पाथ ओवरहेड कुल राउंड-ट्रिप टाइम का 0.5% से कम है।
कंट्रोल प्लेन: कॉन्फ़िगरेशन और नीति
कंट्रोल प्लेन डेटा प्लेन के व्यवहार को नियंत्रित करता है। मुख्य जिम्मेदारियां:
टेनेंट आइडेंटिटी और कोटा कॉन्फ़िगरेशन, एंडपॉइंट टोपोलॉजी, हैंडल अनुमति स्कोप: कौन से वर्कलोड आइडेंटिटी कौन से हैंडल रिज़ॉल्व कर सकती हैं। openai:read स्कोप वाला टेनेंट $CRED{openai} रिज़ॉल्व कर सकता है लेकिन $CRED{anthropic} नहीं। यह टेनेंट के बीच लेटरल मूवमेंट को रोकता है।
ऑडिट नीति: OTLP लॉग रिकॉर्ड में कौन से फ़ील्ड दिखाई देते हैं।
कंट्रोल प्लेन API एजेंट-साइड नेटवर्क से पहुंच योग्य नहीं होना चाहिए। GHSA-53mr-6c8q-9789 (LiteLLM, CVE-2026-35029, v1.83.0 में पैच किया गया) ने दिखाया कि क्या होता है जब कंट्रोल प्लेन का कॉन्फ़िगरेशन राइट पाथ पर्याप्त प्राधिकरण के बिना नेटवर्क-पहुंच योग्य होता है।
डिप्लॉयमेंट टोपोलॉजी
केंद्रीकृत इनग्रेस
एक एकल गेटवे क्लस्टर एजेंट फ्लीट से सभी आउटबाउंड इन्फेरेंस ट्रैफिक को संभालता है। लगभग 50 एजेंटों तक के फ्लीट के लिए उपयुक्त जहां परिचालन सादगी प्राथमिकता है।
साइडकार पैटर्न
प्रत्येक एजेंट कंटेनर अपने लूपबैक इंटरफेस पर एक गेटवे प्रक्रिया चलाता है। विफलता डोमेन एक एजेंट कंटेनर है। बड़े फ्लीट (50+ एजेंट) के लिए उपयुक्त जहां प्रति-एजेंट विफलता आइसोलेशन प्राथमिकता है।
मेश-नेटिव प्रॉक्सी
OpenLegion में, इन्फेरेंस प्रॉक्सी एक मेश सेवा है। मेश-नेटिव मॉडल वर्कलोड आइडेंटिटी को नेटिवली संभालता है: प्रत्येक एजेंट कंटेनर स्पॉन पर मेश-जारी आइडेंटिटी प्राप्त करता है।
OpenLegion का दृष्टिकोण
LLM गेटवे फीचर सेट — mTLS, स्लाइडिंग-विंडो कोटा प्रवर्तन, OTLP खर्च टेलीमेट्री, सर्किट-ब्रेकर फेलओवर — मल्टी-एजेंट फ्लीट के लिए वैकल्पिक इन्फ्रास्ट्रक्चर नहीं है। यह न्यूनतम व्यवहार्य डेटा प्लेन है।
OpenLegion के जून 2026 इन्फ्रास्ट्रक्चर परीक्षणों से तीन माप दांव को संख्यात्मक रूप देते हैं:
फेलओवर के बिना P99 टेल लेटेंसी: प्रदाता क्षमता घटनाओं के दौरान GPT-4o-केवल डिप्लॉयमेंट पर 12 सेकंड। गेटवे स्तर पर Claude 3.5 Sonnet को सर्किट-ब्रेकर फेलओवर के रूप में कॉन्फ़िगर करने के साथ: 3.1 सेकंड। 3.9× सुधार के लिए एजेंट एप्लिकेशन कोड में शून्य परिवर्तन की आवश्यकता थी।
की एक्सफिल्ट्रेशन अटैक सर्फेस: एक 20-एजेंट फ्लीट में जहां सभी एजेंट अपने पर्यावरण में प्लेनटेक्स्ट की रखते हैं, प्रॉम्प्ट इंजेक्शन (OWASP LLM01:2025) द्वारा समझौता किया गया एकल एजेंट प्रत्येक अन्य एजेंट के अपस्ट्रीम कनेक्शन के लिए वैध की एक्सफिल्ट्रेट कर सकता है। ओपेक हैंडल रिज़ॉल्यूशन के साथ गेटवे-मध्यस्थ फ्लीट में, वही समझौता किया गया एजेंट कोई ऐसी सामग्री नहीं रखता जिसे एक्सफिल्ट्रेट किया जा सके।
OWASP LLM कवरेज: गेटवे पर प्रति-टेनेंट कोटा प्रवर्तन LLM10:2025 (असीमित उपभोग) को संबोधित करता है। हैंडल-स्कोप प्रवर्तन LLM06:2025 (अत्यधिक एजेंसी) को संबोधित करता है।
AI एजेंट्स के लिए क्रेडेंशियल मैनेजमेंट पैटर्न का मूल्यांकन करने वाली टीमों के लिए, गेटवे का ओपेक हैंडल रिज़ॉल्यूशन वहां वर्णित वॉल्ट-प्रॉक्सी पैटर्न का डिप्लॉयमेंट-स्तरीय कार्यान्वयन है।
LLM गेटवे तुलना
| क्षमता | सेल्फ-होस्टेड (LiteLLM) | OpenAI नेटिव | OpenLegion मेश प्रॉक्सी |
|---|---|---|---|
| की रिज़ॉल्यूशन मॉडल | Postgres-बैक्ड की स्टोर | मैनेज्ड सेवा | ओपेक हैंडल → वायर लेयर पर वॉल्ट |
| mTLS वर्कलोड आइडेंटिटी | समर्थित नहीं | समर्थित नहीं | प्रति एजेंट कंटेनर SPIFFE SVID |
| कोटा प्रवर्तन | कॉन्फ़िगरेशन-आधारित, प्रति-की | प्रति-ऑर्ग सीमाएं | स्लाइडिंग-विंडो काउंटर, प्रति-टेनेंट |
| सर्किट-ब्रेकर फेलओवर | प्लगइन-आधारित | उपलब्ध नहीं | नेटिव, हाफ-ओपन प्रोब के साथ |
| OTLP खर्च टेलीमेट्री | आंशिक | एक्सपोर्ट नहीं होती | प्रति-अनुरोध, सभी फ़ील्ड |
| कंट्रोल-प्लेन आइसोलेशन | मैनुअल; डिफ़ॉल्ट रूप से एक्सपोज़ | मैनेज्ड | केवल प्राइवेट मेश सबनेट |
| CVE इतिहास (2024–2026) | GHSA-53mr-6c8q-9789 + अन्य | कोई सार्वजनिक नहीं | कोई नहीं |
अपने फ्लीट के लिए गेटवे चुनना
mTLS बनाम Bearer टोकन ऑथेंटिकेशन
mTLS (mutual TLS) किसी भी HTTP पेलोड का आदान-प्रदान होने से पहले TLS हैंडशेक लेयर पर क्लाइंट (एजेंट) और सर्वर (गेटवे) दोनों को ऑथेंटिकेट करता है। क्लाइंट सर्टिफिकेट एक SPIFFE SVID — एक क्रिप्टोग्राफिक रूप से सत्यापन योग्य वर्कलोड आइडेंटिटी — वहन करता है। हेडर में कोई bearer टोकन प्रसारित नहीं होता; कोई टोकन जारी करने, वितरित करने या रोटेट करने की आवश्यकता नहीं होती।
प्रोडक्शन मल्टी-एजेंट फ्लीट के लिए, SPIFFE-जारी SVIDs के साथ mTLS सही ऑथेंटिकेशन मॉडल है। यह टोकन मैनेजमेंट सतह को पूरी तरह समाप्त करता है।
स्लाइडिंग-विंडो बनाम फिक्स्ड-विंडो कोटा काउंटर
फिक्स्ड-विंडो काउंटर घड़ी की सीमाओं पर रीसेट होते हैं। एजेंट एक विंडो के अंतिम सेकंड और अगली विंडो के पहले सेकंड में पूर्ण गति से अनुरोध करके नाममात्र दर से दोगुना बर्स्ट कर सकता है। स्लाइडिंग-विंडो काउंटर बिना किसी शोषण योग्य घड़ी सीमाओं के एक निरंतर समय अंतराल पर एक रोलिंग काउंट बनाए रखते हैं। इन्फेरेंस वर्कलोड के लिए, स्लाइडिंग-विंडो प्रवर्तन सही मॉडल है।
टेलीमेट्री ग्रैन्युलैरिटी आवश्यकताएं
प्रति-अनुरोध OTLP रिकॉर्ड उपयोगी फ्लीट ऑब्जर्वेबिलिटी के लिए न्यूनतम हैं। मूल्यांकन करें कि क्या गेटवे प्रत्येक रिकॉर्ड पर ये फ़ील्ड प्रदान करता है: agent_id, model_id, input_tokens, output_tokens, cache_tokens, upstream_latency_ms, upstream_status। टेलीमेट्री को एग्रीगेट करने वाले गेटवे प्रति-एजेंट खर्च विसंगति पहचान या सटीक सर्किट-ब्रेकर कैलिब्रेशन का समर्थन नहीं कर सकते।
शुरुआत करें
mTLS वर्कलोड आइडेंटिटी, स्लाइडिंग-विंडो कोटा प्रवर्तन, और प्रति-अनुरोध OTLP खर्च टेलीमेट्री के साथ मल्टी-एजेंट इन्फेरेंस फ्लीट तैनात करें।
अक्सर पूछे जाने वाले सवाल
LLM गेटवे क्या है?
LLM गेटवे एक HTTP रिवर्स प्रॉक्सी है जो AI एजेंट प्रक्रियाओं और अपस्ट्रीम मॉडल प्रदाता एंडपॉइंट के बीच डेटा प्लेन में स्थित है। यह वायर लेयर पर ओपेक की हैंडल रिज़ॉल्व करता है (एजेंट प्रक्रियाएं कभी भी प्लेनटेक्स्ट की नहीं रखतीं), अपस्ट्रीम डिस्पैच से पहले प्रति-टेनेंट स्लाइडिंग-विंडो कोटा सीमाएं लागू करता है, प्रति-अनुरोध OpenTelemetry खर्च टेलीमेट्री उत्सर्जित करता है, और जब अपस्ट्रीम एंडपॉइंट कॉन्फ़िगर किए गए थ्रेशोल्ड से अधिक हो जाते हैं तो सर्किट ब्रेकर खोलता है। ये कार्य इन्फ्रास्ट्रक्चर प्रिमिटिव के रूप में संचालित होते हैं जिनके लिए एजेंट एप्लिकेशन कोड में कोई बदलाव की जरूरत नहीं।
क्या मुझे LLM गेटवे की जरूरत है अगर मैं केवल एक मॉडल प्रदाता का उपयोग करता हूं?
एकल-प्रदाता फ्लीट भी तीन गेटवे कार्यों से लाभान्वित होते हैं: ओपेक हैंडल रिज़ॉल्यूशन, प्रति-टेनेंट कोटा प्रवर्तन, और प्रति-अनुरोध OTLP खर्च टेलीमेट्री। वार्म पाथ ओवरहेड 0.7–2.1 ms है — 500 ms से 30 सेकंड की प्रदाता इन्फेरेंस लेटेंसी की तुलना में नगण्य।
LLM गेटवे में सर्किट-ब्रेकर फेलओवर कैसे काम करता है?
गेटवे रोलिंग ऑब्जर्वेशन विंडो के भीतर प्रति-एंडपॉइंट एरर रेट और P99 लेटेंसी ट्रैक करता है। जब एक कॉन्फ़िगर करने योग्य विफलता थ्रेशोल्ड पार हो जाती है — उदाहरण के लिए पांच क्रमिक 5xx प्रतिक्रियाएं, या 30-सेकंड विंडो में P99 8 सेकंड से अधिक — सर्किट खुलता है: बाद के सभी अनुरोध तुरंत कॉन्फ़िगर किए गए फेलओवर एंडपॉइंट को अग्रेषित होते हैं। कूलडाउन अवधि के बाद, गेटवे प्राथमिक को एक हाफ-ओपन प्रोब डिस्पैच करता है। एक सफल प्रोब सर्किट बंद करती है; एक विफल प्रोब कूलडाउन टाइमर पुनः शुरू करती है।
mTLS क्या है और LLM गेटवे के लिए यह क्यों महत्वपूर्ण है?
mTLS (mutual TLS) किसी भी HTTP पेलोड का आदान-प्रदान होने से पहले TLS हैंडशेक लेयर पर कनेक्टिंग एजेंट प्रक्रिया और गेटवे दोनों को ऑथेंटिकेट करता है। एजेंट एक SPIFFE SVID — एक क्रिप्टोग्राफिक रूप से सत्यापन योग्य वर्कलोड आइडेंटिटी — वहन करने वाला क्लाइंट सर्टिफिकेट प्रस्तुत करता है। HTTP हेडर में कोई bearer टोकन प्रसारित नहीं होता; कोई टोकन जारी करने, वितरित करने या रोटेट करने की आवश्यकता नहीं होती। SVID से प्राप्त वर्कलोड आइडेंटिटी हैंडल-स्कोप प्रवर्तन को चलाती है।
स्लाइडिंग-विंडो और फिक्स्ड-विंडो कोटा प्रवर्तन के बीच क्या अंतर है?
फिक्स्ड-विंडो काउंटर घड़ी की सीमाओं पर रीसेट होते हैं। एजेंट एक विंडो के अंतिम सेकंड और अगली विंडो के पहले सेकंड में पूर्ण गति से अनुरोध करके नाममात्र दर से दोगुना बर्स्ट कर सकता है। स्लाइडिंग-विंडो काउंटर बिना शोषण योग्य घड़ी सीमाओं के निरंतर समय अंतराल पर एक रोलिंग काउंट बनाए रखते हैं। इन्फेरेंस वर्कलोड के लिए, स्लाइडिंग-विंडो प्रवर्तन सही मॉडल है।
प्रति-अनुरोध OTLP टेलीमेट्री एग्रीगेट खर्च रिपोर्टिंग से कैसे भिन्न है?
प्रति-अनुरोध OpenTelemetry OTLP रिकॉर्ड प्रत्येक इन्फेरेंस कॉल पर अलग-अलग फ़ील्ड कैप्चर करते हैं: एजेंट आइडेंटिफायर, मॉडल वेरिएंट, इनपुट टोकन, आउटपुट टोकन, कैश-हिट टोकन, अपस्ट्रीम लेटेंसी, और HTTP स्टेटस। ये रिकॉर्ड प्रति-एजेंट खर्च लेजर में जमा होते हैं जो दैनिक और मासिक बजट कैप, खर्च विसंगति पहचान, और क्रॉस-मॉडल लागत बेंचमार्किंग का समर्थन करते हैं। एग्रीगेट खर्च रिपोर्ट विसंगति पहचान का समर्थन नहीं कर सकती क्योंकि सिग्नल प्रति-अनुरोध वैरिएंस में निहित है।
गेटवे कंट्रोल प्लेन को एजेंट-साइड नेटवर्क के लिए क्या एक्सपोज़ नहीं करना चाहिए?
कंट्रोल प्लेन कोटा कॉन्फ़िगरेशन, एंडपॉइंट टोपोलॉजी, हैंडल अनुमति स्कोप और ऑडिट नीति प्रबंधित करता है। इसे बाहरी एक्सेस पाथ के बिना एक प्राइवेट सबनेट में तैनात किया जाना चाहिए। GHSA-53mr-6c8q-9789 (LiteLLM, CVE-2026-35029, v1.83.0 में पैच किया गया) ने मैनेजमेंट API पर अपर्याप्त प्राधिकरण को दस्तावेज़ीकृत किया। एजेंट-साइड नेटवर्क केवल गेटवे के डेटा-प्लेन पोर्ट तक पहुंचना चाहिए।
मैं अपने फ्लीट के लिए सर्किट-ब्रेकर थ्रेशोल्ड कैसे कैलिब्रेट करूं?
दो से चार सप्ताह के प्रोडक्शन ट्रैफिक में प्रति-प्रदाता एंडपॉइंट P50, P95, और P99 लेटेंसी हिस्टोग्राम एकत्र करें। सर्किट-ब्रेकर ओपन थ्रेशोल्ड एक P99 मान पर सेट किया जाना चाहिए जो प्रदाता के सामान्य SLA की तुलना में स्पष्ट रूप से खराब हो — आमतौर पर माध्य P99 का 2–3×। हाफ-ओपन प्रोब से पहले कूलडाउन अवधि प्रदाता के सामान्य रिकवरी टाइम से अधिक होनी चाहिए — 30–60 सेकंड एक उचित बेसलाइन है।