محدودیتهای Rate limit به منظور حفظ کیفیت خدمات ما برای همه کاربران است. Rate limit بر روی تعداد دفعاتی که یک کاربر میتواند در یک دوره زمانی مشخص به خدمات ما دسترسی پیدا کند، محدودیت اعمال میکند.
Rate limit چگونه کار میکند؟ #
محدودیتهای Rate limit به سه روش اندازهگیری میشوند:
- RPM (تعداد درخواستها - API request - در هر دقیقه)
- TPM (تعداد توکنها در هر دقیقه)
- TPD (تعداد توکنها در هر روز)
محدودیتهای Rate limit میتوانند بر اساس هر یک از گزینهها تحت تأثیر قرار بگیرند، بسته به اینکه کدامیک اول اتفاق میافتد. به عنوان مثال، اگر RPM=20 و TPM=1000 باشد و شما در کمتر از یک دقیقه بیش از ۲۰ درخواست که کمتر از ۱۰۰۰ توکن مصرف میکنند را ارسال کنید, درین صورت درخواستهای ارسالی بعدی در بازه یک دقیقه از سمت سرور رد میشوند.
توجه داشته باشید که محدودیتهای Rate limit به اکانت اعمال میشوند و نه به کلیدهای API. بنابراین تولید چندین کلید API مختلف به معنای افزایش محدودیتهای Rate limit برای آن اکانت نیست.
محدودیتهای Rate limit بر اساس میزان استفاده #
محدودیتهای Rate limit بر اساس میزان مصرف شما از APIهای گیلاس تعیین میشود. در ابتدا برای هر اکانت محدودیتهای پایه اعمال میشود و از آن پس هر چه مصرف شما از APIهای گیلاس بیشتر شود میزان محدودیتهای Rate limit اکانت شما کاهش پیدا میکند.
جدول زیر محدودیتهای پایه برای هر اکانت را نشان میدهد. تصور ما این است که محدودیتهای پایه برای بیشتر از ۹۰ درصد کاربران کافی باشد.
مدل | RPM | TPM | TPD |
---|---|---|---|
gpt-4o | 5.000 | 800.000 | 80.000.000 |
gpt-4o-mini | 5.000 | 4.000.000 | 400.000.000 |
gpt-4-turbo | 5.000 | 600.000 | 60.000.000 |
gpt-3.5-turbo | 3.500 | 4.000.000 | 400.000.000 |
mistral-* | 120 | 100.000 | 1.000.000 |
codestral-latest | 120 | 100.000 | 1.000.000 |
text-embedding-* | 5.000 | 800.000 | 5.000.000 |
whisper-1 | 500 | — | — |
tts-1 | 500 | — | — |
moderations-* | 500 | — | — |
اطلاعات مربوط به محدودیتهای Rate limit در هدرهای HTTP Response #
هدر تمام HTTP Responseهایی که از سمت سرور برای شما ارسال میشوند شامل اطلاعات مربوط به محدودیتهای باقی مانده بر روی آن مدل در است.
لیست هدرهای مربوطه در جدول زیر آمده است:
Header Name | Sample Value | توضیحات |
---|---|---|
X-RateLimit-Limit-Requests | 100 | حداکثر تعداد درخواستی که میتوانید در یک دقیقه ارسال کنید. |
X-RateLimit-Remaining-Requests | 50 | تعداد درخواستهای باقی مانده. |
X-RateLimit-Reset-Requests | 1707958989 | زمان باقیمانده تا ریست شدن تعداد درخواستهای باقی مانده. (واحد Unix time) |
X-RateLimit-Limit-Tokens-Per-Day | 1.000 | حداکثر تعداد توکنی که میتوانید در یک روز مصرف کنید. |
X-RateLimit-Remaining-Tokens-Per-Day | 700 | تعداد توکنهای باقی مانده. |
X-RateLimit-Reset-Tokens-Per-Day | 1707958989 | زمان باقیمانده تا ریست شدن تعداد توکنهای باقی مانده. (واحد Unix time) |
X-RateLimit-Limit-Tokens-Per-Minute | 100 | حداکثر تعداد توکنی که میتوانید در یک دقیقه مصرف کنید. |
X-RateLimit-Remaining-Tokens-Per-Minute | 40 | تعداد توکنهای باقی مانده. |
X-RateLimit-Reset-Tokens-Per-Minute | 1707958989 | زمان باقیمانده تا ریست شدن تعداد توکنهای باقی مانده. (واحد Unix time) |