Azure OpenAI Hizmeti kotaları ve sınırları

Bu makale, Azure AI hizmetlerinde Azure OpenAI için kotaların ve sınırların ayrıntılı bir açıklamasını ve hızlı başvuruyu içerir.

Kotalar ve limitler başvurusu

Aşağıdaki bölümlerde, Azure OpenAI için geçerli olan varsayılan kotalar ve sınırlar için hızlı bir kılavuz sağlanır:

Sınır Adı Sınır Değeri
Azure aboneliği başına bölge başına OpenAI kaynakları 30
Varsayılan DALL-E 2 kota sınırları 2 eşzamanlı istek
Varsayılan DALL-E 3 kota sınırları 2 kapasite birimi (dakikada 6 istek)
Varsayılan Fısıltı kota sınırları Dakikada 3 istek
İstek başına en fazla istem belirteci Modele göre değişir. Daha fazla bilgi için bkz. Azure OpenAI Hizmeti modelleri
Kaynak başına en fazla Standart dağıtım 32
En fazla ince ayarlı model dağıtımı 5
Kaynak başına toplam eğitim işi sayısı 100
Kaynak başına en fazla eşzamanlı çalışan eğitim işi 1
Kuyruğa alınan en fazla eğitim işi 20
Kaynak başına En Fazla Dosya (ince ayar) 50
Kaynak başına tüm dosyaların toplam boyutu (ince ayar) 1 GB
En fazla eğitim işi süresi (aşılırsa iş başarısız olur) 720 saat
En fazla eğitim işi boyutu (eğitim dosyasındaki belirteçler) x (dönem sayısı) 2 Milyar
Karşıya yükleme başına tüm dosyaların en büyük boyutu (verilerinizde Azure OpenAI) 16 MB
Ile dizideki maksimum sayı veya giriş sayısı /embeddings 2048
En fazla /chat/completions ileti sayısı 2048
Maksimum işlev sayısı /chat/completions 128
En fazla /chat completions araç sayısı 128
Dağıtım başına sağlanan aktarım hızı birimi sayısı üst sınırı 100.000
Yardımcı/iş parçacığı başına en fazla dosya API veya AI Studio kullanırken 10.000. Azure OpenAI Studio kullanırken 20.
Yardımcılar için en büyük dosya boyutu ve ince ayar 512 MB
Yardımcılar için karşıya yüklenen tüm dosyalar için en büyük boyut 100 GB
Yardımcılar belirteci sınırı 2.000.000 belirteç sınırı
GPT-4o istek başına en fazla görüntü (ileti dizisinde/konuşma geçmişinde görüntü sayısı) 10
GPT-4 vision-preview & GPT-4 turbo-2024-04-09 varsayılan maksimum belirteçler 16

Kesilen max_tokens yanıtlardan kaçınmak için parametre değerini artırın. GPT-4o maksimum belirteçleri varsayılan olarak 4096'dır.
API isteklerindeen fazla özel üst bilgi sayısı 1 10

1 Geçerli API'lerimiz işlem hattından geçirilen ve döndürülen en fazla 10 özel üst bilgi sağlar. Bazı müşterilerin bu üst bilgi sayısını aştığını fark ettik ve bu da HTTP 431 hatalarıyla sonuçlandı. Bu hatanın üst bilgi hacmini azaltmak dışında bir çözümü yoktur. Gelecekteki API sürümlerinde artık özel üst bilgilerden geçmeyecek. Müşterilerin gelecekteki sistem mimarilerinde özel üst bilgilere bağımlı olmamasını öneririz.

Bölgesel kota sınırları

Bölge o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Genel Toplu İşlem GPT-4o-mini - Genel Toplu İşlem GPT-4 - Genel Toplu İş GPT-4-Turbo - Genel Toplu İşlem gpt-35-turbo - Global-Batch Metin Ekleme-Ada-002 metin ekleme-3-küçük metin ekleme-3-büyük GPT-4o - finetune GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 K 80 K 80 K 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
Güney Brezilya - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 M 240 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 K 60 K 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
Doğu Norveç - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polonyamerkez - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
Güney Afrika'nın Kuzeyi - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
Orta Güney ABD 1 M 600 K - - 80 K - 1 M 2 M 240 K - 50 M 30 M 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
Orta İsveç 1 M 600 K 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
Kuzey İsviçre - - 40 K 80 K - 30 K - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
İsviçrewest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 K 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Genel toplu iş sınırları

Sınır Adı Sınır Değeri
Kaynak başına en fazla dosya sayısı 500
Maksimum giriş dosyası boyutu 200 MB
Dosya başına en fazla istek sayısı 100.000

Genel toplu iş kotası

Tabloda toplu iş kotası sınırı gösterilir. Genel toplu iş için kota değerleri, sıralanmış belirteçler açısından temsil edilir. Toplu işlem için bir dosya gönderdiğinizde, dosyada bulunan belirteçlerin sayısı sayılır. Toplu iş terminal durumuna ulaşana kadar, bu belirteçler toplam sıralanmış belirteç sınırınıza göre sayılır.

Model Kurumsal anlaşma Varsayılan Aylık kredi kartı tabanlı abonelikler MSDN abonelikleri Öğrenciler için Azure, Ücretsiz Denemeler
gpt-4o 5 B 200 M 50 M 90 K Yok
gpt-4o-mini 15 B 1 B 50 M 90 K Yok
gpt-4-turbo 300 M 80 M 40 M 90 K Yok
gpt-4 150 M 30 M 5 M 100 K Yok
gpt-35-turbo 10 B 1 B 100 M 2 M 50 K

B = milyar | M = milyon | K = bin

o1-preview &o1-mini hız sınırları

Önemli

O1 serisi modellerle kota için RPM/TPM oranı, eski sohbet tamamlama modellerinden farklı çalışır:

  • Eski sohbet modelleri: 1 birim kapasite = 6 RPM ve 1.000 TPM.
  • o1-preview: 1 birim kapasite = 1 RPM ve 6.000 TPM.
  • o1-mini: 1 birim kapasite = 10.000 TPM başına 1 RPM.

Rpm/TPM oranındaki bu değişiklik, 1:1000 oranının ve ardından eski sohbet tamamlama modellerinin devam ettiği varsayıldığında kotanın yanlışlıkla ayrılmasına neden olabileceğinden, bu özellikle programlı model dağıtımı için önemlidir.

Kota/kullanım API'sinde eski oranın yeni o1 serisi modellerine uygulandığını varsayarken bilinen bir sorun vardır. API doğru temel kapasite numarasını döndürür, ancak TPM'nin doğru hesaplanması için doğru oranı uygulamaz.

o1-önizleme & o1-mini genel standart

Model Katman Dakika başına belirteçlerde Kota Sınırı (TPM) Dakika başına istek sayısı
o1-preview Kurumsal anlaşma 30 M 5 K
o1-mini Kurumsal anlaşma 50 M 5 K
o1-preview Varsayılan 3 M 500
o1-mini Varsayılan 5 M 500

o1-önizleme & o1-mini standart

Model Katman Dakika başına belirteçlerde Kota Sınırı (TPM) Dakika başına istek sayısı
o1-preview Kurumsal anlaşma 600 K 100
o1-mini Kurumsal anlaşma 1 M 100
o1-preview Varsayılan 300 K 50
o1-mini Varsayılan 500 K 50

gpt-4o & GPT-4 Turbo hız sınırları

gpt-4o ve gpt-4o-minive gpt-4 (turbo-2024-04-09), belirli müşteri türleri için daha yüksek sınırlara sahip hız sınırı katmanlarına sahiptir.

gpt-4o & GPT-4 Turbo global standart

Model Katman Dakika başına belirteçlerde Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 30 M 180 K
gpt-4o-mini Kurumsal anlaşma 50 M 300 K
gpt-4 (turbo-2024-04-09) Kurumsal anlaşma 2 M 12 K
gpt-4o Varsayılan 450 K 2,7 K
gpt-4o-mini Varsayılan 2 M 12 K
gpt-4 (turbo-2024-04-09) Varsayılan 450 K 2,7 K

M = milyon | K = bin

gpt-4o veri bölgesi standardı

Model Katman Dakika başına belirteçlerde Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 10 M 60 K
gpt-4o-mini Kurumsal anlaşma 20 milyon 120 K
gpt-4o Varsayılan 300 K 1,8 K
gpt-4o-mini Varsayılan 1 M 6 K

M = milyon | K = bin

gpt-4o standard

Model Katman Dakika başına belirteçlerde Kota Sınırı (TPM) Dakika başına istek sayısı
gpt-4o Kurumsal anlaşma 1 M 6 K
gpt-4o-mini Kurumsal anlaşma 2 M 12 K
gpt-4o Varsayılan 150 K 900
gpt-4o-mini Varsayılan 450 K 2,7 K

M = milyon | K = bin

Kullanım katmanları

Genel standart dağıtımlar Azure'ın genel altyapısını kullanır ve müşterinin çıkarım istekleri için en iyi kullanılabilirlik ile müşteri trafiğini dinamik olarak veri merkezine yönlendirebilir. Benzer şekilde, Veri bölgesi standart dağıtımları, trafiği her istek için en iyi kullanılabilirliğe sahip Microsoft tanımlı veri bölgesi içindeki veri merkezine dinamik olarak yönlendirmek için Azure genel altyapısından yararlanmanızı sağlar. Bu, düşük ve orta düzeyde trafiğe sahip müşteriler için daha tutarlı gecikme süresi sağlar. Kullanım düzeyi yüksek olan müşteriler yanıt gecikme süresinde daha fazla değişkenlik görebilir.

Kullanım Sınırı, müşterilerin yanıt gecikme süresinde daha büyük değişkenlik görebileceği kullanım düzeyini belirler. Müşterinin kullanımı model başına tanımlanır ve belirli bir kiracı için tüm bölgelerdeki tüm aboneliklerdeki tüm dağıtımlarda kullanılan toplam belirteçtir.

Not

Kullanım katmanları yalnızca standart, veri bölgesi standardı ve genel standart dağıtım türleri için geçerlidir. Kullanım katmanları genel toplu iş ve sağlanan aktarım hızı dağıtımları için geçerli değildir.

GPT-4o global standart, veri bölgesi standardı ve standart

Model Aylık kullanım katmanları
gpt-4o 12 Milyar belirteç
gpt-4o-mini 85 Milyar belirteç

GPT-4 standardı

Model Aylık kullanım katmanları
gpt-4 + gpt-4-32k (tüm sürümler) 6 Milyar

Diğer teklif türleri

Azure aboneliğiniz belirli teklif türlerine bağlıysa maksimum kota değerleriniz yukarıdaki tablolarda belirtilen değerlerden daha düşüktür.

Katman Dakika başına belirteçlerde Kota Sınırı (TPM)
Öğrenciler için Azure, Ücretsiz Denemeler 1 K (tüm modeller)
MSDN abonelikleri GPT 3.5 Turbo Serisi: 30 K
GPT-4 serisi: 8 K
Aylık kredi kartı tabanlı abonelikler 1 GPT 3.5 Turbo Serisi: 30 K
GPT-4 serisi: 8 K

1 Bu, şu anda 0003P teklif türü için geçerlidir

Azure portalında aboneliğinize gidip aboneliklere genel bakış bölmesini denetleyerek aboneliğinizle ilişkili teklif türünü görüntüleyebilirsiniz. Teklif türü, aboneliğe genel bakış bölümündeki plan alanına karşılık gelir.

Hız sınırları içinde kalmak için genel en iyi yöntemler

Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:

  • Uygulamanıza yeniden deneme mantığı ekleyin.
  • İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
  • Farklı yük artışı desenlerini test edin.
  • Dağıtımınıza atanan kotayı artırın. Gerekirse kotayı başka bir dağıtımdan taşıyın.

Varsayılan kotalara ve sınırlara artış isteme

Kota artışı istekleri Azure AI Studio'nun Kotalar sayfasından gönderilebilir. Yoğun talep nedeniyle kota artışı isteklerinin kabul edildiğini ve alındıkları sırayla doldurulacağını unutmayın. Öncelik, mevcut kota ayırmayı kullanan trafik oluşturan müşterilere verilir ve bu koşul karşılanmazsa isteğiniz reddedilebilir.

Diğer fiyat sınırları için bir hizmet isteği gönderin.

Sonraki adımlar

Azure OpenAI dağıtımlarınız için kotayı yönetmeyi keşfedin. Azure OpenAI'yi destekleyen temel modeller hakkında daha fazla bilgi edinin.