Model Sunma sınırları ve bölgeleri

Bu makalede Mozaik AI Modeli Sunma ve desteklenen uç nokta türleri için sınırlamalar ve bölge kullanılabilirliği özetlenmektedir.

Sınırlamalar

Mozaik Yapay Zeka Modeli Sunma, güvenilir performans sağlamak için varsayılan sınırlar uygular. Bu sınırlar hakkında geri bildiriminiz varsa lütfen Databricks hesap ekibinize ulaşın.

Aşağıdaki tabloda, uç noktaları sunan model için kaynak ve yük sınırlamaları özetlemektedir.

Özellik Ayrıntı düzeyi Sınır
Yük boyutu İstek başına 16 MB. Temel modellere veya dış modellere hizmet veren uç noktalar için sınır 4 MB'tır.
Saniye başına sorgu sayısı (QPS) Çalışma alanı başına 200 QPS. Databricks hesap ekibinize ulaşarak 3000'e veya daha fazlasına yükseltilebilir.
Model yürütme süresi İstek başına 120 saniye
CPU uç noktası modeli bellek kullanımı Uç nokta başına 4 GB
GPU uç nokta modeli bellek kullanımı Uç nokta başına Atanmış GPU belleğinden büyük veya buna eşit olan, GPU iş yükü boyutuna bağlıdır
Sağlanan eşzamanlılık Model ve çalışma alanı başına 200 eşzamanlılık. Databricks hesabınıza ulaşarak artırılabilir.
Ek yük gecikmesi İstek başına 50 milisaniyeden az
Temel Model API'leri (belirteç başına ödeme) hız sınırları Çalışma alanı başına Aşağıdaki sınırlar kullanım örneğiniz için yetersizse, Databricks sağlanan aktarım hızının kullanılmasını önerir.

- Llama 3.1 70B Yönergesi saniyede 2 sorgu ve saatte 1200 sorgu sınırına sahiptir.
- Llama 3.1 405B Yönergesinde saniyede 1 sorgu ve saatte 1200 sorgu sınırı vardır.
- DBRX Instruct modelinin saniyede 1 sorgu sınırı vardır.
- Mixtral-8x 7B Yönergesi saniyede 2 sorgu için varsayılan hız sınırına sahiptir.
- GTE Large (En), saniyede 150 sorgu hız sınırına sahiptir
- BGE Large (En), saniyede 600 sorgu hız sınırına sahiptir.
Temel Model API'leri (sağlanan aktarım hızı) hız sınırları Çalışma alanı başına Yukarıda listelenen Model Sunma QPS sınırıyla aynıdır.

Model Sunma uç noktaları erişim denetimi tarafından korunur ve IP izin listeleri ve Özel Bağlantı gibi çalışma alanında yapılandırılan ağ ile ilgili giriş kurallarına uyar.

Azure Özel Bağlantı yalnızca sağlanan aktarım hızını veya özel modellere hizmet veren uç noktaları kullanan uç noktaları sunan modellerde desteklenir.

Ek sınırlamalar da vardır:

  • Bir çalışma alanının desteklenen bir bölgeye dağıtılması mümkündür, ancak farklı bir bölgedeki bir denetim düzlemi tarafından kullanılabilir. Bu çalışma alanları Model Sunma'yi desteklemez ve çalışma alanınızın desteklenmediğini belirten bir hata iletisiyle sonuçlanır. Daha fazla bilgi için Azure Databricks hesap ekibinize ulaşın.
  • Model Sunma, başlatma betiklerini desteklemez.
  • Varsayılan olarak, Model Sunma dış uç noktalara (Azure OpenAI gibi) Özel Bağlantı desteklemez. Bu işleve yönelik destek, bölge bazında değerlendirilir ve uygulanır. Daha fazla bilgi için Azure Databricks hesap ekibinize ulaşın.

Temel Model API'leri sınırları

Not

Databricks, Temel Model API'lerini sağlamanın bir parçası olarak verilerinizi ilgili coğrafi konumun dışında değil, verilerinizin kaynaklandığı bölgenin dışında işleyebilirsiniz.

Temel Model API'leri iş yükleriyle ilgili sınırlar şunlardır:

  • Sağlanan aktarım hızı HIPAA uyumluluk profilini destekler ve uyumluluk sertifikası gerektiren iş yükleri için kullanılmalıdır.
  • Belirteç başına ödeme iş yükleri HIPAA veya uyumluluk güvenlik profiliyle uyumlu değildir .
  • Temel Model API'leri uç noktaları için, hız sınırları gibi idare ayarlarını yalnızca çalışma alanı yöneticileri değiştirebilir. Hız sınırlarını değiştirmek için aşağıdaki adımları kullanın:
    1. Hizmet veren uç noktalarınızı görmek için çalışma alanınızda Sunma kullanıcı arabirimini açın.
    2. Düzenlemek istediğiniz Temel Model API'leri uç noktasındaki kebap menüsünden Ayrıntıları görüntüle'yi seçin.
    3. Uç nokta ayrıntıları sayfasının sağ üst kısmındaki kebap menüsünde Hız sınırını değiştir'i seçin.
  • Sağlanan aktarım hızı iş yükü için DBRX model mimarisini kullanmak için, sunum uç noktanızın aşağıdaki bölgelerden birinde olması gerekir:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Yalnızca GTE Large (En) ve Meta Llama 3.1 70B Instruct modelleri, ab ve ABD tarafından desteklenen belirteç başına ödeme bölgelerinde kullanılabilir.
  • Aşağıdaki belirteç başına ödeme modelleri yalnızca Temel Model API'lerinde desteklenen belirteç başına ödeme ABD bölgelerinde desteklenir:
    • Meta Llama 3.1 405B Yönergesi
    • DBRX Yönergesi
    • Mixtral-8x7B Yönergesi
    • BGE Büyük (En)

Bölge kullanılabilirliği

Not

Desteklenmeyen bir bölgede uç noktaya ihtiyacınız varsa Azure Databricks hesap ekibinize ulaşın.

Özelliklerin bölgesel kullanılabilirliği hakkında daha fazla bilgi için bkz . Bölgesel kullanılabilirlik sunan model.