Azure Machine Learning için kuruluş ölçeğinde bütçeleri, maliyetleri ve kotaları yönetme
Azure Machine Learning'den tahakkuk eden işlem maliyetlerini, birçok iş yükü, birçok ekip ve kullanıcı içeren bir kuruluş ölçeğinde yönettiğinizde, çalışmak için çok sayıda yönetim ve iyileştirme zorluğu vardır.
Bu makalede maliyetleri iyileştirmeye, bütçeleri yönetmeye ve Azure Machine Learning ile kotayı paylaşmaya yönelik en iyi yöntemleri sunuyoruz. Bu makale Microsoft'ta şirket içinde ve müşterilerimizle kurulan iş ortaklıklarında çalışan makine öğrenmesi ekiplerinin deneyimini ve çıkardıkları dersleri yansıtır. Nasıl yapılacağını öğrenin:
- İş yükü gereksinimlerini karşılamak için işlem kaynaklarını iyileştirin.
- Bir ekibin bütçesini en iyi şekilde kullanma.
- Kurumsal ölçekte bütçeleri, maliyeti ve kotayı planlayın, yönetin ve paylaşın.
İş yükü gereksinimlerini karşılamak için işlem iyileştirme
Yeni bir makine öğrenmesi projesi başlattığınızda, işlem gereksinimlerini iyi bir şekilde görmek için keşif çalışması gerekebilir. Bu bölümde eğitim, çıkarım veya iş istasyonu olarak doğru sanal makine (VM) SKU seçimini nasıl belirleyebileceğiniz hakkında öneriler sağlanır.
Eğitim için işlem boyutunu belirleme
Eğitim iş yükünüz için donanım gereksinimleri projeden projeye farklılık gösterebilir. Azure Machine Learning işlem , bu gereksinimleri karşılamak için çeşitli vm türleri sunar:
- Genel amaçlı: Dengeli CPU ile bellek oranı.
- Bellek için iyileştirilmiş: Yüksek bellek - CPU oranı.
- İşlem için iyileştirilmiş: Yüksek CPU-bellek oranı.
- Yüksek performanslı işlem: Çeşitli gerçek dünya HPC iş yükleri için liderlik sınıfı performans, ölçeklenebilirlik ve maliyet verimliliği sağlayın.
- GPU'ları olan örnekler: Yoğun grafik işleme ve video düzenlemenin yanı sıra derin öğrenme ile model eğitimi ve çıkarım (ND) için hedeflenen özel sanal makineler.
İşlem gereksinimlerinizin ne olduğunu henüz bilmiyor olabilirsiniz. Bu senaryoda, aşağıdaki uygun maliyetli varsayılan seçeneklerden biriyle başlamanızı öneririz. Bu seçenekler basit testlere ve eğitim iş yüklerine yöneliktir.
Tür | Sanal makine boyutu | Özellikleri |
---|---|---|
CPU | Standard_DS3_v2 | 4 çekirdek, 14 gigabayt (GB) RAM, 28 GB depolama alanı |
GPU | Standard_NC6 | 6 çekirdek, 56 gigabayt (GB) RAM, 380 GB depolama alanı, NVIDIA Tesla K80 GPU |
Senaryonuz için en iyi VM boyutunu elde etmek için deneme ve hatadan oluşabilir. Dikkate alınması gereken birkaç özellik aşağıdadır.
- CPU'ya ihtiyacınız varsa:
- Büyük veri kümeleri üzerinde eğitim kullanıyorsanız bellek için iyileştirilmiş bir VM kullanın.
- Gerçek zamanlı çıkarım veya gecikme süresine duyarlı diğer görevler gerçekleştiriyorsanız işlem için iyileştirilmiş bir VM kullanın.
- Eğitim sürelerini hızlandırmak için daha fazla çekirdek ve RAM içeren bir VM kullanın.
- GPU'ya ihtiyacınız varsa, VM seçme hakkında bilgi için BKZ . GPU için iyileştirilmiş VM boyutları .
- Dağıtılmış eğitim yapıyorsanız, birden çok GPU'ya sahip VM boyutlarını kullanın.
- Birden çok düğümde dağıtılmış eğitim yapıyorsanız NVLink bağlantıları olan GPU'ları kullanın.
İş yükünüz için en uygun VM türünü ve SKU'yu seçerken, karşılaştırılabilir VM SKU'larını CPU ve GPU performansı ile fiyatlandırma arasında bir denge olarak değerlendirin. Maliyet yönetimi perspektifinden bakıldığında, bir iş birkaç SKU üzerinde makul bir şekilde iyi çalışabilir.
NC ailesi gibi belirli GPU'lar, özellikle NC_Promo SKU'lar düşük gecikme süresi ve birden çok bilgi işlem iş yükünü paralel olarak yönetme gibi diğer GPU'lara benzer özelliklere sahiptir. Diğer GPU'lardan bazılarına kıyasla indirimli fiyatlarla kullanılabilirler. VM SKU'larını iş yüküne seçmeyi göz önünde bulundurarak sonunda önemli ölçüde maliyet tasarrufu sağlayabilirsiniz.
Daha fazla sayıda GPU'ya kaydolmanın daha hızlı sonuçlarla yürütülmesi zorunlu değildir. Bunun yerine GPU'ların tam olarak kullanıldığından emin olun. Örneğin, NVIDIA CUDA gereksinimini bir kez daha kontrol edin. Yüksek performanslı GPU yürütme için gerekli olsa da, işiniz buna bağımlı olmayabilir.
Çıkarım için işlem boyutunu belirleme
Çıkarım senaryoları için işlem gereksinimleri eğitim senaryolarından farklıdır. Kullanılabilir seçenekler, senaryonuzun toplu olarak çevrimdışı çıkarım talep edip etmediğine veya gerçek zamanlı olarak çevrimiçi çıkarım gerektirdiğine göre farklılık gösterir.
Gerçek zamanlı çıkarım senaryoları için aşağıdaki önerileri göz önünde bulundurun:
- Modeli web hizmeti olarak dağıtırken model için ne kadar CPU ve bellek ayırmanız gerektiğini belirlemek için Azure Machine Learning ile modelinizdeki profil oluşturma özelliklerini kullanın.
- Gerçek zamanlı çıkarım yapıyorsanız ancak yüksek kullanılabilirliğe ihtiyacınız yoksa Azure Container Instances'a dağıtın (SKU seçimi yok).
- Gerçek zamanlı çıkarım yapıyorsanız ancak yüksek kullanılabilirliğe ihtiyacınız varsa Azure Kubernetes Service'e dağıtın.
- Geleneksel makine öğrenmesi modellerini kullanıyorsanız ve 10 sorgu/saniye alıyorsanız < bir CPU SKU'su ile başlayın. F serisi SKU'lar genellikle iyi çalışır.
- Derin öğrenme modelleri kullanıyorsanız ve 10 sorgu/saniye alıyorsanız > Triton ile NVIDIA GPU SKU'su (NCasT4_v3 genellikle iyi çalışır) deneyin.
Toplu çıkarım senaryoları için aşağıdaki önerileri göz önünde bulundurun:
- Toplu çıkarım için Azure Machine Learning işlem hatlarını kullandığınızda, başlangıç VM boyutunuzu seçmek için Eğitimin işlem boyutunu belirleme bölümündeki yönergeleri izleyin.
- Yatay ölçeklendirme yaparak maliyeti ve performansı iyileştirin. Maliyeti ve performansı iyileştirmenin temel yöntemlerinden biri, Azure Machine Learning'de paralel çalıştırma adımının yardımıyla iş yükünü paralelleştirmektir. Bu işlem hattı adımı, görevi paralel olarak yürütmek için çok daha küçük düğümler kullanmanıza olanak tanır ve bu da yatay olarak ölçeklendirmenize olanak tanır. Ancak paralelleştirme için bir ek yük vardır. İş yüküne ve elde edilebilecek paralellik derecesine bağlı olarak, paralel çalıştırma adımı bir seçenek olabilir veya olmayabilir.
İşlem örneğinin boyutunu belirleme
Etkileşimli geliştirme için Azure Machine Learning'in işlem örneği önerilir. İşlem örneği (CI) teklifi, tek bir kullanıcıya bağlı olan ve bulut iş istasyonu olarak kullanılabilen tek düğüm işlem getirir.
Bazı kuruluşlar üretim verilerinin yerel iş istasyonlarında kullanılmasına izin vermemektedir, iş istasyonu ortamına kısıtlamalar getirmektedir veya paketlerin ve bağımlılıkların kurumsal BT ortamına yüklenmesini kısıtlar. İşlem örneği, sınırlamanın üstesinden gelmek için iş istasyonu olarak kullanılabilir. Üretim verilerine erişimi olan güvenli bir ortam sunar ve önceden yüklenmiş veri bilimi için popüler paketler ve araçlarla birlikte gelen görüntüler üzerinde çalışır.
İşlem örneği çalışırken, kullanıcı VM işlemi, Standart Load Balancer (lb/giden kuralları ve işlenen veriler dahil), işletim sistemi diski (Premium SSD yönetilen P10 diski), geçici disk (geçici disk türü seçilen VM boyutuna bağlıdır) ve genel IP adresi için faturalandırılır. Maliyet tasarrufu yapmak için kullanıcıların şunları göz önünde bulundurmasını öneririz:
- İşlem örneğini kullanımda olmadığında başlatın ve durdurun.
- Bir işlem örneğinde verilerinizin bir örneğiyle çalışın ve tam veri kümenizle çalışmak için işlem kümelerinin ölçeğini genişletin
- Geliştirme veya test sırasında veya işleri tam ölçekte gönderirken paylaşılan işlem kapasitesine geçtiğinizde işlem örneğinde deneme işlerini yerel işlem hedef modunda gönderin. Örneğin, birçok dönem, tam veri kümesi ve hiper parametre araması.
İşlem örneğini durdurursanız VM işlem saatleri, geçici disk ve Standart Load Balancer işlenen veri maliyetleri için faturalandırma durdurulur. Kullanıcı, işletim sistemi diski için ödeme gerçekleştirmeye devam eder ve işlem örneği durdurulduğunda bile lb/giden kuralları dahil Standart Load Balancer. İşletim sistemi diskinde kaydedilen tüm veriler durdurma ve yeniden başlatma işlemleriyle kalıcı hale getirilir.
İşlem kullanımını izleyerek seçilen VM boyutunu ayarlama
Azure Machine Learning işlem kullanımınız ve kullanımınızla ilgili bilgileri Azure İzleyici aracılığıyla görüntüleyebilirsiniz. Model dağıtımı ve kaydıyla ilgili ayrıntıları, etkin ve boşta düğümler gibi kota ayrıntılarını, iptal edilen ve tamamlanan çalıştırmalar gibi çalıştırma ayrıntılarını ve GPU ve CPU kullanımı için işlem kullanımını görüntüleyebilirsiniz.
İzleme ayrıntılarındaki içgörülere dayanarak, ekip genelinde kaynak kullanımınızı daha iyi planlayabilir veya ayarlayabilirsiniz. Örneğin, geçen hafta birçok boşta düğüm fark ederseniz, bu ek maliyeti önlemek için işlem kümesi yapılandırmasını güncelleştirmek için ilgili çalışma alanı sahipleriyle çalışabilirsiniz. Kullanım düzenlerini analiz etme avantajları, maliyetleri ve bütçe iyileştirmelerini tahmin etme konusunda yardımcı olabilir.
Bu ölçümlere doğrudan Azure portalından erişebilirsiniz. Azure Machine Learning çalışma alanınıza gidin ve sol paneldeki izleme bölümünün altında Ölçümler'i seçin. Ardından, ölçümler, toplama ve zaman aralığı gibi görüntülemek istediğiniz ayrıntılara ilişkin ayrıntıları seçebilirsiniz. Daha fazla bilgi için bkz . Azure Machine Learning belgelerini izleme sayfası.
Geliştirirken yerel, tek düğümlü ve çok düğümlü bulut işlem arasında geçiş yapma
Makine öğrenmesi yaşam döngüsü boyunca değişen işlem ve araç gereksinimleri vardır. Azure Machine Learning, bu gereksinimleri karşılamak için tercih edilen herhangi bir iş istasyonu yapılandırmasından SDK ve CLI arabirimi aracılığıyla arabirimlenebilir.
Maliyetlerden tasarruf etmek ve üretken bir şekilde çalışmak için şunların kullanılması önerilir:
- Git kullanarak deneme kod tabanınızı yerel olarak kopyalayın ve Azure Machine Learning SDK'sını veya CLI'yı kullanarak işleri bulut bilişime gönderin.
- Veri kümeniz büyükse, veri kümesinin tamamını bulut depolamada tutarken yerel iş istasyonunuzda verilerinizin bir örneğini yönetmeyi göz önünde bulundurun.
- deneme kod tabanınızı parametreleştirerek işlerinizi farklı sayıda dönemle veya farklı boyutlardaki veri kümelerinde çalışacak şekilde yapılandırabilirsiniz.
- Veri kümenizin klasör yolunu sabit kodlamayın. Daha sonra aynı kod tabanını farklı veri kümeleriyle ve yerel ve bulut yürütme bağlamı altında kolayca yeniden kullanabilirsiniz.
- Geliştirme veya test sırasında veya işleri tam ölçekte gönderirken paylaşılan işlem kümesi kapasitesine geçtiğinizde deneme işlerinizi yerel işlem hedef modunda önyükleyin.
- Veri kümeniz büyükse, yerel veya işlem örneği iş istasyonunuzda bir veri örneğiyle çalışırken Azure Machine Learning'de tam veri kümenizle çalışmak için bulut işlemine ölçeklendirin.
- İşlerinizin yürütülmesi uzun zaman alıyorsa, yatay olarak ölçeği genişletmeye olanak sağlamak için kod tabanınızı dağıtılmış eğitim için iyileştirmeyi göz önünde bulundurun.
- Dağıtılmış eğitim iş yüklerinizi düğüm esnekliği için tasarlayarak tek düğümlü ve çok düğümlü işlemin esnek kullanımına olanak tanıyın ve önalımlı olabilecek işlem kullanımını kolaylaştırın.
Azure Machine Learning işlem hatlarını kullanarak işlem türlerini birleştirme
Makine öğrenmesi iş akışlarınızı düzenlerken, birden çok adım içeren bir işlem hattı tanımlayabilirsiniz. İşlem hattındaki her adım kendi işlem türünde çalıştırılabilir. Bu sayede makine öğrenmesi yaşam döngüsü boyunca değişen işlem gereksinimlerini karşılamak için performansı ve maliyeti iyileştirebilirsiniz.
Bir ekibin bütçesini en iyi şekilde kullanma
Bütçe ayırma kararları tek bir ekibin denetimi kapsamı dışında olsa da, bir ekip genellikle ayrılmış bütçesini en iyi ihtiyaçlarına göre kullanma yetkisine sahiptir. Ekip, iş önceliği ile performans ve maliyet arasında akıllıca işlem yaparak daha yüksek küme kullanımına ulaşabilir, genel maliyeti düşürebilir ve aynı bütçeden daha fazla işlem saati kullanabilir. Bu, ekibin üretkenliğinin artırılmasına neden olabilir.
Paylaşılan işlem kaynaklarının maliyetlerini iyileştirme
Paylaşılan işlem kaynaklarının maliyetlerini iyileştirmenin anahtarı, tüm kapasitelerine alışmalarını sağlamaktır. Paylaşılan kaynak maliyetlerinizi iyileştirmeye yönelik bazı ipuçları şunlardır:
- İşlem örneklerini kullandığınızda, bunları yalnızca yürütülecek kodunuz olduğunda açın. Kullanılmadıkları zaman kapatın.
- İşlem kümelerini kullanırken en düşük düğüm sayısını 0, en yüksek düğüm sayısını ise bütçe kısıtlamalarınıza göre değerlendirilen bir sayıya ayarlayın. Seçtiğiniz VM SKU'sunun bir VM düğümünün tam kullanım maliyetini hesaplamak için Azure fiyatlandırma hesaplayıcısını kullanın. Otomatik ölçeklendirme, kullanan kimse olmadığında tüm işlem düğümlerinin ölçeğini küçültür. Yalnızca bütçeniz olan düğüm sayısına kadar ölçeklendirilir. Otomatik ölçeklendirmeyi tüm işlem düğümlerinin ölçeğini azaltacak şekilde yapılandırabilirsiniz.
- Modelleri eğitirken CPU kullanımı ve GPU kullanımı gibi kaynak kullanımlarınızı izleyin. Kaynaklar tam olarak kullanılmıyorsa, kaynakları daha iyi kullanmak veya ölçeği daha küçük veya daha ucuz VM boyutlarına küçültmek için kodunuzu değiştirin.
- Küme ölçeklendirme işlemlerinin neden olduğu bilgi işlem verimsizliklerini önlemek için ekibiniz için paylaşılan işlem kaynakları oluşturup oluşturamayacağınızı değerlendirin.
- İşlem kümesi otomatik ölçeklendirme zaman aşımı ilkelerini kullanım ölçümlerine göre iyileştirin.
- Tek tek çalışma alanlarının erişebilecekleri işlem kaynaklarının miktarını denetlemek için çalışma alanı kotalarını kullanın.
Birden çok VM SKU'su için kümeler oluşturarak zamanlama önceliğini tanıtın
Kota ve bütçe kısıtlamaları altında hareket eden bir ekip, önemli işlerin zamanında çalıştığından ve bütçenin mümkün olan en iyi şekilde kullanıldığından emin olmak için işlerin zamanında yürütülmesini ve maliyetin karşı karşıya kalmasını sağlamalıdır.
En iyi işlem kullanımını desteklemek için ekiplerin çeşitli boyutlarda ve düşük öncelikli ve ayrılmış VM önceliklerine sahip kümeler oluşturması önerilir. Düşük öncelikli işlemler, Azure'daki fazla kapasiteyi kullanır ve bu nedenle indirimli fiyatlarla gelir. Dezavantajı ise, bu makineler daha yüksek öncelikli bir soru geldiğinde önlenebilir.
Değişen boyut ve öncelik kümelerini kullanarak, zamanlama önceliği olarak bir not oluşturulabilir. Örneğin, deneysel ve üretim işleri aynı NC GPU kotası için rekabet ettiğinde, bir üretim işinin deneysel işi çalıştırmayı tercih edebilir. Bu durumda, ayrılmış işlem kümesinde üretim işini ve düşük öncelikli işlem kümesinde deneysel işi çalıştırın. Kota kısaldığında, deneysel iş üretim işinin lehine önlenir.
VM önceliği'nin yanında, işleri çeşitli VM SKU'larında çalıştırmayı göz önünde bulundurun. bir işin P40 GPU'ya sahip bir VM örneğinde yürütülmesi V100 GPU'dan daha uzun sürebilir. Ancak, V100 VM örnekleri dolu olabileceğinden veya kota tam olarak kullanıldığından, P40'ta tamamlanma süresi iş aktarım hızı açısından daha hızlı olabilir. Maliyet yönetimi açısından daha az performanslı ve daha ucuz VM örneklerinde işleri daha düşük öncelikli olarak çalıştırmayı da düşünebilirsiniz.
Eğitim yakınsanmadığında çalıştırmayı erken sonlandırma
Bir modeli temeline göre geliştirmek için sürekli denemeler yaptığınızda, her birinde biraz farklı yapılandırmalara sahip çeşitli deneme çalıştırmaları yürütüyor olabilirsiniz. Tek bir çalıştırma için giriş veri kümelerini değiştirebilirsiniz. Başka bir çalıştırma için hiper parametre değişikliği yapabilirsiniz. Tüm değişiklikler diğer değişiklikler kadar etkili olmayabilir. Bir değişikliğin model eğitiminizin kalitesi üzerinde istenen etkiye sahip olmadığını erken algılarsınız. Eğitimin yakınsanmadığını algılamak için çalıştırma sırasında eğitim ilerleme durumunu izleyin. Örneğin, her eğitim döneminin ardından performans ölçümlerini günlüğe kaydetme. Başka bir deneme için kaynakları ve bütçeyi boşaltmak için işi erken sonlandırmayı göz önünde bulundurun.
Bütçeleri, maliyeti ve kotayı planlama, yönetme ve paylaşma
Bir kuruluş, makine öğrenmesi kullanım örnekleri ve ekiplerinin sayısını artırdıkça, verimli operasyonlar sağlamak için BT ve finanstan daha fazla çalışma olgunluğunun yanı sıra bireysel makine öğrenmesi ekipleri arasında koordinasyon gerektirir. Şirket ölçeğinde kapasite ve kota yönetimi, işlem kaynaklarının kıtlığını gidermek ve yönetim yükünü aşmak için önemli hale gelir.
Bu bölümde, kurumsal ölçekte bütçeleri, maliyetleri ve kotaları planlama, yönetme ve paylaşmaya yönelik en iyi yöntemler ele alınmaktadır. Microsoft'ta makine öğrenmesi için birçok GPU eğitim kaynağını yönetme öğrenmelerini temel alır.
Azure Machine Learning ile kaynak harcamasını anlama
Bir yönetici olarak işlem gereksinimlerini planlamanın en büyük zorluklarından biri, temel tahmin olarak geçmiş bilgiler olmadan yeni bir başlangıçtır. Pratik anlamda, çoğu proje ilk adım olarak küçük bir bütçeden başlayacaktır.
Bütçenin nereye gittiğini anlamak için Azure Machine Learning maliyetlerinin nereden geldiğini bilmek önemlidir:
- Azure Machine Learning yalnızca kullanılan işlem altyapısı için ücretlendirilir ve işlem maliyetlerine ek ücret eklemez.
- Azure Machine Learning çalışma alanı oluşturulduğunda, Azure Machine Learning'i etkinleştirmek için oluşturulan birkaç kaynak daha vardır: Key Vault, Uygulama Analizler, Azure Depolama ve Azure Container Registry. Bu kaynaklar Azure Machine Learning'de kullanılır ve bu kaynaklar için ödeme yaparsınız.
- Eğitim kümeleri, işlem örnekleri ve yönetilen çıkarım uç noktaları gibi yönetilen işlemle ilişkili maliyetler vardır. Bu yönetilen işlem kaynaklarıyla, hesaba katmanız gereken altyapı maliyetleri vardır: sanal makineler, sanal ağ, yük dengeleyici, bant genişliği ve depolama.
Harcama düzenlerini izleme ve etiketleme ile daha iyi raporlama elde etme
Yönetici istrator'lar genellikle Azure Machine Learning'deki farklı kaynaklardaki maliyetleri izlemek ister. Etiketleme, bu soruna doğal bir çözümdür ve Azure ve diğer birçok bulut hizmeti sağlayıcısı tarafından kullanılan genel yaklaşımla uyumlu hale getirmektir. Etiket desteğiyle artık maliyet dökümünü işlem düzeyinde görebilir, bu nedenle daha iyi maliyet izleme, gelişmiş raporlama ve daha fazla saydamlık konusunda yardımcı olmak için daha ayrıntılı bir görünüme erişmenizi sağlayabilirsiniz.
Etiketleme, harcama desenlerini gözlemlemek için Microsoft Maliyet Yönetimi'nde bu kaynaklara daha fazla filtre uygulamak için çalışma alanlarınıza ve işlemlerinize (Azure Resource Manager şablonları ve Azure Machine Learning stüdyosu) özelleştirilmiş etiketler yerleştirmenizi sağlar. Bu işlev, dahili geri ödeme senaryoları için en iyi şekilde kullanılabilir. Ayrıca etiketler, proje, ekip veya belirli bir faturalama kodu gibi işlemle ilişkili meta verileri veya ayrıntıları yakalamak için yararlı olabilir. Bu, etiketlemeyi farklı kaynaklara ne kadar para harcadığınızı ölçmek için çok yararlı hale getirir ve bu nedenle takımlar veya projeler arasında maliyet ve harcama desenleriniz hakkında daha derin içgörüler elde edersiniz.
İşlemlere yerleştirilen sistem tarafından eklenen etiketler, Maliyet Analizi sayfasında "İşlem türü" etiketine göre filtreleyerek toplam harcamalarınızın işlem açısından dökümünü görmenize ve maliyetlerinizin çoğuna hangi işlem kaynakları kategorisini yükleyebileceğini belirlemenize olanak sağlar. Bu, özellikle eğitiminizde daha fazla görünürlük elde etmek ve maliyet desenlerini çıkarım yapmak için kullanışlıdır.
İlkeye göre işlem kullanımını yönetme ve kısıtlama
Birçok iş yüküne sahip bir Azure ortamını yönetirken, kaynak harcamalarına genel bakış sağlamak zor olabilir. Azure İlkesi, Azure ortamında belirli kullanım düzenlerini kısıtlayarak kaynak harcamalarını denetlemeye ve yönetmeye yardımcı olabilir.
Azure Machine Learning'e özgü olarak, ilkeleri yalnızca belirli VM SKU'larının kullanımına izin verecek şekilde ayarlamanızı öneririz. İlkeler, pahalı VM'lerin seçilmesini önlemeye ve denetlemeye yardımcı olabilir. İlkeler, düşük öncelikli VM SKU'larının kullanımını zorunlu kılmak için de kullanılabilir.
kotayı iş önceliğine göre ayırma ve yönetme
Azure, bir abonelik ve Azure Machine Learning çalışma alanı düzeyinde kota ayırma sınırları belirlemenize olanak tanır. Azure rol tabanlı erişim denetimi (RBAC) aracılığıyla kotayı kimlerin yönetebileceğini kısıtlamak, kaynak kullanımını ve maliyet tahmin edilebilirliğini sağlamaya yardımcı olabilir.
GPU kotasının kullanılabilirliği abonelikleriniz arasında az olabilir. İş yükleri arasında yüksek kota kullanımı sağlamak için kotanın en iyi şekilde kullanılıp kullanılmadığını ve iş yükleri arasında atanıp atanmadığını izlemenizi öneririz.
Microsoft'ta, kapasite gereksinimlerini iş önceliğine göre değerlendirerek GPU kotalarının makine öğrenmesi ekipleri arasında en iyi şekilde kullanılıp ayrılmadığı düzenli aralıklarla belirlenir.
Kapasiteyi önceden işleme
Sonraki yıl veya sonraki birkaç yıl içinde ne kadar işlem kullanılacağına ilişkin iyi bir tahmininiz varsa Azure Ayrılmış VM Örnekleri'ni indirimli bir maliyetle satın alabilirsiniz. Bir yıllık veya üç yıllık satın alma koşulları vardır. Azure Ayrılmış VM Örnekleri indirimli olduğundan kullandıkça öde fiyatlarına kıyasla önemli maliyet tasarrufu sağlanabilir.
Azure Machine Learning ayrılmış işlem örneklerini destekler. Azure Machine Learning tarafından yönetilen işlemde indirimler otomatik olarak uygulanır.
Veri saklamayı yönetme
Bir makine öğrenmesi işlem hattı her yürütülürken, verilerin önbelleğe alınması ve yeniden kullanılması için her işlem hattı adımında ara veri kümeleri oluşturulabilir. Bu makine öğrenmesi işlem hatlarının çıktısı olarak verilerin büyümesi, birçok makine öğrenmesi denemesi çalıştıran bir kuruluş için sorun oluşturabilir.
Veri bilimciler genellikle oluşturulan ara veri kümelerini temizlemek için zaman harcamaz. Zaman içinde, oluşturulan veri miktarı eklenir. Azure Depolama, veri yaşam döngüsünün yönetimini iyileştirme özelliğiyle birlikte gelir. Azure Blob Depolama yaşam döngüsü yönetimini kullanarak kullanılmayan verileri daha soğuk depolama katmanlarına taşımak ve maliyet tasarrufu sağlamak için genel ilkeler ayarlayabilirsiniz.
Altyapı maliyet iyileştirmesi ile ilgili dikkat edilmesi gerekenler
Ağ
Azure ağ maliyeti, Azure veri merkezinden giden bant genişliğinden kaynaklanır. Azure veri merkezine gelen tüm veriler ücretsizdir. Ağ maliyetini azaltmanın anahtarı, tüm kaynaklarınızı mümkün olduğunca aynı veri merkezi bölgesine dağıtmaktır. Azure Machine Learning çalışma alanını ve işlemini verilerinizin olduğu bölgede dağıtabiliyorsanız daha düşük maliyet ve daha yüksek performansın keyfini çıkarabilirsiniz.
Hibrit bir bulut ortamına sahip olmak için şirket içi ağınızla Azure ağınız arasında özel bağlantınız olmasını isteyebilirsiniz. ExpressRoute bunu yapmanızı sağlar, ancak ExpressRoute'un yüksek maliyetini göz önünde bulundurarak hibrit bulut kurulumundan uzaklaşmak ve tüm kaynakları Azure buluta taşımak daha uygun maliyetli olabilir.
Azure Container Registry
Azure Container Registry için maliyet iyileştirme için belirleyici faktörler şunlardır:
- Kapsayıcı kayıt defterinden Azure Machine Learning'e Docker görüntüsü indirmeleri için gerekli aktarım hızı
- Azure Özel Bağlantı gibi kurumsal güvenlik özellikleri gereksinimleri
Yüksek aktarım hızının veya kurumsal güvenliğin gerekli olduğu üretim senaryoları için Azure Container Registry Premium SKU'su önerilir.
Aktarım hızı ve güvenliğin daha az kritik olduğu geliştirme/test senaryoları için Standart SKU veya Premium SKU'yu öneririz.
Azure Machine Learning için Azure Container Registry'nin Temel SKU'su önerilmez. Azure Machine Learning'in görece büyük boyutlu (1+ GB) Docker görüntüleri tarafından hızla aşılabilen düşük aktarım hızı ve düşük depolama alanı nedeniyle önerilmez.
Azure bölgeleri seçerken bilgi işlem türü kullanılabilirliğini göz önünde bulundurun
İşleminiz için bir bölge seçtiğinizde işlem kotası kullanılabilirliğini göz önünde bulundurun. Doğu ABD, Batı ABD ve Batı Avrupa gibi popüler ve daha büyük bölgeler, daha katı kapasite kısıtlamaları olan diğer bazı bölgelere kıyasla varsayılan kota değerlerinin daha yüksek ve çoğu CPU ve GPU'nun daha yüksek kullanılabilirliğine sahip olma eğilimindedir.
Daha fazla bilgi edinin
Sonraki adımlar
Azure Machine Learning ortamlarını düzenleme ve ayarlama hakkında daha fazla bilgi edinmek için bkz . Azure Machine Learning ortamlarını düzenleme ve ayarlama.
Azure Machine Learning ile Machine Learning DevOps ile ilgili en iyi yöntemler hakkında bilgi edinmek için bkz . Machine Learning DevOps kılavuzu.